入門:Steamレビューテキストアナリシス【頻度編】

国民的大家のモンハンを基準としたときの相関の離散図

モンハンワールドを基軸として単語がどれだけ相関上離散しているかを表す作図。HOI4は極端にデータが少なかったので統計有意とれるか?っていうのが気になる。あとはトントンだけどシミュレーションゲームとかは離れがち。逆に3Dのコンバットアクションゲームは近い。そこに至るまでの道のりが段々畑のようになっているの観察できる。2Dゲーは中間に位置してるかな。ゲームルールとかシステム的に近しいものは相関も(恐らくは)強いはずなのである。

そのグラデーションプロット図とp値

んでその相関係数をプロットしたもの。統計的な有意は全面に出ている。HOI4を除いて。p値はかなり良い具合になってるから(HOI4以外はw)かなり良い値が出ているものと思う。特にFM19とか有意になってて妥当性がある中で相関も低いってのは納得できる。シミュレーションの類のものだから。逆に言うとそのさらに合間にETS2が入っててかつそこから若干近めにTESが配置されているんだよな。まあ先に述べたように段々と近づいていくゲームの境界側面が見えるんだよなこの図からも。

結論

結局ブラックボックスを開けるのがテキストマイニングの本質なんですね…って当たり前ですが。重要なのはブラックボックスをどう本質的に捉え開け方のカギを手に入れるかであってそれ以外ではない。答えがあるわけじゃないのでテキストマイニングはそもそも全てがジップの法則に馴染んでいるのかもしれないと素人ながら思いました。KaggleがこのPについて言いたいのもこの辺りなんじゃあないでしょうか。次はもっと深めにアナライズしていきます!