title: 単語頻度分析ツール description: テキストブロックを読み込み、最も一般的な単語をレポートします。

単語頻度分析ツール

ミラこんにちは。ミッションログから情報を抽出する仕事を任されているのですが、ログが何百もあるんです。テキストファイルを読み込んで、各単語の出現回数をカウントし、上位の結果を表示するものが必要です。すべてを手動で読まずに、どのトピックが繰り返し出てくるのか知りたいんです。

テキストを入力するか、読み込むファイル名を入力してください: sample.txt

頻出単語トップ10:
  the       42
  and       31
  python    18
  is        16
  you       14
  ...

カウント前に正規化する。 すべてを小文字にし、カウントを構築する前に句読点を削除します。そうしないと、「Python」と「python」と「Python,」がすべて異なる単語としてカウントされます。

辞書がカウントを行う。 単語をループします。単語がすでにキーの場合は、そのカウントをインクリメントします。そうでない場合は、カウント1で追加します。デフォルト値を持つ .get() を使うと、きれいに書けます。

辞書を値でソートする。 sorted() は key= 引数を受け取ります。各キーの値を返すラムダを渡して、頻度でソートします。

コア分析が機能したら: