「python によるテキストマイニング入門」を読んで
- 作者: 山内長承
- 出版社/メーカー: オーム社
- 発売日: 2017/12/29
- メディア: Kindle版
- この商品を含むブログを見る
自然言語に対するテキストマイニング処理が実際どのように行われるのか知りたくて購入した書籍です。
夏目漱石の「吾輩は猫である」を題材に、様々な解析手法を説明しています。
本書は3部からなると考えられます。
第1部は python の基本的な説明で、既に python を使っている人は読み飛ばしても問題ありません。
python に慣れていない方は様々なパッケージをここでインストールすることになるので、
ちょっとハードルが高いかも知れません。
(が、書かれている通りにインストールすれば先に進めます。)
第2部は古典的な統計指標の計算による解析手法が記述されています。
第3部は様々な解析手法を主にパッケージを使って解析する手段が説明されています。
いずれも python のソースコードが本文中にも記載されているので、打ち込みながら理解できます。
第3部はパッケージの使い方の説明といった感じになっているので、ここで紹介されている概念の
基礎を知りたい、という向きには少々物足りない記述であるように感じました。
特に word2vec はもっと詳細に知りたかったのですが、駆け足での説明になっています。