どらちゃんのポッケ

R・統計・技術メモなど勉強ログ置き場

自然言語処理の基本と技術を読んだ

自然言語処理を本当にほんの少しだけかじったエンジニアが書いている内容であり、個人の主観が大いに入っているため、正しくない可能性が大いにあります。

待ちに待ち望んだ内容だった

少し前に流行ったword2vecやトピックモデリング、最近の岩波データサイエンス Vol.2の盛り上がりなどもあり、この頃自然言語処理の分野に興味をもっていた。

ただ、この本を読む前は、自然言語処理というものが漠然としていて、自分の中で体系立てて整理しきれなかった印象がある。学生の頃や、新卒の頃にmecabとRをつかってテキストマイニングみたいなことをやってみたり、word2vecを動かしてみたりしたことはあったりしたので、「形態素解析」とか、「word2vec」とか、「n-gram」とかそういった個々の領域についてはイメージがついていた。

しかし、「自然言語処理mecab形態素解析やって、カウントするもの」という間違ったイメージが強かったり、個々の領域間のつながりが見えてこなかったりしていた。なので、全体俯瞰で自然言語処理を解説してくれる本をずっと探していた。

word2vecによる自然言語処理Rによるテキストマイニング入門 など個々の領域についての良書は多くあったりしたが、わたしが求めているレベルの本はなかなか見つからなかった。そこで、この本にであった。

内容について

自然言語処理を扱う上での基礎知識にはじまり、翻訳、検索など、「自然言語をコンピュータで扱う」ということに関連したトピックが俯瞰的に説明されていて、スッと体系的に頭に入ってきたように感じた。

特定の技術だけに特化したものではなく、広く全般的に触れられていたり、構文木解析や翻訳といったいわゆる言語的なものだけてはなく、Web技術と関連して触れられていたりしていて、まさに求めているものだった。

自然言語を扱うエンジニアは読んでおいて損はないものだと思います。

読んだ後にかわったこと

本当に自分が自然言語処理でやりたかった・興味があったのは、自然言語処理の中の一部分であって、自然言語処理を勉強しよう!というのはちょっと違うんだなと思うようになりました。

一言に、自然言語処理といっても、その領域はとてつもなく広くて、自然言語処理の各分野は遠いようで近い・近いようで遠いというような感じなんだなぁと思いました。

自然言語処理を勉強しようとすると、領域が広すぎるし、自分のやりたいことから離れすぎた知識もでてくると思うので、自然言語処理を勉強するときには、トピックモデルとか、文章要約とか、やりたいことベースで個々の領域を一個一個勉強していって、徐々に知識を広げていくというのがいいのかな?と思いました。

この本を読んだ後に、岩波データサイエンス Vol.2を読んだり、岩波DSのトークイベントhttps://sites.google.com/site/iwanamidatascience/をみたりすると、理解が深まっていいと思います。