「word2vecによる自然言語処理」を出版しました - 西尾泰和のはてなダイアリー

オライリー・ジャパンから「word2vecによる自然言語処理」という電子書籍を出版しました。予定外のドタバタがあってブログで紹介するのが遅くなってしまいましたが、その間にオライリーのEbook Store Sales Rankingでは1位になっていました。

word2vecは2013年に論文が出たばかりの新しい技術です。色々な方がブログで取り上げていて、興味をもった方も多いと思います。知らない方のためにいくつかリンクを紹介しておきます：

本書の目標は、読者のみなさんがこういうことをできるようになることです。1章でまずは使ってみるところから始め、2章で色々なデータ（コーパス）を使う方法を、実際に使ったソースコードも紹介しつつ、具体的に解説しています。例に上がっているのは、Twitter、はてなダイアリー、Facebook、電子辞書（岩波の理化学辞典・生物学辞典）、電子書籍(スキャン＋OCRで作ったPDF、元からPDFのもの)、Wikipediaです。

3章以降では「なぜword2vecが生まれたか」「何の役に立つのか」「どんな弱点があるのか」を解説しています。

また、付録ではword2vecの結果を可視化するスクリプトを紹介し、そこで使われている主成分分析のメリット・デメリットについて解説しています。このスクリプトを使うと例えば以下のような図を作ることができます。

プログラミング言語の名前と、データベースの名前と、オペレーティングシステムの名前が混ざっていますが、だいたい3つにわかれているのが見て取れるかと思います。人間はどれがプログラミング言語でどれがデータベースなのかは教えていないのですが、word2vecは与えられた文章から「これは似た意味の単語だな」と判断して近い位置に配置しているわけです。

本書を読んで、わかりづらいところや気になる点などがありましたらぜひお気兼ねなくご連絡ください。