スマートフォン用の表示で見る

ChaSen

形態素解析システム茶筌

単語の区切りを調べるのが難しい日本語を単語分割してくれるプログラム

計算機による日本語の解析において,欧米の言語の解析と比べてまず問題になるのに次の2 点があります.

一つは形態素解析の問題です.ワードプロセッサの普及などによって日本語の入力には大きな問題がなくなりましたが,計算機による日本語解析では,まず入力文内の個々の形態素を認識する必要があります.これには実用に耐えられるだけの大きな辞書も必要であり,これを如何に整備するかという問題も同時に存在します.

もう一つの問題として,日本語には広く認められ同意を得られた文法,ないし,文法用語がないという現実です.学校文法の単語分類および文法用語は一般には広く知られていますが,研究者の間ではあまり評判がよくありませんし,計算機向きではありません.

日本語の解析に真っ先に必要な形態素解析システムは,多くの研究グループによって既に開発され技術的な問題が洗い出されているにも係わらず,共通のツールとして世の中に流布しているものはありません.計算機可読な日本語辞書についても同様です.

本システムは,計算機による日本語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツールを提供するために開発されました.その際,上の二つ目の問題を考慮し,使用者によって文法の定義,単語間の接続関係の定義などを容易に変更できるように配慮しました.