形態素の長さって何よ?

専門家しかわからないエントリです。
工藤さんのこのエントリを見た。

形態素の長さについて、研究レベルでもあまり考察されたことはないのですが、

うそーん、形態素ってそんなにあいまいな物だったの?
namazugonzuiで有名な高林さんの「自然言語処理 悪魔の辞典」によると

形態素解析 (morphological analysis)
文を形態素に分割すること。形態素が何であるかは永遠の謎。

ってあったので、やな予感はしていたのですが…
音声認識屋の立場としては、良い認識率をたたき出す形態素=良い形態素と定義しています。色々な研究で、「どうやらそれなりに長い方がいいらしい」ということが知られています。細かい点は省きますが、長い形態素の方が音素系列の制約が強くなるので、きっちりした日本語をしゃべってくれれば認識しやすいからなのでは、と言われています。実際の話し言葉は表現が崩れまくりで、一概に長い形態素がいいとは言えないのですが、、、まぁ難しい所です。
形態素の考察として、音声認識屋の知見が色々使えるのでは?と日々思っていますが、あまり音声認識やっている人も形態素の長さなんてつまらない話を思っているのかどうかは知りませんが、あまり真面目に議論されたことないと認識しております。音声認識形態素の長さというファクターの他に、形態素の読みをどう振るか(≒どのくらい崩れた発音を許容するか)ということもあるので、一概に形態素の長さだけで論じることは難しいとも言えるのですが、、、
ともあれ、形態素ってのはスペース区切りではない、日本語特有の問題であるので、国語学者な人々も巻き込んで一緒に議論できると面白そうですね。