Hatena::ブログ(Diary)

蝉々亭 このページをアンテナに追加 RSSフィード

2015-03-29

ブログを移転しました

ウェブサイトの移転などと書くといささか昭和の趣きがありますが,移転しました.同じタイトルで Blogger でやっていきます:

はてなダイアリーの操作はちょっと直観的でないところがあって,いろいろいい機会なので移転しました.過去の記事はそのまま残しておきます.

2015-03-22

今年の言語処理学会のあれこれ

今書かないと永遠に書かないような気がしますので書いておこうと思います。単なる雑駁な感想です。言語処理学会に行ってきました。今年も例年通りお祭り騒ぎと申しますか、会期中、普段お会いできない方々と、旧交を暖めると称して酒を酌み交わす日々となりました。私自身は本会議でのポスター発表とワークショップでのオーラル発表があり、これらをこなしつつ、夜は酒席に馳せ参じるという塩梅で、なかなかハードでした。

  • 昨年の北海道では3回の発表(本会議での一般発表、論文賞受賞に伴う発表、ワークショップでの発表)と3回の座長(チュートリアルの司会、一般セッションの座長、ワークショップの座長)と初日から最終日までやたらと仕事があり、気を張っていましたが、この点では今回は気楽でした。
  • 言語データの著作権に関するチュートリアルが異常に面白く、何と申しますか、勉強になりました。
  • NLP 若手の会委員長の1人として、 YANS 懇を無事に開催させることできるか、いささか懸念していましたが、盛会のうちに終わらせることができ胸を撫で下ろしました。
  • 今回、久しぶりにポスターで発表をしたのですが、ずいぶん大勢の方がお越しくださり、あれこれお話しすることができ、大変楽しみました。やはりポスターはいいですね。
  • 学会自体は大変盛況で多数の発表、参加者があり、新しい潮流と思われるものもいくらか見られるものの、どうにも、自然言語処理の諸課題の本質的な前進に貢献できると思われる発表があまり見られず、なかなか難しい状況であるようにも見えました。
  • 今回もっとも印象に残ったのは Project Next で、私は要約課題グループの取りまとめをしており、なかなか苦労がありました。今回のこのプロジェクトは、自然言語処理の異なる部分領域同士の相互交流を企図して催された面が大きいですが、ふと終わって振り返ってみると、私自身はむしろ同じ部分領域の研究者同士の結束を強める会になったのではないかと思います。昨年11月に、要約課題グループではミーティングを持ちました。このミーティングでは活発に活動している自動要約分野の研究者が集まり、自動要約について忌憚のない議論を行いましたが、このような場が設けられたはおそらく Text Summarization Challenge 以来、15年ぶりなのではないかと思います。このミーティングは非常に印象的で、あの場で議論に参加できたことは素晴らしい経験でした。最終日のワークショップでは誤り分析の枠組みの話をさせていただきましたが、この枠組みはなかなか面白いものだと個人的に思っており、そのうち詳しく書きたいと思っています。

普段の半年分の酒精を1週間で飲んだような日々でしたので、さすがに疲れました。次回の言語処理学会東北大学とのことです。次は仙台でお会いしましょう。私は来年度はまず、5月の自然言語処理研究会に参加する予定です。

2015-03-12

花崗岩の街

言語処理学会に行くと、どうも、毎年、「ブログを更新しなさすぎではないか」との苦言を賜りますので、その前に一度更新しておきたいと思います。あまり真面目なエントリではありません。

f:id:hitoshi_ni:20140822014409j:image

8月に英国のアバディーン大学を訪問しました。以前、アバディーン大学の Siddharthan 先生と知り合いまして、せっかく Coling 2014 でアイルランドまで行くので、ということで、研究グループを訪問させてもらいました。アバディーン大学は自然言語生成の世界的な拠点の一つで、自然言語生成の第一の教科書 Building Natural Language Systems の執筆者である Ehud Reiter 教授をはじめ、有名な研究者が大勢がいらっしゃいます。

アバディーン大学の創立は、なんとまあ、1495年で、ずいぶん古い大学です。明応の政変の2年後ですから、戦国時代の最初期ということになるでしょう。古いだけあり、市街と溶け込むように大学の施設が立地していて、例えば訪問先の研究室のある施設の街路を挟んだ隣の区画はごくごく普通の民家であり、その更に向こうに街路を挟んで大学の礼拝堂があるといった具合で、古いスコットランドの街並と渾然一体となったキャンパスは実に趣がありました。訪問先の先生によれば、空き家になったところから大学が買い取っているそうで、あと100年も経てば大学ももう少し一体感を得るのではないか、ということでしたが、いやはや、なかなかこの時間感覚は日本とは異なるものがあります。大学のある地域は Old Aberdeen と呼ばれ、この周辺でも一際古い地域で、そのためか家々の戸がずいぶん小さい。これは昔の人々と現代人の体格差によるものだ、との解説を受けましたが、おそらくいまお住まいの方々はいささか苦労しているのではないかと思われます。それはすなわち往時の住居がそのまま形態で現在に残っているということでもあります。

トークそのものは、大過なく終わり、 Coling のよい予行演習となりました。アバディーン大学には、私と私の同僚が1人、あと偶然にも国文学研究資料館の野本先生がお越しになりまして、野本先生とアバディーン大学のスピーカと我々とでこじんまりとした研究集会が催されました。こういった研究集会で話をするというのもなかなかよいもので、講演者と聴衆が近く議論がしやすく、刺激になります。

その夜は市内のレストランで食事をしました。ワインなどを飲みながら、話題はやはりスコットランドの独立に及び、今となっては結果は明らかではありますが、その時はずいぶん独立派の勢いが盛んな時でしたら、訪問先の先生もいささか気を揉んでいるように見受けられました。スコットランドの大学の学術研究における予算は、スコットランドに由来するものよりもイングランドに由来するものの割合が多いらしく、独立した結果、予算がいささか逼迫することは避けられないとのことで、こういった話題はどこでも変わらないものだとつくづく思いました。トークの後に訪れた、アバディーン大学の礼拝堂の門前は、イングランドを表す獅子と、スコットランドを表すユニコーンが左右を守護しており、スコットランドが独立するとこれは左右ともユニコーンになると冗談めかしていたことが思い出されます。

時間は前後しますが、トークの前日、訪問先の先生と、まあ、飲みに行きました。スコットランドと言えばウイスキーですが、まずはビールでもどうか、ということで、ビア・バーに行きました。アバディーン市から、近くはないのですが、いくらか北に行ったところに本邦でもここしばらく有名な Punk IPA の生地があるそうで、そういったわけで Punk IPA で乾杯をし、しばらく四方山話などをしました。その後はパブに行き、スコットランドのモルトをいただいたという次第で、うーん、また行きたいですね。

私が訪問したときのスコットランドには寒波が到来しており、8月にもかかわらず非常な低温でした。アバディーン市近郊は花崗岩の採掘で有名らしく、 Granite City との異名もあるようですが、帰路、底冷えのする花崗岩の街の物陰でふと思い出されたのは7年ほど前の職業選択のことで、当時の自分には研究者になる他の選択肢もありましたが、特段、強い意志に基づいてこの選択を行ったわけではないものの、あの頃の意思決定が巡り巡って、いま自分がこの寒々しい街で帰路を急いでいるかと思うと、旅の疲れと酔いに微妙な趣きを添えて、なかなか味わい深いものがありました。

非常に雑駁なことを書いてしまいましたが、むりやり、何かしら有益なことを抽出しようとすると、以下のようになるでしょうか:

  • 国際会議に通すとその原稿を読んでくれる人がいくらかはいて、その人たちと知り合いになれたりするようです(4年くらい昔に書いた論文が結構いろんな人に読まれていて、それを通じていくらか知り合いができました)
  • このような知り合いがいると、国際会議に行く時に、そういった知り合いに連絡を取り、研究室を訪問させてくれよ、と尋ね、飲みに行ったりすることができ、現地のおいしいお酒が飲めます
  • 多少は話が通じないといけないので、やっぱり現在の Lingua Franca たる英語をある程度何とか操らないといけないようです(花崗岩 granite という単語が会話に出てきたとき、日本語でもこの語は滅多に使わないし、英語で使うことはあるかなあ、とぼやきながら単語を覚えた昔の自分を思い出しました)

そういったわけで、来週の言語処理学会ではよろしくお願いいたします。水曜日のポスターセッションと、 Project Next NLP で話をする予定です。

2014-03-29

テキストに書かれている大切なこととは

先々週の言語処理学会の懇親会で「あまりにもブログを更新しなさすぎでは?」というお言葉をいただき,確かにそうかな,と思い,最近ちょっと考えていることでも書いておこうと思います.

自然言語処理において自動要約を独特のものにしているのは,機械にある種の価値判断を強いる点です.自動要約には,首尾一貫したテキストを生成するという課題とともに,入力文書中に含まれる重要な情報を同定する(内容選択)という課題があります.これは非常に独特なもので,例えば機械翻訳は入力されたテキストに含まれる情報を異なる言語のテキストの上において再現するもので,機械に情報を取捨選択させるということはしません.自然言語解析の種々の技術も同様です.自然言語処理のほとんどの処理では入出力の(意味的)等価性が保たれますが,自動要約においては入出力の等価性が保たれることはあまり期待されません.自動要約は価値判断を機械に強いるわけです.

この点に意識的な方は実は自動要約の研究者でもさほどいないのではないのだろうかと思われますが,自動要約の本質的な難しさの1つはこの点にあります.つまり,ある状況におけるある読み手のためにある文書(あるいは文書群)を要約しなければならないわけですが,そのためには状況と読み手と文書を理解しなければいけないわけです.これは難しい問題です.企業にて研究開発,実用化に携わっていると,実に様々な文書に対して要約を行う機会があるのですが,この状況,読み手,文書の組み合わせは無数にあり,ある特定の組み合わせにおける重要な情報を捉えるため,組み合わせ毎に作戦を変えなければいけません.もちろん,捨象できるものは捨象し,単純化された,問題特有の構造を取り出して課題として成立させるわけですが,その結果として立ち現れる課題は特殊性が強く,そのためにこういった組み合わせに対して横断的に,頑健に使える内容選択の特徴量というものはほとんど単語の入力文書における出現頻度くらいしかありません.

そもそも,これは自動要約の研究を始めたときに最初に直面した悩みでしたが,重要な情報を判断させる,という課題が自然言語処理の範疇にあるかというと,個人的にはそうは思えません*1.そういったことから,私のこれまでの立場は「何が重要かは入力や読み手によって変わってしまうので,参照要約(人間が作成した要約)から学習する他ない」というものでした.換言すると,首尾一貫したテキストを生成するという課題は自然言語処理の範疇に入るけれども,何が重要な情報かを同定する課題は自然言語処理の範疇ではなく,情報の検索や推薦の範疇と考え*2,割り切って問題に取り組んでいました.

しかし,どうも,この頃立て続けにこの内容選択に関して考えさせられる機会があり,やはりこれは本質的な課題から逃げているのではないだろうか,とここしばらく思うようになってきました.昨年9月の自然言語処理研究会での講演の際に頂戴した質問のうち印象に残っているものの1つは,重要文選択に用いられる特徴量に50年前から進歩はないのか,というもので,上で述べたように,広く使える特徴量は実際,自動要約研究の黎明期に開発されたような非常に単純なものしかないわけです.こういったご質問に対しては,上に述べましたように,要約の対象となる文書毎に性質が異なるため,それらに合わせて特徴量を設定する,などと適当にその場を取り繕うのですが,やはり質疑が終わり壇上から降りたときに残る気持ち悪さは拭いさることができず,こうして筆を執っているわけです.もう少し横断的に使える特徴量はないものかと.

さて,どうするべきか,というところですが,おそらく,こうした問題に対しては今のボトム・アップ的な方法から一度離れ,ある程度トップ・ダウンな人間の情報選好モデル*3といったものを考えて,そこから分野・ユーザ横断的な内容選択モデルを導く*4といったことをしないといけないのではないかと思います.こういったモデルを構築する手がかりはおそらく自然言語処理の分野にはなく,他の領域にあると思われ,しばらくそういった領域の勉強をしなければいけないと思っています(特に結論はありません).

*1:これは要は人工知能研究におけるフレーム問題なのだと思うのですが.

*2:自動要約は内容選択のために tf-idf を利用することからも,情報検索との近縁性がわかります.

*3:3月の言語処理学会での長尾先生,辻井先生の特別招待講演や,その後のワークショップでの議論などは,こういった「人間のモデル」の再考といった方向性を示しているように思われます.

*4:研究としてはある種の転移学習として考えるのだろうと思います.

2014-01-29

自動要約の研究動向

あけましておめでとうございます.もう1月も終わりですが,ようやく年を越してしまった課題を終わらせつつあります.

昨年の9月,11月にそれぞれ情報処理学会第213回自然言語処理研究会人工知能学会第91回人工知能基本問題研究会にて機会をいただき,自動要約に関する最近の研究動向についてお話してきました.ありがたいことに,資料を公開して欲しい,との声をいくつか頂戴しましたので,内容を整理してここに掲載しておきたいと思います.

今年の言語処理学会第20回年次大会では,東京工業大学の高村先生が自動要約に関するチュートリアルをしてくださいます.言語処理学会第20回年次大会は絶賛事前参加受付中です.