大人になってからの再学習

2014-06-11 [人工知能]論文自動生成プログラムSCIgen

論文自動生成プログラムSCIgen

人工知能がチューリングテストに合格したり、アメリカのクイズ番組で人工知能ワトソンが人間のチャンピオンを破って優勝したり、日本では大学入試で私大400校に合格できるレベルの人工知能が開発されたり、最近の「人工知能」に関する進歩は目覚ましいものがある。


少し検索すれば、ニュース記事を自動生成するプログラムの話や、アフェリエイトやSEO対策のために数万規模のWebページを自動生成するプログラムの話などが簡単に見つかる。
一方で、GoogleはこのようなSEO対策のために自動生成された文章を見破るためのアルゴリズムを開発したりしている。すでに、「人工知能どうしの戦い」は始まっていると言っていい状態だ。


人間の進歩はコンピュータの進歩の速度にはとうてい敵わないので、近い将来、人間の知能を凌駕するコンピュータが登場するのも時間の問題だろう。
医療、司法、政治、教育、様々な分野でコンピュータの言いなりにならざるを得ない、そんな時代が来るかもしれない。


最近では、論文のねつ造事件とあいまって、論文自動生成プログラムSCIgenが再び注目されるようになっている。
SCIgenは、マサチューセッツ工科大学で開発された、論文を自動生成するプログラムで、その論文が国際会議に採択された(まともな学術論文として受理された)として、大きな話題となった。


権威あると信じられていた学術分野の体たらくが露呈した、という文脈で紹介されることが多いが、SCIgenが、いったいどのようなものであるのか、どのような論文を生成するのか、その後はどのようになっているのか(論文が採択されたことが話題になってから、既に10年近くが経っている)、という周辺情報が少なくとも日本語では見当たらない。


そこで、調べてみた内容を以下にまとめてみる。


・SCIgenは図やグラフ、参考文献を含む、コンピュータサイエンス分野の論文の体裁をした文書を自動生成する。


・生成方法として「文脈自由文法」という形式文法を用い、ランダムな文章を作り出す。


・SCIgenが生成した「Rooter: A Methodology for the Typical Unification of Access Points and Redundancy」というタイトルの論文が2005 World Multiconference on Systemics, Cybernetics and Informaticsという国際会議に採択された。
(後に、この論文を採択した国際会議の運営責任者(科学者)は、その後3年間に渡って研究助成金を停止された)


・SCIgenが生成した論文は次のような体裁で4ページから構成される。外見だけでは、人間が書いたものと区別することが難しい。
PDFファイルが、次のURLからダウンロードできる:http://pdos.csail.mit.edu/scigen/rooter.pdf
f:id:Zellij:20140611084646p:image


・生成された論文は、個々の文章単独では問題のない文章であるように見えてしまう。全体でみると、統制の無いバラバラなものになっているが、「内容を理解できないのは私が無知なためではなくて、論文の方に問題がある」と断定するには、それなりの知識が要求される。査読の無い、フォーマットのチェックだけを行うような学会では到底見抜くことはできない。


・その後も、数多くの自動生成論文が、世界中の様々な学術会議、学会誌に採択され、2013年の時点では、少なくとも85の自動生成論文が、それなりに権威ある学会誌に採択されてしまっていることが示されている。


・研究者の能力を評価する基準の1つにh-indexという値がある(これは、ある研究者が世に出した論文が、どの程度、他の論文に引用されたか、という情報に基づく)。SCIgenによって自動生成された多数の論文間で互いに引用しあうことで、架空の研究者が相対性理論を発表したアルバート・アインシュタインよりも上位にランクインすることができた。


・SCIgenのWebページは次のURLで現在も公開されている。架空の著者名を入力するだけで、論文の自動生成を実験できる(数秒もかからず、あっという間に結果が見られる。ただしHTML形式)。
http://pdos.csail.mit.edu/scigen/


・SCIgenのプログラムコード(Perl)も公開されていて、誰でもダウンロードできる。


・公開されているSCIgenのプログラムコードはシンプルなもので、そのほとんどは論文でよく使われる単語のデータセットが占める。たとえば、単語は約8万、図の参照は3000程度。参考文献は実在しない文献を適当に生成している。



SCIgen のプログラムコード(データセットなど)を実際に見てみると、その一部分は他のプログラムで自動生成したもののように見える。
プログラムで自動生成したプログラムを使って文章を自動生成して、それを人間が読んでどうのこうの議論するというのは、なんだか奇妙な気分だ。


関連エントリ
[情報処理][人工知能]形式文法による文章生成 - 大人になってからの再学習
[人工知能]論文自動生成プログラムSCIgen(2) - 大人になってからの再学習


リンク元