Hatena::ブログ(Diary)

清澄日記 RSSフィード

Twitter / i2k twitter / i2k

2012.01.04

はてなブログ引っ越し中(仮)

あけましておめでとうございます。今年もよろしくお願いします。

新年ということで、心機一転ブログ引っ越しをしてみました。移転先ははてなブログで、とりあえずしばらくこちらで更新してみます。そのうち戻ってくるかもしれませんが…。

それでは今後ともよろしくお願いします!

@i2kのブログ

2011.01.07

2011年のごあいさつ

遅ればせながら、あけましておめでとうございます。今年もよろしくお願いします。

まずは昨年の振り返りから。2010年もいろいろなことがありました。

これまでと同様、仕事の中心はCiNiiでした。4月に著者検索リリースし、11月にはヤフーとの共同研究の成果である「Yahoo!検索 論文検索」を出すことができました。6月に応募をスタートし、11月に発表会を開催した第2回APIコンテストもありました。個人的にはこれらを大きなトラブルなく乗り切ることができたのが大きな収穫で、これをもってCiNiiシステムの土台作りの段階を終えたと思っています。

研究面では4月からセマンティックウェブの中でもLinked Dataに照準を絞ったLODACプロジェクトが立ち上がり、新しいメンバーとともに研究を進めています。6月には監訳書「セマンティックWebプログラミング」も出て、多少なりともこの分野への貢献ができたのではないかと思っています。また、4年間担当してきたインタラクションのローカルアレンジメント委員長の役割を無事終えることができました。

年初には想像していなかったのが行政との関わりでした。電子書籍の関連で三省懇の末席に顔を出したり、他にもいくつかの仕事をしたり、とくに役に立てているとは思いませんが、これまで自分には関係がないと思っていた世界に足を踏み入れた感があります。これも政権交代から事業仕分けに連なる大きな流れの影響なのかなと思ったりします。

グルコース社は珍しくまじめに(?)仕事した1年でした。iPhoneアプリiPadアプリAndroidアプリソーシャルゲームといろんな世界が一斉に花開いて技術者の需要が急速に高まり、それに応えていくことでたくさんの経験をさせていただきました。実のところ忙しければ忙しいほどぼくの出番はなく、会社も新しい段階に入ったかなと思っています。

そんなこんなで、予想通りのこともあれば予想外のこともあった1年ですが、一貫して「自分にとって公共とは何ぞや」ということを問われ続けた年だったような気がします。なぜ論文検索提供するのか、なぜデータオープンにするのか、なぜ電子書籍に関わっているのか…などなど、自分の中で確たる回答が出ていないのが現状です。また、図書館をはじめとして、ちょっと前までは自身がアウトサイダーだと思っていた世界がどんどんインサイダー化していく中で、新たな責任を負っていかなければならないのはもちろん、居心地のよさに安住してはいけないという思いもあります。これについては、常に外からの視線を意識するとともに、アウトサイダーになれるような分野を探し続けることも忘れないようにしていきたいと思います。

新年早々いろんな仕事が同時に動き出しててんてこ舞いなのですが、成果をお知らせできる日を楽しみにしながらひとつひとつ取り組んでいきます。それでは今年もどうぞよろしくお願い申し上げます。

2010.11.10

[]CiNii論文データが「Yahoo!検索 論文検索」で検索できるようになりました

きのう、「Yahoo!検索」の新機能「論文検索」リリースされ、国立情報学研究所NII)が運営するCiNii(サイニィ)論文データ約400万件が検索対象となりました。まずは関係者のみなさま、お疲れさまでした!

突然現れたように見えるこのサービスですが、NIIのプレスリリースにも書かれているように、昨年度からNIIヤフーとで共同研究を行い、サービスのあり方を検討してきたものです。最終的には、検索機能をヤフー提供し、論文の詳細情報CiNiiが受け持つという極めてシンプルな形になりました。単純ですが、これがお互いの強みを一番生かせるだろうという判断です。

NIIデータを出しているだけ?と思われるかもしれませんが、実はそのデータ作りがぼくたちの生命線です。複数の異なるデータベース(それぞれが数百万件オーダー)から個々のレコード名寄せし、1つのきれいなデータベースを作るのは、とてつもなく困難で、終わりのない作業です。NIIではそれを機械学習などの自動処理や人手を含めたワークフローを構築することで日々対応しています。表からはほとんど見えないこのプロセスについては、いずれ何か書きたいと思いますが、こうして作ったいわば「虎の子」のデータオープンにしていくのは、ひとえに論文という情報を多くの人々に届けたいがためです。

以前から、CiNii情報グーグルヤフーなどの検索エンジンからのクローリングを許可し、検索の対象となっていますし、Google Scholarとは密な連携をしています(現在はわけあって検索できない状態になっていますが、近日中には復活します)。今回の連携もその一環で、CiNiiへのアクセス経路が増えることでより多くの方々に論文情報を見てもらえればと考えています。

いずれにせよ、公共的なサービスとして、また図書館サービスとしてかなり思い切った連携の形だと思います。いろいろなご意見があるかとは思いますが、あたたかく見守っていただければ幸いです。

2010.07.20

セマンティックWebプログラミング」の監訳を担当しました

発売からすでに1ヶ月ぐらい過ぎてしまいましたが、オライリーから出版されている「セマンティックWebプログラミング」の監訳を担当したので、そのご報告を。

セマンティックWebプログラミングは、同じくオライリーから出ている「集合知プログラミング」の著者であるToby Segaranらによる「Programming the Semantic Web」の邦訳です。集合知にせよセマンティックWebにせよ、理屈はわかるけど実装のイメージがつかないというエンジニア向けに、プログラムできちんと説明するという良書です。ぼくも学部生の実習用に集合知プログラミングを使っていて、Programming the Semantic Webも早く日本語版が出たらいいのになあと思っていたのですが、ひょんなことから自分が関わることになりました。このような出会いを提供していただいたオライリー伊藤さん、はてな伊藤さんには心から感謝しています。

それで、ぼくの役割はというと、実際に翻訳したわけではなく、訳者玉川さんが翻訳された原稿を読んで、間違いがないか、表現が適切かをチェックするというものでした。また、ぼくひとりでは心許ないので、適任だろうと思われる加藤さんにお声がけし、そうすると加藤さんが中尾さんを誘い、中尾さんが山本さんを誘い…という感じで訳者1名、監訳者4名という妙な体制ができあがりました。最終的に、監訳者4人で分担してチェックを行うとともに、ぼくが代表して「監訳者まえがき」という短い原稿を書きました。

監訳という仕事ははじめてで、またセマンティックWebの用語は難しいものが多いのであまり自信はなかったのですが、元の翻訳がよいのでスムーズに進めることができました。あと、技術書翻訳だと掲載されているプログラムが動かないということがよくあるのですが、今回は監訳チーム(ぼく以外…)のがんばりで、ちゃんと動くように修正しています。

そんなわけで、もし書店で見かけたらお手に取ってご覧ください。教科書や演習資料にしていただければもっとうれしいです。そういえば、監訳者の4名はそれぞれ「情報・システム研究機構」という組織の傘下である国立情報学研究所・新領域融合研究センターライフサイエンス統合データベースセンターに所属しているので、ここしばらくはセマンティックWebといえば情報・システム研究機構ということでひとつよろしくお願いします。

おまけ

7月16日に、この本の著者が所属しているMetaweb社がGoogleに買収されたというニュースがありました。これでGoogleは本格的にセマンティックWebに取り組んでいくことになりそうです。

Freebaseを運営するセマンティック・ウェブの会社MetawebをGoogleが買収 - モジログ

集合知プログラミング

集合知プログラミング

2010.04.04

[]CiNii著者検索とコップの中の小さな革命

2010年4月1日CiNiiバージョンアップしました。昨年4月リニューアル以来、1年ぶりの機能強化です。といっても、CiNiiの基本的な機能や見た目にはほとんど変化はなく、新たに「著者検索」という機能がついたのが今回の目玉です。検索ボックスの赤いタブがそれです。

あっさりとした公式説明 - http://ci.nii.ac.jp/info/ja/index.html#20100401

もう少し詳しい説明 - http://cinii.jp/post/486298233/cinii-author-search

CiNiiデータベースに入っている著者名にIDを振って、その著者ID検索できるようになった、ということなのですが、言うは易く行うは難しで、やろうと思ってから実現するまで1年がかりの大仕事でした。

中身の説明については上記リンクに任せるとして、ここではCiNii著者検索をなぜやろうと思ったのか、どういう意義があるのかという話を個人的な観点から書いてみようと思います。それは、端的に言えば「学術情報サービスの根幹であるデータの作成に機械処理とユーザ参加の仕組みを入れること」です。

CiNiiにせよその他の学術情報サービスにせよ、データ学会出版社図書館大学など、ある種のオーソライズされた組織によって「人手で」作られてきました。この作業がどれほど大変で、誰がその役割を担ってきたのかについては適切に評価されなければなりませんし、いつか書きたいと思うのですが、その話は置いておいて、そうして作られた何百万、何千万というデータに対し、IDを振る作業を再び人手で行うことは現実的に不可能です。

そこで、今回の著者検索では、コンピュータによる自動処理と、ユーザからのフィードバックによって、できるだけ精度が高く、かつコストパフォーマンスのよいシステムの実現を目指しました。

とはいえ、すべて人手で作るのが当たり前の世界において、機械処理やユーザ参加は本質的に「いい加減」なものであり、どれだけ工夫をこらしても同等の信頼性を得ることはできないでしょう。現状の著者検索の精度を含め、さまざまな面でご批判を受けることになるだろうと覚悟しています。

それでもこのようなシステムを作るのは、遅かれ早かれ学術情報サービスデータ組織による入力機械処理・ユーザ参加の組み合わせによって作られることになるだろうという見通しと、情報にせよ人物にせよ網羅性の高いIDを持つことが死活的に重要になるだろうという読みに基づいています。とくにIDは、外部のサービスと密に連携するためになくてはならない存在であることは間違いありません。

また、これはいささか内向きな理由に見えてしまうかもしれませんが、国立情報学研究所が(あるいはぼくが)なぜCiNiiを運営しなければならないのか、という問への回答でもあります。研究機関であると同時にサービス提供者であるNIIでしか実現できないことが可能になってはじめて存在意義が生まれます。もちろん自己満足になってはいけませんが、今回は著者IDという明確な目標を立てることで、研究成果とサービスを一体化できたのではないかと考えています。

まだ新機能のリリースから3日目です。今後どういった評価を受けることになるかはわかりません。幸いなことに、フィードバックを300件近くいただいております。まずはこれらのフィードバックを速やかに反映し、よりよいサービスの実現に邁進していく所存です。