あわせて読みたい、その後
なんだかよくわからないけど、あわせて読みたいらしいサイトが表示されている。
見てみたけど、そこまであわせて読みたいとも思わなかった。もうちょっとデータが集まらないと、なんともいえないのかな。
こういう試みは面白いのでとりあえず付けておく。
techlog と あわせて読みたい
日本語形態素解析Webサービス
日本語形態素解析Webサービスは、ヤフーの日本語処理技術部がYahoo! JAPAN研究所と共同で開発を進めてきた形態素解析エンジン「Web MA」を社外の開発者向けにAPIとして公開するもの。このエンジンは、ヤフーのブログ検索や商品検索などのテキスト処理、ブログ検索の「評判検索機能」、「まとめ検索機能」などのテキストマイニング処理にも利用されている。
ヤフー、文章を解析できるAPI「日本語形態素解析Webサービス」を公開
日本語形態素解析Webサービスは24時間以内で1IPアドレスにつき5万件のリクエストが上限、1リクエストの最大サイズは100KBに制限されている。
ヤフー、文章を解析できるAPI「日本語形態素解析Webサービス」を公開
なんかすごいもの公開してきたなぁ。制限事項はいくつかあるが、普通に考えれば負荷はかなり高そうな処理だし仕方ないかな。
APIはRESTなので、とりあえずブラウザから試してみる。
# 僕はSOAPは使えるんだけど、RESTは使えない・・・。
# 時代の波に乗れてない・・・。
Yahoo!のサンプルには「庭には二羽ニワトリがいる」があった。でもこれって漢字ではつまらないじゃない。
というわけで、「すもももももももものうち」の検索結果はどうだろう。
Response
<?xml version="1.0" encoding="UTF-8" ?> <ResultSet xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="urn:yahoo:jp:jlp" xsi:schemaLocation="urn:yahoo:jp:jlp http://api.jlp.yahoo.co.jp/MAService/V1/parseResponse.xsd"> <ma_result> <total_count>7</total_count> <filtered_count>7</filtered_count> <word_list> <word> <surface>すもも</surface> <reading>すもも</reading> <pos>名詞</pos> </word> <word> <surface>も</surface> <reading>も</reading> <pos>助詞</pos> </word> <word> <surface>もも</surface> <reading>もも</reading> <pos>動詞</pos> </word> <word> <surface>もも</surface> <reading>もも</reading> <pos>動詞</pos> </word> <word> <surface>も</surface> <reading>も</reading> <pos>助詞</pos> </word> <word> <surface>の</surface> <reading>の</reading> <pos>助詞</pos> </word> <word> <surface>うち</surface> <reading>うち</reading> <pos>名詞</pos> </word> </word_list> </ma_result> <uniq_result> <total_count>7</total_count> <filtered_count>4</filtered_count> <word_list> <word> <count>2</count> <surface>もも</surface> <reading/> <pos>動詞</pos> </word> <word> <count>1</count> <surface>うち</surface> <reading/> <pos>名詞</pos> </word> <word> <count>1</count> <surface>すもも</surface> <reading/> <pos>名詞</pos> </word> </word_list> </uniq_result> </ResultSet>
日本語の品詞とかは、あまりよくわからないが、このResponseはいけてないような気が・・・。
<word> <surface>もも</surface> <reading>もも</reading> <pos>動詞</pos> </word>
そもそも、動詞の「もも」ってなんだ?
Senを使ったときはちゃんとできたんだけどなぁ。SenはMeCabのJava版。
MeCabでの実行結果はこうなる。
# Senで試したときも同様の結果だった。
すもももももももものうち すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ の 助詞,連体化,*,*,*,*,の,ノ,ノ うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ EOS
まあこれだけで、判断できることではないけど。
なにはともあれ、Yahoo!が使っている形態素解析エンジンを使えるっていうのはすごいな。検索技術のコア技術のひとつだし。
こういう技術が公開されている時代の研究ってどんな感じなんだろう。ふと思った。
研究者じゃなくても、形態素解析が簡単にできてしまう。研究を差別化していくのが、どんどん難しくなるかもしれない。アイディアがより求められるようになるのかな。
もっと難しいのは企業かもしれない。フットワークの軽いベンチャーなら、新しいビジネスが広がるかもしれない。でもフットワークの重い企業は、どんどん新しいビジネスが難しくなるのかもしれない。
趣味プログラマとしては、こういうの単純に嬉しいけどね。
パフォーマンスチューニングBlog
この会社のblogすごい。blogが企業サイトになっている。内容もすごそう。
気になるタイトルがたくさんある。
tomcat6とcometのこと
Apacheパフォーマンスチューニング
keep-aliveのことをちゃんと考える
ブラウザでHTTP通信をトレースする
来月はチューニング系の仕事をするので、暇を見てちゃんと読んでみよう。