infony 公開しました


http://kaihatsu.chew.jp/infony/

キーワードをひろってきたり調べたり

狙ったサイトのソースから形態素解析して抜き出したキーワードの意味を各種API
(といってもはてなとWikipediaAPI)からいただいてまいります。


Webサービス界のWiiを目指して、シンプルなつくりになっております。


おそらくこの記事に目を通していただいているPlagger当たり前な方々には不要なものと思います。
そこで、「もっぱら携帯で『暇』などと検索し、最近PCでなくWiiでインターネットをはじめちゃった」方などが周りにいらっしゃいましたら、ぜひご紹介いただけると幸いです。

背景

興味があるページについてもう少し知ることができる『infolust』 | 100SHIKI
を読んで、パクリました!

最初はsymfonyでいくはずだったゆえのネーミングですが、結局使ってません。

開発メモ

構想>1ヶ月(放置)
環境設定>10時間(+6時間 symfonyとかperlを動かそうとして)
コーディング>12時間
デザイン>8時間

開発期間 約10日間

bulkfeeds.net - このウェブサイトは販売用です! -&nbspbulkfeeds リソースおよび情報
が気になる...これ使ったら完全マッシュアップだ。
もともとそのつもりだったけど,MeCabも捨てがたい。

『Together』チェックで不具合発生

さっそく意気揚々とルー大柴オフィシャルブログ『TOGETHER』をinfony。
ちゃんといい感じで結果が出るものの、ルーさんの言葉は会社の名前として捕らえられがちのようだ。
カタカナ英語。



次にディスマンスをウェイトしていた!ルーブログ装いも新たにスタート4649。カッ! | ルー大柴オフィシャルブログ『TOGETHER』をチェック。
すると『sorry... Couldn't scrape.』の文字が。


トップページだと問題ないし、『本文のみ抽出』だとちゃんと動く。
ので得意の

print_r($value);exit;

で調べてみるとどうもMeCabの最大バッファにひっかかったみたい。
コメント大杉。


MeCabの(最低)最大バッファは8190バイトのようなので...

if(strlen($str) > 8188){
    $str = mb_strcut($str,0,8180);
}

としてカットしてみた。
(微妙なバイト数の誤差は保険ということで)


結局これだと文章の後ろの方をカットしてしまうのでそもそもの目的(がなんなのかはいまいちわかりかねる)からそれてしまっているような気がする。


http://kaihatsu.chew.jp/infony/info.php?url=http%3A%2F%2Fameblo.jp%2Flou-oshiba%2Fentry-10029565727.html&submit=+&get_body=on