infony 公開しました
http://kaihatsu.chew.jp/infony/
キーワードをひろってきたり調べたり
狙ったサイトのソースから形態素解析して抜き出したキーワードの意味を各種API
(といってもはてなとWikipediaAPI)からいただいてまいります。
Webサービス界のWiiを目指して、シンプルなつくりになっております。
おそらくこの記事に目を通していただいているPlagger当たり前な方々には不要なものと思います。
そこで、「もっぱら携帯で『暇』などと検索し、最近PCでなくWiiでインターネットをはじめちゃった」方などが周りにいらっしゃいましたら、ぜひご紹介いただけると幸いです。
背景
興味があるページについてもう少し知ることができる『infolust』 | 100SHIKI
を読んで、パクリました!
最初はsymfonyでいくはずだったゆえのネーミングですが、結局使ってません。
仕様
表記のとおり、
http://mecab.sourceforge.jp/
はてなキーワードAPIとは - はてなキーワード
ユーザーローカルWikipedia API - ウィキペディア情報をサイトで利用できるAPI
の3本柱。
PHPとJavaScriptと約5リットルのコーヒーでできています。
参考
ブログの記事本文を抽出するスクリプトをつくってみた
MECAPIのソースコード公開
専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説
http://labs.cybozu.co.jp/blog/tsuruoka/anubis/blog_show/27
あとは過去記事にちらっとあります。
そして、100SHIKI | 世界のアイデアを日替わりでとphpspot - PHPスクリプト/MySQL/掲示板/入門/サンプル/正規表現/レンタルサーバー
(デザイン周りは見失いました。。。)
ありがとうございます!
そんなこんなでよろしくお願いしまうす。
開発メモ
構想>1ヶ月(放置)
環境設定>10時間(+6時間 symfonyとかperlを動かそうとして)
コーディング>12時間
デザイン>8時間
開発期間 約10日間
bulkfeeds.net - このウェブサイトは販売用です! - bulkfeeds リソースおよび情報
が気になる...これ使ったら完全マッシュアップだ。
もともとそのつもりだったけど,MeCabも捨てがたい。
『Together』チェックで不具合発生
さっそく意気揚々とルー大柴オフィシャルブログ『TOGETHER』をinfony。
ちゃんといい感じで結果が出るものの、ルーさんの言葉は会社の名前として捕らえられがちのようだ。
カタカナ英語。
次にディスマンスをウェイトしていた!ルーブログ装いも新たにスタート4649。カッ! | ルー大柴オフィシャルブログ『TOGETHER』をチェック。
すると『sorry... Couldn't scrape.』の文字が。
トップページだと問題ないし、『本文のみ抽出』だとちゃんと動く。
ので得意の
print_r($value);exit;
で調べてみるとどうもMeCabの最大バッファにひっかかったみたい。
コメント大杉。
MeCabの(最低)最大バッファは8190バイトのようなので...
if(strlen($str) > 8188){ $str = mb_strcut($str,0,8180); }
としてカットしてみた。
(微妙なバイト数の誤差は保険ということで)
結局これだと文章の後ろの方をカットしてしまうのでそもそもの目的(がなんなのかはいまいちわかりかねる)からそれてしまっているような気がする。