Hatena::ブログ(Diary)

konisimple log RSSフィード Twitter

はてなブログに移転しました!

2011年08月07日

日本語ハッシュタグに対応しました。(正規表現よりentitiesで実装したほうがよい)

whotwi - グラフィカルTwitter分析

いままでハッシュタグ正規表現で判別していました。

ただ日本語ハッシュタグの条件は以下のように意外と複雑で、「日本語ハッシュタグ 正規表現」でぐぐった結果の多くが句読点を無視していました。

自分で書くのも面倒なので、twitter apiの「include_entities」をオンにして、その要素を直接使うことにします。

こうすることで、Twitter公式とハッシュタグの判定が変わってしまうこともないですし、同時に導入されたハングルハッシュタグなどにも対応でき、さらに将来の仕様変更にも対応することができます。

ドキュメント: GET statuses/user_timeline | Twitter Developers

ちなみに日本語ハッシュタグの条件は以下。

  • #か#で始まる
  • 前後には「全角スペース」「半角スペース」「全角読点」「全角句点」「半角読点」「半角句点」「ツイートの先頭」「ツイートの最後」
  • 全角でも半角でも英数字は半角、日本語は全角に変換されて同じ物として扱う

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証

トラックバック - http://d.hatena.ne.jp/konisimple/20110807/1312711171