Hatena::ブログ(Diary)

tukihatuの技術日記

2008-09-09

PHP正規表現での質問です。 preg_match_allを使って機種依存文字...

| 11:03 | PHP正規表現での質問です。 preg_match_allを使って機種依存文字...を含むブックマーク PHP正規表現での質問です。 preg_match_allを使って機種依存文字...のブックマークコメント

結局範囲指定でやると抜けがかなり多かったから、こうなった↓

'([´↓きキΝЛ┃悪鵜沖貝喚記境鍬賢広梱鮫
臭将性銑足鱈牒鏑騰猫鉢畢吻豊稔有劉廊亅儉勠哭圻姚岫澂爿
皚祗筬絖罩膈茘薛雖覘讚蹲遶鎰鶚☆¶y
姻甥悔鎌机漁隅嫌功甑桜児樹徐譲杉煎鎗濁貯締等肉
微蕗庖侭薮吏憐偸劔咸囮奘尸庠恙戈撕暝棘檐泗漿燎璞癨磔
糯纖胱苹蔔蝎褶譎踟逋銷陌顆髯鴒齷
z引凹恢噛旗禦串建効忽鮭字綬
醸椙煽霜諾丁艇答虹爆枇伏抱繭鑓履漣傀劒咥囹奢尹廁悁戉
曁椢檍泅滲燠璧癩碾笞糲纎脛苞蓼蝴褸證蹂逧鋩陏顏髫鵁齲
○飲央懐
既魚櫛憲勾惚笹寺需鋤錠菅騒茸兆訂筒廿縛毘副捧麿愉李煉
剱咬圀奠屁廂悍戍撥暹椦檠泝漱燬瓊癪碼笵糴纛脩茆蕀蝗襌譖
逶錏陋顋髮鴿齶●
淫奥戒栢期亨釧懸厚骨匙慈囚除嘱頗穿像凧凋諦糖
莫琵復放万愈梨簾傅劈哄囿奧屆廈惧戌撩曉棡檄沮滯燧瓏癧
笨糶纜脣苜蕣蝨褝譛踰逵鋺髴鴾龕¬]' //依存文字
.')';

囲み数字とローマ数字など13区あたりと、化け漢字を並べた結果。

ここは問答無用で散れ!と指定。


で、さらに

'('
.'\∅|\∉|\∗|\≅|\⊄|\⊕
|\⊗|\⋅|\⌈|\⌉|\⌊|\⌋|\⟨
|\⟩|\♠|\♣|\♥|\♦'
//HTML特殊文字だけど依存文字
.')';

特殊文字だけどスペードとかは化けるから散れ!っていう表現。


んで、しかも(長いよ)

'('
.'[‰§¨°¶¬±∀∃∂∇∈∋槇紜隋腆棧腹泡羨摺蕁茵癶瓣匠植滋
⊥ΑΒΓΔΕΖΗΘΙΚΛΜΝΞΟΠΡΣΤΥΦΧΨΩαβγδ
εζηθικλμνξοπρστυφχψω]' //そのまま書くと依存文字
.')';

HTML特殊文字コードにすれば使えますよー、な記号は注意を促したり。


基本的にWINとMACでしか見てないので、おそらくUNIでの依存やらはまだあると思うけど。

やっぱUNIとかLINUXとかインストしてチェックしないとわからないなぁ…

エミュレとかないのかな???無理か…

今回は別にそこまでこる必要ないしOKではあるけど。


PHP正規表現での質問です。 preg_match_allを使って機種依存文字を探し出しすコードを書いているのですが、うまくいきません。 下のものではうまくいくのですが、例えば"ユユ"という文字を$dddに入れると、 ユのコードが8386なので83「8683」86で反応するようです。 http://q.hatena.ne.jp/1189143057←ここと同じです。 やはりmbを使ったり文字を全部並べたりしたり…無理やりでないと難しいでしょうか? できれば\x○○の形で頑張りたいのですが… 何かアドバイスをもらえると助かります。 ※SJISなのにSJISでエンコしてるのはEUCも試したときの名残なので無視してください… コード↓ =====

tukihatutukihatu 2008/09/11 13:41 文字が変わっちゃってたので修正

トラックバック - http://d.hatena.ne.jp/tukihatu/20080909/1220925786