2011-06-25
Python で実体参照のデコード。アポストロフィーの場合…
まず、デコードの定石??
ググって見っけたやつ。
文字実体参照 → htmlentitydefs.name2codepoint → 数値文字参照 → unichr() → Unicode 文字列
はまったorz
アポストロフィーの文字実体参照(')は XHTML1.0 からだとか…
>>> import htmlentitydefs >>> htmlentitydefs.name2codepoint['apos'] Traceback (most recent call last): ... KeyError: 'apos'
とりあえず
これでいいのかな
>>> from xml.sax.saxutils import unescape >>> unescape('' " & < >') '' " & < >' >>> unescape('' " & < >', {''': '\'', '"': '"'}) '\' " & < >'
トラックバック - http://d.hatena.ne.jp/ino46/20110625/1308944880
リンク元
- 9 http://www.google.co.jp/url?sa=t&rct=j&q=python 実体参照&source=web&cd=3&ved=0CDcQFjAC&url=http://d.hatena.ne.jp/ino46/20110625/1308944880&ei=4aa7TrfiFuGHmQXe-7mWAg&usg=AFQjCNESnzcPzlboc5H_uKQQwDuHO4iUsA
- 8 http://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cts=1331511380263&ved=0CDsQFjAB&url=http://d.hatena.ne.jp/ino46/20110625/1308944880&ei=NEBdT6qwHcyiiAfAnd36Ag&usg=AFQjCNESnzcPzlboc5H_uKQQwDuHO4iUsA&sig2=FVgYdM2akmSzmKYfaTJpYg
- 6 http://www.google.co.jp/url?sa=t&rct=j&q=アポストロフィ python&source=web&cd=1&ved=0CB8QFjAA&url=http://d.hatena.ne.jp/ino46/20110625/1308944880&ei=7UENT_fIGqTFmQWviMWaBg&usg=AFQjCNESnzc
- 5 http://www.google.co.jp/url?sa=t&rct=j&q=実体参照 アンエスケープ python&source=web&cd=1&ved=0CBwQFjAA&url=http://d.hatena.ne.jp/ino46/20110625%
- 4 http://easy-cashing.org/ds/
- 4 http://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0CDMQFjAA&url=http://d.hatena.ne.jp/ino46/20110625/1308944880&ei=XCp9T6CnL4SXiQevudG7CQ&usg=AFQjCNESnzcPzlboc5H_uKQQwDuHO4iUsA
- 3 http://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=3&ved=0CDgQFjAC&url=http://d.hatena.ne.jp/ino46/20110625/1308944880&ei=lUl4T-P0C7GUmQW_zcnpDw&usg=AFQjCNESnzcPzlboc5H_uKQQwDuHO4iUsA
- 3 https://www.google.co.jp/
- 2 http://ezsch.ezweb.ne.jp/search/?query=アポストロフィの文字化け&start-index=36&adpage=6&ct=1301&sr=0000&t=20110702033328&filter=1
- 2 http://www.google.co.jp/search?sclient=psy-ab&hl=ja&safe=off&site=webhp&source=hp&q=python utf-8 実体参照&pbx=1&oq=&aq=&aqi=&aql=&gs_sm=&gs_upl=&qscrl=1&cad=cbv&sei=J8v2TvW3JKrKmQXsocSZAg