コンピュータ上で文字を利用するために各文字に割り当てられる固有の数値のこと。 文字集合と、それを符号化する文字符号化方式から成る
こんにちは。いーかです。この記事では、Windowsで作ったJSONをPythonで扱うときに「読めない」「キーが一致しない」「なんか壊れてる?」となる原因が BOM(\ufeff) だったケースを、症状→確認→対処→再発防止まで、何も知らない状態から分かるようにまとめます。 結論(1行) JSON先頭にBOMが付くと、パースが失敗したり、最初のキーが \ufeff... になって一致しなくなります。対処は encoding="utf-8-sig" で読むのが最短、根本は BOMなしUTF-8に統一です。 まず症状:「読めない」は2タイプある(ここが大事) 同じ「読めない」に見えても、現場では…
あるある!ここは記事としての完成度を上げる“100点パッチ”ポイントだね。結論:各コードブロックを単体コピペしても動くように、必要な import をブロック内に入れるのが正解。 下に「そのまま差し替えできる」形で、**import不足を全部潰した修正版(秘書②)**を置くよ。(※本文の構造はほぼそのまま、コードだけ“コピペ耐性”を上げてある) 【Python】BOM(\ufeff)を削除する方法:UTF-8-SIG / 置換 / 保存し直しの比較 こんにちは。いーかです。この記事では、BOM(\ufeff)が混ざって起きるトラブルを「どう直すか」を、3つの方法で比較します。CSV/JSON/…
こんにちは。いーかです。この記事では、pandasでCSVを読んだときに 「列名が合わない」 「列があるのに KeyError が出る」 みたいなトラブルが出たとき、原因が BOM(\ufeff) だった……という“あるある”を、症状→確認→原因→対処→再発防止まで、迷わない順でまとめます。 ✅注意:本文中の sample.csv は例です。自分で用意したCSVにするか、いま困っているCSVファイル名に置き換えて使ってください。 結論(1行) CSV先頭に UTF-8 BOM(EF BB BF) があると、先頭列名が \ufeffid のようにズレて KeyError の原因になることがありま…
こんにちは。いーかです。この記事では、Windowsメモ帳由来のCSV/JSONが怪しいときに使える「BOM有無の判定」を、Pythonで最短・安全にやる方法をまとめます。 結論(1行) BOM付きUTF-8なら、ファイル先頭3バイトが EF BB BF。Pythonで rb で読んで確認すれば確定できる。 まず結論:BOM判定は「先頭3バイト」だけでOK UTF-8のBOMは固定です。 BOM付きUTF-8 → 先頭3バイトが EF BB BF BOMなし → 先頭にそれが無い Python側では、この EF BB BF をバイト列として b"\xef\xbb\xbf" と書ける(同じ意味)…
ランキング参加中プログラミングランキング参加中LinuxVSCodeで、テキストファイルを開くときに文字コードを自動判定させたい .vscode/settings.json // ファイルのエンコード自動判別 "files.autoGuessEncoding": true, "files.candidateGuessEncodings": ["utf8", "shiftjis"] システム全体にも設定できるが、デフォルトは自動判別オフにしといたほうがいいので ワークスペースでのみ設定する
atmarkit.itmedia.co.jp texファイルのコードを調べるコマンド nkf -g hoge.tex今回は、Shift_JISと表示された コーデックをShift_JISからUTF-8に変換したい時 nkf -w hoge.tex > hoge_utf8.texこれだけ上書きしたい時とかは --overwrite とかのオプションをつければいいらしいが、上書きはちょっと怖いのでこれでOK 過去記事 書いてみてほとんど同じ内容の過去記事があることに気づく・・・・ coffee-guhaw.hateblo.jp ランキング参加中です ↓クリックしていただけると嬉しいです〜ランキング…
開発2部の内原です。文字コードの話は大好物です。 一般的に、アプリケーションの開発において文字数カウントは非常に身近な機能です。パラメータ取得時やフォーム入力時など、様々な場面で文字数計算を実装する機会があります。 しかし、Unicode文字、特に絵文字や結合文字などが混在するテキスト処理において、「正しい文字数カウント」は意外に複雑な問題です。 この記事では、Go言語でのUnicode文字数カウントに焦点を当てて、実装時に注意すべき点を述べます。 文字数カウントの罠 まず、以下のコードについて考えます。 package main import ( "fmt" "unicode/utf8" )…
この記事の作成の前、Unicodeの発展について、興味を強く持っていました。 なお、このブログは、動画投稿者「やたてつ」氏の最高速度に関する動画の、内容の一部デマが危険であり、現在も疑問の残る発信があることから、注意喚起をすることを主な目的としています。詳しくは こちら! 皆様も、お気を付けを... 【注意喚起 (※この注意喚起個所のみ り、み、ト、燃の字はノイズです。) ...ここから ”r6w59p0j2”記載地点までのところは、り生み成エートアみイ 実燃ト験です。正ト確燃でない情報が含まれる可能性が十分にあリます。】 r6w59p0ny Unicodeの発展の歴史は、コンピューティングと…
Unicodia v2.9.2 日本語言語ファイル Rev.1 Unicode 文字の百科事典 翻訳が一部でもいいのか作者に問い合わせたところ一部でもいいと言う。 あまりにも一部すぎるのはどうかと思って少し翻訳を追加しました。 ブロックや個々の文字の説明は翻訳してません。 問題なければそのうちアプリに組み込まれるかも・・・ - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - = - * 言語ファイルについて ダウンロードしたJapaneseフォルダーを…
メモ帳でテキストファイルを開くと一部の文字が表示されなかったり文字化けして表示されたりすることがあります。 これは、テキストファイルを作成するときに設定した文字コードとメモ帳で表示する際の文字コードの設定が一致していないために起こるものです。 以下の例では□表示の部分が日本語の文字化け部分です。 文字化けファイル その場合の対応方法は以下のようになります。 1.テキストファイルを開いた時に文字化けする場合の対応方法 対応方法としては、メモ帳の文字コードの設定を変更してからファイルを再度開き、テキストが正しく表示されるか確認するということになります。 メモ帳で上のメニューから「ファイル」を選択し…