この値段と分量でよくまとめたなぁというのが最初の感想です。(読んだのは初版第2刷(2010/4/15です)
コンピュータで日本語を扱う場合の文字コードについて、その初期からJIS X 0213:2004までをプログラマ向けに解説したものです。
(EBCIDICなどascii系以外のものは除く)どのパートも流れがあり、過不足なく説明されていて、これまでに参照したこの手の本の中では
一番納得感があり、しかも最新のコードに言及したアップ・トゥ・ディトなものだと思います。(最新のコードに言及したものには
文字コード超研究
の新版
文字コード「超」研究 改訂第2版
がありますが、私は未見です)技術に偏重した読みにくさというのはあまりなく、たとえば筆者が撮影した写真(街の名前が写っている)(p.113)などあり、ほのぼのしたいい味もでています。
ただ、JIS X 0213のエンコーディングについては、筆者はきわめて楽観的なイメージを持っているように思えますが、私の場合は、かなり悲観的で、その部分は違和感があります。例えば「今後はShift_JISというときにもっぱらShift_JIS-2004を用いるという手もあります。(p.343)」というような表記がありますが、現状cp932とそのUnicodeマッピングが蔓延し、ほとんどのOSの内部コードがUnicodeをベースにしている状態で、そのUnicodeの問題点回避と、全てを2-byteに納められるという利点だけで、適用されるシーンを想像するのが難しいです。(組み込み、とか、DBサーバで文字種をそろえつつ総データ量を減らす場合とかですかね?)今後のIVSの対応も含めて、良くも悪くもUnicodeが先頭を引っ張る形で進んでいくのではないかと思っています。
上記や、下記で言及する部分を含めても、この本は大変良くできています。いまもそうですし、
今後も版を重ねていってもらえれば「文字コード関連? これ読んどけ」的に人にすすめやすい定番本となるでしょう。
次の版の時には以下の部分直してもらえるとありがたいです。(ちと気づいたとこだけ。。。)
p.112 MySQL 5.1の記述。
→昨年末(2010年末) GAを迎えたMySQL 5.5では4-byte UTF8が扱えるutf8mb4というキャラクタセットが追加されましたので、扱えるようになっています。
多くのデータベースではUTF8(もしくはUNICODE)という名前で3-byteしか扱えないUTF8を利用してきましたが、PostgreSQLのように元々あるUTF8という名前で4-byteが扱えるようにしたり(もともとあるといってもUNICODE->UTF8が追加されたタイミング PostgreSQL 8.1あたり?) と、Firebird/MySQLのように新たな名称を用意する(Firebird: UNICODE_FSS(3-byte), UTF8(4-byte), MySQL: utf8(3-byte), utf8mb4(4-byte)という対応をしてきました。
目次のEBCIDIC
p.16にEBCIDICの項目が見当たりません。なにかのtypo?
無料のKindleアプリをダウンロードして、スマートフォン、タブレット、またはコンピューターで今すぐKindle本を読むことができます。Kindleデバイスは必要ありません。
ウェブ版Kindleなら、お使いのブラウザですぐにお読みいただけます。
携帯電話のカメラを使用する - 以下のコードをスキャンし、Kindleアプリをダウンロードしてください。
プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESSプラスシリーズ) 単行本(ソフトカバー) – 2010/2/18
矢野 啓介
(著)
より深く知り、すぐ試し、上手に実装したい。
プロの道を進む方々にお届けしたい「ベーシック」、
WEB+DB PRESS plusシリーズ「技術入門」の第1弾です。
コンピュータにおいてテキストデータを扱う上で欠かせない文字コード。
文字と符号(ビット組み合わせ)で形作られる文字コードの基本的な性質はシンプルです。
しかし、文字コード、とりわけ日本語情報処理となると、数々の落とし穴が潜む、ときに専門的な知識が求められる、そのような難易度の高いイメージが漂うのはなぜでしょうか。その背景を探ると、文字コードとは切っても切り離せない「文字という存在、そのものの難しさ」「規格を含む過去の経緯の積み重ね」の影響が浮かび上がってきます。
本書では、文字そのものと、文字コードの歴史を少しずつ解きほぐしながら、文字コードの原則、変遷、おもな規格の要点をはじめとした基礎知識を丁寧に解説。
さらに、Unicode、日本の文字コード規格、文字化けのメカニズム、コード変換の基礎、Java、Ruby 1.8/1.9での扱い、はまりやすい落とし穴とその対処など、広くソフトウェアエンジニアの方々、プログラマの方々へ、今知っておきたい技術情報を厳選してお届けします。
プロの道を進む方々にお届けしたい「ベーシック」、
WEB+DB PRESS plusシリーズ「技術入門」の第1弾です。
コンピュータにおいてテキストデータを扱う上で欠かせない文字コード。
文字と符号(ビット組み合わせ)で形作られる文字コードの基本的な性質はシンプルです。
しかし、文字コード、とりわけ日本語情報処理となると、数々の落とし穴が潜む、ときに専門的な知識が求められる、そのような難易度の高いイメージが漂うのはなぜでしょうか。その背景を探ると、文字コードとは切っても切り離せない「文字という存在、そのものの難しさ」「規格を含む過去の経緯の積み重ね」の影響が浮かび上がってきます。
本書では、文字そのものと、文字コードの歴史を少しずつ解きほぐしながら、文字コードの原則、変遷、おもな規格の要点をはじめとした基礎知識を丁寧に解説。
さらに、Unicode、日本の文字コード規格、文字化けのメカニズム、コード変換の基礎、Java、Ruby 1.8/1.9での扱い、はまりやすい落とし穴とその対処など、広くソフトウェアエンジニアの方々、プログラマの方々へ、今知っておきたい技術情報を厳選してお届けします。
- 本の長さ400ページ
- 言語日本語
- 出版社技術評論社
- 発売日2010/2/18
- ISBN-10477414164X
- ISBN-13978-4774141640
この商品をチェックした人はこんな商品もチェックしています
ページ 1 以下のうち 1 最初から観るページ 1 以下のうち 1
商品の説明
著者について
矢野 啓介 Yano Keisuke
北海道札幌市出身。工学修士(北海道大学)。ITベンダに勤務し、企業向けソフトウェア技術の研究開発に従事する。個人的な活動として仮名漢字変換プログラムSKKのJIS第3・第4水準漢字辞書の開発にも取り組む。
北海道札幌市出身。工学修士(北海道大学)。ITベンダに勤務し、企業向けソフトウェア技術の研究開発に従事する。個人的な活動として仮名漢字変換プログラムSKKのJIS第3・第4水準漢字辞書の開発にも取り組む。
登録情報
- 出版社 : 技術評論社 (2010/2/18)
- 発売日 : 2010/2/18
- 言語 : 日本語
- 単行本(ソフトカバー) : 400ページ
- ISBN-10 : 477414164X
- ISBN-13 : 978-4774141640
- Amazon 売れ筋ランキング: - 181,325位本 (本の売れ筋ランキングを見る)
- - 1,611位インターネット・Web開発 (本)
- - 3,845位電気・通信 (本)
- カスタマーレビュー:
著者について
著者をフォローして、新作のアップデートや改善されたおすすめを入手してください。
北海道大学工学部情報工学科卒業、北海道大学大学院工学研究科システム情報工学専攻修士課程修了。株式会社富士通研究所に勤務し、企業間電子商取引、業務プロセス管理、ソフトウェア可視化分析技術等、企業向けソフトウェア技術の研究開発に従事。ソフトウェア工学分野の研究により情報処理学会より2017年度山下記念研究賞を受賞。ライフワークとして文字の符号化に興味を持ち、オープンソースの仮名漢字変換ソフトウェアSKKのJIS第3第4水準漢字辞書の開発にも携わる。著書『プログラマのための文字コード技術入門』は東京池袋ジュンク堂書店の2010年コンピュータ書ランキングの4位を獲得。日本漢字学会編『漢字文化事典』(丸善出版)に項目執筆。
-
トップレビュー
上位レビュー、対象国: 日本
レビューのフィルタリング中に問題が発生しました。後でもう一度試してください。
2011年8月20日に日本でレビュー済み
Amazonで購入
2014年8月5日に日本でレビュー済み
Amazonで購入
コンピュータの歴史とともに文字コードの規格の変遷がよくわかる。このため、なぜ、現在のような複数のコード体系があり、どのような構造になっているかも理解できる。javaなどの言語での処理についても記載があり簡単な処理のソースも記載されている。ただし本当に局部的な数ステップの部分だけの記載であるため、もう少しまとまった機能を有したルーチンの記載および説明があるとプログラマのためになると思う。
2019年6月2日に日本でレビュー済み
Amazonで購入
分厚くて読むのはそれなりに骨が折れますが時間をかけた価値はありました。混乱しがちな文字コードの話をIT初心者にも分かるように解説しています。
2018年6月15日に日本でレビュー済み
Amazonで購入
文字コードを理解するために、調べればなんとかなると、色々なソースをあたりがちになる内容が一冊にまとまって、体系だった理解ができる。
2017年7月19日に日本でレビュー済み
Amazonで購入
文字コードの歴史がよくまとまっています。とても読みやすいです。
この本を読めば、なぜ現在のような文字コード体系が生まれたのかと言うことがよく理解できます。
またJavaなどの各種実装の内部エンコーディングなどにも触れているため、現在のアプリケーションレベルのエンジニアにも役に立つ内容になっています。
この本を読めば、なぜ現在のような文字コード体系が生まれたのかと言うことがよく理解できます。
またJavaなどの各種実装の内部エンコーディングなどにも触れているため、現在のアプリケーションレベルのエンジニアにも役に立つ内容になっています。
2010年12月28日に日本でレビュー済み
Amazonで購入
ちょっと業務で必要になったときに、該当する文字コードのあたりをめくって参考にしたりします。
面白い内容ではないかもしれませんが、リファレンス的に便利です。
面白い内容ではないかもしれませんが、リファレンス的に便利です。
2010年8月24日に日本でレビュー済み
文字コードの問題は今後の電子書籍系の中で、
日本語である限り避けては通れない重要なポイントです。
特に過去に発行された作品をデジタル化する場合の処理については、
JISの水準の問題や、異体字、外字の問題があります。
そうした問題への基本的な知識として本著の前半を読むと、
何が問題となり、その原因が何だったのかが明確になるでしょう。
後半は技術的な話になるので専門的に学んでいる人以外は、
かなり難しいと思われますが、余力があれば読むに越したことはないかと。
日本語である限り避けては通れない重要なポイントです。
特に過去に発行された作品をデジタル化する場合の処理については、
JISの水準の問題や、異体字、外字の問題があります。
そうした問題への基本的な知識として本著の前半を読むと、
何が問題となり、その原因が何だったのかが明確になるでしょう。
後半は技術的な話になるので専門的に学んでいる人以外は、
かなり難しいと思われますが、余力があれば読むに越したことはないかと。
2013年6月10日に日本でレビュー済み
Amazonで購入
文字コードについて基本的なところから説明してあり、初心者にも理解しやすいです。
本書を読めば、日本語環境では、なぜ「バックスラッシュ」が「円マーク(¥)」になってしまうことがあるのか、なぜ、いわゆる「半角」の「ア」と「全角」の「ア」が存在するのか、というような疑問を解決することができます。
前半の4章までは、代表的な符号化文字集合と文字符号化方式について歴史を交えて書かれています。Shift_JIS、EUC-JP、ISO-2022-JP、Unicode の符号化方式である UTF-8/UTF16/UTF-32 などについて詳細に説明されます。
後半は、Webアプリケーションの開発者や Java や Ruby のプログラマにとっては非常に役に立つ内容です。
書名は「プログラマのための 文字コード技術入門」となっていますが、前半はプログラマでなくても楽しく読むことができる内容で、文字コードに関心のあるすべての人にお勧めできます。
本書を読めば、日本語環境では、なぜ「バックスラッシュ」が「円マーク(¥)」になってしまうことがあるのか、なぜ、いわゆる「半角」の「ア」と「全角」の「ア」が存在するのか、というような疑問を解決することができます。
前半の4章までは、代表的な符号化文字集合と文字符号化方式について歴史を交えて書かれています。Shift_JIS、EUC-JP、ISO-2022-JP、Unicode の符号化方式である UTF-8/UTF16/UTF-32 などについて詳細に説明されます。
後半は、Webアプリケーションの開発者や Java や Ruby のプログラマにとっては非常に役に立つ内容です。
書名は「プログラマのための 文字コード技術入門」となっていますが、前半はプログラマでなくても楽しく読むことができる内容で、文字コードに関心のあるすべての人にお勧めできます。