ユニコード

このタグでブログを書く

言葉の解説

ネットで話題

ユニコード

(コンピュータ)

【ゆにこーど】

ユニコードコンソーシアムにより作られ、標準化された文字コード。多言語の文字を扱うことが特徴。Unicode。

概要

元々2バイトですべての言語の文字を現そうとした規格で、ゼロックスが提唱し、アメリカ企業が積極的に参加していた。アプリケーションを1度書けばすべての言語に対応できるからである。一方日本などCJK*1圏ではわずか2バイト（65536文字）ですべての文字が現せる訳がないので否定的であった。結局CJK圏の拡張コードなどを入れていくと2byteで収まり切らなくなり、拡張される事になった。
ユニコードの構造上文字を現すことが出来るが言語を区別できない為、多言語文字混在環境は実現出来ても多言語環境を実現するのはユニコードのみだけでは無理と言われている。

エンコード方法

エンコードの方法に「UTF-8」、「UCS-2（UTF-16と下位互換あり）」、「UCS-4（UTF-32と互換有り）」などがある。また、UCSには、上位バイトが先に来る「ビッグエンディアン方式」と最後に来る「リトルエンディアン方式（インテル形式）」がある。基本的にUCSは固定長、UTFは可変長であり、これらのエンコードの方式の多さが混乱を招いている。

Windowsでは

Windowsは、UCS-2を採用、一方Javaなどのアプリケーションは内部でUTF-16、外部でUTF-8を使っている。これは、既存のアプリケーションのコードを大幅に変えることなくユニコード対応に出来るからである。
なお、Windowsでは、JIS勧告と間違ったユニコードとSJISのマッピングを行ったために、「WAVE DASH - FULLWIDTH TILDE問題」などの互換性の問題を引き起こし、異機種間のアプリケーション間での互換性の問題にもなっている。またJISの円マーク（\ Halfwidth Yen）とASCIIのバックスラッシュが同一コードの為、「\」記号をユニコードに変換するとCやJavaなどのアプリケーションが動かなくなってしまう「Japanese Yen問題」があるが、ASCIIの下位7bitのコードは変換しないと言う事で落ち着いている様である。

バージョン推移

1991年、Unicode 1.0が制定。
1993年、Unicode 1.1
1996年、Unicode 2.0：ハングルコードの改訂に伴うハングルの大移動が行われた。Unicode1.xとUnicode2.0のハングルコードは全く互換性が無く、一部で混乱を招いた。
1998年、Unicode 2.1
2000年、Unicode 3.0：CJK統合漢字の拡張Aで漢字6582字を追加。一方、UCS-2に2文字文を1文字として扱うサロゲートペアを導入(サロゲートペアを扱えるUCS-2は、UTF16とも言う)。この辺りからUNICODE本来の目的から外れて、古典文字までもを扱えるような拡張が行われ始めている。たとえばルーン文字やオガム文字などの拡張である。
2001年、Unicode 3.1：CJK統合漢字の拡張Bで漢字42711字を追加など。
2002年、Unicode 3.2：JIS X 0213に対応
2003年、Unicode 4.0.0
2005年、Unicode 4.1.0
2006年、Unicode 5.0.0
2008年、Unicode 5.1.0
2009年、Unicode 5.2.0：CJK統合漢字の拡張Cで漢字4149字を追加。他にヒエログリフや日本の地図記号の追加など。
2010年、Unicode 6.0.0：日本の携帯電話で使用されている絵文字を追加。他にCJK統合漢字の拡張Dで漢字222字の追加など。
2012年、Unicode 6.1.0
2012年、Unicode 6.2.0：新トルコリラ通貨記号の追加など
2013年、Unicode 6.3.0
2014年、Unicode 7.0：、顔文字（Emoticon）、地図や交通関連など2834個の新たな記号が追加。

Unicode標準入門

作者: トニーグラハム,関口正裕,Tony Graham,乾和志,海老塚徹
出版社/メーカー: 翔泳社
発売日: 2001/05/30
メディア: 大型本
購入: 3人クリック: 109回
この商品を含むブログ (18件) を見る

UnicodeによるJIS X0213実装入門―情報システムの新たな日本語処理環境 (マイクロソフト公式解説書―マイクロソフトITプロフェッショナルシリーズ)

作者: 田丸健三郎
出版社/メーカー: 日経BP
発売日: 2008/08/21
メディア: 単行本
購入: 2人クリック: 54回
この商品を含むブログ (12件) を見る

*1:*China, Japan, Korea

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

アニゲーナビ！•9ヶ月前

ツイッター（X）新ロゴはユニコードをそのまま使用している？

イーロン・マスク氏が「Twitter」ブランドの利用を終了し、「X」に改名する意向を示したとのこと。その後ツイッターのロゴが「X」になりました！ただ、そのロゴがユニコードをそのまま使用している可能性があると言われています。え？XのロゴってU+1d54fの𝕏そのまんまなの？？え？？？ pic.twitter.com/kIIP0tH5dX — look Sky (@Zisin_YT_LiVe) 2023年7月24日暫定のロゴだったりするのでしょうか？ランキング参加中アニメ X Singles アーティスト:X Ki/oon Sony キューンソニー Amazon X JAPAN THE…

#ツイッター#X#Twitter#TwitterX#ユニコード#イーロン・マスク

ネットで話題

692ブックマーク「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記

moriyoshi.hatenablog.com

545ブックマーク「ユニコードは犯罪だからやめてください」の衝撃 - yanok.net 新年早々、大笑いしてしまったこと。下らないといえば下らないので書くまでもないかと思ったのですが、後で忘れた頃に読み返すと面白いかもしれないので書きとめておくことにします。何があったのかは下記のページに詳しく書かれてあります。こちらを読んでいただければ、ぶっちゃけそれ以上のことはないです。「LINE...

yanok.net

235ブックマーク絵文字のユニコード符号化: 符号化提案用のオープンソースデータ

japan.googleblog.com

122ブックマークユニコード15.1に採用された漢字構成記述文字記号｜Qvarie

note.com

101ブックマーク 10進、16進文字コードin HTMLユニコード印刷可能ASCII文字、すべてのスペース、句読点、改行コード、水平タブ、アクセント記号付き文字、およびその他の非ASCII文字を&#nn;または&#xnn;というHTMLユニコード(Unicode)形式に変換します。

code.cside.com

56ブックマーク Amazon.co.jp: ユニコード戦記 ─文字符号の国際標準化バトル: 小林龍生: 本

www.amazon.co.jp

52ブックマーク Unicode(ユニコード)一覧表「うにこ～ど」うにこ～ど(Unicode)とはコンピュータ上で多言語の文字を単一の文字コードで取り扱うために1980年代に提唱された文字コードです。本当は「ユニコード」と読みます。(^_^) 記号などの文字を探すのに便利なように作った Unicode一覧表です。 Javascript が有効になっていないと動きません。あしからず・・・。バージョ...

unicode.ninpou.jp

49ブックマークユニコード一覧表:Unicode(文字入力可能)ユニコード一覧表エーゲ数字 Aegean Numbers 錬金術記号 Alchemical Symbols アルファベット表示形 Alphabetic Presentation Forms 古代ギリシア音符記号 Ancient Greek Musical Notation 古代ギリシア数字 Ancient Greek Numbers 古代記号 Ancient Symbols アラビア文字 Arabic アラビア表示形A Arabic Presentation F...

code.cside.com

46ブックマークユニコード表全ユニコード文字の一覧表

www.tamasoft.co.jp

関連ブログ

開けて悔しき玉手箱のブログ•5日前

日本では、2012年にダニエル・エヴェレットによる『ピダハン—「言語本能」を超える文化と世界観』（みすず書房、原題：眠らないで、蛇がいる、2008年）が出版されたことや、2014年8月16日にNHKＥテレ「地球ドラマチック」において『ピダハン謎の言語を操るアマゾンの民』（原題：The Amazon Code、制作：オーストラリア、2012年）が放送されて以来知られるようになった【独自研究？】この番組によれば、ピハン語の文法には再帰が無く、また過去形や未来形といったものが無いという言語学的特徴を備えており、

ピダハン語ウィキペディアフリー百科事典言語ヨーロッパフランス語ピダハン語（ピダハンゴ、ピラハ語（ピラハゴ）、ピラハン語（ピラハーゴ）、ピラハン語（ピラハンゴ）、葡: Língua pirarrã、英: Pirahã language）は、ブラジル・アマゾナス州に住むピダハン族が存在する固有の言語である。概要ピダハン語、発音 ... ピダハン語サパイティイソ「」 IPA : [ʔàpài̯ˈtʃîːsò] 話される国ブラジル地域アマゾン川民族ピダハン族話数 250～380（2009年）言語系統ムーラ語ピダハン語言語コード ISO 639-3 myp グロットロ…

PC関連のチラ裏•13日前

docomoのユニコード絵文字を無効化する

SO-52C(A14 65.2.B.2.112、アプデめんどい)をroot取って使っていたところ、ユニコード絵文字がキモいのに気づいたので、修正。 /oem/fonts/ColorUniEmoji.ttf /oem/fonts/DcmColorIEmoji.ttf これらをリネーム退避(.bakなど)するだけ。・・いや、DcmColorIEmoji.ttfは特に確信なく退避した。けどDcmって書いてあるし、要らんやろ。/oemはRW化してあること前提。/oem、碌なものが入ってない。

martingale & Brownian motion•13日前

Ｄ４ＤＪの奇妙な感動

スマホゲームのグルミクだが、テレビシリーズがあった後も、ストーリーはゲーム内でどんどん進んでいる。新たに、アビスメアとユニコードが加わって、ストーリーは、アビスメアのボーカルのネオと、ユニコードのボーカルの一星ルミナの二人を中心として話は進む。といっても、一星ルミナは人間ではない。ブイチューバーとして活躍する、作品内では「ＡＩ」と呼ばれるロボットだ。彼女は実体がない。肉体がない。天才科学者が生み出した、人間の心をもつＡＩであり、その今は亡き科学者の娘がネオであり、この二人は奇妙な「姉妹」関係となっている。ストーリーは、このＡＩという、ＩＴ系の人たちが身近に思っている話題を中心にして進む…

seiichiro-seki’s diary•22日前

ふと気づいたこと

新聞を読んでいて時間はどちらに流れますか？と書いてあるのを見つけました。時間の流れ、という意識はなくても、グラフを書いて、数値の増えていく方向、これって「左から右」ですよね。よく時を含んだ関数のグラフなんて見ますけど、これが普通。ちなみに、電気回路の、まあ回路図ですが、これも普通は左から信号が入って右に抜けていくことが多いです。わざわざ、但し書き、のあるものもありますが。この文章も、左から右、これもぼくの世代以降なら「常識」でしょう。でも、縦書きだと違いますね。次の行へ、これは右から左ですよね。横書きも、右から左だった気もします。まあ、縦書きは確実に左に向かって進んでいきます…

vienenasia80_いらっしゃいのブログ•1ヶ月前

火猫の足掻き

火猫の足掻き昔の民家の厨房は、土間で有った。当時は下駄を履いて居たので、土間は凸凹で有った。玄関口から、裏口迄、下駄を履いた儘、通り抜けが出来た。極寒の冬は、土間は氷床の如くに冷える。下駄を履かぬ家猫は、御三度で動き廻る、姉さん被りの若女将の下駄の花緒の上にも載りたがる。下駄に踏まれて大童。厨房は土間で在ったが、食事は板の間で行って居た。猫は竃で寝て居た、残熱を求めて。当時の竃は、稲藁や麦藁を炊いて居た。白猫も灰に塗れて灰猫に成る。世界には灰被り娘の童話が多い、物語の筋が少しずつ違う。グリム兄弟の灰被り姫が、原作に近いが、ディズニーの動画のシンデレラは、原作からの乖離が酷い、原作には無い…

Oboe吹きプログラマの黙示録•1ヶ月前

サクラエディタ　ユニコード変換マクロ

ユニコードのままの文字列を元の2byte文字に変換するマクロunicodeEscape.js var cnt = GetLineCount(0); var result = ''; for (var i = 1; i <= cnt; i++) { // i行目を取得 var str = GetLineStr(i); // \u.... の文字列の配列で取得、大文字小文字は問わない uniArray = str.match(/\\u.{4}/ig); if (uniArray) { for (var j = 0, len = uniArray.length; j < len; j++) { st…

Pythonを勉強してみる人の日記•1ヶ月前

Python16日目②　pandasとの遭遇

こんばんは。 16日目②を始めます。次の章はpandasというものを勉強するとのことで、なんだかとっても便利そうな香りです。早速取り掛かったのですが、標準装備されているはずのテストデータがなぜか見つからず… test.csvというファイルがあることになっているらしいのですが、Pythonの同じ階層にはなく、PC内にもなく、結局どうやっても見つからなくて次に進めないので本に書いてある通りに入力してcsvファイルを一から作りました。力技です… そして read_csv("test.csv") で読み込もうとすると… UnicodeDecodeError: 'utf-8' codec can't…

PC関連のチラ裏•1ヶ月前

Xperia10IV(SO-52C)を買ったのでMagiskインストールくらいまで。

ぼくのかんがえたさいきょうの日常用メインスマホ rootを取れる、できればカスロム開発も活発(アプデ捨てられても最悪何とかなる) 横幅小さめで握りやすい、片手で操作しやすいスペックも(ゲームしない範囲で)快適であれば十分裸運用で手荒にも扱える価格帯古すぎない(5G非対応とかは悲しい) そんなスマホ(ゲームはサブ機のPixel6で十分)を求めていまして、これまではiPhone SE1だったのですが。バッテリーを何度か交換している(DIY)+予備機まである2台体制なのにバッテリーがすぐ限界になってしまうのと、なによりiOSの脱獄事情に嫌気が差してきました。まず脱獄可能なOSバージョンが周回遅…

seiichiro-seki’s diary•1ヶ月前

僕も使うA I？ありました

Google翻訳（笑）。 AIじゃないですか？でもあれは結構助かってますけどね。ただ、落とし穴もあると思いますが（汗）。何語でもほぼ自動で翻訳してくれるじゃないですか？だから、判定もしてくれますよね。そうじゃないと「何語かわからない」方が多いわけですからね。だけどここでまず引っかかることがあります。何語かさっぱりわからなかったのとがあって、英語(というか、アルファベット混じり)の文章をそのままGoogle翻訳に入れてみました。結果は判定できず（汗）。のちにこれはグルジア語という事が判明するのですが、その文章を貼り付けておいたものはなぜかタイ語、あれ？。でも確かにグルジア語なんですよ…

すやすや眠るみたくすらすら書けたら•1ヶ月前

日記；2023/12/01～12/31

以下、日記です(12万字くらい) 京SFフェスにじフェス紅白と、祭り祭り祭りのひと月でした。「紅白の日記はイラストなどがなけりゃ分かりにくいだろう」とクリップスタジオを立ち上げたものの３か月進捗ゼロなのであきらめてアップします。また事後UPゆえの後知恵もさしこみます。それ除き興味ぶかかったのは1219に書いたこと（よいASMR動画は音がいい？絵と音の連動がいい？音さえ無くて良い；「貫通耳かき」&「耳内水溜まり」ASMR動画からみる人体の不思議）。パリパリ音を聞きながら食べるとポテチがおいしくなる('08)……じゃあ音が出ない食べ物については？('16)という「音響調味」の更なる成果/活…

seiichiro-seki’s diary•1ヶ月前

あららら。。。

さっきの、読めないですね。何だか、自分のリンク先辿ったら辿れないし。もう一度やってみます。 ------ メールあれこれメモ変なメールが大量に届いているのに気がついたので、ちょっとその素性を探ってみた。なかなか気が付かなかったのにはちゃんと理由があるまず、ちゃんとおれのところに届いていなかったものがある事。 AppleID宛のメールは、iCloudに取り込まれるので、送られてきたことすら知らなかった。どうしてもサーバーに接続できないのでOutlookで繋いでみたらうまく行った。よく見てみると、mail serverが”~.me.com”になっていた。これがまずかったらしい（苦…

ほたてメモ•2ヶ月前

PHP8.2 で DOM操作をする際のエンティティの変換について

PHP7.4 で HTML を DOMDocument を使って変換する処理をしていたが PHP8.2 に上げたところ、 mb_convert_encoding の Deprecated エラーが出るようになった。 PHP Deprecated: mb_convert_encoding(): Handling HTML entities via mbstring is deprecated; use htmlspecialchars, htmlentities, or mb_encode_numericentity/mb_decode_numericentity エラーを解消するのに手間取った…

sixty-life•3ヶ月前

いろいろなデータ型③浮動小数、理論値、文字

基礎からのJava 改訂版 Part 02 Chapter 06（P.84）浮動小数小数を扱う時のデータ型＜double＞特に理由がなければ通常 double を使う。（範囲が広く精度が細かい）＜float＞膨大な個数のデータを扱う時浮動小数のリテラル double a = 1.2; 普通に小数点つきの数字を使う double型かfloat型かを明示的に示す場合は数字の後ろにd、fをつける。d=double, f= float double a = 1.2d; float b = 1.2f; 数字の後のd、f（大文字でも可）を省略した場合はdouble型とみなされる。誤った例：…

ray88’s diary•3ヶ月前

Uipath　VBSを実行する（指定した日数よりも前の日付フォルダを削除）

UiPath 目次 - ray88’s diary※備考：今回はVBScriptでバッチを実行したが、文字コードの問題上、出力引数に結果を日本語格納しようとすると文字化けし、これについての解決方法が最後まで不明だった。なお、入力引数に日本語が含まれており、スクリプト内で処理することについては問題なく動作する。出力引数に格納する時点で文字化けが起こるようだ。UTF-8形式のファイルにしたり、ユニコード対応にチェックをいれるなどしても駄目だった。■指定した親フォルダパスのフォルダ内にあるサブフォルダ名（yyyyMMddHHmmssの日付形式のフォルダ名）を取得し、指定した日数よりも前の日付の名前…

荒らし連合軍歴史調査団公式•3ヶ月前

荒らし連合軍ではどんな荒らしが行われていたのか

**荒らし連合軍のDiscord荒らし方法の歴史は深く様々な方法があったようだ**# コマンド荒らし主にbanされた時のメッセージ一括削除を避けるべく少しでも荒らしの爪痕を残そうと考案された荒らし方法である。!helpなどのコマンドを使ってbotを呼び出す方法とbotをメンションする方法があり、どちらも使えるbotは限られているが上手く使いこなせれば総合的にチャンネルに投稿されるメッセージが2倍になる。また、botの応答速度による遅延を使い荒らしをしているアカウントが蹴られた後もbotが荒らし続けるなどの技も可能である。### スラッシュコマンド荒らしこれの派生型としてスラッシュコマンド荒らし…

概要

エンコード方法

Windowsでは

バージョン推移

関連ブログ

ツイッター（X）新ロゴはユニコードをそのまま使用している？

ネットで話題

関連ブログ

docomoのユニコード絵文字を無効化する

Ｄ４ＤＪの奇妙な感動

ふと気づいたこと

火猫の足掻き

サクラエディタ ユニコード変換マクロ

Python16日目② pandasとの遭遇

Xperia10IV(SO-52C)を買ったのでMagiskインストールくらいまで。

僕も使うA I？ありました

日記；2023/12/01～12/31

あららら。。。

PHP8.2 で DOM操作をする際のエンティティの変換について

いろいろなデータ型③浮動小数、理論値、文字

Uipath VBSを実行する（指定した日数よりも前の日付フォルダを削除）

荒らし連合軍ではどんな荒らしが行われていたのか

サクラエディタ　ユニコード変換マクロ

Python16日目②　pandasとの遭遇

Uipath　VBSを実行する（指定した日数よりも前の日付フォルダを削除）