Web Analytics
Privacy Policy Cookie Policy Terms and Conditions Unicode - Wikipedia

Unicode

出典: フリー百科事典『ウィキペディア(Wikipedia)』

Unicode(ユニコード)とはコンピュータ上で多言語の文字を一つの文字コードで取り扱うために1980年代に提唱された文字コードである。

目次

[編集] 概要

ゼロックス社が提唱し、マイクロソフトアップルIBMサン・マイクロシステムズヒューレット・パッカードジャストシステムなどが参加するユニコードコンソーシアムにより作られ、1993年ISOでもISO/IEC 10646の一部として標準化された。

世界で使われる全ての文字を共通の符号化文字集合にて利用できるようにしようということで作られ、NT系Microsoft WindowsMac OS XLinuxJava言語などでの内部コードとして利用されている。

元々16ビットの文字集合[1]で全ての文字の網羅を目指して開発されたが、コードポイントが圧倒的に足りず、現在では21ビットの文字集合[2]として規定されている。

収録されている文字は、各国で標準として規定されている文字セットを持ち寄り、委員会により取捨選択されている。日本の文字については当初よりJIS X 0201JIS X 0208JIS X 0212を、Unicode 3.1ではJIS X 0213の内容を収録している。

また収録においては同じ意味・目的の文字は、できる限り同じコードポイントに割り当てる方針を取っている。そのため、CJK統合(中国語、日本語、韓国語で使用する漢字の統合)の際には大きな議論となった。 ISO/IEC 10646とは別の組織で標準化されているため、厳密には違うものであるが、互いに非互換が生じないように慎重に標準化が進められている。

既存の符合化方式との相互運用性(interoperability)もある程度考慮されており、同じグリフ(字形)の文字であっても、歴史上・実用上の識別が求められる場合には互換領域がとられ、Unicodeを介在して文字コード変換を行った際に、復元可能となるように考慮されている。しかしながら、他の符号化文字集合(文字符号化方式)との変換の整合性においては、いくつかの問題がある[3]

[編集] 文字集合

UNICODEに収録されている文字は以下の通り。

0面 BMP U+xxxx
基本多言語面(Basic Multilingual Plane)
収録されている主な文字は次の通り(一部記号などは省略)
など
1面 SMP U+1xxxx
補助多言語面(Supplementary Multilingual Plane) - 古代文字、音符用記号など
2面 SIP U+2xxxx
補助漢字面(Supplementary Ideograph Plane) - CJK統合漢字Extension-Bなど
14面 SSP U+Exxxx
補助特殊用途面(Supplementary Special-purpose Plane) - 言語タグ、異体字セレクタなど
15面/16面 U+Fxxxx, U+10xxxx
私用領域(Private Use Area) - 外字

基本多言語面(BMP Basic Multilingual Plane)と呼ばれる16ビットで表現できる部分(プレーン)の標準化を終え、残りの16面(補助プレーン)の文字を選定中である。

[編集] エンコーディング(符号化方式)

UnicodeのUTFはUnicode Transformation Formatの略。

UTF-1
初期に提案されていた、8ビットコードによる方式。ほとんど利用されることなくUTF-8にとって代わられた。
UTF-5
国際化ドメイン名での利用を想定し、0~9、A~Vの32文字でエンコードする方式。利用されていない。
UTF-7
UTF-16で表したUnicodeをBase64で変換して表す方式。ただし、ASCIIのアルファベット範囲等についてはBase64に変換しない等、特殊なエンコーディングを行う。かつてのSMTP等のように、7ビット単位でしかデータを送信出来ない通信方式を利用する場合を想定して作られている。運用上、厄介な問題が多いため、現在ではこの方式は推奨されていない。Unicode文字を7ビット単位伝送通信にどうしても通さなければならない場合は、替わりにUTF-8Base64変換するなどの方式が好ましいとされる。
UTF-8 (UTF-2、UTF-FSS)
8ビット単位の可変長コード(1~4バイト)にエンコードする方式。ASCIIに対して上位互換となっており、文字の境界が明確である、エンコード・デコードに際して乗除算などの負荷の高い処理が必要ないなどの特長を持ち、インターネットではもっとも一般的に利用されている。
BOM(Byte Order Mark)がついているものをUTF-8、ついていないものをUTF-8Nとして区別することもある。[4]Internet Explorerでは、BOMのついていないUTF-8の文書を読み込むとShift_JISだと誤認する一方で、BOMがついていると有効なデータとして受け付けないアプリケーションも存在する。[5]
UTF-16
BMP面を16ビット、その他をサロゲートペアという仕組みを使い32ビットで指定する文字コード。Windows XPなどの近年のOSの内部コードには、この形式が使われている。UCS-2ともBMP面の範囲で互換性がある。
ファイルの先頭には通常BOM[6]が付与される。ビッグエンディアンのものをUTF-16BEリトルエンディアンのものをUTF-16LEとして区別することもある。Windows上の文書における「Unicodeテキスト」は特に明記のない場合につき、リトルエンディアンのことを指す。
UTF-32 (Unicode 3.1以降)
Unicodeの全コードを単一長のコードとして32ビットで指定するコード。実際に使われるのは21ビット(Unicodeの空間がU+10FFFFまでであるため)。この21ビットの範囲内ではUCS-4と互換性がある。


また、一般には用いられていないが以下のような方式もある。

UTF-9
可変長の9ビットコードによりエンコードする方式。1バイトが8ビットオクテット)ではなく9ビット(ノネット)であるような環境での利用を想定している。UTF-8と比較した場合、Latin-1領域が1バイト、CJK統合漢字領域が2バイトで表現できる特長があり、データ量が少なくなる。ワード長が9の倍数のコンピュータ(ACOS-6など)であれば計算コストも低い。
UTF-18
UTF-9に拡張を施し、18ビットと36ビットで表現するようにした方式。UTF-8に対するUTF-16のようなもの。

なおこれら規格はエイプリルフールに公開されたジョークである。(UTF-9に関しては同名の規格が実際に検討されていたが、ドラフト段階で破棄されているため重複にはならないものと思われる。)


その他

UCS-2
これは、ISO/IEC 10646(UCS-4)のサブセットとしての符号化文字集合であるが、Unicodeの非公式な文字符号化方式としてよく使われる。UTF-16と似ているが、Unicode番号が5桁以上の文字(BMPに無い文字)を一律扱わない点が違う。

[編集] サロゲートペア

Unicodeは216=65,536種類の文字を収録でき、当初の構想では世界中のすべての文字をこの16ビット固定長のコード体系に登録可能と思われていた。だが、Unicode 1.0公表後、拡張可能な空き領域2万字分を巡り、各国から文字追加要求が起こった。その内容は中国、日本、台湾、ベトナム、シンガポールの追加漢字約1万5千字、古ハングル約5千字、未登録言語の文字等々である。このため、Unicodeの16ビット枠内に全世界の文字を収録するという計画は早々に破綻し、1996年、Unicode 2.0ではサロゲートペア (Surrogate Pair)の拡張が盛り込まれた。Surrogateは「代理」、Pairは「対(つい)」の意味。

サロゲートペアは16ビットUnicodeの未定義領域1024文字分を2つ使い(前半0xD800~0xDBFF,後半0xDC00~0xDFFF)、それをペアにすることで1文字を表し(1024×1024=1,048,576文字)、その1,048,576文字を256×256の区点(row,cell)からなる「面」(plane)に順番に割り振っていく。これにより1,048,576÷(256×256=65,536)=16で、全部で第16面までの文字を収録することができる。つまり第01面から第16面までであり、これに加えて第00面(BMP)も使用可能なので、合計で1,048,576+65,536-2,048=111万2,064文字が使用可能になる。エスケープシーケンスこそ使用しないものの、16ビット文字コード体系との互換性を維持するために、UTF-16(16ビットを基本単位とする文字符号化体系)を採用した結果、Unicodeは16ビットと32ビットが混在する複雑な可変長文字コードとなってしまった。

なお、2000年にJIS漢字を拡張する目的でJIS X 0213(いわゆるJIS第3第4水準)が制定されたが、この際、新たに採用された文字でUnicodeに無かったものの一部は、BMP に収録できず、第2面への収録となった(最終対応は2002年)。このため、JIS X 0213収録文字を完全にサポートするにはサロゲートペアをサポートしたOSフォントアプリケーションが必要となる[7]

サロゲートペアの方式は16ビット固定長を志向したUTF-16との互換性維持のために設けられた拡張であり、UTF-8符号化方式では利用されることはないが、多くのOS、アプリケーションは内部のエンコード方式にUTF-16を使用しているため、事実上、UTF-8で使用できる文字もサロゲートペアへの対応、非対応に拘束されることになる。

[編集] 歴史

[編集] 日本語環境でのUnicodeの諸問題

YEN SIGN問題
Shift_JISではJIS X 0201における円記号(YEN SIGN)が0x5Cに置かれている。これをUnicodeのマッピングに合わせるとYEN SIGN(U+00A5)にマップされる。しかし、0x5CはASCIIではバックスラッシュに相当し、C言語などのエスケープシーケンスに使われる事から、この文字のコードを変更すると、コンパイルが通らない、動作に不具合が生じるなどの問題が起きる。そのためUnicodeを利用するアプリケーションは0x007F以下のコードに関しては移動させないと言う暗黙のルールができている。
そうなると、Unicode環境では半角¥がバックスラッシュの表示に変わってしまうように思われるが、これは日本語用のフォントデータの0x5Cの位置には¥記号の字形を当ててしまうことで対処している(Windowsの場合)。これによって、それまでの文字コードを使用していたときと同じ感覚で¥を用いることができる。
この問題は日本語環境に限った事ではない。もともと、ISO646上で0x5Cを含む数種の文字は自由領域(バリアント)として各国での定義を認めていた。そのため、諸外国でもASCIIでバックスラッシュに相当するコードに異なる記号を当てているケースが多い。例えば、大韓民国ではウォン記号である。
WAVE DASH - FULLWIDTH TILDE問題
JIS X 0208において、『0x2141(Shift_JISでは0x8160)』に割り当てられている『波線(〜)』を、MicrosoftWindowsShift_JIS⇔Unicode変換テーブルを作成する際にUnicodeにおける『FULLWIDTH TILDE=全角チルダ=U+FF5E(~)』に割り当てた。JIS X 0221規定のJIS X 0208JIS X 0221対応表では『波線=0x2141 (〜)』は『WAVE DASH=波ダッシュ=U+301C (〜)』に対応させており、不整合が生じる。アップル・コンピュータ等のJIS X 0221準拠のShift_JIS⇔Unicode変換テーブルをもつ処理系と、Windowsとの間でUnicodeデータをやり取りする場合、文字化けを起こすことになる。そこでWinodws以外のOS上で動くアプリケーションの中には、CP932という名前でMicrosoft仕様のShift_JISコード体系を別途用意して対応しているケースが多い[8]
ところで、なぜMicrosoftは『波線=0x2141(〜)』を『FULLWIDTH TILDE=全角チルダ=U+FF5E(~)』に割り当てたのかというと、Unicodeの規格書におけるWAVE DASHの例示字形が、ふつうに使われている形、すなわち左からまず上に上がってから下に下がる形「/\/」ではなく、左からまず下に下がってから上に上がる形「\/\」に定められたためではないかと思われる。ちなみにWindows Vista搭載のメイリオ、MSゴシック、MS明朝などの主要なフォントではWAVE DASHの字形は「/\/」に改められている。
WAVE DASH問題縁起

[編集] 一覧

Unicodeの一覧

0000-0FFF
1000-1FFF
2000-2FFF
3000-3FFF
4000-4FFF
5000-5FFF
6000-6FFF
7000-7FFF

8000-8FFF
9000-9FFF
A000-AFFF
B000-BFFF
C000-CFFF
D000-DFFF
E000-EFFF
F000-FFFF

10000-10FFF
12000-12FFF
1D000-1DFFF

20000-20FFF
21000-21FFF
22000-22FFF
23000-23FFF
24000-24FFF
25000-25FFF
26000-26FFF
27000-27FFF

28000-28FFF
29000-29FFF
2A000-2AFFF

2F000-2FFFF


E0000-E0FFF

[編集] 関連項目

[編集] 外部リンク

[編集] 脚注

  1. 現在、BMP面で規定されている領域のみの文字集合。この文字集合の範囲は、ISO/IEC 10646におけるUCS-2で定義される範囲と同一。
  2. ISO/IEC 10646におけるUCS-4は32ビットの文字集合であり、これとは別物。
  3. 例えば、CP51932eucJP-MSのように既存文字コード同士でUnicodeとの対応が一部違う場合には文字化けが発生する等がある。
  4. もともと8ビットを基本とするUTF-8ではBOMを付与する必要はないが、UTF-8であることを示すフラグとしてファイル先頭に0xEF,0xBB,0xBFの3バイトが付与されることがある。Windowsのメモ帳では標準でBOMが付与される。
  5. ここでいうBOMはバイトオーダーを表すものではなく、UTF-16における「真の意味でのBOM」と類似する存在であるがゆえに慣用的にこう呼ばれているに過ぎない。
  6. BOMとは、8ビットを基本とするシステムでバイトオーダーを識別するためのフラグであり、ファイルの先頭に付与される。値は0xFEFF。システムが読み込んだ先頭2バイトがU+FFFEならリトルエンディアン、0xFEFFならビッグエンディアンとして後に続く文書を処理する。
    RFC 2781 ではBOMが付いていないUTF-16文書はビッグエンディアンとして解釈することになっている。Windowsのメモ帳では標準でBOMが付与されるようになっている。
  7. Shift_JIS等、Unicodeにて規定されるもの以外のエンコーディングを利用する場合であっても、JIS X 0213に対応するフォントやアプリケーションが必要なことは言うまでも無い。
  8. この副次効果により、Windows以外のシステムにおいてもシフトJISにて、NEC特殊文字やIBM拡張文字を扱うことが出来るようになる。

THIS WEB:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2006:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu