Chinesische Zeichenkodierung

aus Wikipedia, der freien Enzyklopädie

Du hast neue Nachrichten (Unterschied zur vorletzten Version).

Chinesischen Zeichenkodierungen (汉字编码方法，Hànzì biānmǎ fāngfǎ) ordnen den chinesischen Schriftzeichen Bytefolgen zur Bearbeitung und Speicherung im Computer zu. Alle chinesischen Zeichenkodierungen enthalten auch eine Kodierung der ASCII-Zeichen.

Von den vielen Sprachen und Schriften auf der Welt gibt es wahrscheinlich am meisten Kodierungs- und Eingabemethoden nur für das Chinesische. Statistiken folgend, übersteigt die Anzahl der Kodierungskonzepte für die Eingabe chinesischer Schriftzeichen fünfhundert Stück. Es gibt etwa 40-50 verschiedene Kodes allein für entworfene Software, die formal im Computer getestet wurde. Aber diejenigen Konzepte, die in der Gesellschaft verwendet werden und kommerzialisierbar sind, sind nicht mehr als 10 Stück.

Dies hat ganz offensichtlich mit der hohen Anzahl an chinesischen Schriftzeichen und der komplizierten Form zu tun, gleichzeitig besteht eine direkte Verbindung mit den Tatsachen, dass es in China sehr viele Dialekte gibt, die Sprache und Schrift in den einzelnen Regionen nicht übereinstimmt und die allgemeine Hochsprache noch nicht ausreichend verbreitet ist.

[Bearbeiten] Kodierung und Eingabe

Die meisten Kodierungsmethoden für chinesische Schriftzeichen, die mit der Tastatur eingegeben werden, lassen sich grob in vier Kategorien einteilen:

"fließende Kodierung" (流水码 Liúshuǐmǎ),
Kodierung nach der Form des Schriftzeichens (字形码 Zìxíngmǎ),
Kodierung nach dem Laut des Schriftzeichens (字音码 Zìyīnmǎ),
Kodierung nach Laut und Form des Schriftzeichens (形音码 Xíngyīnmǎ oder 音形码 Yīnxíngmǎ).

[Bearbeiten] Liushui-Kodierung

Auch 无理码 wúlǐmǎ (unvernünftige Codierung) genannt.

Normalerweise werden arabische Ziffern oder lateinische Buchstaben verwendet, um die chinesischen Schriftzeichen zu kodieren, zum Beispiel war das Sima-dianbao, ein verschlüsselter Telegrammkode, das das Ministerium für Post- und Fernmeldewesen benutzte, eine typische Liushui-Kodierung. Im Prinzip kann man mit den Zahlen von 0001 bis 9999 fast zehntausend Schriftzeichen kodieren. Man kann die Kodierung dazu verwenden, Telegramme zu schreiben, aber das Ministerium für Post- und Fernmeldewesen benutzte es auch als Kodierungsmethode für die chinesischen Schriftzeichen.

Der Guojia biaozhun (zu Deutsch: nationaler Standard), (Version:„Informationsaustausch mit der Basissammlung von Zeichen zur Kodierung chinesischer Schriftzeichen (GB 2312-80)“, kodiert 6763 chinesische Schriftzeichen mit den Positionen 1601 bis 8794 aus der Reihenfolge des Liushui-Kodes. Das ist der unter dem Namen 区位码 „Qūwèimǎ" (Zonenkode) bekannte Kode. Der Telegrammkode der beiden Zeichen 中国 (Zhōngguó, zu Deutsch: China) ist 0022 und 0948, und der Zonencode ist 5448 und 2590.

[Bearbeiten] Kodierung nach der Form des Schriftzeichens

Die Kodierung nach der Gestalt der Zeichen kann in drei Sorten eingeteilt werden: Kodierung für die Gestalt der Striche, Kodierung für die Wurzel des Schriftzeichens, Kodierung für Merkmale des Schriftzeichens.

[Bearbeiten] Kodierung für die Gestalt der Striche

Die Kodierung für die Gestalt der Strichebenutzt die grundlegendsten Striche als Eingabe-Einheiten.

Li Jinkais Acht-Striche-Codierung ist eine typische Kodierung für die Gestalt der Striche. Er teilt die Striche der chinesischen Schriftzeichen in acht Sorten ein: "ー" Heng, "|" Shu, "丿" Pie, "丶" Dian, Zhe, Wan, Cha, Fang, und kodiert sie mit den Zahlen von 1 bis 8. Zum Beispiel ist die Codierung für die beiden Zeichen 中国 "82" und "81714".

Die Strichcodierung im Wubizixing-Code ist die „Methode des zerteilten Zeichens“. Die Striche "ー" Heng, "|" Shu, "丿" Pie, Na, Zhe, werden mit den Zahlen von 1 bis 5 codiert.

[Bearbeiten] Kodierung für die Wurzel des Schriftzeichens

Wird auch Radikal-Kodierung oder Struktur-Kodierung genannt, mit den Radikalen der chinesischen Schriftzeichen als Eingabe-Einheiten.

Wang Yongmins Wubizixing-Code ist typisch für eine Kodierung der Wurzel des Zeichens. Er fasste 130 grundlegende Wurzelzeichen zusammen, ordnete sie auf der Tastatur an, auf jeder Taste sechs Wurzelzeichen, eine Taste wird mehrmals verwendet. Die Taste "L" steht z.B. für 车, 力, 甲, 田, 四, 口. Beim Eingeben drückt man die entsprechenden Tasten mit der Buchstabenkombination und schon kann man das benötigte Zeichen eingeben. Drückt man zum Beispiel "khk" und "lgyi", so werden auf dem Bildschirm die beiden Zeichen 中国 ausgegeben.

[Bearbeiten] Kodierung für Merkmale des Schriftzeichens

Es wird gemäß der Gesetzmäßigkeiten der Konturmerkmale der chinesischen Schriftzeichen kodiert. Beispiele: 角码 Jiǎomǎ (Eckenkode). Es gibt die Drei-Ecken-Kodierung von Wang An und die Vier-Ecken-Nummer-Kodierung von Wang Yunwu u.a.

[Bearbeiten] Kodierung nach dem Laut des Schriftzeichens

Die Kodierung nach dem Laut des Schriftzeichens heißt auch Pinyin-Eingabe-Kodierung und wird im Zusammenhang mit intelligenten Eingabesystemen für lateinische Buchstaben verwendet.

Die Schriftzeichen werden mit ihrer Lautung kodiert. Normalerweise kommen die wichtigen Faktoren Anlaut, Auslaut und Töne zum tragen. Die Kodierung nach dem Laut der Schriftzeichen kann weiter eingeteilt werden in die Arten

„komplette Buchstabierung" (全拼 quán pīn),
„doppelte Buchstabierung" (双拼 shuāng pīn) und
„vermischte Buchstabierung" (混拼 hùn pīn).

Zum Beispiel ist die "komplette Buchstabierung" von 中国 "Zhōngguó". Man gibt acht Buchstaben ein. Die doppelte Buchstabierung ist "vsgo", man gibt einen Kode aus vier Buchstaben ein, davon steht "vs" jeweils für die Anlaute "zh" und "g", "s" und "o" jeweils für die Auslaute "ong" und "uo". Die vermischte Buchstabierung ist "jiaty", man gibt einen Code aus fünf Buchstaben ein.

Von den drei oben aufgeführten Sorten entspricht nur die "komplette Buchstabierung" der normierten Schreibung für die Buchstabierung der chinesischen Schrift (Pinyin), die doppelte Buchstabierung und die vermischte Buchstabierung sind von den Designern des Codes entworfen worden. Die oben genannten Beispiele „doppelte Buchstabierung“ und „vermischte Buchstabierung“ sind jeweils ein natürlicher Code und ein spezieller Entwurf für das CCDOS-System.

[Bearbeiten] Kodierung nach Laut und Form des Schriftzeichens

Diese Kodierungsart ist eine Verbindung aus der Kodierung nach der Form der Schriftzeichen und der Kodierung nach dem Laut der Schriftzeichen. Darunter kann man aufteilen in Laut-Form-Codierung, Form-Laut-Codierung, Laut-Bedeutung-Codierung und andere.

[Bearbeiten] Gegenwärtige Verwendung

Oben wurden vier Möglichkeiten angeführt, chinesische Schriftzeichen zu kodieren bzw. einzugeben. Aus der Sicht der gegenwärtigen Anwendung favorisieren diejenigen, die Chinesisch sprechen können und das Pinyin für Chinesisch verstehen die Pinyin-Eingabemethode. Diejenigen, die Dialekt sprechen benutzen lieber eine Kodierung nach der Form der Schriftzeichen, das Wubizixing wird deswegen von den meisten professionellen Tippern beherrscht.

[Bearbeiten] Kodierung im Internet

Wenn man seinen Browser beim Laden von chinesischsprachigen Websites richtig einstellen will, trifft man meist auf folgende Codes:

[Bearbeiten] Big5

Die Zeichenkodierung Big5 stammt aus Taiwan und wird für traditionelles Chinesisch verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei Bytes kodiert.

[Bearbeiten] GB2312

Die Zeichenkodierung GB2312 wird für vereinfachtes Chinesisch verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei Bytes kodiert.

[Bearbeiten] GB18030

Die Zeichenkodierung GB18030 ist eine Erweiterung von GB2312 auf den Unicodezeichenvorrat und wird für vereinfachtes Chinesisch verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei oder vier Bytes kodiert. In der Fassung GB 18030-2000 sind 110.000 Zeichen definiert.

[Bearbeiten] Unicode

Unicode unterscheidet sich von den anderen chinesischen Zeichenkodierungen dadurch, dass kein Unterschied zwischen vereinfachtem und traditionellem Chinesisch gemacht wird, sondern durch die Han-Vereinheitlichung alle chinesischen und japanischen Schriftzeichen soweit wie möglich identifiziert werden.

[Bearbeiten] Unicode Transformation Formats

Unicode ordnet den Zeichen zuerst abstrakte Nummern zu, die Umsetzung in Bytefolgen ist in den Unicode Transformation Formats definiert.

UTF-8: In UTF-8 werden ASCII-Zeichen in einem Byte kodiert und chinesische Zeichen in drei oder vier Bytes.
UTF-16: In UTF-16 werden ASCII-Zeichen in zwei Bytes kodiert und chinesische Zeichen in zwei oder vier Bytes.
UTF-32: In UTF-32 werden ASCII-Zeichen und chinesische Zeichen in vier Bytes kodiert.

[Bearbeiten] SIP

Für eine große Anzahl von wenig benutzten Zeichen werden die Codes in der Supplementary Ideographic Plane alloziiert, d.h. im Bereich U+20000-U+2FFFF.

[Bearbeiten] Sonstige Unicode-Bereiche

Unicode hat auch Bereiche für Bopomofo, Radikale und Sonderzeichen, die für die Typographie gebraucht werden. Die lateinischen Zeichen mit Angabe des Tons, wie sie für Pinyin gebraucht werden, sind über den Bereich für kombinierende diakritische Zeichen darstellbar.

[Bearbeiten] Weblinks

GB18030 Zusammenfassung PDF (englisch)
Eingabesysteme (unter UNIX, Linux, BSD usw.): OXIM, SCIM/SKIM, XCIN
CJK

Von „http://de.wikipedia.org../../../c/h/i/Chinesische_Zeichenkodierung_67d4.html“

Kategorien: Zeichenkodierung | Chinesische Schrift