Privacy Policy Cookie Policy Terms and Conditions Textdatei - Wikipedia

Textdatei

aus Wikipedia, der freien Enzyklopädie

Eine Textdatei, genauer auch Klartext-Datei oder ASCII-Datei genannt, ist eine spezielle Binärdatei welche (neben einigen Steuerzeichen) ausschließlich Text-Zeichen enthält. Diese Textzeichen werden üblicherweise im ASCII-Standard kodiert.

Inhaltsverzeichnis

[Bearbeiten] Hintergrund

Dateien lassen sich im Allgemeinen in zwei Kategorien unterteilen: Binärdateien und Textdateien. Eine Textdatei ist der Spezialfall einer Binärdatei, bei der fast alle in der Datei enthaltenen Zeichen als Text darstellbar und somit für den Menschen leicht lesbar sind.

Die Unterscheidung ist etwas spitzfindig, denn die eigentlichen Schaltkreise, die dafür sorgen, dass Informationen auf einen Datenträger geschrieben oder von diesem gelesen werden, kennen keine solche Unterscheidung zwischen Text und anderen Binär-Daten. Die Software, die sich mit diesen Schaltkreisen beschäftigt, macht diese Unterscheidung ebenfalls nicht. Auf der anderen Seite sind Menschen durchaus an der Unterscheidung interessiert.

Textdateien sind Dateien, die eine allgemeine Eins-zu-Eins-Übereinstimmung zwischen den Bytes und den menschenlesbaren Zeichen (Buchstaben, Satzzeichen und Ziffern) besitzen. Daher kann eine solche Datei mit jedem einfachen Dateibetrachtungsprogramm lesbar angezeigt werden. Zum Bearbeiten solcher Dateien reicht ein einfacher Texteditor wie beispielsweise Notepad, Textpad, Vim oder Emacs.

Allgemein enthalten Textdateien lesbare ASCII-Zeichen und ein paar vom Zeichensatz festgelegte Steuerzeichen wie Tabulatoren, Zeilenvorschübe (engl. Line Feed, kurz LF) und Wagenrückläufe (engl. Carriage Return, kurz CR), aber keine zusätzlich eingebettete Information wie z.B. Informationen über Schriftarten, Hyperlinks oder Grafiken. Wegen dieses einfachen Aufbaus solcher Dateien spricht man von „einfachem Text“ oder „Klartext“ (engl. „plain text“).

[Bearbeiten] Austausch zwischen Betriebssystemen

Das Übertragen von Textdateien zwischen Unix, Macintosh und Microsoft Windows oder DOS-Rechnern kann teilweise problematisch sein, da jede Plattform unterschiedliche Zeichen verwendet, um den Anfang einer neuen Zeile zu kennzeichnen (siehe auch Zeilenumbruch).

Textdateien können jedoch heute auf fast allen modernen Computern problemlos ausgelesen werden und lassen sich daher ohne größere Schwierigkeiten zwischen verschiedenen Betriebssystemen übertragen. Kleinere Unterschiede gibt es lediglich bei einigen Steuerzeichen. Ein Beispiel hierfür sind die Steuerzeichen am Zeilenende. Aus Gründen ihrer historischen Ableitung, aus dem ursprünglich Fernschreiber-basierten CP/M, wird bei den Betriebssystemen DOS und Windows die Kombination „Wagenrücklauf“ und „Zeilenvorschub“ (CRLF) verwendet. Die meisten anderen Betriebssysteme, wie Unix und Linux, verwenden dagegen nur den „Zeilenvorschub“ (LF). Ältere Mac OS-Versionen (vor Mac OS X), AmigaOS und einige weitere Betriebssysteme verwendeten hingegen nur den „Wagenrücklauf“ (CR), bis ab Mac OS X ebenfalls Unix bzw. eine andere BSD-Variante als Betriebssystembasis verwendet wurde. Dies führt jedoch kaum zu schwerwiegenden Problemen, da die meisten Softwareprodukte die gängigsten Kodierungen korrekt darstellen können.

Ein guter Texteditor sollte also:

  1. bei allen drei Formaten das Zeilenende korrekt erkennen können
  2. als Voreinstellung im selben Format wieder speichern.
  3. diese Voreinstellung aber ändern können, wenn man immer in einem bestimmten Format speichern möchte.
  4. bei Bedarf in einem der anderen Formate abspeichern.

Leider erfüllen nicht alle diese Forderungen. So wird bei einigen das "CRLF" als doppelter Zeilenvorschub interpretiert, so dass nach jeder Zeile eine Leerzeile eingefügt wird. Auch beim Speichern/Sichern wird häufig nicht das Format der geöffneten Datei behalten, sondern ohne Nachfrage oder Meldung in das Format des gerade verwendeten Betriebssystems gewandelt.

[Bearbeiten] Speichern von Daten in Textdateien

Obwohl Textdateien im Allgemeinen für Menschen lesbar sind, können sie von Computerprogrammen auch dazu verwendet werden, Daten zu speichern. Dies kann zum Beispiel getan werden, um Probleme zu vermeiden, die beim Verwenden von Binärdateien auftreten können, wie beispielsweise das Problem der Byte-Reihenfolge oder die Bytelänge von Ganzzahlen. Mit modernen Dateiformaten wie XML lassen sich ebenfalls höchst komplexe Datenstrukturen in Textdateien speichern, ohne dabei auf den programmiertechnischen Komfort des wahlfreien Daten-Zugriffs verzichten zu müssen.

Daten- und Konfigurationsdateien, die im Textformat gespeichert sind, werden auch als Flache Dateien (Flat Files) bezeichnet.

[Bearbeiten] Formatierter Text

Im Gegensatz zu reinem Text enthalten Dateien mit formatiertem Text vielfältige Steuersequenzen für Textformatierungen wie Fettschrift, Kursivschrift, Unterstreichungen, Seitenformatierungen, Randabstände, Fußnoten oder Bilder. Solche Steuersequenzen (oder Formatierungsbefehle) können entweder in einem menschenlesbaren Format vorliegen oder in einem für Menschen äußerst schwer nachvollziehbaren Binärformat. Während für die Bearbeitung von Binärformaten ein spezielles Textverarbeitungsprogramm notwendig ist, kann ein menschenlesbares Format von einem versierten Anwender notfalls auch in einem einfachen Texteditor bearbeitet werden.

[Bearbeiten] menschenlesbare Formatierungsbefehle

Zwei Beispiele hierfür sind das Rich Text Format (RTF) und die im Internet verwendete Sprache zur Gestaltung von Webseiten HTML.

Die Steuersequenzen zur Formatierung des Textes bestehen hier ausnahmslos aus Textzeichen. Einige dieser Textzeichen werden als Sonderzeichen umdefiniert. In HTML sind dies die beiden spitzen Klammern und das Kaufmannsund (<, >, &). Will man eines dieser neu definierten Sonderzeichen im Dokument schreiben, muss dies durch ein anderes Sonderzeichen kenntlich gemacht werden. Ein solches Dokument mit formatiertem Text ist in diesem Sinne kein Nur-Text-Dokument, aber die Datei liegt in einfachem Text vor.

[Bearbeiten] nicht menschenlesbare Formatierungsbefehle

Beispiel: Microsoft Word

[Bearbeiten] Zeichensatz

Auch einfacher Text unterliegt einem Zeichensatz, also einer Zuordnung von Zahlen zu Zeichen. Computer arbeiten intern nicht mit Zeichen, sondern mit elektrischen Schaltzuständen, denen zunächst nur Zahlen zugeordnet werden. Daher ist für die Arbeit mit Textdateien eine weitere Zuordnung von Zeichen zu diesen Zahlen notwendig. In der Regel wird für Textdateien ein auf ASCII basierender Zeichensatz verwendet. In Westeuropa und den englischsprachigen Ländern sind ISO 8859-1 und UTF-8 üblich. Wird eine Textdatei nicht unter Verwendung des korrekten Zeichensatzes geöffnet, ist die Zuordnung von Zeichen zu Zahlen fehlerhaft, und es entsteht „Zeichensalat“. Oft werden nur die Umlaute und andere nicht-englische Zeichen falsch dargestellt, da die Zuordnung für Zeichen der englischen Sprache viel stärker standardisiert ist.

Der MIME-Medientyp von einfachen Textdateien ist text/plain. Er wird häufig mit Suffixen erweitert, die eine Kodierung angeben. Weit verbreitete Kodierungen für Textdateien schließen Unicode UTF-8, Unicode UTF-16, ISO 8859 und ASCII ein.

Wenn Textdateien in ostasiatischer Kodierung wie SJIS oder Unicode geschrieben sind, können sie auch Zeichen enthalten, die nicht aus dem ASCII-Zeichensatz stammen. Ist eine Datei in Unicode gespeichert, so definiert ein UTF-Standard wie UTF-8 die Kodierung.

[Bearbeiten] Beispiele

Bei Verwendung von MS-Windows als Betriebssystem wird den Namen von Textdateien in der Regel die Endung .txt verliehen. In Zeiten, zu denen MS-DOS verbreitet war, war auch die Endung .doc üblich, welche heute jedoch (als Voreinstellung) fast nur noch für MS-Word-Dateien verwendet wird. Bei dem modernen .doc-Dateiformat (siehe auch Microsoft Word – Dateiformat) handelt es sich jedoch nicht mehr um Klartext-Dateien, sondern um Binär-Dateien, da es u.a. speziell kodierte Text-Formatierungen und andere Meta-Daten enthält.

Zudem wird normalerweise auch Quelltext (für Computerprogramme) als Textdatei geschrieben. Dieser Quellcode wird dann durch spezielle Programme (Compiler genannt) zum jeweils Maschinen-abhängigen Programmcode (üblicherweise als Binärdatei) übersetzt.

[Bearbeiten] Die Begriffe „plaintext“ und „cleartext“

Der verwandte Begriff „plaintext“ (zu deutsch „unformatierter Text“) wird unter anderem auch im Zusammenhang mit Kryptographie verwendet, während „cleartext“ (zu deutsch „Klartext“) sich üblicherweise auf mangelnde Abhörsicherheit bezieht. Die beiden Begriffe werden im Englischen häufig verwechselt, wohingegen sie im deutschen Sprachraum – bezogen auf die üblichen Dateiformate und -Inhalte – beide für „Klartext“ stehen.

[Bearbeiten] Siehe auch

Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -