Privacy Policy Cookie Policy Terms and Conditions Kreuzvalidierungsverfahren - Wikipedia

Kreuzvalidierungsverfahren

aus Wikipedia, der freien Enzyklopädie

Kreuzvalidierungsverfahren sind Testverfahren der Statistik, die z.B. im Data-Mining, oder bei der Überprüfung neu entwickelter Fragebögen zum Einsatz kommen. Es wird unterschieden zwischen der einfachen Kreuzvalidierung, der stratifizierten Kreuzvalidierung und der Leave-One-Out Kreuzvalidierung.


Ein Beispiel: Ein Psychologe entwickelt einen neuen Test, mit dem er Depressivität messen will.

Um zu überprüfen wie gut der Test das zu messende Merkmal, hier eben Depressivität misst, lässt er in einem ersten Schritt eine große Gruppe von Personen, bei denen die jeweilige Ausprägung des Merkmals bekannt ist (vorher durch Experten oder einen anderen Test bestimmt), diesen Test bearbeiten.

Im nächsten Schritt unterteilt er die große Gruppe in zwei Untergruppen (bzw. k-Teilmengen, siehe weiter unten), nennen wir sie Untergruppe-A und Untergruppe-B. Der Psychologe benutzt nun die Daten der Untergruppe-A um mit ihnen eine Vorhersagegleichung für das Merkmal was der Test messen soll zu erstellen, d.h. er bildet eine Regel nach der aus den Testdaten einer Person Rückschlüsse auf die Ausprägung des gesuchten Merkmals bei ihr gezogen werden können. Diese Vorhersagegleichung wendet er nun auf alle Mitglieder der Untergruppe-B an und versucht aus den Testdaten von Untergruppe-B, mithilfe der an Untergruppe-A entwickelten Vorhersagegelichung auf deren jeweilige Ausprägung des Merkmals zu schließen. Anschließend vergleicht er die vorhergesagten Ausprägungen mit den tatsächlich vorliegenden. Je höher die Übereinstimmung zwischen tatsächlicher und vorhergesagter Ausprägung, um so besser, valider, ist der Test.

In einem dritten Schritt nun macht der Psychologe das selbe nocheinmal umgekehrt und entwickelt aus den von Untergruppe-B vorliegenden Daten eine Vorhersagegleichung die er dann an Untergruppe-A prüft. Die Validierung des Tests erfolgt also kreuzweise, deswegen Kreuzvalidierung.


[Bearbeiten] Einfache Kreuzvalidierung

Die zur Verfügung stehende Datenmenge, bestehend aus N Instanzen, wird in k Teilmengen (k<N) aufgeteilt. Nun werden k Testdurchläufe gestartet, bei denen die jeweils k-te Teilmenge als Testmenge und die verbleibenden k-1 Teilmengen als Trainingsmengen verwendet werden. Die Gesamtfehlerquote errechnet sich als Durchschnitt aus den Einzelfehlerquoten der k Einzeldurchläufe. Diese Testmethode nennt man k-fache Kreuzvalidierung.

Aus vielen Experimenten hat sich ein ideales k von zehn ergeben.

[Bearbeiten] Stratifizierte Kreuzvalidierung

Aufbauend auf der einfachen k-fachen Kreuzvalidierung, achtet die k-fache stratifizierte Kreuzvalidierung darauf, dass jede der k Teilmengen eine annähernd gleiche Verteilung besitzt. Dadurch wird die Varianz der Abschätzung verringert.

[Bearbeiten] Leave-One-Out Kreuzvalidierung

Bei der Leave-One-Out Kreuzvalidierung (engl. leave-one-out cross validation) handelt es sich um einen Spezialfall der k-fachen Kreuzvalidierung, bei der k=N. Somit werden N Durchläufe gestartet und deren Einzelfehlerwerte ergeben als Mittelwert die Gesamtfehlerquote.

Nachteil dieser Methode ist, dass eine Stratifizierung der Teilmengen, wie bei der stratifizierten Kreuzvalidierung, nicht mehr möglich ist. Dadurch kann es in Extremfällen dazu kommen, dass dieses Testverfahren falsche Fehlerwerte liefert. Beispiel: Eine vollständig zufällige Datenmenge bei gleichmäßiger Verteilung und nur zwei Klassen würde zu einem LOO-CV von 100% Prozent führen. Warum? Aus N Instanzen werden zum Training N/2 Instanzen der Klasse K1 verwendet und N/2-1 Instanzen der Klasse K2. Da der Klassifikator immer die Mehrheitsklasse der Testdaten prognostiziert, liefert der Test mit der Testinstanz der Klasse K2 einen Fehler von 100%!

Ein weiterer Nachteil ist der sehr hohe Rechenaufwand.

Andere Sprachen

Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -