Spamfilter

aus Wikipedia, der freien Enzyklopädie

Du hast neue Nachrichten (Unterschied zur vorletzten Version).

Die Artikel Contentfilter, Mailfilter und Spamfilter überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Die Diskussion über diese Überschneidungen findet hier statt. Bitte äußere dich dort, bevor du den Baustein entfernst. Hafenbar 02:09, 5. Nov. 2006 (CET)

Ein Spamfilter ist ein Computerprogramm zum Filtern von unerwünschter elektronischer Werbung (sog. spam). Wollte man vor einiger Zeit lediglich E-Mail-Spam filtern, so ist dieses mittlerweile auch für Weblogs (Blogspam) oder Wikis von großer Bedeutung geworden. Es gibt mehrere unterschiedliche Methoden, um den Inhalt zu filtern:

Aussortieren an Hand regulärer Ausdrücke, so genannter Blacklists
Ausfiltern mittels eines Bayes-Filter
Ausfiltern mittels einer datenbank-basierten Lösung (DB-Filter)

Daneben gibt es aber auch die Möglichkeit eine E-Mail schon anhand ihres Headers auszufiltern.

[Bearbeiten] Blacklist-Methode

Diese Methode überprüft den Inhalt der E-Mail nach bestimmten Ausdrücken bzw. Stichworten aus einer Blacklist. Ist der Ausdruck bzw. das Stichwort in der E-Mail enthalten, wird die E-Mail aussortiert. Diese Blacklists müssen im Allgemeinen manuell erstellt werden und sind entsprechend aufwendig zu verwalten. Außerdem ist die Trefferquote nicht sehr hoch, da hin und wieder Spam als gute E-Mail und gute E-Mail als Spam einsortiert werden können. Auch lassen sich solche Filter leicht umgehen: steht z. B. 'Viagra' in der Blacklist, wird der Filter 'Vla*gr-a' nicht erkennen. Lässt der Filter die Eingabe von regulären Ausdrücken zu, kann man jedoch entsprechend ausgefeilte Filtermuster verwenden, die alle denkbaren Schreibweisen berücksichtigen, z. B. v.{0,1}[!iíì1\|l].{0,1}[aáàãå@].{0,1}g.{0,1}r.{0,1}[aáàãå@]

Eines der bekanntesten Programme unter Linux und anderen Unix-Derivaten ist SpamAssassin, das jede Mail nach verschiedenen Kriterien (offensichtlich ungültige Absender, bekannte Spam-Textpassagen, HTML-Inhalt, in die Zukunft datierte Absendedaten usw.) bepunktet und ab einer bestimmten Punktzahl als Spam klassifiziert. Ebenfalls mit einer Blacklist arbeitet SPAVI, das außer der jeweiligen E-Mail selbst auch noch die in der E-Mail verlinkten Seiten auf verdächtige Begriffe untersucht.

„Razor“ und „Pyzor“ wiederum erzeugen zu jeder Mail einen Hash-Wert und überprüfen in zentralen Datenbanken, ob andere Personen, die diese Mail ebenfalls erhalten haben, sie als Spam klassifiziert haben oder nicht.

[Bearbeiten] Bayes-Filter-Methode

Alternativ kann der Spam auch auf Grund der Bayesschen Wahrscheinlichkeit gefiltert werden. Das sind sogenannte selbstlernende Filter. Der Benutzer muss etwa die ersten 1000 E-Mails manuell einsortieren in Spam und Nicht-Spam. Danach erkennt das System fast selbstständig mit einer Trefferquote von meistens über 95% die Spam-E-Mail. Vom System fehlerhaft einsortierte E-Mails muss der Anwender manuell nachsortieren. Dadurch wird die Trefferquote stetig erhöht. Diese Methode ist der Blacklist-Methode meistens deutlich überlegen.

Diesen Mechanismus machen sich Bogofilter und Mozilla Thunderbird sowie der vor allem im deutschen Sprachraum beliebte Spamihilator in den aktuellen Versionen zunutze. Dabei muss das Programm jeweils vom Benutzer trainiert werden, bevor es zuverlässig Spam erkennt.

Eine dem Bayes-Filter artverwandte Methode ist der Markow-Filter. Er nutzt dazu eine Markow-Kette und ist effektiver als ein Bayes-Filter, wie Bill Yerazunis mit seinem Spamfilter CRM114 zeigen konnte.

[Bearbeiten] Datenbank-basierte Lösungen

Im Usenet wurde schon in den 90er Jahren diskutiert, Spam aufgrund der in der Mail beworbenen URLs (und ggf. Telefonnummern) zu erkennen. Zwar können die Spammer die Nachrichten beliebig modifizieren und personalisieren, aber da es letztlich (bei UCE) immer darum geht, den Benutzer zu einer Kontaktaufnahme zu verleiten, und der mögliche Adressraum nicht unbegrenzt variabel ist, ermöglicht dieser Ansatz eine theoretisch sehr gute Erkennung. Besonders interessant ist dabei, dass keine Heuristiken verwendet werden, die immer das Risiko von Fehl-Erkennungen mit sich bringen. Aufgrund der technischen Anforderungen, Reaktionsgeschwindigkeiten usw. hielt man dieses jedoch für nicht praktikabel. Der Spamfilter „SpamStopsHere“ basiert (als zentral gehostete Lösung) im Kern jedoch auf genau dieser Idee und zeigt, dass dieses durchaus auch in der Praxis funktionieren kann.