Spamblock-Bayes: Theoretische Grundlagen

Friday, 22. June 2012

Angestoßen von dieser Diskussion über die Performance des Bayes-Plugins schreibe ich hier mal die theoretische Grundlage des Plugins und damit auch eines generischen Bayes-Spamfilters auf, damit man sich bei einer eventuellen Überarbeitung hierdran orientieren kann.

Bayes-Formel

Das Bayes-Theorem wurde entdeckt, verworfen und schließlich wiederentdeckt. Ich glaube, die mathematischen Einwände gegen die Formel finden sich manchmal noch in der Kritik an solchen Filtern wieder, deshalb sei ihr Vorhandensein erwähnt.
Die allgemeine Formel lautet:

P(A|B)=( P(B|A) * P(A) ) / P(B)

P(A) ist die Wahrscheinlichkeit für A, P(A|B) ist die Wahrscheinlichkeit für A unter der Bedingung B, also wenn B eingetreten ist.

Wie sieht das nun für Spam aus? So:

P(Spam|Wort)=( P(Wort|Spam)* P(Spam) ) / P(Wort)

Zu beachten ist, dass wir diese Spamwahrscheinlichkeit für jedes Wort im Kommentar wissen wollen, daher am Ende mehrere Wahrscheinlichkeiten aufaddieren und normalisieren müssen.

Aufdröselung

Es gibt also genau drei Variabeln zu berechnen: Die Inverse Wahrscheinlichkeit, die Wahrscheinlichkeit von Spam und die Wahrscheinlichkeit für das Auftreten solcher Wörter. Das für jedes Wort. Was genau bedeuten die Formeln jeweils?

P(Wort|Spam): Dies ist die Wahrscheinlichkeit, dass in einem Spamkommentar dieses Wort vorkommt: Spamkommentare mit diesem Wort / Spamkommentare
P(Spam): Die Gesamtwahrscheinlichkeit, dass ein Kommentar Spam ist: Spamkommentare / Kommentare.
P(Wort)
: Die Wahrscheinlichkeit, dass dieses Wort überhaupt in einem Kommentar vorkommt: Kommentare mit diesem Wort / Kommentare

Programmiertechnische Konsequenzen

Es ist völlig klar, dass eine Datenbank gebraucht wird und die Bewertung größtenteils aus dem Heraussuchen der richtigen Daten zu den Worten besteht. Zuerst muss ein sogenannter Tokenizer den Kommentar in seine Einzelwörter zerlegen. Im Wesentlichen ist das ein:

tokenize(text) {
    tokens = split("\W", text )
    return unique(tokens)
}

Das Lernen eines Kommentars als Ham oder Spam ist nun nichts anderes, als diese Tokens in diese Datenbank namens "tokens" zu schreiben:

token (text) | ham (number) | spam (number)

Ist das Token schon vorhanden, wird der zugehörige Ham- bzw Spamwert um eins erhöht. Gleichzeitig wird der Gesamtzähler Hamkommentare bzw Spamkommentare um eins erhöht.
Diese Datenbank zusammen mit den Gesamtzählern gibt uns nun alle nötigen Werte:

P(Wort|Spam)

spam = sql_query("Select spam from tokens where token = Wort")
spam / (Spamkommentare)

P(Spam)

Spamkommentare / (Spamkommentare + Hamkommentare)

P(Wort)

ham, spam = sql_query("Select ham, spam from tokens where token = Wort)"
(ham + spam) / (Spamkommentare + Hamkommentare)

Formelveränderungen

Schaut man sich nun die Bewertungsfunktion im Bayes-Plugin an wird man feststellen, dass der PHP-Code nicht nur wesentlich unschöner als mein Pseudocode aussieht, sondern auch anders funktioniert. Das liegt daran, dass das Plugin auf b8 aufbaute, und b8 nicht simpel das Bayes-Theorem benutzt, die Wahrscheinlichkeiten addiert und dann durch ihre Anzahl teilt. Diese Änderungen basieren auf Tests und anderen theoretischen Annahmen als den hier gezeigten. Insbesondere die folgenden Änderungen sind enthalten oder denkbar:

Law of total probability

Wer Vorkenntnisse hat oder nachrecherchierte, dem könnte aufgefallen sein, dass Wikipedias Bayes-Spamfilterformel anders aussieht:

P(Spam|Wort)=(P(Wort|Spam)<em>P(Spam))/ P(Wort|Spam)</em>P(Spam) + P(Wort|Ham)*P(Ham)

P(Wort) wird hier gemäß dem Law of total probability umgeformt. Ohne das gerade nachgerechnet zu haben vermute ich, dass die Werte gleich sein sollten und diese Formel nur P(Wort) anders betrachtet.

Häufigkeit von Tokens im Kommentar

Wie oft ein Wort im Kommentar auftaucht sollte die Wahrscheinlichkeit beeinflussen. Dieser Artikel hier ist kein Spam, obwohl nun Viagra auftaucht, aber wäre jedes Wort Viagra, wäre er durchaus Spam. Deshalb beachtet b8 die Häufigkeit eines Tokens.

Wichtigkeit

Eine beliebte Spammertaktik ist, Kommentare mit ewig langem Fülltext auszustaffieren und den Spammerinhalt so zu verstecken. Der Gedanke dabei ist, dass die vielen harmlosen Worte den ganzen Kommentar harmlos erscheinen lassen. Die auch von b8 genutzte Taktik dagegen ist die Einführung eines Wichtigkeitsfaktors: Beziehe nur die Tokens in die Schlussrechnung ein, die eine Tendenz zu Spam oder Ham haben, also um einen bestimmten Faktor von der Mitte 0,5 abweichen. Der Gedanke dahinter ist, dass die vielen Füllwörter die Bewertung sonst gegen 0,5 tendieren lassen würden.

Optimierungsmöglichkeiten

Ich schrieb oben, dass dieser Artikel die theoretischen Grundlagen zwecks einer späteren Optimierung des Filters deutlich machen soll.
Diese Optimierungsmöglichkeiten sehe ich bis jetzt:

Ham-Spam-Faktor

Der Anstoßgeber dieses Eintrags ist diese Diskussion. Grischa schlug vor, über irgendeinen Faktor auszugleichen, dass ein typischer Blog sehr viel mehr Spam als Ham bekommt und daher der Filter zu streng werden würde. Meiner Meinung nach ist das nicht wirklich ein Problem, da diese Verteilung elementar für den Filter ist, und nicht automatisch neuer Spam eingelernt wird, wenn man das nicht will.

Wikipedia erwähnt, dass P(Spam) generell 0,8 sei. Vielleicht würde es helfen, diesen Wert festzusetzen statt ihn empirisch zu bestimmen?

Häufigkeit von Tokens

Wie oben beschrieben ist die Häufigkeit von Wörtern innerhalb eines Kommentars ein wichtiger Faktor. Zur Zeit fließt das aber nur indirekt in die Bewertung ein, indem es bei der Bewertung selbst ignoriert wird, beim Einlernen aber beachtet wird. Statt in der Tabelle den Ham- bzw Spamwert um eins zu erhöhen, wird er um die Anzahl der Tokens erhöht. Bei der Bewertung aber wird jedes Token nur einmal beachtet, selbst wenn es mehrmals vorkommt. Das könnte man ändern.

Es ist auch ein kritischer Punkt, weil man sich hier leicht mit Anzahl der Tokens und Anzahl der Kommentare verheddern kann. Die Formel müsste genau geprüft werden.

Konstanten

Bei der Übernahme von b8 wurde die Klassifizierungsberechnung blind übernommen. In ihr enthalten sind einige Konstanten, die auf den Testergebnissen beruhen. Es geht um diese Zeile:

$ratings[$word] = (0.15 + (($stored_tokens[$word]['ham'] + $stored_tokens[$word]['spam']) * $rating)) / (0.3 + $stored_tokens[$word]['ham'] + $stored_tokens[$word]['spam']);

0,15 und 0,3 sind die Konstanten, die hier direkt die Bewertung beeinflussen und entfernt bzw verändert werden könnten.

Schlusswort

Es ist nunmal Mathematik. Ich hoffe, die Erklärung macht die Funktionsweise des Filters trotzdem klarer. Die Optimierung des Filters könnte ein sehr interessantes Projekt sein, aber auch sehr zeitaufwändig. Hinweise zu Fehler in den Formeln nehme ich dankend entgegen

Kommentare (6) | Trackback (1) | in Informatik

Tags für diesen Artikel: spamblock_bayes

Artikel mit ähnlichen Themen:

Trackbacks

Hampas Blog am Thursday, 16. August 2012: Eine Biene gegen Spam

Vorschau anzeigen

Wenn ich vor dem Hören des neusten Podcast von s9y InfoCamp mit dieser Aussage konfrontiert worden wäre, hätte ich bloss verständnislos mit dem Zeigefinger an die Stirn getippt. Matthias, Robert, Grischa und Malte unterhalten sich über die Spam und Ham

Kommentare

Stefan am Sunday, 1. July 2012:

Ist mal interessant zu wissen, wie der Spamfilter wirklich im Hintergrund funktioniert,
habe dieses Plugin als einzigen Spamfilter in meinem wieder gestarteten Blog im Einsatz,
benötigt allerdings noch ein paar Übungen, bevor er fast alles richtig rausfiltern kann :)

onli am Monday, 2. July 2012:

Ich habe hier noch das normale Spamblockplugin zusätzlich laufen, vor allem für die Automoderation bei älteren Einträgen.

Aber freut mich, dass es bei dir funktioniert ;)

Tobias Leupold am Wednesday, 28. November 2012:

Ich bin gerade per Zufall auf diese Seite gestoßen.

„Bei der Übernahme von b8 wurde die Klassifizierungsberechnung blind übernommen. In ihr enthalten sind einige Konstanten, die auf den Testergebnissen beruhen. Es geht um diese Zeile:
…
0,15 und 0,3 sind die Konstanten, die hier direkt die Bewertung beeinflussen und entfernt bzw verändert werden könnten.“

Dazu wollte ich folgendes anmerken:

Die letzte Version von b8, in der die x- und s-Konstanten noch hard-coded waren, ist Version 0.3.3, die ich am 02.08.2007(!) veröffentlicht habe.

Ich würde euch nicht empfehlen, eine so alte Version von b8 einzusetzen. in den letzten fünf Jahren ist b8 etwas erwachsener geworden ;-) Schaut euch am besten einfach mal den svn-trunk an, da findet ihr den Entwicklungsstand für das nächste Major Release (0.6).

Sollte mittlerweile sehr einfach in bestehenden Code zu integrieren sein.

onli am Wednesday, 28. November 2012:

Hallo Tobias
Gute Arbeit mit b8, das voraus. Spamblock-bayes hatte von Anfang nur den Code von b8 übernommen, das machte das Updaten schwierig. Hab schon ein paarmal überlegt, die Rechnungen durchzugehen (das hier war ein Teil davon), aber Nutzerkommentar war desöfteren "es funktioniert doch gut". Und das stimmt eigentlich auch.
Wenn ich doch mal die Rechnung anpasse, schau ich auf jeden Fall in dein svn. Danke für den Hinweis.

Friedrich Spee von Langenfeld am Saturday, 18. February 2017:

Die Wikipedia-Fassung beruht tatsächlich auf einer simplen Umformung des Nenners mittels des Satzes über die totale Wahrscheinlichkeit. Etwas einfacher betrachtet (ohne Maßtheorie) als im entsprechenden Wikipedia-Artikel zur totalen Wahrscheinlichkeit:
Du hast einen diskreten Wahrscheinlichkeitsraum (/Omega Untermenge von D, A, P) gegeben. Dabei liegen in D die Ereignisse. Nun ist die Wahrscheinlichkeit, eine Teilmenge von D zu »erwischen« gleich der Wahrscheinlichkeit unter der Bedingung Omega (P(A | Omega)). Das ist (wegen P(Omega) = 1) gleich P(B geschnitten Omega). Nun musst Du nur Omega endlich partitionieren ( = P(A geschnitten (B_1 disjunkt vereint mit B_2 disjunkt vereint mit ...) = P((A geschnitten B_1) disjunkt vereint mit (...) ...)) auseinanderziehen und schon hat man das Endergebnis (Def. der bedingten Wahrscheinlichkeit in Endergebnis einsetzen).

Was sind die Schlüsselkonzepte:
1.) Spam und Ham sind disjunkt. Eine Mail ist entweder Spam oder Ham.
2.) Die Partitionierung ist abzählbar (sogar endlich) - sonst klappt das Auseinanderziehen nicht wirklich.
3.) Der Wahrscheinlichkeitsraum ist diskret - kann also auch überabzählbar sein. Wichtig ist hier die abzählbare Untermenge Omega, deren Wahrscheinlichkeit 1 ist.
4.) Ob bei P(A | B) die Menge A überabzählbar ist, interessiert nicht - fürs Ergebnis wichtig ist nur der Schnitt mit Omega (abzählbar!), da der Rest Wahrscheinlichkeit 0 hat.

Vielleicht hilft das ja noch einem Leser nach mir.

onli am Saturday, 18. February 2017:

Danke für die Ergänzung.

Kommentar schreiben

Name
E-Mail
Homepage
Antwort zu
Kommentar	Phone* HTML-Tags werden in ihre Entities umgewandelt. Die angegebene E-Mail-Adresse wird nicht dargestellt, sondern nur für eventuelle Benachrichtigungen verwendet. Umschließende Sterne machen ein Wort kursiv (wort), per wort wird es fett. [http://www.example.com Link] fungiert als URL-Tag.
	Daten merken? Bei Aktualisierung dieser Kommentare benachrichtigen

Spamblock-Bayes: Theoretische Grundlagen

onli blogging