Bayes 0.3.9.1: Datenbankperformance

Monday, 29. November 2010

Die Import- und Exportfunktion arbeiteten einwandfrei in meinen Tests mit kleinen Beispieldaten, scheiterten aber an der Größe der Datenbanktabellen bei Dirk und YellowLed. Bei Dirk klappte der Export, aber der Import starb mit einem Timeout, bei Yellowled riss der Export die Speichergrenze von 64 MB. Mit der Hilfe der beiden konnte ich beide Fehler - zumindest auf meinem Testsystem - beheben, und ich werde hier beschreiben wie.

Export

Der Export scheiterte an der Speichergrenze, also musste der Speicherbedarf reduziert werden. Es passiert eigentlich nichts anderes, als das mit einem Select die ganze Datenbank abgefragt und diese Daten mittels fputcsv in eine Datei geschrieben werden. Um also den Speicherbedarf zu reduzieren, wird das nun nur noch in Blöcken von 10.000 Zeilen gemacht:

while ($amount > ($start = $runs * 10000)) {
    $sql = "SELECT 
           token, ham, spam, type  
        FROM
           spamblock_bayes
        LIMIT $start, 10000";
    $database = serendipity_db_query($sql);
    
    foreach ($database as $fields) {
        fputcsv($fp, $fields);
    }
    $runs++;
}

Ich bin mir bei Limit immer etwas unsicher, aber da es von sqlite ebenfalls unterstützt wird und in meinem Test so der Export auch bei einer Grenze von 16 MB durchlief, dürfte das eine akzeptable Lösung sein.

Import

Der Import war kniffliger, hier griff ich massiv auf Hilfe von Dirk zurück. Zuerst einmal das bisherige Datenbankschema:

| token (varchar) | ham (int) |spam (int) | type (varchar) |

Er stellte fest, dass Duplikate in der Datenbank waren - zumindest in seiner MySQL-Datenbank. Denn bei ihr ist "hallo" und "Hallo" identisch, in PHP (und sqlite) jedoch nicht, wodurch doppelte Datensätze angelegt wurden. Ein Key, der das verhindert hätte, war nicht vorhanden. Diesen jedoch nun auf token und type zu legen erschien sinnvoll, weil das an sich eine eindeutige Kombination ist und beim Import abgefragt wurde:

$sql = "SELECT 
            token 
        FROM 
            spamblock_bayes
        WHERE 
             token = '$token' AND type = '$type'";

$tester = serendipity_db_query($sql);

if (empty($tester[0])) {
    $sql = "INSERT INTO 
            spamblock_bayes 
                (token, ham, spam, type)
        VALUES('$token', $ham, $spam, '$type')";
} else {
    $sql = "UPDATE spamblock_bayes
        SET 
            ham = ham + $ham,
            spam = spam + $spam
        WHERE token = '$token' AND type = '$type'";
}

Da Duplikate in der Datenbank waren, konnte da kein Key und damit kein Index drübergelegt werden, der die SELECT-Abfrage mit dem WHERE token = '$token' AND type = '$type'"; massiv beschleunigt. Also mussten diese entfernt und danach der Key darübergelegt werden.

Duplikate entfernen

Dirk schlug folgendes Vorgehen vor, das ich allerdings nicht nutzen konnte:

ALTER TABLE serendipity_spamblock_bayes ADD id INT UNSIGNED NOT NULL AUTO_INCREMENT, ADD PRIMARY KEY (id);

select a.id, a.token, a.type from serendipity_spamblock_bayes as a, serendipity_spamblock_bayes as b where a.token=b.token and a.type=b.type and a.id <> b.id;

Das funktionierte auch und hätte die Duplikate geliefert. Aber an der folgenden Stelle scheiterte ich:

Anschliessend summiert man die gleichen Datensätze zusammen: "select sum(ham),sum(spam) where id in (1,2,3,4)" oder gleich als neuer Datensatz "insert into tabelle (token,type,spam,ham) values (wert1,wert2,select sum(ham),sum(spam) where id in (1,2,3,4))" und anschliessend "delete from tabelle where id in (1,2,3,4)".

Ich hatte ein Array voller Duplikate, geordnet nach id oder type oder token. Bei denen hätte ich nun - zumindest verstand ich das so - einzeln heraussuchen müssen, welche zusammengehören, und diese dann wie beschreiben zusammenfügen müssen. Da schon das Select in Dirks Tabelle 5 Minuten dauerte, erschien mir das als nicht in akzeptabler Rechenzeit durchführbar, überhaupt verknotete sich an der Stelle mein Gehirn. Normalerweise hätte ich hier nachgehakt (ergänze mich doch einfach hier, wenn ich einen einfachen Lösungsweg schlichtweg nicht sah), aber ich stolperte nebenbei über eine alternative Lösung (die er ebenfalls erwähnt hatte), die direkt funktionierte.

Diese Lösung lautet: Nutzung einer temporären Tabelle und von ON DUPLICATE KEY UPDATE. Beim Update auf die neue Version des Plugin wird eine temporäre Tabelle angelegt, die bereits den Primary Key auf token und type hat. In diese werden der bisherige Dateninhalt inserted. Dabei werden die Konflikte auftreten, doch dank ON DUPLIKATE KEY kann MySQL darauf reagieren:

INSERT INTO 
    spamblock_bayes_temp 
        (token, ham, spam, type) 
    SELECT 
        orig.token, orig.ham, orig.spam, orig.type 
    FROM 
        spamblock_bayes as orig 
ON DUPLICATE KEY UPDATE 
    ham = spamblock_bayes_temp.ham + VALUES(ham), 
    spam = spamblock_bayes_temp.spam + VALUES(spam);

Danach wird die originale Tabelle gedroppt, mit dem Key neu erstellt und die alten Daten da hineingesetzt.
Bei sqlite oder anderen Datenbanken wird stattdessen wie oben gezeigt mit einem Tester gearbeitet.

Der Import selbst

Das Vorgehen beim Import selbst wurde äquivalent angepasst. Statt da wie oben gezeigt mit einem Select einen Tester zu holen und je nach dem zu inserten oder upzudaten, wird dort ebenfalls erstmal inserted und bei einem Konflikt mit einem ON DUPLICATE KEY UPDATE reagiert. Das löste bei mir das Problem, das das Importieren der 22000 Zeilen langen CSV-Datei aus Dirks Blog der Import länger als 10 Minuten dauerte. Das geht auf meinem Testsystem nun in 30 Sekunden.

Ich war jedoch ehrgeizig und schaute mir an, wie das ganze mit sqlite gehen könnte. Denn dort gibt es kein ON DUPLICATE KEY UPDATE. Aber es gibt ein INSERT OR IGNORE. Damit kann man ein Insert durchführen, wobei ein Fehler einfach ignoriert wird. Das Vorgehen ist dort also, erst immer zu inserten mit Wert 0 für spam und ham und direkt danach mit einem Update den Wert zu setzen. Ich war etwas stolz, so eine schöne Lösung gefunden zu haben, stieß den Import an - und wartete, wartete, wartete...
Als nach einer halben Stunde das immer noch nicht fertig war suchte ich nach Performance-Tipps für sqlite. Dabei stieß ich auf den Hinweis, man solle unbedingt Transaktions nutzen, selbst wenn man nur eine Datenbank liest - das Plugin schreibt, sollte sie also auf jeden Fall nutzen. MySQL scheint das von selbst ordentlich zu machen, sqlite (sqlite 2, warum auch immer nicht automatisch von PHP unter Ubuntu 10.04 das installierte sqlite 3 genutzt wird) nicht. Also ein

serendipity_db_begin_transaction();

vor den Code und ein

serendipity_db_end_transaction(true);

dahinter, und schon lief der Import in 40 Sekunden.

Vielleicht sind das keine Spitzenzeiten und es geht noch mehr, aber es sind Verbesserungen um (mehr als) 1500%. Daher ist das Update nun hochgeladen, um Export und Import überhaupt erstmal zu ermöglichen. Wie immer gilt: Sollten Probleme auftauchen, bitte melden.

Download: serendipity_event_spamblock_bayes-0.3.9.1.tar.gz

Kommentare (23) | Trackbacks (0)

Tags für diesen Artikel: spamblock_bayes

Artikel mit ähnlichen Themen:

Trackbacks

Keine Trackbacks

Kommentare

Klaus am Monday, 29. November 2010:

Moin. Habe die neue Version ausprobiert und YellowLEDs Daten importiert. Nach etwa 15 Sekunden bekomme ich einen Fehler "500 Internal Server Error". Importiert wurde anscheinend nichts.

Wenn ich zuerst die bisherige Datenbank lösche und dann Matthias' Daten importiere bekomme ich auch nach ca. 15 Sekunden einen 500er Error, allerdings wurden vorher scheinbar alle Daten sortiert.

Mit der älteren Version hatte alles funktioniert, mal abgesehen von der ewigen Ladezeit, die sicher länger als 10 Minuten war.

onli am Monday, 29. November 2010:

Welche Datenbank nutzt du denn? Über einen 500er bin ich bei meinen Tests bisher nie gestolpert :/

Wenn du die Datenbank löschst und dann die Datenbank wieder erstellst, entsteht dann auch ein 500er?

Klaus am Monday, 29. November 2010:

Die von Matthias --> http://matthias.yellowled.de/archives/1335-Zeigt-her-Eure-Spam-Datenbanken.html

Wenn ich die Datenbank lösche und dann importiere bekomme ich auch den 500er, allerdings scheint er vorher alles richtig importiert zu haben. Seltsam.

Vielleicht liegt es aber auch an meinem Blog? Ich werde das morgen noch einmal probieren mit einem frisch installierten Testblog.

onli am Monday, 29. November 2010:

Hm, so war das nicht gemeint :)
Welches Datenbankmanagementsystem nutzt dein Blog? MySQL, PostgreSQL, sqlite?

Wenn du die Datenbank löschst, dann die Datenbank erstellst, völlig ohne zu importieren, kommt dann auch ein Fehler?

Klaus am Monday, 29. November 2010:

MySQL. Wenn ich die Datenbank lösche, neu erstelle und nichts importiere (wie in meinem anderen Blog), scheint alles wunderbar zu funkionieren.

onli am Friday, 3. December 2010:

Also, nachstellen kann ich das nicht. Ich vermute, dass er den Import nicht schafft, sondern an einer Stelle scheitert und ihn dort abbricht. Du müsstest die Datenbank direkt anschauen um das zu prüfen, die Information alleine würde aber nicht unbedingt weiterhelfen.

Ich bräuchte die Fehlermeldung beim Import. Wird vielleicht in /var/log/mysql/error.log etwas geschrieben, kommst du da ran oder hast du einen Admin zur Hand, der genauer weiß wo die Fehlermeldung hingeschrieben würde?
Ansonsten kann ich da wenig machen, sorry.

Klaus am Tuesday, 7. December 2010:

Hmm, an Logfiles komme ich nicht heran und ich komme nicht dazu, ein "sauberes" Testblog aufzusetzen; sorry.

Bei meinem Kinoblog habe ich auf Datenimporte verzichtet und nach 14 Tagen "Lernen" sortiert das Tool zuverlässig allen Spam aus. Danke!

Dirk Deimeke am Monday, 29. November 2010:

Danke Malte, das hört sich super an. Die Variante mit "on duplicate" ist klasse! Ich teste im Laufe der Woche!

Dirk Deimeke am Monday, 29. November 2010:

Nachtrag: Der Key wurde bei mir nicht angelegt. Was kann ich tun? Datenbank exportieren, Tabelle leeren, Schlüssel anlegen und Daten wieder importieren?

onli am Monday, 29. November 2010:

Klingt auf jeden Fall sinnvoll und sollte funktionieren. Wobei mich sehr interessieren würde, woran es scheiterte. Steht da vll etwas in deinen Logs?

Dirk Deimeke am Tuesday, 30. November 2010:

Wo finde ich die Logs?

Ich vermute, dass es an den doppelten Einträgen in der Datenbank lag.

onli am Tuesday, 30. November 2010:

Die Logs für sowas muss man wohl extra aktivieren - in /var/log/mysql/ sollte eine Fehlerlogdatei sein, aber die beinhaltet wohl nur kritische Fehler, nicht solche.

Bei mir ist seltsamerweise der Key ebenfalls nicht angelegt. Da stimmt was nicht.

Hm, es scheint, als ob der relevante Code nicht ausgeführt wird. Das war ein Bug (im php), wobei ein "Datenbank anlegen" vom Menü aus hätte helfen müssen, es bei meinem Test eben aber nicht tat. Da kommt wohl später ein Update, das muss ich mir genau angucken.

Dirk Deimeke am Tuesday, 30. November 2010:

Ok, vielen Dank für Dein Engagement.

onli am Friday, 3. December 2010:

Hm. Jetzt funktionierte das bei mir, es sei denn, ich lösche die Datenbank und erstelle sie neu. Dann wurde das Upgrade nicht ausgeführt und die Datenbank ohne Key angelegt. Gut möglich, dass ich das vorher tat. Das ist korrigiert.
Dadurch sollte es nun möglich sein, die Datenbank zu exportieren, zu löschen, neu zu erstellen und dann die Daten zu importieren.

Vorher aber testen, ob nicht ein "Datenbank erstellen" bei voller Datenbank ausreicht. Es kann sein, dass der Key nur nicht erstellt wurde, weil noch nichts neues eingelernt wurde.

Den etwaigen Fehler beim Update des Plugins selbst kann ich nicht nachstellen, das Update über Spartacus wird mir im Testblog nicht angeboten.

YellowLed am Thursday, 2. December 2010:

Ich kriege in einem anderen Blog einen 500 Internal Server Error, nachdem ich das memory limit in der .htaccess hochgesetzt habe. :-/

Zudem:

Warning: Invalid argument supplied for foreach() in /.../plugins/serendipity_event_spamblock_bayes/serendipity_event_spamblock_bayes.php on line 1500

im Tab „Analyse“. Version 0.3.9.1.

onli am Thursday, 2. December 2010:

Mit der Fehlermeldung sollte ich mir das anschauen können. Ich habe mir vorgenommen, mich morgen in aller Ruhe dem Plugin zu widmen.

onli am Friday, 3. December 2010:

Das mit der .htaccess sollte nicht mehr so zwingend nötig sein. Allerdings ist bei einem 500er dadurch entweder die Syntax nicht ok gewesen oder der Server blockiert dann. Hat nichts mit dem Plugin zu tun.

Passiert der Fehler in der Analyse bei einer leeren Datenbank oder in deinem Blog (wenn ja, wo genau)?

YellowLed am Friday, 3. December 2010:

Zu dem Zeitpunkt IIRC noch leere DB im neu aufgesetzten http://www.s9ycamp.info, ist mir und Robert bei unterschiedlichen Importversuchen von unterschiedlichen Quell-DBs passiert.

Wie finde ich denn ggf. raus, ob und wie Syntax-Fehler oder Server da dazwischenspucken?

onli am Friday, 3. December 2010:

Wenn die Datenbank noch leer war kam der Fehler mit dem foreach, der ist nun gefangen. Ich sehe allerdings die Verbindung zum Import nicht?

Das weiß ich nicht, von Serveradministration habe ich wenig Ahnung. Bei der .htaccess geht es dann ja um eine Änderung, die nur den Apache-Server selbst betrifft.

YellowLed am Friday, 3. December 2010:

Tja, ich schon mal gar nicht. :-) .htaccess ist auch so eine Sache -- ist nicht mein Webspace, ich weiss quasi nix über den Provider und wie das da alles umgesetzt wird. Ist aber nicht weiter wild. :)

onli am Saturday, 4. December 2010:

>Tja, ich schon mal gar nicht. :-)
Ich glaube, doch :) Weil der Import hat an sich nichts mit dem Fehler bei der Analyse zu tun. Aber du hast oben geschrieben, dass es bei dir und Robert bei dem Import auftrat. Wie hast du das gemeint? Kam da auch ein 500er, oder habt ihr nur dabei beobachtet dass die Analyse diesen Fehler warf?

YellowLed am Tuesday, 7. December 2010:

Da kam zumindest bei mir erst ein 500er und dann auf dem Analyse-Tab die besagte Fehlermeldung. Bei Roberts Importversuch (andere Quell-DB) weiss ich es leider nicht.

onli am Tuesday, 7. December 2010:

Ok. Der Fehler bei der Analyse sollte nicht mehr auftreten.

Kommentar schreiben

Name
E-Mail
Homepage
Antwort zu
Kommentar	Phone* HTML-Tags werden in ihre Entities umgewandelt. Die angegebene E-Mail-Adresse wird nicht dargestellt, sondern nur für eventuelle Benachrichtigungen verwendet. Umschließende Sterne machen ein Wort kursiv (wort), per wort wird es fett. [http://www.example.com Link] fungiert als URL-Tag.
	Daten merken? Bei Aktualisierung dieser Kommentare benachrichtigen

Bayes 0.3.9.1: Datenbankperformance

onli blogging