Ich betreue das Supportforum von Antispam Bee. Da ist mir eine neue Art von Spam aufgefallen, die leider nicht von uns erkannt wurde. Wirklich schräg an diesem Spam war, dass er keine Links enthielt und auch keine typischen SEO-Begriffe. Normalwerweise möchten Spammer ja etwas erreichen. Zum Beispiel den Besucher auf eine Phishing-Site oder Malware-Site bringen, etwas verkaufen (Medikamente, Online-Casino, etc.) oder via Backlink SEO betreiben. All das passte nicht, also fragte ich mich wozu eigentlich das Ganze …
In diesem Fall waren aber Name und Host nur eine zufällige Folge von exakt zehn Kleinbuchstaben und im Inhalt nochmal exakt 30 Kleinbuchstaben. Dafür ließ sich einfach ein eigenes Pattern schreiben, aber warum gibt es überhaupt Spamkommentare mit zufälligen Kleinbuchstaben gleicher Länge als Host, Name und Inhalt? Die IP-Adressen stammen in meinem Fall alle von einem bestimmten russischen Hoster und die Mail-Adressen wechseln von Kommentar zu Kommentar.
Ich habe nun zwei Theorien:
Theorie 1: Kompromittierung
Das Ganze nennt sich data poisoning und meint das gezielt verfälschen einer „Machine Learning“-Umgebung mit falschen Daten.
Wenn die Kommentare immer als Spam eingestuft werden und Name, Host und Inhalt mit den zufälligen Buchstabenfolgen keinen Mehrwert darstellen, ist als Spam-Marker die E-Mail eine mögliche Variante. Akismet als selbstlernendes System wird auch gerne bei Kontaktformularen eingesetzt und auch CMS-übergreifend. Ist eine E-Mail in Akismet als sicheren Spamsignal markiert, kann man quasi nirgendwo mehr kommentieren oder ein Formular absenden, weil das System es immer ablehnt.
Vielleicht „verkauft“ der Spammer dieses System.
Akismet scheint mit der Unterscheidung zwischen „Local and global learning.“ einen Prozess zu haben um dem Entgegenzuwirken, aber wie erfolgreich das ist, bleibt unklar. Wann genau kann das System eben doch „vergiften“ werden? Die Beharrlichkeit und Anzahl des Spams ist jedenfalls enorm.
Wenn das einzig verwertbare die E-Mail ist und es tausendfach als Spam markiert wird, ab wann ist so eine Mail-Adresse als Spam-Marker verbrannt? Und ist das wirklich das Ziel von diesem Spam?
Die Mail-Adressen sehen sehr unterschiedlich aus und könnten tatsächlich real sein.
Bei meiner Suche nach data poisoning bin ich auf einen sehr alten Blogeintrag aus dem Jahr 2006 bei Akismet gestoßen, wo Matt persönlich auf einen Vorwurf eines Plugin-Entwicklers reagiert, und dabei erklärt, dass er das Geheimnis nicht verraten kann, aber Akismet Mittel gegen das „Vergiften“ hat:
To clarify Dave’s second concern, data poisoning is where the effectiveness of a system would decrease over time because of bad data being introduced into the mix. I can’t get into too many specifics here, since our protection against this is part of the “secret sauce” behind Akismet, but I think the performance of Akismet speaks for itself. It is a huge target, being bundled with WordPress, adapted for numerous platforms, and having over 90,000 users already. (Larger than many blog hosters.) Yet in spite of all that (and partly because of all that) Akismet has only become more effective with time, and it is now 33% closer to no missed spam or false positives than when it started. The system was designed from the ground up to prevent poisoning, and though there have been many attempts none have adversely impacted the system yet.
Quelle: https://blog.akismet.com/2006/01/30/spam-karma-state/
Theorie 1: DDos
Es geht vielleicht auch gar nicht um das Vergiften von selbstlernenden Antispam-Systemen wie Akismet oder Cleantalk, sondern um einen Angriff auf die Websites. WordPress hat eine Erkennung von Spamwellen („Flooding“).
Werden zu viele Kommentare in extrem kurzer Zeit getätigt, so kommt nur noch eine Fehlermeldung, man müsse sich etwas gedulden und bitte nicht so schnell hintereinander kommentieren.
Damit verhindert das fluten mit Spamkommentaren auch das Absenden korrekter Kommentare. Problem ist nur: Das ist nicht sehr sicher. Ein Kommentar ist relativ schnell wieder möglich, denn es erfordert eine Menge andauernder Ressourcen auf der Spammer-Seite. Zudem sind die Ziele, die mir durch den Support aufgefallen sind, keine Ziele, bei denen das Sinn machen würde. Wenn es politische Blogs wären, die mundtot gemacht werden sollen okay, aber das passte hier überhaupt nicht.
Daher vermute ich aktuell tatsächlich data poisining als Ziel von diesem Spam.
Hast du eine andere Idee dazu? Oder mehr Infos dazu? Dann freue ich mich über deinen Kommentar!