Page 1 of 1

Rspamd erneutes anlernen notwendig?

Posted: Mon 16. Oct 2023, 16:03
by l_fish
Hallo,

mit Debian 12 kommt ja der Wechsel von spamassassin/amavis zu rspamd. Ich hatte noch keine Zeit, mich mit rspamd auseinander zu setzen und vielleicht gibt es ja hier jemanden, der mir eine Frage schon mal beantworten kann:

Von spamassassin kenne ich das so, dass dieser angelernt werden muss, um seine Erkennungsrate zu verbessern. Das hat unser Server nun über Jahre hinweg auch getan und die Spamerkannung läuft ganz passabel.

Wie sieht das mit rspamd aus? Muss auch dieser zunächst angelernt werden? Falls ja, kann man das Erlernte aus spamassassin irgendwie übernehmen oder muss man mit dem Wechsel zunächst mit (deutlich?) schlechterer Spamerkannung rechnen?

Mir geht es darum, ob wir unsere Kunden diesbezüglich irgendwie vorab informieren müssen und ggf. einige spam-empfindliche Gemüter zunächst auf dem alten System weiter laufen lassen müssen... ;)

Re: Rspamd erneutes anlernen notwendig?

Posted: Wed 18. Oct 2023, 14:43
by Alexander
Hallo,

Ich zitiere einmal die Doku:
Rspamd does not support SpamAssassin statistics so you’d need to train your filter from scratch with spam and ham samples. Rspamd uses a different statistical engine called OSBF-Bayes that could be more precise than the ‘naive’ Bayes classifier
Rspamd statistics are not compatible with SA as Rspamd uses a more advanced statistics algorithm, described in the following article, so please bear in mind that you need to relearn your statistics.
(https://rspamd.com/doc/tutorials/migrate_sa.html)

Re: Rspamd erneutes anlernen notwendig?

Posted: Wed 18. Oct 2023, 18:19
by l_fish
Danke für die klärende Antwort, Alex.

Dann sollte man wohl am besten rechtzeitig vor Umstellung anfangen, Spammails zu sammeln, um die dann zum Trainieren nutzen zu können.

Werden denn weiterhin Mails aus den Spamordnern per cronjob als Spam trainiert? Oder gibt es dieses Feature mit rspamd nicht mehr?

Falls noch jemand andere Ideen hat, ich suche halt einen Migrationspfad, der möglichst nahtlos die gleiche Spamerkennungsrate ermöglicht.

Viele Grüße,
Lars

Re: Rspamd erneutes anlernen notwendig?

Posted: Thu 19. Oct 2023, 10:01
by Jolinar
Man könnte auch beide Systeme eine Zeit lang parallel betreiben...Das alte System wird zur aktiven Spamabwehr genutzt und das neue System lernt in der Zeit dazu. Wenn Rspamd "genug gelernt" hat, wechselt man das System.

Re: Rspamd erneutes anlernen notwendig?

Posted: Thu 19. Oct 2023, 10:51
by Tobi

Re: Rspamd erneutes anlernen notwendig?

Posted: Thu 19. Oct 2023, 13:50
by bori123
Jolinar wrote: Thu 19. Oct 2023, 10:01 Man könnte auch beide Systeme eine Zeit lang parallel betreiben...Das alte System wird zur aktiven Spamabwehr genutzt und das neue System lernt in der Zeit dazu. Wenn Rspamd "genug gelernt" hat, wechselt man das System.
Hi,

wobei ich dazu sagen muss, dass die Erkennung von RSPAMD auch "ungelernt" schon hervorragend ist...
Und um nen "Grundstock" an Spam zu lernen könnte man auch nen Spamarchiv (z.B. hier: https://untroubled.org/spam/ ) in den Tempordner packen und rsapmd das Geraffel lernen lassen.

Code: Select all

rspamc learn_spam /tmp/2022/*/*
oder wie auch immer dann der Pfad nach dem entpacken lautet nutzen.

Lernen geht unfassbar schnell und Du hast nen Grundstock gelegt...

Viele Grüße
Alex

Re: Rspamd erneutes anlernen notwendig?

Posted: Fri 20. Oct 2023, 10:13
by l_fish
Vielen Dank für eure Antworten und Ideen! :)

Ich habe inzwischen ein Testsystem aufgesetzt und lasse das von unserem Hauptmailserver mit meinen ungefilterten Mails in Kopie befüttern. Das ist zwar nicht ganz 1 zu 1 eine Livesituation, aber zum Analysieren, Anschauen und Lernen (hier lernen sowohl ich als auch rspamd ;) ) reicht das erst einmal aus.

Erste Erkenntnisse:

- Anlernen von Spam / Ham ist nötig
- Anlernen von Spam / Ham ist einfach machbar (habe vom Hauptserver einfach mal stumpf alle Spamfolder eingezippt, rüber geschoben und angelernt)
- man muss aber auch Ham anlernen, (in Standard-Einstellung mindestens 200 Mails), sonst wird die Bayes-Filterung nicht angewandt
- mir fehlt die Option (die es bisher gab), per Mailkonto Spam/Virenprüfung ein- oder abschalten und Spamscore festlegen zu können

Auf jeden Fall sieht das Ganze vielversprechend aus und Danke an Alex für die Umsetzung! Ich werde das dann mal weiter beobachten, trainieren und schauen, wie das über einen längeren Zeitraum so tut.

Re: Rspamd erneutes anlernen notwendig?

Posted: Mon 20. Nov 2023, 12:36
by Ralph
bori123 wrote: Thu 19. Oct 2023, 13:50 wobei ich dazu sagen muss, dass die Erkennung von RSPAMD auch "ungelernt" schon hervorragend ist...
Und um nen "Grundstock" an Spam zu lernen könnte man auch nen Spamarchiv (z.B. hier: https://untroubled.org/spam/ ) in den Tempordner packen und rsapmd das Geraffel lernen lassen.

Code: Select all

rspamc learn_spam /tmp/2022/*/*
oder wie auch immer dann der Pfad nach dem entpacken lautet nutzen.
Lernen geht unfassbar schnell und Du hast nen Grundstock gelegt...
Hat das mal jemand getestet und ist es überhaupt notwendig und sinnvoll?
Ich habe rspamd gestern mal mit den untroubled.org Spammails (2020-2023) gefüttert, danach zeigt der redis-server eine extrem hohe Speicher Auslastung und nutzt auch entsprechend viel Swap zum auslagern.
Scheinbar war das schon zu viel Lern Material 2020-2023 und ich musste dann den redis cache leeren, der Speicherverbrauch ging danach wieder in den normalen Bereich:

Code: Select all

redis-cli flushall async
Ich habe mit rspamd im Produktiv Betrieb bisher keine Erfahrungen ... sollte man hier weniger Material zum lernen (2-3 Monate) nehmen oder es besser ganz lassen?

Re: Rspamd erneutes anlernen notwendig?

Posted: Mon 20. Nov 2023, 15:50
by Ralph
Weinger ist oftmals mehr :lol:
Na ja, läuft jetzt unauffällig ... ab Mitte Ende Dez. geht das System für die Kunden in Betrieb dann lasse ich mich mal überraschen bzgl. false/positives.
Es gibt halt keine Garantie oder Referenz für den untroubled.org Spam Stuff ...