Rspamd erneutes anlernen notwendig?

Allgemeine Diskussionen rund um KeyHelp.
Post Reply
l_fish
Posts: 147
Joined: Tue 15. Aug 2017, 11:49

Rspamd erneutes anlernen notwendig?

Post by l_fish »

Hallo,

mit Debian 12 kommt ja der Wechsel von spamassassin/amavis zu rspamd. Ich hatte noch keine Zeit, mich mit rspamd auseinander zu setzen und vielleicht gibt es ja hier jemanden, der mir eine Frage schon mal beantworten kann:

Von spamassassin kenne ich das so, dass dieser angelernt werden muss, um seine Erkennungsrate zu verbessern. Das hat unser Server nun über Jahre hinweg auch getan und die Spamerkannung läuft ganz passabel.

Wie sieht das mit rspamd aus? Muss auch dieser zunächst angelernt werden? Falls ja, kann man das Erlernte aus spamassassin irgendwie übernehmen oder muss man mit dem Wechsel zunächst mit (deutlich?) schlechterer Spamerkannung rechnen?

Mir geht es darum, ob wir unsere Kunden diesbezüglich irgendwie vorab informieren müssen und ggf. einige spam-empfindliche Gemüter zunächst auf dem alten System weiter laufen lassen müssen... ;)
User avatar
Alexander
Keyweb AG
Posts: 3842
Joined: Wed 20. Jan 2016, 02:23

Re: Rspamd erneutes anlernen notwendig?

Post by Alexander »

Hallo,

Ich zitiere einmal die Doku:
Rspamd does not support SpamAssassin statistics so you’d need to train your filter from scratch with spam and ham samples. Rspamd uses a different statistical engine called OSBF-Bayes that could be more precise than the ‘naive’ Bayes classifier
Rspamd statistics are not compatible with SA as Rspamd uses a more advanced statistics algorithm, described in the following article, so please bear in mind that you need to relearn your statistics.
(https://rspamd.com/doc/tutorials/migrate_sa.html)
Mit freundlichen Grüßen / Best regards
Alexander Mahr

**************************************************************
Keyweb AG - Die Hosting Marke
Neuwerkstr. 45/46, 99084 Erfurt / Germany
http://www.keyweb.de - http://www.keyhelp.de
**************************************************************
l_fish
Posts: 147
Joined: Tue 15. Aug 2017, 11:49

Re: Rspamd erneutes anlernen notwendig?

Post by l_fish »

Danke für die klärende Antwort, Alex.

Dann sollte man wohl am besten rechtzeitig vor Umstellung anfangen, Spammails zu sammeln, um die dann zum Trainieren nutzen zu können.

Werden denn weiterhin Mails aus den Spamordnern per cronjob als Spam trainiert? Oder gibt es dieses Feature mit rspamd nicht mehr?

Falls noch jemand andere Ideen hat, ich suche halt einen Migrationspfad, der möglichst nahtlos die gleiche Spamerkennungsrate ermöglicht.

Viele Grüße,
Lars
User avatar
Jolinar
Community Moderator
Posts: 3609
Joined: Sat 30. Jan 2016, 07:11
Location: Weimar (Thüringen)
Contact:

Re: Rspamd erneutes anlernen notwendig?

Post by Jolinar »

Man könnte auch beide Systeme eine Zeit lang parallel betreiben...Das alte System wird zur aktiven Spamabwehr genutzt und das neue System lernt in der Zeit dazu. Wenn Rspamd "genug gelernt" hat, wechselt man das System.
Wenn jemand inkompetent ist, dann kann er nicht wissen, daß er inkompetent ist. (David Dunning)

Data Collector für Community Support
___
Ich verwende zwei verschiedene Schriftfarben in meinen Beiträgen /
I use two different font colors in my posts:
  • In dieser Farbe schreibe ich als Moderator und gebe moderative Hinweise oder begründe moderative Eingriffe /
    In this color, I write as a moderator and provide moderative guidance or justify moderative interventions
  • In dieser Farbe schreibe ich als Community Mitglied und teile meine private Meinung und persönlichen Ansichten mit /
    In this color, I write as a community member and share my personal opinions and views
User avatar
Tobi
Community Moderator
Posts: 2831
Joined: Thu 5. Jan 2017, 13:24

Re: Rspamd erneutes anlernen notwendig?

Post by Tobi »

Gruß,
Tobi


-----------------------------
wewoco.de
Das Forum für Reseller, Digital-Agenturen, Bildschirmarbeiter und Mäuseschubser
bori123
Posts: 24
Joined: Fri 10. Dec 2021, 20:50

Re: Rspamd erneutes anlernen notwendig?

Post by bori123 »

Jolinar wrote: Thu 19. Oct 2023, 10:01 Man könnte auch beide Systeme eine Zeit lang parallel betreiben...Das alte System wird zur aktiven Spamabwehr genutzt und das neue System lernt in der Zeit dazu. Wenn Rspamd "genug gelernt" hat, wechselt man das System.
Hi,

wobei ich dazu sagen muss, dass die Erkennung von RSPAMD auch "ungelernt" schon hervorragend ist...
Und um nen "Grundstock" an Spam zu lernen könnte man auch nen Spamarchiv (z.B. hier: https://untroubled.org/spam/ ) in den Tempordner packen und rsapmd das Geraffel lernen lassen.

Code: Select all

rspamc learn_spam /tmp/2022/*/*
oder wie auch immer dann der Pfad nach dem entpacken lautet nutzen.

Lernen geht unfassbar schnell und Du hast nen Grundstock gelegt...

Viele Grüße
Alex
l_fish
Posts: 147
Joined: Tue 15. Aug 2017, 11:49

Re: Rspamd erneutes anlernen notwendig?

Post by l_fish »

Vielen Dank für eure Antworten und Ideen! :)

Ich habe inzwischen ein Testsystem aufgesetzt und lasse das von unserem Hauptmailserver mit meinen ungefilterten Mails in Kopie befüttern. Das ist zwar nicht ganz 1 zu 1 eine Livesituation, aber zum Analysieren, Anschauen und Lernen (hier lernen sowohl ich als auch rspamd ;) ) reicht das erst einmal aus.

Erste Erkenntnisse:

- Anlernen von Spam / Ham ist nötig
- Anlernen von Spam / Ham ist einfach machbar (habe vom Hauptserver einfach mal stumpf alle Spamfolder eingezippt, rüber geschoben und angelernt)
- man muss aber auch Ham anlernen, (in Standard-Einstellung mindestens 200 Mails), sonst wird die Bayes-Filterung nicht angewandt
- mir fehlt die Option (die es bisher gab), per Mailkonto Spam/Virenprüfung ein- oder abschalten und Spamscore festlegen zu können

Auf jeden Fall sieht das Ganze vielversprechend aus und Danke an Alex für die Umsetzung! Ich werde das dann mal weiter beobachten, trainieren und schauen, wie das über einen längeren Zeitraum so tut.
User avatar
Ralph
Posts: 843
Joined: Mon 30. Mar 2020, 16:14

Re: Rspamd erneutes anlernen notwendig?

Post by Ralph »

bori123 wrote: Thu 19. Oct 2023, 13:50 wobei ich dazu sagen muss, dass die Erkennung von RSPAMD auch "ungelernt" schon hervorragend ist...
Und um nen "Grundstock" an Spam zu lernen könnte man auch nen Spamarchiv (z.B. hier: https://untroubled.org/spam/ ) in den Tempordner packen und rsapmd das Geraffel lernen lassen.

Code: Select all

rspamc learn_spam /tmp/2022/*/*
oder wie auch immer dann der Pfad nach dem entpacken lautet nutzen.
Lernen geht unfassbar schnell und Du hast nen Grundstock gelegt...
Hat das mal jemand getestet und ist es überhaupt notwendig und sinnvoll?
Ich habe rspamd gestern mal mit den untroubled.org Spammails (2020-2023) gefüttert, danach zeigt der redis-server eine extrem hohe Speicher Auslastung und nutzt auch entsprechend viel Swap zum auslagern.
Scheinbar war das schon zu viel Lern Material 2020-2023 und ich musste dann den redis cache leeren, der Speicherverbrauch ging danach wieder in den normalen Bereich:

Code: Select all

redis-cli flushall async
Ich habe mit rspamd im Produktiv Betrieb bisher keine Erfahrungen ... sollte man hier weniger Material zum lernen (2-3 Monate) nehmen oder es besser ganz lassen?
User avatar
Ralph
Posts: 843
Joined: Mon 30. Mar 2020, 16:14

Re: Rspamd erneutes anlernen notwendig?

Post by Ralph »

Weinger ist oftmals mehr :lol:
Na ja, läuft jetzt unauffällig ... ab Mitte Ende Dez. geht das System für die Kunden in Betrieb dann lasse ich mich mal überraschen bzgl. false/positives.
Es gibt halt keine Garantie oder Referenz für den untroubled.org Spam Stuff ...
Post Reply