Le blog-note de JM

Aller à... À retenir | Catégories | S'abonner | Archives | Liens | Bannières

jeudi 20 décembre 2007

Filtrer les spams de blog sur leur contenu

now smile! Les blog et wiki font de plus en plus d'adeptes et, même si on n'a pas forcément grand chose à raconter au début ;-) , l'expérience peut vite s'avérer passionnante. Néanmoins elle peut aussi très vite tourner au calvaire dès lors que les spammeurs ont repéré votre site : des dizaines, des centaines puis des milliers de commentaires ou « contributions » publicitaires voire malveillantes[1] arrivent chaque jour. Vous n'avez alors plus que 2 solutions : balayer de plus en plus longtemps chaque jour ou limiter les fonctionnalités de votre site[2]... Sur ce blog une 3ème possibilité est en test depuis presque 10 mois : comparer le contenu des spams à celui du billet concerné. Résultat 4 spams passés en 10 mois alors que le nombre moyen de spams reçus est passé de 10 à 50 spams par jour sur la même période.

spam stats (voir en grand)

Notes

[1] voir le billet Pages web malveillantes : Firefox bas Internet Explorer par KO... sur ce blog

[2] on peut considérer que compliquer la participation au site par des tests type captcha revient à limiter les fonctionnalités du point de vue accessibilité

Lire la suite

dimanche 1 avril 2007

Cartographie du spam de ce blog

connection Dans le billet Analyse du spam des 6 derniers mois nous avons vu que le spam de ce blog provient d'un grand nombre de pays mais aucun graphique ni aucun chiffre ne permettait d'en apprécier la réelle étendue. Avec la récente version 0.2.0 du Python whois service, une carte du monde donne maintenant d'un seul coup d'œil l'étendue de la provenance.

Lire la suite

mardi 27 mars 2007

Analyse du spam des 6 derniers mois

analyse Ce blog, bien que modeste, est la cible répétée de vandalisme, le spam, jusqu'à une pointe de 2000 messages par jour. Comme DotClear[1] enregistre dans ses log[2] toutes les actions et leur provenance, c'est l'occasion d'en savoir plus sur ceux qui veulent vous arnaquer avec du viagra ou de l'amoxyciline d'une qualité non contrôlable. Quelles machines ? Combien de fois ? De quel pays ? Des botnets ? C'est encore Python qui nous aide dans ce travail !

Notes

[1] DotClear est le logiciel qui fait tourner ce blog

[2] fichier journal du système

Lire la suite

jeudi 21 décembre 2006

Nouveau filtre spam pour spamplemousse

trash Les spammeurs sont prêts à tout pour augmenter l'audience de leur site, c'est ainsi que ce blog est la cible répétée de messages publicitaires depuis mi-novembre dernier. Aussi, pour inverser la tendance sans passer trop de temps à remplir la liste de mots bannis du Nouveau spamplemousse, j'ai ajouté un filtre basé sur la densité de liens du message[1]. Au final, sur les presque 500 spams reçus depuis 7 jours, une petite dizaine ont réussi à être publiés.

Notes

[1] il s'agit du rapport entre la longueur du texte contenu dans les liens et la longueur totale du texte du commentaire

Lire la suite

mardi 14 novembre 2006

Foutu spam...

stop Ce soir mauvaise surprise sur le blog : plus de 300 messages publicitaires (spam) dans les commentaires... Ça aurait très bien pu arriver sur un Wikini bien sûr. Évidemment, pas question de nettoyer tout ça un par un à la main, il faut trouver une interface qui permette de détruire des commentaires par paquets.

Lire la suite