Загрузки

 

15.04.2011

99_russian_common_re.cf
Общие правила для всех кодировок.
Common rules for all encodings.
Ничем не отличается от версии за 16.09.2009 ;)

99_russian_koi8_re.cf
Правила для сообщений в кодировке KOI8-R
Rules for messages with KOI8-R encoding.
99_russian_win1251_re.cf
Правила для сообщений в кодировке MS CP1251
Rules for messages with MS CP1251 encoding.
99_russian_utf8_re.cf
Правила для сообщений в кодировке UTF-8
Rules for messages with UTF-8 encoding.
По сравнению с версией от 29.09.2009 исправлена одна опечатка, использованы модификаторы регулярных выражений "ms".

tokens.utf-8.txt
Файл с токенами для создания правил
Tokens file (source for rules)
Список токенов, на основе которых скрипт make_rules.pl создаёт файлы с правилами.
Если Вы хотите подправить что-то в этом файле и создать новые правила для себя - используйте скрипт от 15.04.2011 г. И не забудьте подправить полученный файлы с правилами (см. комментарии с пометкой "ATTENTION" в файле токенов).

make_rules.pl
Скрипт для создания правил на основе списка токенов
Perl script for creating rules based on tokens list
Скрипт, который создаёт файлы с правилами на основе списка токенов. В отличие от версии от 16.09.2009 добавляет к регулярным выражениям модификатор "ms".

29.09.2009

99_russian_koi8_re.cf
Правила для сообщений в кодировке KOI8-R
Rules for messages with KOI8-R encoding.
99_russian_win1251_re.cf
Правила для сообщений в кодировке MS CP1251
Rules for messages with MS CP1251 encoding.
99_russian_utf8_re.cf
Правила для сообщений в кодировке UTF-8
Rules for messages with UTF-8 encoding.
По сравнению с версией от 16.09.2009 расширены разделы, посвящённые юридическим услугам и предложениям недвижимости.

tokens.utf-8.txt
Файл с токенами для создания правил
Tokens file (source for rules)
Список токенов, на основе которых скрипт make_rules.pl создаёт файлы с правилами.
Если Вы хотите подправить что-то в этом файле и создать новые правила для себя - используйте только скрипт от 16.09.2009 г. И не забудьте подправить полученный файлы с правилами (см. комментарии с пометкой "ATTENTION" в файле токенов).

16.09.2009

99_russian_common_re.cf
Общие правила для всех кодировок.
Common rules for all encodings.
В данном файле собраны правила, нацеленные не на какие-то определённые фрагменты текста на русском, а на некие общие особенности, часто встречающиеся в русскоязычном спаме (такие, как смешивание русских и латинских букв в одном слове) и в спаме вообще (например, несколько восклицательных знаков или наличие web-адреса).

99_russian_koi8_re.cf
Правила для сообщений в кодировке KOI8-R
Rules for messages with KOI8-R encoding.
99_russian_win1251_re.cf
Правила для сообщений в кодировке MS CP1251
Rules for messages with MS CP1251 encoding.
99_russian_utf8_re.cf
Правила для сообщений в кодировке UTF-8
Rules for messages with UTF-8 encoding.
Правила в этих трёх файлах обнаруживают фрагменты русского текста, присутствующие в рекламных сообщениях.
Теперь один общий файл правил разделён на части - файл с общими правилами (99_russian_common_re.cf) и три файла с правилами, рассчитанными на ключевые слова в кодировках KOI8-R, MS CP-1251 и UTF-8.
По сравнению с версией от 10.11.2008 расширены разделы, посвящённые семинарам (добавлены токены для "оптимизации налогов" и "возврата задолженности") и организации банкетов и праздников.

99_no_russian_mail.cf
Правила, выявляющие сообщение на русском по содержимому полей заголовка и наличию web-ссылки на сайт в Рунете. Предназначены для пользователей вне России и экс-СССР. Значение score изначально задано равным 0.01 (чтобы уменьшить ущерб от ложных срабатываний), для реального использования этих правил необходимо установить более высокое значение.
Rules capturing messages in Russian based on header fields and presence of URL in .ru TLD. Intended for users outside Russia and ex-USSR. Be aware that the scores are set to 0.01 (to mitigate possible FPs), you should increase them if you decide to use these rules.

tokens.utf-8.txt
Файл с токенами для создания правил
Tokens file (source for rules)
Список токенов, на основе которых скрипт make_rules.pl создаёт файлы с правилами.
Если Вы хотите подправить что-то в этом файле и создать новые правила для себя - используйте только скрипт от этого же числа (16.09.2009) - новый файл токенов содержит "псевдо-токены" (например, ⟨#DIGIT#⟩), которые может обрабатывать только скрипт от 16.09.2009 г.

make_rules.pl
Скрипт для создания правил на основе списка токенов
Perl script for creating rules based on tokens list
Скрипт, который создаёт файлы с правилами на основе списка токенов. В отличие от версии от 10.11.2009 распознаёт псевдо-токены (⟨#DIGIT#⟩, ⟨#0#⟩, ⟨#1#⟩, ... ⟨#9#⟩) и заменяет их на соответствующее регулярное выражение. Задействован код, создающий правила для кодировки UTF-8 (ранее закомментированный).

10.11.2008

99_russian_common_re.cf
Общие правила для всех кодировок.
Common rules for all encodings.
В данном файле собраны правила, нацеленные не на какие-то определённые фрагменты текста на русском, а на некие общие особенности, часто встречающиеся в русскоязычном спаме (такие, как смешивание русских и латинских букв в одном слове) и в спаме вообще (например, несколько восклицательных знаков или наличие web-адреса).

99_russian_koi8_re.cf
Правила для сообщений в кодировке KOI8-R
Rules for messages with KOI8-R encoding.
99_russian_win1251_re.cf
Правила для сообщений в кодировке MS CP1251
Rules for messages with MS CP1251 encoding.
Правила в этих двух файлах обнаруживают фрагменты русского текста, присутствующие в рекламных сообщениях.
Теперь один общий файл правил разделён на части - файл с общими правилами (99_russian_common_re.cf) и два файла с правилами, рассчитанными на ключевые слова в кодировках KOI8-R и MS CP-1251 (для кодировки UTF-8 список правил не создаётся, хотя такая возможность есть - доля сообщений в этой кодировке среди отлавливаемого спама очень незначительна).
Кроме этого, по сравнению с версией от 31.10.2008 расширен и упорядочен раздел, посвящённый рекламе в сети (почтовые рассылки и раскрутка сайтов).

tokens.utf-8.txt
Файл с токенами для создания правил
Tokens file (source for rules)
Список токенов, на основе которых скрипт make_rules.pl создаёт файлы с правилами.
Если Вы хотите подправить что-то в этом файле и создать новые правила для себя - используйте только скрипт от этого же числа (10.11.2008) - это связано с тем, что расширение списка токенов часто вызывает необходимость внести изменения в скрипт.

make_rules.pl
Скрипт для создания правил на основе списка токенов
Perl script for creating rules based on tokens list
Скрипт, который создаёт файлы с правилами на основе списка токенов. В отличие от версии от 31.10.2008 создаёт отдельный список правил для каждой кодировки и отдельный список с общими правилами. Код, создающий правила для кодировки UTF-8 закомментирован на ненужностью.

31.10.2008

99_russian_re.cf
Правила для сообщений в кодировках KOI8-R, MS CP 1251 и UTF-8
Rules for messages with KOI8-R, MS CP 1251 and UTF-8 encodings.
Файл с правилами. Глубокой переработке подвергся раздел с правилами, относящимися к порнорассылкам. Кроме правил, отлавливающих фрагменты текста, добавлены правила, выявляющие общие особенностями, характерными для спама (наличие гиперссылки, чередование русских и латинских букв в одном слове, чередование цифр и букв "о","з","ч" и "б").

tokens.utf-8.txt
Файл с токенами для создания правил
Tokens file (source for rules)

make_rules.pl
Скрипт для создания правил на основе списка токенов
Perl script for creating rules based on tokens list

22.10.2008

99_russian_re.cf
Правила для сообщений в кодировках KOI8-R, MS CP 1251 и UTF-8
Rules for messages with KOI8-R, MS CP 1251 and UTF-8 encodings.
Файл с правилами. Добавлены правила для сообщений в кодировке UTF-8 (главным образом, в расчёте на использование опции normalize_charset).

tokens.utf-8.txt
Файл с токенами для создания правил
Tokens file (source for rules)

make_rules.pl
Скрипт для создания правил на основе списка токенов
Perl script for creating rules based on tokens list

Сайт создан в системе uCoz