Пояснения к файлу токенов

Пояснение к файлу токенов.

Строка вида "__RU_SOME_MEANINGFUL_NAME (разные)|(сочетания)|(букв)" определяет вспомогательное правило, которое само по себе не даёт вклад в "total score" (это относится ко всем правилам, имена которых начинаются с двойного подчёркивания). Токены, используемые в этих правилах, отлавливают относительно "безобидные" слова и обороты, которые почти всегда присутствуют в спаме, но сами по себе не могут быть стопроцентным индикатором нежелательного рекламного сообщения. Эти правила используется в мета-правилах.
Строка, которые начинаются с ключевого слова "meta", определяют правило, результат которого определяется результатами других правил. Использование мета-правил позволяет повысить избирательность работы SpamAssassin'а, а также позволяет использовать одно и то же вспомогательное правило в разных темах - например, правило, которое ловит слова, относящиеся к перевозке грузов, можно использовать против спама "офисные переезды", против спама "доставка грузов по России" и против спама "семинары по логистике".
Строка, которая начинается с ключевого слова "body" или "rawbody", определяет правило, которое не имеет отношения к содержимому на русском языке. Оно переносится в файл правил "как есть". Его имя не должно начинаться на "RU" или "__RU" (к правилам, имена которых начинаются на "RU" или "__RU" скрипт добавляет название кодировки "_UTF8", "_KOI8" или "_WIN1251"). Строка, которая начинается с ключевого слова "score", определяет баллы, которое данное правило даёт в "total score". У многих правил score невысок - эти правила, избирательность и эффективность которых ещё нуждается в тестировании.
Люди, знакомые с регулярными выражениями, легко узнают их в строке токенов - в принципе, это они и есть, скрипт лишь заменяет байты с кириллическими символами на локаленезависимые шестнадцатиричные выражения вида (\xd0\x90) (заглавная "А" в UTF-8). Токены всегда составляются в нижнем регистре. При создании правил скрипт заменяет каждую букву регулярным выражением, которому соответствует эта буква в верхнем и нижнем регистре, плюс похожие по написанию латинские буквы и цифры (например, для буквы "о" - русские "о", "О", латинские "o", "O" и цифра "ноль", для буквы "ч" - русские "ч", "Ч" и цифра "четыре", и т.д.). (В принципе, можно также добавить латинские буквы, соответствующие данной кириллической букве по правилам транслитерации, но это сейчас, похоже, не актуально) По каждой строке генерится три правила - в кодировках KOI8-R, MS Windows CP1251 и UTF-8. Соответственно, для всех трёх кодировок дублируются определения мета-правил и баллов каждого правила.
Начиная с версии от 16.09.2009 скрипт make_rules.pl распознаёт "псевдо-токены" <#DIGIT#>, <#0#>, <#1#>, <#2#>, <#3#>, <#4#>, <#5#>, <#6#>, <#7#>, <#8#> и <#9#>, заменяя их регулярными выражениями, совпадающими с цифрами или буквами, похожими на цифру (о,О,l,I,з,З,ч,Ч и т.д.), после которой может находиться несколько пробелов или знаков пунктуации. Псевдо-токены предназначены, в основном, на отлов часто упоминаемых телефонных номеров.

Сайт создан в системе uCoz