Уважаемые участники чатов, а также владельцы! Это пост для вас😃
Наш антиспам бот @tantispam_bot по умолчанию работает в стандартном (полуавтоматическом) режиме. Он блокирует явных спамеров, анализируя их сообщения. Его алгоритмы написаны таким образом, чтобы исключить возможность случайной блокировки (именно поэтому вы видите в чате сообщение: "❌ Это спам?".
Иногда такое сообщение вылезает на обычные сообщения. Это ложные срабатывания (Бот под капотом имеет модель нейросети, которая анализирует сообщения). Ложные срабатывания это погрешность. В данном случает погрешность составляет около 6 ложноположительных срабатываний на 1000 сообщений.
Прошу не волноваться если ваше сообщение было помечено ботом. Модераторы и администраторы чатов в таком случае вручную анализируют его и принимают решение.
За полгода работы бота в более чем в 20 чатах был только один случай ложной автоматической блокировки. И то, потому что сошлось множество уникальных факторов. Человека сразу же разбанили естественно и все с ним хорошо. Над этой проблемой работаем. Будет фикс. Аккаунты для связи указаны в описании канала. Всем добра👍
Наш антиспам бот @tantispam_bot по умолчанию работает в стандартном (полуавтоматическом) режиме. Он блокирует явных спамеров, анализируя их сообщения. Его алгоритмы написаны таким образом, чтобы исключить возможность случайной блокировки (именно поэтому вы видите в чате сообщение: "❌ Это спам?".
Иногда такое сообщение вылезает на обычные сообщения. Это ложные срабатывания (Бот под капотом имеет модель нейросети, которая анализирует сообщения). Ложные срабатывания это погрешность. В данном случает погрешность составляет около 6 ложноположительных срабатываний на 1000 сообщений.
Прошу не волноваться если ваше сообщение было помечено ботом. Модераторы и администраторы чатов в таком случае вручную анализируют его и принимают решение.
За полгода работы бота в более чем в 20 чатах был только один случай ложной автоматической блокировки. И то, потому что сошлось множество уникальных факторов. Человека сразу же разбанили естественно и все с ним хорошо. Над этой проблемой работаем. Будет фикс. Аккаунты для связи указаны в описании канала. Всем добра👍
До конца года планирую сделать большой тест бота на выявление спама, ложноположительных срабатываний и выкатить подробную статистику работы за 2025 год. Подведем итоги года так сказать)
Год подходит к концу, а значит самое время подвести итоги!
ЧАСТЬ 1. Общая статистика
Бот начал свою миссию весной в режиме бета тестирования.
Полноценный релиз состоялся 1 июня 2025 года.
На сегодняшний день:
🔹 Бот модерирует 19 чатов 💬
🔹 Обнаружено 4️⃣2️⃣0️⃣3️⃣ спам - сообщений 🗑
🔹 Заблокировано 3️⃣5️⃣8️⃣2️⃣ спамера 🚫👤
ЧАСТЬ 1. Общая статистика
Бот начал свою миссию весной в режиме бета тестирования.
Полноценный релиз состоялся 1 июня 2025 года.
На сегодняшний день:
🔹 Бот модерирует 19 чатов 💬
🔹 Обнаружено 4️⃣2️⃣0️⃣3️⃣ спам - сообщений 🗑
🔹 Заблокировано 3️⃣5️⃣8️⃣2️⃣ спамера 🚫👤
Год подходит к концу, а значит самое время подвести итоги!
ЧАСТЬ 2. Статистика по месяцам. Динамика
Как видно из графиков, количество спамеров только растет в течении года. Июль, правда, почему-то выбивается из тренда😐
ЧАСТЬ 2. Статистика по месяцам. Динамика
Как видно из графиков, количество спамеров только растет в течении года. Июль, правда, почему-то выбивается из тренда😐
Год подходит к концу, а значит самое время подвести итоги!
ЧАСТЬ 3. Тепловая карта спама по дням недели и времени суток.
Видно, что основная активность спамеров это дневное время с 6 до 15 по Москве. Можно ли сделать вывод, что сервисы которые рассылают спам ориентируются на аудиторию Центрального Федерального округа? Вопрос риторический...
ЧАСТЬ 3. Тепловая карта спама по дням недели и времени суток.
Видно, что основная активность спамеров это дневное время с 6 до 15 по Москве. Можно ли сделать вывод, что сервисы которые рассылают спам ориентируются на аудиторию Центрального Федерального округа? Вопрос риторический...
Год подходит к концу, а значит самое время подвести итоги!
ЧАСТЬ 4. Тематическое моделирования. Топ темы спам сообщений
📌 Тип 1. «Фейковые вакансии / онлайн-подработка» - наиболее массовый спам
Общий признак:
«нужны 2 человека / 2-3 человек(а)», «всё с телефона», «удалёнка», «доход от X», «от 18 лет», «оплата после», «простые задачи», «пошагово», «никаких вложений».
💰 Тип 2. «Финансовый спам / кредитные ловушки»
Общий нарратив:
«устал без денег?», «помогу с долгами», «денежки нужны?», «поднять бабки», «решим проблемы».
🔗 Тип 3. «Технический спам: ссылки, каналы, боты»
Особенность: минимальный текст, много шумов, символов, замаскированных данных.
📸 Тип 4. «Обфусцированный спам» (анти-детект)
Цель - обход текстовых фильтров (в т.ч. регулярных выражений и простого поиска по ключам).
Способ маскировки:
Смешение алфавитов: нyжны (y=латинская), οт (ο=греческая omicron), вαс (α=альфа). Разрыв слов пробелами: «п о м о щ ь»
Это анализ основных типов сообщений, которые удалось отловить боту за 2025 год.
ЧАСТЬ 4. Тематическое моделирования. Топ темы спам сообщений
📌 Тип 1. «Фейковые вакансии / онлайн-подработка» - наиболее массовый спам
Общий признак:
«нужны 2 человека / 2-3 человек(а)», «всё с телефона», «удалёнка», «доход от X», «от 18 лет», «оплата после», «простые задачи», «пошагово», «никаких вложений».
💰 Тип 2. «Финансовый спам / кредитные ловушки»
Общий нарратив:
«устал без денег?», «помогу с долгами», «денежки нужны?», «поднять бабки», «решим проблемы».
🔗 Тип 3. «Технический спам: ссылки, каналы, боты»
Особенность: минимальный текст, много шумов, символов, замаскированных данных.
📸 Тип 4. «Обфусцированный спам» (анти-детект)
Цель - обход текстовых фильтров (в т.ч. регулярных выражений и простого поиска по ключам).
Способ маскировки:
Смешение алфавитов: нyжны (y=латинская), οт (ο=греческая omicron), вαс (α=альфа). Разрыв слов пробелами: «п о м о щ ь»
Это анализ основных типов сообщений, которые удалось отловить боту за 2025 год.
Год подходит к концу, а значит самое время подвести итоги!
ЧАСТЬ 5. ИТОГИ
Работу бота оцениваю на хорошо. Есть проблемы пропуска спама из-за дрейфа данных. Также остается проблема с ложными срабатываниями. До конца победить я это не смог. Сегодня-завтра выпущу обновленную модель, дообученную на новых данных.
На 2026 год в планах продолжать дообучать модель и создать полноценный дашборд со онлайн статистикой бота в режиме реального времени. Ну как-то так)
ЧАСТЬ 5. ИТОГИ
Работу бота оцениваю на хорошо. Есть проблемы пропуска спама из-за дрейфа данных. Также остается проблема с ложными срабатываниями. До конца победить я это не смог. Сегодня-завтра выпущу обновленную модель, дообученную на новых данных.
На 2026 год в планах продолжать дообучать модель и создать полноценный дашборд со онлайн статистикой бота в режиме реального времени. Ну как-то так)
🔥Очередное обновление.
Январь подошел к концу, а значит пора дообучать модель!
На сегодня датасет состоит из 25000 строк (12500 пар строк спам/не спам).
Датасет я до сих пор размечаю вручную, читая каждое сообщение прежде чем присвоить ему соответствующий класс.
Это неудобно и занимает время. Поэтому я задумался над автоматизацией процесса разметки. Как что то получится - отпишусь.
По дообучению.
Модель обновилась на новых данных. Также внесены некоторые исправления в код для оптимизации.
Январь подошел к концу, а значит пора дообучать модель!
На сегодня датасет состоит из 25000 строк (12500 пар строк спам/не спам).
Датасет я до сих пор размечаю вручную, читая каждое сообщение прежде чем присвоить ему соответствующий класс.
Это неудобно и занимает время. Поэтому я задумался над автоматизацией процесса разметки. Как что то получится - отпишусь.
По дообучению.
Модель обновилась на новых данных. Также внесены некоторые исправления в код для оптимизации.
Дообучил модель на вновь поступивших данных, среди которых 126 ложноположительных сообщений (накопившиеся за месяц).
Ниже представлены матрицы ошибок января и февраля. Тренировочный и следовательно валидационный наборы данных по сравнению с январем увеличены, а количество ложных предсказаний уменьшилось как в абсолютных значениях, так и в процентных.
Please open Telegram to view this post
VIEW IN TELEGRAM
1) Исправил ошибку связанную с неудалением спам-картинки с подписью. Бот распознавал такие сообщения, но не удалял (некоторые модераторы чатов жаловались на это). Косяк исправлен😊
2) Доделал дашборд со статистикой. В целом готов запустить в общий доступ как сайт, но пока не выбрал домен: жаба душит платить за него)
Как выглядит дашборд можете увидеть под постом👇
Please open Telegram to view this post
VIEW IN TELEGRAM
TAntispam Bot ✨ Блог разработчика
👆 Стоит отметить, что еще в начале января Процент ложных срабатываний (отношение ложноположительных сообщений определённых моделью как "спам" к количеству всех сообщений которые обработала модель, в процентах) был равен 0.52%. (напомню, в июне 2025 он был равен 2.7%!)
- Модель
Дообучена на дополнительных данных, накопившихся за месяц с чатов.
Матрица ошибок на валидационном наборе представлена ниже👇. Можно сравнить визуально с февралём и январём.
- Код
Оптимизирована часть кода отвечающая за быстроту обработки запросов в БД.
- Логика
Спамеры не стоят на месте. В последние дни появился новый формат сообщений. Суть в том, что основное сообщение представляет собой ссылку на канал, но ссылку не простую, а через сущность
message.external_reply. До сегодняшнего дня, данный объект не обрабатывался ботом. Теперь этот недочёт исправлен.Выводы.
Заметно меньше стало ложных срабатываний. Датасет постоянно увеличивается и пополняется новыми примерами сообщений.
Впереди много нового ждет проект. Но об этом чуть позже в дальнейших постах 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
TAntispam Bot ✨ Блог разработчика
В последние дни появился новый формат сообщений.
Вот такая штука.
Ботом обрабатывалась только часть содержащая «Спаасибо!!!»
Таких сообщений несколько уже. Само сообщение представляет собой ссылку на канал.
Переходить не стоит
Ботом обрабатывалась только часть содержащая «Спаасибо!!!»
Таких сообщений несколько уже. Само сообщение представляет собой ссылку на канал.
Переходить не стоит
👍1
😐Сегодня ночью лёг бот...
Все оказалось банально просто: Сервер перестал общаться с телегой (я думаю тут все ясно почему).
Решение было найдено и к сегодняшнему часу бот живее всех живых!
Все оказалось банально просто: Сервер перестал общаться с телегой (я думаю тут все ясно почему).
Решение было найдено и к сегодняшнему часу бот живее всех живых!
TAntispam Bot ✨ Блог разработчика
Вот такая штука. Ботом обрабатывалась только часть содержащая «Спаасибо!!!» Таких сообщений несколько уже. Само сообщение представляет собой ссылку на канал. Переходить не стоит
Не все так просто оказалось с подобными сообщениями...
Я так и не нашел через какой объект Telegram API передается верхняя часть сообщения. Из
Смоделировать похожее сообщение я также не смог. Поиск в интернете ничего не дал, нейронки типа qwen, cloude толкого ничего не выдают. Пытался через HTML редактор даже разбирать. Все тщетно. Не нашел объект в Telegram API который бы это описывал.
Есть конечно подозрения что это URL как то хитро вшит через
Вот такой замкнутый круг)
Я так и не нашел через какой объект Telegram API передается верхняя часть сообщения. Из
message. text получаем только "Спасибо!!!". Верхнюю часть сообщения не видно🤷♂️.Смоделировать похожее сообщение я также не смог. Поиск в интернете ничего не дал, нейронки типа qwen, cloude толкого ничего не выдают. Пытался через HTML редактор даже разбирать. Все тщетно. Не нашел объект в Telegram API который бы это описывал.
Есть конечно подозрения что это URL как то хитро вшит через
message.entites но проверить я это не могу, так как не могу повторить это сообщение😐Вот такой замкнутый круг)
✨Модель.
Очередное дообучение на данных накопленных с 30.03.2026 по 30.04.2026.
Датасет увеличен и приближается к пороговой отметке в 30000 записей. Модель ведет себя более стабильно: минимизируются ложные срабатывания.
Вот. Коротким получился ежемесячный отчет =)
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1