Такое дело. Нашел ошибку в моделе... Причем принципиальную. Если вкратце, то тот слой что отвечает за механику запоминания контекста - не работает. Это напрямую связано с ложными срабатываниями.
Решение проблемы - переписывание кода моей библиотеки на которой написана основная логика классификации сообщений. На это нужно время. А пока, как временное решение - постоянное дообучение на ложноположительных данных. Это не решит проблему, но мб хотя бы снизит их количество.
Решение проблемы - переписывание кода моей библиотеки на которой написана основная логика классификации сообщений. На это нужно время. А пока, как временное решение - постоянное дообучение на ложноположительных данных. Это не решит проблему, но мб хотя бы снизит их количество.
Сейчас пошло много подобного рода спам-сообщений:
Бот не отреагировал на пару подобных. Все из за новых паттернов. Но ничего. Уже переобучил)
Слушай, бывают такие моменты когда нас что-то сильно сбивает с курса 🙃. Но не стоит забывать что образование открывает много дверей и знания всегда пригодятся. А если ты запутался в своих мыслях, рекомендую заглянуть к @**********. Там помогут разобраться и найти свою мотивацию!
Бот не отреагировал на пару подобных. Все из за новых паттернов. Но ничего. Уже переобучил)
Выше я уже приводил пример спам сообщений про мужской эскорт. Заметил, что активность такого рода спама за последний месяц прям выросла😒
❗️Как добавить бота в чат?
(Пост актуален и обновляется по мере обновления бота и добавления новых фич)
Все просто:
1. 🔍 Находим бота @tantispam_bot в поиске.
2. ✅ Добавляем бота @tantispam_bot в свою группу/чат и т.д.
3. 👮 Предоставьте боту права администратора на удаление сообщений и возможность блокировки пользователя.
И все! Бот работает.
🔹У бота есть два режима работы:
- СТАНДАРТНЫЙ Режим (по умолчанию при добавлении бота).
Вызов командой
в группе/чате. Права смены режима доступны только модераторам чата.
Принцип работ СТАНДРАТНОГО режима:
Каждое сообщение прогоняется через нейронку. Она выдает свой вердикт: спам или не спам. При подозрении на спам появляется сообщение в чате с просьбой модераторам чата/группы проверить это сообщение и принять решение. Сообщение выглядит так: https://t.me/tantispam/9
Если имело место ложное срабатывание, то нажав на инлайн кнопку
При нажатии
Бот может удалять сообщения автоматически если выполняется ряд условий одновременно: пользователь находится в базе спамеров и его сообщение нейронка определила как спам. Это позволяет избежать ложных банов.
- АВТОМАТИЧЕСКИЙ Режим (БЕТА тест).
Вызов командой
в группе/чате. Права смены режима доступны только модераторам чата.
Принцип работы АВТОМАТИЧЕСКОГО режима:
Каждое сообщение прогоняется через нейронку. Она выдает свой вердикт: спам или не спам. Если модель определила ваше сообщение как спам, то оно удаляется, без занесения пользователя в банлист.
Бот может удаляет и банит одновременно только в том случае, если выполняется ряд условий одновременно: пользователь находится в базе спамеров и его сообщение нейронка определила как спам.
🔹Для нераспознанных спам сообщений есть команда
🔹Напоминаю, что боту бесполезно писать в ЛС. Он не обрабатывает личку. Бот создан для групп и чатов.
🔹И да, бот бесплатный😄
По всем вопросам пишите сюда в комментарии.
Официальный канал TANTISPAM бота
Подпишись!
(Пост актуален и обновляется по мере обновления бота и добавления новых фич)
Все просто:
1. 🔍 Находим бота @tantispam_bot в поиске.
2. ✅ Добавляем бота @tantispam_bot в свою группу/чат и т.д.
3. 👮 Предоставьте боту права администратора на удаление сообщений и возможность блокировки пользователя.
И все! Бот работает.
🔹У бота есть два режима работы:
- СТАНДАРТНЫЙ Режим (по умолчанию при добавлении бота).
Вызов командой
/handbotв группе/чате. Права смены режима доступны только модераторам чата.
Принцип работ СТАНДРАТНОГО режима:
Каждое сообщение прогоняется через нейронку. Она выдает свой вердикт: спам или не спам. При подозрении на спам появляется сообщение в чате с просьбой модераторам чата/группы проверить это сообщение и принять решение. Сообщение выглядит так: https://t.me/tantispam/9
Если имело место ложное срабатывание, то нажав на инлайн кнопку
"✅Это не спам", сообщение пользователя остается, а в датасет заносится запись ложного срабатывания для дальнейшего дообучения модели.При нажатии
"❌Это спам" сообщение удаляется, а пользователь блокируется.Бот может удалять сообщения автоматически если выполняется ряд условий одновременно: пользователь находится в базе спамеров и его сообщение нейронка определила как спам. Это позволяет избежать ложных банов.
- АВТОМАТИЧЕСКИЙ Режим (БЕТА тест).
Вызов командой
/autobotв группе/чате. Права смены режима доступны только модераторам чата.
Принцип работы АВТОМАТИЧЕСКОГО режима:
Каждое сообщение прогоняется через нейронку. Она выдает свой вердикт: спам или не спам. Если модель определила ваше сообщение как спам, то оно удаляется, без занесения пользователя в банлист.
Бот может удаляет и банит одновременно только в том случае, если выполняется ряд условий одновременно: пользователь находится в базе спамеров и его сообщение нейронка определила как спам.
🔹Для нераспознанных спам сообщений есть команда
/spam. Пометьте подозрительное сообщение и модераторам чата/группы вылезет сообщение о принятии решения спам/не спам.🔹Напоминаю, что боту бесполезно писать в ЛС. Он не обрабатывает личку. Бот создан для групп и чатов.
🔹И да, бот бесплатный😄
По всем вопросам пишите сюда в комментарии.
Официальный канал TANTISPAM бота
Подпишись!
❤1🔥1
TAntispam Bot ✨ Блог разработчика pinned «❗️Как добавить бота в чат? (Пост актуален и обновляется по мере обновления бота и добавления новых фич) Все просто: 1. 🔍 Находим бота @tantispam_bot в поиске. 2. ✅ Добавляем бота @tantispam_bot в свою группу/чат и т.д. 3. 👮 Предоставьте боту права администратора…»
Готовлю масштабное обновление бота.
Будет добавлено два режима работы☝️
Все ближе к выходным😎
Будет добавлено два режима работы☝️
Все ближе к выходным😎
1🔥1
❗️Обновление до версии 5.0❗️
То о чем говорилось - свершилось.
Что нового:
🔹Добавлено два режима работы бота:
- СТАНДАРТНЫЙ Режим (по умолчанию). Вызов командой
Каждое сообщение прогоняется через нейронку. Она выдает свой вердикт: спам или не спам. При подозрении на спам появляется сообщение в чате с просьбой модераторам чата/группы проверить это сообщение и принять решение. Сообщение выглядит так.
Если имело место ложное срабатывание, то нажав на инлайн кнопку
При нажатии
Бот может удалять сообщения автоматически если выполняется ряд условий одновременно: пользователь находится в базе спамеров и его сообщение нейронка определила как спам. Это позволяет избежать ложных банов.
- АВТОМАТИЧЕСКИЙ Режим (БЕТА тест). Вызов командой
Каждое сообщение прогоняется через нейронку. Она выдает свой вердикт: спам или не спам. Если модель определила ваше сообщение как спам, то оно удаляется, без занесения пользователя в банлист.
Бот может удаляет и банит одновременно только в том случае, если выполняется ряд условий одновременно: пользователь находится в базе спамеров и его сообщение нейронка определила как спам.
🔹Переобучена модель нейронной сети на обновленном датасете и с новыми гиперпарметрами.
🔹Появилась команда
🔹Всевозможные мелкие исправления по всему коду.
При выборе режима советую подумать. Все зависит от вашей группы/чата и аудитории в ней. Многих пугает плашка
Инструкция "Как добавить бота в чат" доступна по ссылке.
Работы как обычно много еще. Совершенству нет предела. Багов не бывает, это все фичи!
Поддержите мой проект подпиской на официальный канал TANTISPAM бота. Все последние новости и обновления тут.
То о чем говорилось - свершилось.
Что нового:
🔹Добавлено два режима работы бота:
- СТАНДАРТНЫЙ Режим (по умолчанию). Вызов командой
/handbot в группе/чате. Права смены режима доступны только модераторам чата. Каждое сообщение прогоняется через нейронку. Она выдает свой вердикт: спам или не спам. При подозрении на спам появляется сообщение в чате с просьбой модераторам чата/группы проверить это сообщение и принять решение. Сообщение выглядит так.
Если имело место ложное срабатывание, то нажав на инлайн кнопку
"✅Это не спам", сообщение пользователя остается, а в датасет заносится запись ложного срабатывания для дальнейшего дообучения модели.При нажатии
"❌Это спам" сообщение удаляется, а пользователь блокируется.Бот может удалять сообщения автоматически если выполняется ряд условий одновременно: пользователь находится в базе спамеров и его сообщение нейронка определила как спам. Это позволяет избежать ложных банов.
- АВТОМАТИЧЕСКИЙ Режим (БЕТА тест). Вызов командой
/autobot в группе/чате. Права смены режима доступны только модераторам чата. Каждое сообщение прогоняется через нейронку. Она выдает свой вердикт: спам или не спам. Если модель определила ваше сообщение как спам, то оно удаляется, без занесения пользователя в банлист.
Бот может удаляет и банит одновременно только в том случае, если выполняется ряд условий одновременно: пользователь находится в базе спамеров и его сообщение нейронка определила как спам.
🔹Переобучена модель нейронной сети на обновленном датасете и с новыми гиперпарметрами.
🔹Появилась команда
/help🔹Всевозможные мелкие исправления по всему коду.
При выборе режима советую подумать. Все зависит от вашей группы/чата и аудитории в ней. Многих пугает плашка
"❌Это спам?". Если так, то выбирайте АВТОМАТИЧЕСКИЙ режим работы. (По умолчанию при добавлении бота стоит СТАНДАРТНЫЙ режим).Инструкция "Как добавить бота в чат" доступна по ссылке.
Работы как обычно много еще. Совершенству нет предела. Багов не бывает, это все фичи!
Поддержите мой проект подпиской на официальный канал TANTISPAM бота. Все последние новости и обновления тут.
1👍2
📊 Немного статистики и тестов.
Последняя модель была переобучена в прошедший понедельник. Структура модели не поменялась, а вот датасет удалось увеличить в два (!) раза. И это не синтетические данные, а реальные сообщения.
Теперь о тестах.
Мне удалось спарсить комментарии одного регионального паблика и прогнать через модель. Было интересно, какой процент ложных срабатываний будет на реальных данных.
Результат приятно удивил.
Из 181364 (не спам) сообщений 1021 ложных срабатываний. Это 0.6%. Получается 6 из 1000 обычных сообщений определяет как ложноположительные.
Вполне достойный результат считаю.
Последняя модель была переобучена в прошедший понедельник. Структура модели не поменялась, а вот датасет удалось увеличить в два (!) раза. И это не синтетические данные, а реальные сообщения.
Теперь о тестах.
Мне удалось спарсить комментарии одного регионального паблика и прогнать через модель. Было интересно, какой процент ложных срабатываний будет на реальных данных.
Результат приятно удивил.
Из 181364 (не спам) сообщений 1021 ложных срабатываний. Это 0.6%. Получается 6 из 1000 обычных сообщений определяет как ложноположительные.
Вполне достойный результат считаю.
1🔥1
Уважаемые участники чатов, а также владельцы! Это пост для вас😃
Наш антиспам бот @tantispam_bot по умолчанию работает в стандартном (полуавтоматическом) режиме. Он блокирует явных спамеров, анализируя их сообщения. Его алгоритмы написаны таким образом, чтобы исключить возможность случайной блокировки (именно поэтому вы видите в чате сообщение: "❌ Это спам?".
Иногда такое сообщение вылезает на обычные сообщения. Это ложные срабатывания (Бот под капотом имеет модель нейросети, которая анализирует сообщения). Ложные срабатывания это погрешность. В данном случает погрешность составляет около 6 ложноположительных срабатываний на 1000 сообщений.
Прошу не волноваться если ваше сообщение было помечено ботом. Модераторы и администраторы чатов в таком случае вручную анализируют его и принимают решение.
За полгода работы бота в более чем в 20 чатах был только один случай ложной автоматической блокировки. И то, потому что сошлось множество уникальных факторов. Человека сразу же разбанили естественно и все с ним хорошо. Над этой проблемой работаем. Будет фикс. Аккаунты для связи указаны в описании канала. Всем добра👍
Наш антиспам бот @tantispam_bot по умолчанию работает в стандартном (полуавтоматическом) режиме. Он блокирует явных спамеров, анализируя их сообщения. Его алгоритмы написаны таким образом, чтобы исключить возможность случайной блокировки (именно поэтому вы видите в чате сообщение: "❌ Это спам?".
Иногда такое сообщение вылезает на обычные сообщения. Это ложные срабатывания (Бот под капотом имеет модель нейросети, которая анализирует сообщения). Ложные срабатывания это погрешность. В данном случает погрешность составляет около 6 ложноположительных срабатываний на 1000 сообщений.
Прошу не волноваться если ваше сообщение было помечено ботом. Модераторы и администраторы чатов в таком случае вручную анализируют его и принимают решение.
За полгода работы бота в более чем в 20 чатах был только один случай ложной автоматической блокировки. И то, потому что сошлось множество уникальных факторов. Человека сразу же разбанили естественно и все с ним хорошо. Над этой проблемой работаем. Будет фикс. Аккаунты для связи указаны в описании канала. Всем добра👍
До конца года планирую сделать большой тест бота на выявление спама, ложноположительных срабатываний и выкатить подробную статистику работы за 2025 год. Подведем итоги года так сказать)
Год подходит к концу, а значит самое время подвести итоги!
ЧАСТЬ 1. Общая статистика
Бот начал свою миссию весной в режиме бета тестирования.
Полноценный релиз состоялся 1 июня 2025 года.
На сегодняшний день:
🔹 Бот модерирует 19 чатов 💬
🔹 Обнаружено 4️⃣2️⃣0️⃣3️⃣ спам - сообщений 🗑
🔹 Заблокировано 3️⃣5️⃣8️⃣2️⃣ спамера 🚫👤
ЧАСТЬ 1. Общая статистика
Бот начал свою миссию весной в режиме бета тестирования.
Полноценный релиз состоялся 1 июня 2025 года.
На сегодняшний день:
🔹 Бот модерирует 19 чатов 💬
🔹 Обнаружено 4️⃣2️⃣0️⃣3️⃣ спам - сообщений 🗑
🔹 Заблокировано 3️⃣5️⃣8️⃣2️⃣ спамера 🚫👤
Год подходит к концу, а значит самое время подвести итоги!
ЧАСТЬ 2. Статистика по месяцам. Динамика
Как видно из графиков, количество спамеров только растет в течении года. Июль, правда, почему-то выбивается из тренда😐
ЧАСТЬ 2. Статистика по месяцам. Динамика
Как видно из графиков, количество спамеров только растет в течении года. Июль, правда, почему-то выбивается из тренда😐
Год подходит к концу, а значит самое время подвести итоги!
ЧАСТЬ 3. Тепловая карта спама по дням недели и времени суток.
Видно, что основная активность спамеров это дневное время с 6 до 15 по Москве. Можно ли сделать вывод, что сервисы которые рассылают спам ориентируются на аудиторию Центрального Федерального округа? Вопрос риторический...
ЧАСТЬ 3. Тепловая карта спама по дням недели и времени суток.
Видно, что основная активность спамеров это дневное время с 6 до 15 по Москве. Можно ли сделать вывод, что сервисы которые рассылают спам ориентируются на аудиторию Центрального Федерального округа? Вопрос риторический...
Год подходит к концу, а значит самое время подвести итоги!
ЧАСТЬ 4. Тематическое моделирования. Топ темы спам сообщений
📌 Тип 1. «Фейковые вакансии / онлайн-подработка» - наиболее массовый спам
Общий признак:
«нужны 2 человека / 2-3 человек(а)», «всё с телефона», «удалёнка», «доход от X», «от 18 лет», «оплата после», «простые задачи», «пошагово», «никаких вложений».
💰 Тип 2. «Финансовый спам / кредитные ловушки»
Общий нарратив:
«устал без денег?», «помогу с долгами», «денежки нужны?», «поднять бабки», «решим проблемы».
🔗 Тип 3. «Технический спам: ссылки, каналы, боты»
Особенность: минимальный текст, много шумов, символов, замаскированных данных.
📸 Тип 4. «Обфусцированный спам» (анти-детект)
Цель - обход текстовых фильтров (в т.ч. регулярных выражений и простого поиска по ключам).
Способ маскировки:
Смешение алфавитов: нyжны (y=латинская), οт (ο=греческая omicron), вαс (α=альфа). Разрыв слов пробелами: «п о м о щ ь»
Это анализ основных типов сообщений, которые удалось отловить боту за 2025 год.
ЧАСТЬ 4. Тематическое моделирования. Топ темы спам сообщений
📌 Тип 1. «Фейковые вакансии / онлайн-подработка» - наиболее массовый спам
Общий признак:
«нужны 2 человека / 2-3 человек(а)», «всё с телефона», «удалёнка», «доход от X», «от 18 лет», «оплата после», «простые задачи», «пошагово», «никаких вложений».
💰 Тип 2. «Финансовый спам / кредитные ловушки»
Общий нарратив:
«устал без денег?», «помогу с долгами», «денежки нужны?», «поднять бабки», «решим проблемы».
🔗 Тип 3. «Технический спам: ссылки, каналы, боты»
Особенность: минимальный текст, много шумов, символов, замаскированных данных.
📸 Тип 4. «Обфусцированный спам» (анти-детект)
Цель - обход текстовых фильтров (в т.ч. регулярных выражений и простого поиска по ключам).
Способ маскировки:
Смешение алфавитов: нyжны (y=латинская), οт (ο=греческая omicron), вαс (α=альфа). Разрыв слов пробелами: «п о м о щ ь»
Это анализ основных типов сообщений, которые удалось отловить боту за 2025 год.
Год подходит к концу, а значит самое время подвести итоги!
ЧАСТЬ 5. ИТОГИ
Работу бота оцениваю на хорошо. Есть проблемы пропуска спама из-за дрейфа данных. Также остается проблема с ложными срабатываниями. До конца победить я это не смог. Сегодня-завтра выпущу обновленную модель, дообученную на новых данных.
На 2026 год в планах продолжать дообучать модель и создать полноценный дашборд со онлайн статистикой бота в режиме реального времени. Ну как-то так)
ЧАСТЬ 5. ИТОГИ
Работу бота оцениваю на хорошо. Есть проблемы пропуска спама из-за дрейфа данных. Также остается проблема с ложными срабатываниями. До конца победить я это не смог. Сегодня-завтра выпущу обновленную модель, дообученную на новых данных.
На 2026 год в планах продолжать дообучать модель и создать полноценный дашборд со онлайн статистикой бота в режиме реального времени. Ну как-то так)
🔥Очередное обновление.
Январь подошел к концу, а значит пора дообучать модель!
На сегодня датасет состоит из 25000 строк (12500 пар строк спам/не спам).
Датасет я до сих пор размечаю вручную, читая каждое сообщение прежде чем присвоить ему соответствующий класс.
Это неудобно и занимает время. Поэтому я задумался над автоматизацией процесса разметки. Как что то получится - отпишусь.
По дообучению.
Модель обновилась на новых данных. Также внесены некоторые исправления в код для оптимизации.
Январь подошел к концу, а значит пора дообучать модель!
На сегодня датасет состоит из 25000 строк (12500 пар строк спам/не спам).
Датасет я до сих пор размечаю вручную, читая каждое сообщение прежде чем присвоить ему соответствующий класс.
Это неудобно и занимает время. Поэтому я задумался над автоматизацией процесса разметки. Как что то получится - отпишусь.
По дообучению.
Модель обновилась на новых данных. Также внесены некоторые исправления в код для оптимизации.
Дообучил модель на вновь поступивших данных, среди которых 126 ложноположительных сообщений (накопившиеся за месяц).
Ниже представлены матрицы ошибок января и февраля. Тренировочный и следовательно валидационный наборы данных по сравнению с январем увеличены, а количество ложных предсказаний уменьшилось как в абсолютных значениях, так и в процентных.
Please open Telegram to view this post
VIEW IN TELEGRAM