TAntispam Bot Блог разработчика
31 subscribers
15 photos
6 links
🛡 Официальный канал TAntispam Bot (TAB)
Новости разработки, обновления и руководства по защите чатов от спама.

🤖 Бот: @tantispam_bot
Download Telegram
Немного первой статистики 📊
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Немного экскурса в историю.
Бот создавался изначально как локальный антиспам бот для чата автовладельцев одной из марок авто. Боты, которые были представлены в телеграме либо не справлялись, либо были платные. Так как по совместительству являюсь инженером по машинному обучению, решил что задача - то не особо сложная и мне под силу написать нейронную сеть для бинараной классификации текстовых данных. Тем более был опыт написания на пайтоне телеграм ботов.
Основной проблемой был недостаток датасета. Я не нашел сходу актуальные данные. Пришлось лазить по чатам и вручную собирать спам сообщения. Где то неделю убил на это. Так появилась первая обученная модель.

За три месяца работы количество спамеров в том чате автовладельцев сильно сократилось до 2-3 за день ( по сравнению со 100 спам сообщений на пике). Видимо сказалось то что львиную долю аккаунтов бот просто забанил.

Резюмируя, хочется сказать что бот вполне справляется, а зачастую и лучше других похожих ботов которые представлены в телеграмме за счет своего собственного алгоритма и нейронной сети собственной разработки.

Так что, если кто захочет добавить себе антиспам бота в чат или протестировать, то буду рад.

Тем кто захочет испытать:
🔹 Находим бота @tantispam_bot
🔹 Добавляем в чат/группу
🔹 Даем права администратора ( для доступа к сообщениям в чате/группе.

И все. Бот работает. Он абсолютно бесплатный. Считайте это моим пэт проектом😎
👍2
Заметил что бот очень часто срабатывает на сообщения о размерах шин, например: "215/65 17" , всевозможных сообщениях про суммы денег "1200 р" ит.д. Этот вопрос в процессе решения. На днях выпущу обновление, там будет изменена структура модели нейросети и переобучена на новых наборах данных. Должно меньше стать подобных ложных срабатываний.
Начну новую рубрику: "Виды спама". Думаю интересно будет глянуть вам =)

Baканcия для Myжчин 🔥🔥
Любoвник нa Hoчь 🤑🤑🤑
Hужнo пpoвoдить вpемя c жeнщинaми 💵💵💵
Зaxoди yслoвиe тyт ⬇️⬇️⬇️
HАЖИMАЙ CЮДА

#топспама
❗️Состоялся релиз новой версии TAB 4.0❗️

Что нового:
🔹 Обновлена структура модели нейронной сети. Теперь бот должен лучше погружаться в контекст сообщения.
🔹 Бот перестал ругаться на сообщения от имени чата/группы (раньше, если считал сообщение от имени чата/группы спамом, то подсвечивал его).
🔹 Бот стал еще больше оптимизирован для масштабирования проекта.
🔹 Исправлены ошибки и недочеты в коде.

Вроде всего 4 пункта, но работы было много. Много было тестов. Наверняка я все не учел, поэтому могут быть баги. Но всегда помним, что это не баг а фича)
Please open Telegram to view this post
VIEW IN TELEGRAM
Некоторые пишут что бот не работает когда ему пишешь напрямую. Напоминаю, что бот работает только в группах. В личке бот не отвечает. Это сделано намеренно, во избежании лишней нагрузки. Ибо какой может быть спам в личке?
❗️Обновление до версии 4.1❗️
🔹 Добавлена обработка и проверка на спам при изменении текста сообщения
читайте !!!! Новая услуга для Vip клиентов. ЭРОТИЧЕСКАЯ УБОРКА КВАРТИР. Молодой ,энергичный, коменикабельный, с отличной задницей домашний помошник Ромэо медленно и эротично приведёт в порядок вашу квартиру в вашем присутствии.Не интим, Не шутка. Дорого! 

#топспама
😁1
Посοбирать бычки возле библиοтеκи - 5500₽ и небοльшοй бοнус по завеρшению.

Ну тут явно речь не про бычки)

#топспама
Боль после долгой ходьбы — сигнал организма о проблемах с суставами. Но решение рядом... 

Казалось бы, что тут не так? И да, это реклама онлайн казино. Ссылку на него я по понятным причинам удалил из этого сообщения. Но вопрос остался: причем тут суставы и казино?😄
#топспама
Помогите искупать котика, очень больно царапается.
Финансово отблагодарю! 🐾💦

😺
#топспама
1😁2
У меня течет кран дома, я уже все пробовала 🤬 Помогите что-то там закрутить, заплачу 5000 рублей 🥺

#топспама
😁1
Нужен человек для погрузки стройматериалов, 5.000 в день. Вечером будет шашлык и холодное пиво!



Ну тут мб стоит написать)))
#топспама
👍1
Готовится большое обновление модели. Датасет увеличен в 3 раза!
👍1
TAntispam Bot Блог разработчика
Вот как выглядит это сообщение. При нажатии на спам, пользователь блокируется, а его сообщение удаляется. ❗️Как видите, в сообщении бота вызываются по username админы чата/группы для реагирования. Есть три условия при которых админы чата/группы отображаются…
Сейчас бот работает по такому принципу.
Но получил обратную связь, что это не всегда удобно.
Есть предложение сделать это опцией: К примеру, написав команду боту в чат, чтобы отключить упоминание админов.
Предлагаю это обсудить в комментариях под постом👇
💖 Мyжчины, у нaс еcть прeдложение! Используйте свои навыки в эcкорт-аrентстве! 💰 Прuмеряйте новую роль и зapабатывайте по вcей cтране!


Чтож...
#топспама
👍1
TAntispam Bot Блог разработчика
Готовится большое обновление модели. Датасет увеличен в 3 раза!
❗️Дообучил модель антиспам бота на обновленном большом датасете❗️

На представленной метрике показана Матрица Ошибок для тестового набора данных.
Всего в выборке было представлено 1272 сообщений типа "not spam" и 1313 сообщений типа "spam"

Каждая ячейка показывает количество прогнозов, попадающих в определенную категорию.

🔸Верхний левый квадрат (со значением равным 1221) - это истинно-негативные значения. Это правильные значения "not spam", те что модель правильно предсказала как "не спам".
🔸Верхний правый квадрат (со значением равным 51) - это ложно-позитивные значения. Это неправильные значения "not spam", те что модель предсказала как "спам". На языке математики это называется ошибкой первого рода.

🔹Нижний левый квадрат (со значением равным 179) - это ложно-негативные значения. Это неправильные значения "spam", те которые модель ошибочно предсказала как "не спам". Это называется ошибкой второго рода.
🔹Нижний правый квадрат (значение 1134) - истинно-позитивные значения которые модель правильно предсказала как "спам".

Какие выводы можно сделать из данного графика (метрики)? То что из общего числа сообщений 2585, количество правильных предсказаний (Accuracy) составляет ≈ 91.1%.
Также видно, что модель чуть чаще пропускает спам сообщения, чем не спам.

Итог.
Матрица Ошибок показывает, что модель обладает неплохой точностью. Но часть спама пропустит. А вот количество ложных срабатываний будет чуть меньше. Для конечного пользователя это тоже хорошо: бот должен меньше ругаться на ваши сообщения. Но одно дело анализ после обучения, а другое практика. Именно она самый суровый судья.
👍1🔥1
Ребят срочно!!!
Кто знает хороший заработок😶‍🌫️ мне надо срочно!
Я взяла из тайника деняг у родителей 3500р А эти деньгр были на памятник бабушке я не знала!!! Папа сказал если не верну выгонет из дома😰 ПОЖАЛУЙСТА ПОМОГИТЕ...

#топспама
😱1
Такое дело. Нашел ошибку в моделе... Причем принципиальную. Если вкратце, то тот слой что отвечает за механику запоминания контекста - не работает. Это напрямую связано с ложными срабатываниями.
Решение проблемы - переписывание кода моей библиотеки на которой написана основная логика классификации сообщений. На это нужно время. А пока, как временное решение - постоянное дообучение на ложноположительных данных. Это не решит проблему, но мб хотя бы снизит их количество.
Сейчас пошло много подобного рода спам-сообщений:

Слушай, бывают такие моменты когда нас что-то сильно сбивает с курса 🙃. Но не стоит забывать что образование открывает много дверей и знания всегда пригодятся. А если ты запутался в своих мыслях, рекомендую заглянуть к @**********. Там помогут разобраться и найти свою мотивацию!


Бот не отреагировал на пару подобных. Все из за новых паттернов. Но ничего. Уже переобучил)