False Positive
948 subscribers
61 photos
19 videos
59 links
PT ML Team
Download Telegram
В этот раз на reading group разберём DeepSeek‑V4 — не как очередную «большую модель», а как инженерную попытку сделать million-token context реально полезным для кода, агентов и длинных рабочих сценариев. Будет короткий доклад про архитектуру + наши собственные бенчмарки + немного честного сравнения с ожиданиями — интерактивная арена, где модели можно прогнать через длинный контекст, посмотреть на FLOPs/KV‑экономику и почувствовать разницу уже не только по таблицам, а в живом сценарии. Приходите: будет технично, дружелюбно и с нормальной долей здорового скепсиса.

Ссылка на подключение
Дата и время: 15 мая в 15.00


#reading_group #llm #deepseek
🔥14😁5
Привет!

В этот раз поговорим про серые LLM-роутеры и как они могут незаметно угнать вашего AI-агента.

Разберём статью Your Agent Is Mine через путь джуна Феди (скааазочный персонаж), который купился на дешёвый доступ к моделькам и ВНЕЗАПНО обнаружил, что “дёшево” не значит “хорошо”.

Посмотрим, как работают атаки на tool-call’ы, при каких триггерах, а также как это касается индустрии перепродажи ключей.

Приходите в пятницу в 15:00 - будем разбирать, как не отдать своего агента посреднику.
Вот тут 👉 ссылка

#reading_group #agent #offense
🔥105👍3😁1
Помните кейс LiteLLM?

Мы дропаем
OMCBench (Open Malicious-Code Benchmark) - бенчмарк оценки качества по обнаружению вредоносного кода:
- 3 языка: Python, JavaScript, TypeScript
- 400 вредоносных пакетов, 400 чистых из pypi/npm
- пофайловая LLM разметка, о которой говорили на OFFZONE прошлым летом
- Открытая лицензия, BSD-2

Открытые решения на нем набирают не больше 75% F1, выдавая ~50% False Positive результатов...

Те, кто уже нажал звездочку на гитхабе, могли заметить, что в таблице мы также анонсим MOLOT - нашу модель для решения этого класса задач. Ловите блогпост, а на подходе arxiv статья с подробностями про анализ графов вызовов бертами, LLM разметку и выкатку в prod!

Ждите дроп статьи в канале, stay tuned!
🔥208👍5👏2
Grafana Dashboard для анализа задач Airflow

Когда мы начали искать готовое решение для мониторинга и анализа задач Airflow, выяснилось, что большинство популярных дашбордов на GitHub либо давно не обновлялись, либо покрывают только базовые инфраструктурные метрики.

Поэтому мы сделали собственный Grafana dashboard для Airflow, который помогает быстро понять, что происходит с DAG'ами и задачами.

С его помощью можно:

• Находить самые медленные задачи и DAG'и
• Выявлять нестабильные задачи с ошибками и ретраями
• Смотреть распределение по операторам и воркерам
* Исследовать историю запусков дагов и задач

Установка:
1. Скачайте JSON-файл дашборда из репозитория
2. В Grafana откройте Dashboards → New → Import.
3. Импортируйте JSON и выберите PostgreSQL datasource, подключенный к metadata database Airflow.

Будем рады issue, pull request'ам и идеям по улучшению=)
👍94🔥1
Тех.репорт по модели MOLOT уже на arxiv 🔥

Мы выпустили MOLOT - трансформер для обнаружения вредоносного кода. Модель вошла в состав релиза 6.0 PT AI, а значит пора делиться техническими подробностями с вами!

Полный набор:
- arxiv
- блог-пост
- бенчмарк

Для тех, кому нужен gonzo-обзор:

➡️ Поддержка топ-языков для веба: js/ts/py
➡️ До 40% меньше False Positive и F1 на 15% выше чем у open source инструментов
➡️ Ключевые улучшения: нашли и исключили data leakage по файловым названиям из оригинального подхода CEREBRO, расширили цепочку объявлениями литералов и padding активностями
➡️ 90% согласованности с экспертами по вредоносным строкам с помощью перехода к классификации файлов на LLM разметке и кастомному SHAP анализу
➡️ CPU инференс, квартал тестирования внутри контура компании с 90% Precision
➡️ Открытый бенчмарк для подтверждения результатов
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍32🎉1