Интересное что-то
517 subscribers
2.72K photos
253 videos
139 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
Forwarded from Neural Kovalskii
Куда бежит AI индустрия?

В выходные перечитывая канал и ализируя посты Рефата (делает оч крутые обзоры на AI инструменты) за последние месяцы, видно четкий тренд все бегут к агентским системам, но пока больше экспериментируют, чем внедряют в продакшн

Куда бежит индустрия (по Рефату):

1. От кодинг-ассистентов к полноценным агентам
- Cursor → Cursor Agent mode
- Claude Code с sub-agents и MCP интеграциями
- Amazon Kiro как "архитектурный редактор"
- Lovable с рассуждающими агентами

Паттерн: Все перестают делать "умный автокомплит" и переходят к системам, которые могут планировать и выполнять сложные задачи самостоятельно.

2. Мультимодальность как стандарт
- Google Gemini Deep Think с параллельными агентами
- Runway Aleph для VFX
- NotebookLM с видео-режимом
- HeyGen Video Agent

Паттерн: Текст-only решения воспринимаются как legacy. Если твой AI не работает с видео/аудио/изображениями - ты отстал

3. Браузеры как новая боевая площадка
- OpenAI готовит браузер-убийцу Chrome
- Perplexity Comet в бете
- Browser MCP для интеграции с существующими браузерами

Паттерн: Поисковики и браузеры сливаются в единые AI-интерфейсы. Google нервничает не зря

4. Voice-first интерфейсы набирают обороты
- 37% разработчиков планируют audio (по отчету Amplify Partners)
- ElevenLabs персональный помощник
- Grok 4 с шепотом и пением
- Meta очки как основное устройство будущего

Паттерн: Клавиатура и мышь постепенно отходят на второй план для AI-взаимодействий

5. Инфраструктурная консолидация
- Amazon S3 Vectors убивает standalone векторные БД
- Multi-model routing становится нормой (37% используют 5+ моделей)
- MCP как стандарт для tool integration

Паттерн: Фрагментированные AI-стеки консолидируются в unified платформы

6. AI-first workflow в компаниях
- 50% кода в Google пишет AI
- AI Operations Lead как новая роль
- Netflix использует AI для создания контента
- Amazon требует AI-навыки для карьерного роста

Паттерн: AI перестает быть "экспериментом" и становится core business process.

Главный инсайт: Индустрия движется от "AI как feature" к "AI как platform". Следующие 2-3 года определят, кто создаст доминирующую систему, а кто останется с legacy-решениями
Forwarded from Data Blog
Привет, друзья!

Половину лета делала рисерч на предмент того, нужно ли отдельно как-то разбирать XAI для других модальностей. Оказалось, почти не нужно, но есть что-то, чем всё-таки здорово поделиться. И сегодня в программе

Библиотеки для interpretability на Time Series данных.

1. TSInterpret — для интерпретации моделей, обученных задаче классификации на временных рядах. В библиотеке два типа методов:

— Instance-based — методы, основанные на конкретной точке данных. Все доступные методы в библиотеке построены на контрфактуальных примерах. Разница — в построении контрафакта — один основан на шейплейтах (обратите внимание на красоту слова), второй основан на замене кусочков ряда признаками для другого объекта из train-ser, третий — на эволюционном алгоритме.

— Feature attribution methods — методы, основанные на получение важных признаков, определяющих поведение модели. В библиотеке всего два метода — один расширяет тепловые карты, второй — основан на LIME.

2. TimeInterpret — библиотека в основном построенная на Feature attribution methods, причем многие методы — расширение классических XAI методов с поправкой на временной ряд.

Методы в основном основаны на вычисление важности либо через градиент, либо через маскирование.

3. TSCaptum — библиотека, полностью построенная на адаптации методов из библиотеки Captum под временные ряда и библиотеки для работы с временными рядами, типа aeon toolkit.

Ещё можно отдельно подсмотреть код тут (CAM для Multivariative TS), а статьи собраны в этом прекрасном репозитории.

__________________

А ещё вчера с коллегами закинули статью сюда, и это был безумно великолепный опыт подготовки материалов к не университетским конфам!

Даже если будет реджект (но это мы узнаем только в сентябре) — работа дала много новых навыков. И, конечно, бесспорно лучших коллег, потому что сабмиты мы делали в 2 часа ночи по GMT +3, и в час ночи по IST и GMT+2.

Думаю, про это ещё напишу, если вам интересно! Как-то дайте знать)

Отличного вам дня,
Ваш Дата-автор!
Две недели назад прошло очень крутое событие в мире AI — AI School от Y Combinator.

Skailab и Practico.ai перевели выступления и сделали подробные саммари с пояснениями по ключевым спикерам.

📌 В подборке:
- Франсуа Шоле — Как мы дойдём до AGI
- Фэй-Фэй Ли — Пространственный интеллект: следующая граница развития ИИ
- Сатья Наделла — Ставка Microsoft на AI, гипермасштабирование и квантовые технологии
- Сэм Альтман — Будущее OpenAI и история создания ChatGPT
- Илон Маск — Цифровой сверхинтеллект, многопланетная жизнь и как быть полезным
- Андрей Карпаты — Как меняется Software

📖 Залетайте читать саммари

PS
Из того, что мне больше всего понравилось это саммари выступления Сэма Альтмана - Будущее OpenAI, история создания ChatGPT и разработка AI hardware
Ключевые выводы:
- OpenAI = не просто LLM, а новая вычислительная и UX-платформа.
- Появляется новый класс продуктов: живые, адаптивные, встроенные в повседневность.
- Память, reasoning и invisible UX — основа нового взаимодействия.
- Возможности открыты для тех, кто строит вертикали, продукты и инструменты поверх модели.
- Главное — не повторять ChatGPT, а использовать его как движок в своих системах.
- Следующий рубеж — интеграция в тело, в науку, в инфраструктуру и в повседневную жизнь.
This media is not supported in your browser
VIEW IN TELEGRAM
Кэширование для самых маленьких

Вай-вай-вай, наткнулся на классную вводную статью про кэширование 🌿. Такую показываешь на первом курсе или в школе — и сразу людям чуточку понятнее становится, почему так много типов памяти, какая вообще бывает и т.д. Под конец: локальность кэширования, немного слов про LIFO, LRU, Time-aware LRU.

Я бы не писал про столь простую статью сюда, но там, друзья, такие классные интерактивные анимации, что меня пленило. Попробуйте и вы!

Ну а если вы не знаете, что такое cache miss, то пора бы узнать 🤓!

Ссылка на статью: https://planetscale.com/blog/caching

В общем, скидываю бабушке, а дальше быстренькая лекция ей про локальность вычислений для cuda-ядер. Как план?
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Как работают устройства хранения

Я чот зачитался блога из поста выше😍. И хочу отметить ещё одну очень классную статью, уже не то, чтобы прям для самых маленьких (но и для них тоже). Я концептуально понимал, как работают разные устройства хранения, но эти концепты у меня были размыты 😍.

Кажется, статья это исправила. Тут про то, как работают ленточное хранение, HDD, SSD. Немного рассказывают про облачное хранение и проблемы с ним (но имхо, уже больше для рекламы).

Мне очень понравился раздел про проблемы с порядком хранения данных в SSD и зацепила фраза:
This demonstrates that the order in which we read and write data matters for performance. Many software engineers don't have to think about this on a day-to-day basis, but those designing software like MySQL need to pay careful attention to what structures data is being stored in and how data is laid out on disk.


Опять же, отличные интерактивы 🌿: самое то для школьных уроков или пары в вузе!

Ссылка на статью: https://planetscale.com/blog/io-devices-and-latency
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Борис_ь с ml
По следам Turbo ML Conf 2025
#праздное #иб_для_ml #ml_для_иб

Отличная конференция, ребятам из Т-Банка - спасибо)

Общие впечатления
Много писать не буду, скажу одним предложением - содержательные доклады, QnA зоны для спикеров, достаточно свободного места и кресел, тематическое оформление, и, конечно, шикарный кейтеринг).

Доклады, которые я посетил, мне все понравились.

🔃Трек LLM App, «Workflow-агенты на стероидах: 5 прототипов бизнес-автоматизаций за квартал», Валерий Ковальский, red_mad_robot.
Подробнейший рассказ про практику интеграции RAG в различных компаниях (преимущественно девелоперы), основывающейся на подходе трехуровневой системы управления знаниями - Domain, Collection, Document (DCD). Идея в том, чтобы запросы маршрутизировать сначала по доменам знаний (пользовательские соглашения, описания услуг, документация по ЖК, ...), а потом по коллекциям, и только затем на документы (похоже на статью HiRAG).
Но что самое крутое, Валерий уделил внимание и практике построения гардрейлов. Осветил подход к их проектированию (шлюз с фильтрацией промптов и ответов с базой промптов, интеграция с ролевой моделью, DLP, и защита RAG от галлюцинаций. По исполнению гардрейлы это правила, BERT'ы и LLM. Там много практических, например, по его опыту, на этапе эксплутации регэкспы/листы добавляют ~150 мс, BERT'ы еще ~150 мс, а LLM плюс ~600 мс. Точность их гардрейлов - 94%.

Трек LLM App, «LLM, агенты и MCP: от «модно» до «можно»», Ярослав Хрипков, Авито.
Оказалось, в Avito тоже строят гардрейлы. Правда, про них был всего один слайд: делайте хотя бы регулярки, least privilege access, mTLS-авторизацию, и сандбоксинг ллм-генерированного кода. А вообще доклад посвящен практике внедрения MCP. Тут и про влияние количества инструментов на качество (спойлер - 10 это край, а лучше 5). Посчитали также, что при росте количества инструментов и количества серверов сильно разрастается количество токенов, требуемого для их описания. Показали схему динамического тулинга, путь Авито к мультиагентным системам, лучшие модели для тулинга по лидерборду BFCL (лучшая - xLAM-2-70b).


🖼Трек RnD, «Мультимодальные агенты — что уже есть и что будет дальше», Георгий Бредис, Т-Банк.
Обзорный доклад с инфой о текущих вызовах в мультимодальности и статусе их решения. Мультимодальных агентов (пусть будут ММА) можно учить на трех видах данных: интерфейсы программ, роботы, и игры. Пространство их действий при этом тоже бывает трех видов: дискретные действия (вправо/влево, вперед/назад, взять/положить, уже существующие внутри среды), непрерывные действия (у роботов), и текстовые/числовые действия (ввод в строку поиска, координаты точки нажатия). Для решения задач непрерывных действий, например, показана идея двухуровневой системы, где большой трансформер дает редкие и общие команды (типа "пройти до двери"), а маленькие дает частые и конкретные (повернуться, пройти вперед). Ризонинг - считается решенной задачей, достижение aha-moment при обучении уже стоит на потоке. Но многоступенчатые сложные задачи еще не поддаются сегодняшним ризонерам.
Сегодняшние проблемы ММА:
1. Knowing-doing-gap - модель знает, что происходит, но не может перевести в действие
2. Модель не различает k-й и k+1-й кадр
3. Память и планирование
Многообещающим подходом является Learn by interaction. Учиться без наград от среды, а через intrinsic-награду, когда модель сама говорит об уверенности в своих действий. Есть подход generative value estimation в эту сторону. Очень круто, интересно, что будет дальше)


🍑Трек RnD, «Ненадежность современных LLM и методы борьбы с ней», Егор Швецов, Skoltech.
Докладчик показал несколько исследований его команды, самое интересное из которых - определение в трансформерах голов внимания (кусочков архитектуры), наиболее уязвимых к генерации галлюцинаций. Благодаря этому удалось эффективного снизить количество галлюцинаций на контрольной выборке. Еще из интересных наблюдений - квантизация разрушает выравнивание и усиливает галлюны.


Пока ждем выкладки докладов, я выложу фотки слайдов в комментарии)
А когда выложат презентации и записи, добавлю ссылки.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Борис_ь с ml
Рантайм-безопасность для AI-агентов
#иб_для_ml

AI-агенты внедряются во всю - это не просто горячая тема, а, как обычно, в чем-то даже перегретая. Но от действительности не сбежать, и при внедрении агентов в бизнес-процессы возникает вопрос о принятии мер безопасности при инцидентах. Об угрозах я писал раннее, теперь же рассмотрим, что с ними делать не в дизайнтайм (AISecOps - это тема отдельного разговора), а в рантайме.

ℹ️ Гардрейлами (guardrails) называют механизмы рантайм безопасности агентов. Это наложенные СЗИ. Да, по сути, это Firewall/EDR/XDR из терминов SOC, но для текстовых данных.

🤖 Крупные компании про гардрейлы уже давно задумались:

➡️OpenAI предоставляет отдельный Moderation API для проверки вводов/выводов моделей на нежелательный контент – он мониторит и фильтрует токсичные или запрещённые ответы в режиме реального времени. И даже дают гайды по созданию гардрейлов.

➡️Amazon Bedrock ввёл настраиваемые Guardrails: разработчик может вызвать сервис ApplyGuardrail для оценки любого текста (ввода пользователя или ответа модели) по предопределённым правилам (запретные темы, фильтры токсичного контента, детекторы PII и др.) и получить решение – пропустить, отфильтровать или заблокировать содержимое

➡️IBM в платформе Watson X предоставляют автоматическое включение AI Guardrails при вызове моделей: входные промпты проверяются специальным классификатором, и если помечены как неуместные – не передаются модели, а пользователю возвращается сообщение об отклонении; аналогично, если уже выход модели содержит запрещённый текст, он заменяется заглушкой “[Potentially harmful text removed]” вместо исходного ответа.

📝Какими гардрейлы бывают

1. По потоку данных - на входящих данных, на выходящих данных, на размышлениях, или на инструментах - подробнее на картинке.

2. По способу размещения в потоке данных - в разрыв или в параллель. То есть ждет ли бизнес-логика решения от GR, или отрабатывает в любом случае. Но есть ли и промежуточный тип. GR запускается в параллель на input-тексте LLM или на первых ~100 токенах output'а, и если обнаруживает атаку - блочит ответ. А если не находит - то ответ уходит без задержки.

3. По способу действия - детекторы и преобразователи. Первые сначала отбрасывают алерт, а потом к AI-агенту или к объекту данных применяется реагирование. Вторые ничего не ищут, только производят манипуляции над потоком данных. Это может быть как условное преобразование (по сигналу детектора), так и безусловное (все подряд). Хорошим примером второго варианта является LLM-переформулировщик перед входом прикладной модели. Таким образом у потенциального нарушителя не остается прямой точки контакта с целью атаки, и задача совершить промпт-атаку усложняется.

4. По механизму действия - тут больше речь про детекторы. Их придумали пока три вида, и иного в ближайшем будущем не предвидится:
➡️алгоритмы/эвристики - проверки наличия слов или фраз из блэклиста, или наоборот - косинусная дистанция до эталонных допустимых сообщений. Сюда же - регулярки.
➡️маленькие ml-модели - в основном это BERT'ы, либо обученные как классификаторы, либо дообученные на парах вопрос-ответ с CLS-токеном.
➡️LLM-модели, направленные на обнаружение промпт-атак в тексте. Тоже могут через CLS-токен работать, но есть и другой вариант - ответы в виде structured_output.

Пачка ссылок по гардрейлам
- ProtectAI, современный файерволл
- ProtectAI, старый файерволл
- Инфа по llama firewall:
- - вайтпейпер
- - обзор thehackernews
- - блогпост
- llama guard 2, опенсорс
- pormpt-guard 86m тоже от meta
- guardrails ai
- файервол от nvidia: nemo
- файервол от индусa: promptguard
- легкая модель-фильтр wildguard
- статья про создание bert-фильтра APS (показывают, но не продают)
- модель Google ShieldGemma
- модель IBM Granite Guardian
- модель TrustSafeAI Attention Tracker
- решение TrylonAI LLM Firewall
- HiveTrace от авторов llamator (единственный российский стартап в списке)
- трейсинг агентов без реагирования от invariantlabs
- Palo Alto AI Runtime Security API Intercept



P.S. интересно, какими будут гардрейлы для МАС...
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Secrets
Двое случайных ученых из университета Лос-Анжелеса повторили результат Google с золотой медалью IMO с помощью обычной Gemini 2.5 Pro

Напоминаем, что и у OpenAI, и у Google в IMO участвовали невыпущенные экспериментальные ризонинг модели. Помимо гигантского бюджета ризонинга (представьте, как долго модель рассуждала, если решала 5 задач 9 часов), они были, скорее всего, специально дообучены и задизайнены под IMO.

А тут выходит статья, в которой ученые заявляют, что добились той же золотой медали с обычной Gemini 2.5 Pro. Ловкость рук и никакого мошенничества: все получилось только благодаря промптингу и аккуратному построению пайплайна.

А пайплайн был вот такой, трехступенчатый:

1. Генерация решения по жёсткому промпту, требующему строгости и TeX-оформления каждого шага (полный системный промпт авторы приложили к статье, так что пользуйтесь).

2. Дальше модель получает доп.токены ризонинга, на которые сама же анализирует свой вывод, дополняет недостающие части и углубляет доказательство.

3. Верификация: независимый верификатор (та же Gemini 2.5 Pro, но другой экземпляр) шаг за шагом проверяет доказательство, ищет ошибки, пробелы в обосновании и прочее. Если найденные ошибки валидные, они исправляются, и дальше все идет по кругу.

Если после пяти таких итераций верификатор (кстати, для него системный промпт тоже зашерили) не находит ошибок, решение принимается. Иначе все заново, но с другой исходной гипотезой.

Итог: из шести задач IMO 2025 модель полностью решила пять. Столько же решили те самые экспериментальные системы OpenAI и Google ⌨️

И что самое главное – результат воспроизводимый. Авторы указали все гиперпараметры, которые использовали, перечислили детали запуска пайплайна, дали все системные промпты. Бери и пользуйся.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Dealer.AI
🤩🤩🤩
https://github.com/huggingface/transformers/releases/tag/v4.55.0

Верим? 🤨

Upd. Пока видим, что обе момзельки MoE с 3.6B и 5.1B активными параметрами, и конечно новый ускорятор на FlashAttention3.

Architecture.
- Token-choice MoE with SwiGLU activations. Классика 🚬
- When calculating the MoE weights, a softmax is taken over selected experts (softmax-after-topk). Тоже ничего нового. 🪨
- Each attention layer uses RoPE with 128K context. Не удивили.
- Alternate attention layers: full-context, and sliding 128-token window. Сам бы так сделал. 😘
- Attention layers use a learned attention sink per-head, where the denominator of the softmax has an additional additive value. Это интересное. 🧠
- It uses the same tokenizer as GPT-4o and other OpenAI API models. Ну ок че.
- Some new tokens have been incorporated to enable compatibility with the Responses API. Ожидаемо. 😏

P. S. Спасибо дорогому подписчику
@azik1725 😘
Please open Telegram to view this post
VIEW IN TELEGRAM
💫 Spark для аналитика (ч.2.)

Собралось много реакций на предыдущем посте про Spark, делаю еще один!
Repartition в Spark. Зачем это вообще нужно?

В pandas не задумываешься про куски данных: читаете DataFrame и сразу работаешь с ним целиком. В Spark всё иначе: данные делятся на партиции (шарды), которые обрабатываются разными воркерами. Repartition позволяет управлять тем, как и насколько равномерно эти куски разбросаны по кластеру.

Зачем?

⚖️ Баланс нагрузки на кластер. Spark работает быстрее, если данные распределены по всем воркерам более-менее равномерно. Если партиций мало, часть узлов простаивает, остальные тянут всё на себе и теряется весь смысл распределённых вычислений.

🚤 Ускоряет джойны и агрегации. Самая частая боль в Spark - это медленные джойны или группировки. Причина часто в том, что данные по ключу раскиданы неравномерно. Если сделать .repartition("key") перед джойном Spark сможет склеить нужные куски локально, а не гонять данные по всему кластеру.

📝 Экономит память и снижает риск падений приложений. Иногда Spark после фильтрации или select делает ОЧЕНЬ перекошенные партиции: на одной куча данных, на другой почти ничего. Это может привести к OutOfMemory именно на одном воркере, при том что на других куча свободной памяти. Repartition выравнивает данные и размазывает нагрузку.

🗃️ Контроль количества файлов на выходе. Когда записываешь данные в parquet/csv, Spark по дефолту делает столько файлов, сколько партиций в DataFrame.
Если хочешь один файл — обязательно делайте .repartition(1) перед записью, иначе получишь кучу маленьких частей.

📝 Как это выглядит на практике

🔗 Джойны (делаем repartition по ключу объединения таблиц, так проще собрать ключи, разбросанные по кластеру)

df_left = df_left.repartition("user_id")
df_right = df_right.repartition("user_id")
df_joined = df_left.join(df_right, on="user_id", how="inner")


✍️ Запись (в примере ниже указано то, что на выходе мы получаем один файл).

df_result.repartition(1).write.parquet("result.parquet")


☝️ Изменяем количество партиций вручную.

df = df.repartition(50)  # вручную задаём 50 партиций


Обычно количество партиций автоматически подтягивается из конфига приложения, возможно, при настройке видели параметр spark.sql.shuffle.partitions

Самое важное в этом посте, что нужно искать размен между количеством партиций и размером задач на воркеры.
1️⃣
Слишком много партиций. Куча маленьких задач, и на маленьких данных становится только хуже, по скорости проседает.
2️⃣
Слишком мало партиций. Неэффективно, Spark теряет свою распределённость, одна нода делает всю работу.


Вообще в DA / DS / ML / DE мы всегда работаем с разменом (трейд-оффами) и все упирается в задачи, которые мы решаем)

Пишем дальше про Spark или нет?
🐳 — Пишем, давай еще, очень интересно
🤝 — Давай уже про что-то другое!
Please open Telegram to view this post
VIEW IN TELEGRAM