Forwarded from epsilon correct
Gemini 3.1 Pro
model card
Обновили нашу флагманскую модель, основной фокус в этом релизе на агентских способностях и кодинге, но и в общих способностях моделька подкачалась. Цена осталась такой же, как на 3 Pro.
Поиграться, как обычно, можно на ai.dev
model card
Обновили нашу флагманскую модель, основной фокус в этом релизе на агентских способностях и кодинге, но и в общих способностях моделька подкачалась. Цена осталась такой же, как на 3 Pro.
Поиграться, как обычно, можно на ai.dev
🔥27❤4 2
OpenTalks.ai 2026 был просто супер. Хочу сказать отдельное спасибо Роме за то, что позвал меня.
Общаться по 12-14 часов каждый день три дня подряд обычно не в моем стиле, но здесь получалось легко и естественно. Поймал ощущение легкой дереализации как в детском лагере в детстве.
Только тут все умные. Обсуждают как заставить агентов хорошо писать научные статьи про агентов, в чем природа сознания икакие корпорации стоило бы национализировать . Остаёшься с желанием умнеть и скорее что-то делать.
На фотографии: проблемы любой команды разработчиков в понедельник
Общаться по 12-14 часов каждый день три дня подряд обычно не в моем стиле, но здесь получалось легко и естественно. Поймал ощущение легкой дереализации как в детском лагере в детстве.
Только тут все умные. Обсуждают как заставить агентов хорошо писать научные статьи про агентов, в чем природа сознания и
На фотографии: проблемы любой команды разработчиков в понедельник
🔥56 28👎3❤2👍2
#дайджест
Дайджест AI/ML за неделю 16-22 февраля
Google: Gemini 3.1 Pro
В ежемесячной ротации компании с SOTA LLM настало время Google.
На SWE-Bench прорывов нет, по большинству бенчмаркрв небольшой отрыв, во многом потому что модели начиают упираться в потолок. Самый заметный рост в агентных (ARC-AGI 77.1% [+9пп], использование MCP 69% [+9пп]) и научных (Humanity's Last Exam 44.4% [+4.4пп], SciCode 59% [+3пп]) бенчмарках. Длина контекста все также 1М. Цена $2/$12, то есть сравнимо с GPT-5.2 и в 2 раза дешевле Opus 4.6.
Доступно как обычно в Google AI Studio, Gemini CLI, Google Antigravity и по API.
бэнчмарки, блогпост.
Google: Lyria 3
Генератор музыки от Google. Треки всего по 30 секунд, из необычного - мультимодальность, можно приложить картинку как референс. Больше ориентируются не на на диктовку текста песни в промпт, а на общее описание "напиши мне песню о X". Теперь это модель по умолчанию в YouTube Dream Track - инструменте для создания саундтреков к видео.
Попробовать здесь, Блогпост
Anthropic: Sonnet 4.6
Качество Opus 4.5 по цене Sonnet 4.5 ($3/$15). При этом по Computer use, tool use и другим агентским бенчмаркам находится на уровне Opus 4.6, по эрудиции и MMMU ожидаемо отстает и от Opus 4.5. Также увеличили контекст до 1М.
Доступна везде как модель по умолчанию.
Блогпост
xAI: Grok 4.20 (Beta)
Четыре Grok 4.1 агентав пальто и шляпе с разными ролями спорят чтобы получить ответ. В общем, Mixture of Mixtures of Experts. Текущая бета - вариант на 500B параметров, крупнейший ещё тренируется.
Доступно на grok.com для подписчиков SuperGrok
ByteDance: Seedance 2.0 Выпуск API откладывается, чтобы зачистить генерации от копирайта
Claude Code Security: агент для поиска уязвимостей в коде, успел уронить акции Cloudflare и CrowdStrike
FireRed: FireRed-Image-Edit 1.0 еще один китайский оупенсорс-стартап выпустил редактор картинок. Обгоняет всех подряд на их собственном бенчмарке REDEdit-Bench (верим). github, HF
Sarvam: Indus AI (105B)
We’re gradually rolling out Indus on a limited compute capacity, прокомментировал CEO компании. Объявляется конкурс шуток про название
@boris_again
Дайджест AI/ML за неделю 16-22 февраля
Google: Gemini 3.1 Pro
В ежемесячной ротации компании с SOTA LLM настало время Google.
На SWE-Bench прорывов нет, по большинству бенчмаркрв небольшой отрыв, во многом потому что модели начиают упираться в потолок. Самый заметный рост в агентных (ARC-AGI 77.1% [+9пп], использование MCP 69% [+9пп]) и научных (Humanity's Last Exam 44.4% [+4.4пп], SciCode 59% [+3пп]) бенчмарках. Длина контекста все также 1М. Цена $2/$12, то есть сравнимо с GPT-5.2 и в 2 раза дешевле Opus 4.6.
Доступно как обычно в Google AI Studio, Gemini CLI, Google Antigravity и по API.
бэнчмарки, блогпост.
Google: Lyria 3
Генератор музыки от Google. Треки всего по 30 секунд, из необычного - мультимодальность, можно приложить картинку как референс. Больше ориентируются не на на диктовку текста песни в промпт, а на общее описание "напиши мне песню о X". Теперь это модель по умолчанию в YouTube Dream Track - инструменте для создания саундтреков к видео.
Попробовать здесь, Блогпост
Anthropic: Sonnet 4.6
Качество Opus 4.5 по цене Sonnet 4.5 ($3/$15). При этом по Computer use, tool use и другим агентским бенчмаркам находится на уровне Opus 4.6, по эрудиции и MMMU ожидаемо отстает и от Opus 4.5. Также увеличили контекст до 1М.
Доступна везде как модель по умолчанию.
Блогпост
xAI: Grok 4.20 (Beta)
Четыре Grok 4.1 агента
Доступно на grok.com для подписчиков SuperGrok
ByteDance: Seedance 2.0 Выпуск API откладывается, чтобы зачистить генерации от копирайта
Claude Code Security: агент для поиска уязвимостей в коде, успел уронить акции Cloudflare и CrowdStrike
FireRed: FireRed-Image-Edit 1.0 еще один китайский оупенсорс-стартап выпустил редактор картинок. Обгоняет всех подряд на их собственном бенчмарке REDEdit-Bench (верим). github, HF
Sarvam: Indus AI (105B)
We’re gradually rolling out Indus on a limited compute capacity, прокомментировал CEO компании. Объявляется конкурс шуток про название
@boris_again
Gemini CLI
Build, debug & deploy with AI
❤11🔥4🤔2
Платформа VoiceKit от Т-Технологий теперь анализирует и живые разговоры сотрудников с клиентами
Если раньше платформа работала только с чатами и звонками контакт-центров, то теперь она может обрабатывать записи диалогов в офлайн точках: медклиниках, отелях и т.д. Все, что нужно сделать, – перекинуть запись беседы на платформу с аудиобейджа или микрофона сотрудника в конце смены. Платформа сама уберет ненужный шум на фоне, превратит речь в текст и сегментирует запись на отдельные консультации.
Транскрибировать аудио не новая задача. Самое сложное это получить из горы записей ценную информацию. VoiceKit использует для этого дашборды и семантический поиск, однако разработчики пошли дальше и добавили AI агента на базе собственной большой языковой модели T-Pro. С его помощью бизнес может получить ответы на основные беспокоящие вопросы, вроде: «почему клиенты отказываются от допуслуги», «каких товаров не хватало» или «что не нравится покупателям». Подбирать слова для запроса не нужно — инструмент распознает вопрос даже в свободных формулировках, а потом проверит гипотезу на выборке диалогов.
В платформу также встроен быстрый умный поиск по множеству коммуникаций – с его помощью компании могут понять, носит ли конкретная проблема системный характер или нет.
Если раньше платформа работала только с чатами и звонками контакт-центров, то теперь она может обрабатывать записи диалогов в офлайн точках: медклиниках, отелях и т.д. Все, что нужно сделать, – перекинуть запись беседы на платформу с аудиобейджа или микрофона сотрудника в конце смены. Платформа сама уберет ненужный шум на фоне, превратит речь в текст и сегментирует запись на отдельные консультации.
Транскрибировать аудио не новая задача. Самое сложное это получить из горы записей ценную информацию. VoiceKit использует для этого дашборды и семантический поиск, однако разработчики пошли дальше и добавили AI агента на базе собственной большой языковой модели T-Pro. С его помощью бизнес может получить ответы на основные беспокоящие вопросы, вроде: «почему клиенты отказываются от допуслуги», «каких товаров не хватало» или «что не нравится покупателям». Подбирать слова для запроса не нужно — инструмент распознает вопрос даже в свободных формулировках, а потом проверит гипотезу на выборке диалогов.
В платформу также встроен быстрый умный поиск по множеству коммуникаций – с его помощью компании могут понять, носит ли конкретная проблема системный характер или нет.
👍73🤬25 9🤔5👎3❤2
А вы говорили у Антропика нереалистичные сценарии для эвалов на безопасность
Forwarded from Foom Countdown Party
To mitigate eval awareness you don't necessarily have to make the sandboxes more realistic
Forwarded from Just links
Bullshit Benchmark https://github.com/petergpt/bullshit-benchmark
GitHub
GitHub - petergpt/bullshit-benchmark: BullshitBench measures whether AI models challenge nonsensical prompts instead of confidently…
BullshitBench measures whether AI models challenge nonsensical prompts instead of confidently answering them, created by Peter Gostev. - petergpt/bullshit-benchmark
❤7👍1
Сегодня любим Claude Code
В голове давно витала идея: что если все формулы в книге заменить на красивые картинки с подписями? Можно и визуально облегчить, и текст сделать проще.
Проблема в том, что перерисовывать всё сил нет.
Подумано — завайбкожено. Показываю Claude Code и говорю — там же есть вроде бы какая-то либа, чтобы сделать математические визуализации из кода. Найди все Latex формулы и переделай, чтобы у меня был скрипт из которого генерируются картинки с формулами для каждой главы, и чтобы md файлы исходников их сразу подтягивали.
Он откопал manim, придумал как адаптировать его для создания картинок, очень долго страдал над latex шаблонами и шрифтами. В итоге получается такая красота и почти бесплатно. Всё равно много приходится поправлять руками (у моделей всё плохо с вижном), но клево же. Сам бы я не осилил это сделать.
В голове давно витала идея: что если все формулы в книге заменить на красивые картинки с подписями? Можно и визуально облегчить, и текст сделать проще.
Проблема в том, что перерисовывать всё сил нет.
Подумано — завайбкожено. Показываю Claude Code и говорю — там же есть вроде бы какая-то либа, чтобы сделать математические визуализации из кода. Найди все Latex формулы и переделай, чтобы у меня был скрипт из которого генерируются картинки с формулами для каждой главы, и чтобы md файлы исходников их сразу подтягивали.
Он откопал manim, придумал как адаптировать его для создания картинок, очень долго страдал над latex шаблонами и шрифтами. В итоге получается такая красота и почти бесплатно. Всё равно много приходится поправлять руками (у моделей всё плохо с вижном), но клево же. Сам бы я не осилил это сделать.
❤63🔥19🤔8
🚀 Открыта регистрация:
Agentic Legal RAG Challenge 2026
Если вы строите RAG / agentic pipelines (ingestion → retrieval → generation) и вам важны метрики, близкие к реальному продакшену, это соревнование для вас.
Что именно оценивают:
✅ Answer quality — насколько ответ корректный по сути
✅ Grounding / faithfulness — подтверждён ли ответ конкретными фрагментами из юридических источников (c citations / chunk-level evidence)
✅ Latency / TTFT — скорость, включая time-to-first-token (как быстро система начинает отдавать ответ)
Формат: Online участие / Live leaderboard + финальная проверка на private test set (без возможности “подгонки под паблик”)
Данные: 300+ юридических документов и 1 000+ вопросов
🏆 $32 000 призовой фонд — один из крупнейших в мире в сегменте Legal RAG/Agentic
📅 Период соревнования: 11 - 25 марта 2026 (регистрация уже открыта)
👉 Детали и регистрация: www.agentic-challenge.ai
Если у вас команда и уже есть свой стек (embeddings / vector DB / rerankers / LLM / tooling) — отличный шанс сравнить подходы на нормальной постановке и метриках.
Agentic Legal RAG Challenge 2026
Если вы строите RAG / agentic pipelines (ingestion → retrieval → generation) и вам важны метрики, близкие к реальному продакшену, это соревнование для вас.
Что именно оценивают:
✅ Answer quality — насколько ответ корректный по сути
✅ Grounding / faithfulness — подтверждён ли ответ конкретными фрагментами из юридических источников (c citations / chunk-level evidence)
✅ Latency / TTFT — скорость, включая time-to-first-token (как быстро система начинает отдавать ответ)
Формат: Online участие / Live leaderboard + финальная проверка на private test set (без возможности “подгонки под паблик”)
Данные: 300+ юридических документов и 1 000+ вопросов
🏆 $32 000 призовой фонд — один из крупнейших в мире в сегменте Legal RAG/Agentic
📅 Период соревнования: 11 - 25 марта 2026 (регистрация уже открыта)
👉 Детали и регистрация: www.agentic-challenge.ai
Если у вас команда и уже есть свой стек (embeddings / vector DB / rerankers / LLM / tooling) — отличный шанс сравнить подходы на нормальной постановке и метриках.
🔥11❤4👍1
Forwarded from шорткат
про нейронки и машинное обучение простыми словами
Из каждого утюга сказали про нейронки, но никто так и не смог донести до меня простыми словами, как именно чат жпт и дипсик выдают ответ на наши вопросы.
Ко мне на подкаст пришел Борис, который пишет книгу про ИИ для всех. В своей книге Борис рассказывает простыми словами для таких как я, что под капотом у нейросетей.
Обсудили с Борисом:
🟡 как именно текстовые нейронки анализируют запрос и как именно выдают ответ
🟡 как обучают нейронки и почему их бьют палками
🟡 почему нейросети галлюцинируют
Получился насыщенный подкаст, послушать можно:
на youtube
на яндекс.музыке
в apple подкастах
Из каждого утюга сказали про нейронки, но никто так и не смог донести до меня простыми словами, как именно чат жпт и дипсик выдают ответ на наши вопросы.
Ко мне на подкаст пришел Борис, который пишет книгу про ИИ для всех. В своей книге Борис рассказывает простыми словами для таких как я, что под капотом у нейросетей.
Обсудили с Борисом:
Получился насыщенный подкаст, послушать можно:
на youtube
на яндекс.музыке
в apple подкастах
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60❤8 8🤔5🔥4
Media is too big
VIEW IN TELEGRAM
Поумнели немного и хватит. Давно не показывал вам как продвигается моё хобби — стендап на английском. Ловите новые четыре минуты.
Раньше показывать было особо нечего. Но на днях планеты выстроились в ряд, я хорошо выступил и это попало на запись.
Любопытно, что у меня довольнодегенератская простая по темам комедия. Возможно потому, что в жизни хватает мест где надо быть умным, а на сцене скорее хочется быть простым веселым парнем с обостренной самоиронией.
Раньше показывать было особо нечего. Но на днях планеты выстроились в ряд, я хорошо выступил и это попало на запись.
Любопытно, что у меня довольно
❤65 37👍21🔥5🤔3😢1
Dogfooding? Слышал об этом, я тоже кормлю своих разработчиков собачьей едой