Борис опять
16.1K subscribers
1.49K photos
76 videos
35 files
1.52K links
life = curiosity + irreducible noise

Whois: https://t.me/boris_again/3400

Лс: @btseytlin
Download Telegram
Forwarded from epsilon correct
Gemini 3.1 Pro
model card

Обновили нашу флагманскую модель, основной фокус в этом релизе на агентских способностях и кодинге, но и в общих способностях моделька подкачалась. Цена осталась такой же, как на 3 Pro.

Поиграться, как обычно, можно на ai.dev
🔥2742
OpenTalks.ai 2026 был просто супер. Хочу сказать отдельное спасибо Роме за то, что позвал меня.

Общаться по 12-14 часов каждый день три дня подряд обычно не в моем стиле, но здесь получалось легко и естественно. Поймал ощущение легкой дереализации как в детском лагере в детстве.

Только тут все умные. Обсуждают как заставить агентов хорошо писать научные статьи про агентов, в чем природа сознания и какие корпорации стоило бы национализировать. Остаёшься с желанием умнеть и скорее что-то делать.

На фотографии: проблемы любой команды разработчиков в понедельник
🔥5628👎32👍2
#дайджест

Дайджест AI/ML за неделю 16-22 февраля

Google: Gemini 3.1 Pro
В ежемесячной ротации компании с SOTA LLM настало время Google.
На SWE-Bench прорывов нет, по большинству бенчмаркрв небольшой отрыв, во многом потому что модели начиают упираться в потолок. Самый заметный рост в агентных (ARC-AGI 77.1% [+9пп], использование MCP 69% [+9пп]) и научных (Humanity's Last Exam 44.4% [+4.4пп], SciCode 59% [+3пп]) бенчмарках. Длина контекста все также 1М. Цена $2/$12, то есть сравнимо с GPT-5.2 и в 2 раза дешевле Opus 4.6.
Доступно как обычно в Google AI Studio, Gemini CLI, Google Antigravity и по API.
бэнчмарки, блогпост.

Google: Lyria 3
Генератор музыки от Google. Треки всего по 30 секунд, из необычного - мультимодальность, можно приложить картинку как референс. Больше ориентируются не на на диктовку текста песни в промпт, а на общее описание "напиши мне песню о X". Теперь это модель по умолчанию в YouTube Dream Track - инструменте для создания саундтреков к видео.
Попробовать здесь, Блогпост

Anthropic: Sonnet 4.6
Качество Opus 4.5 по цене Sonnet 4.5 ($3/$15). При этом по Computer use, tool use и другим агентским бенчмаркам находится на уровне Opus 4.6, по эрудиции и MMMU ожидаемо отстает и от Opus 4.5. Также увеличили контекст до 1М.
Доступна везде как модель по умолчанию.
Блогпост

xAI: Grok 4.20 (Beta)
Четыре Grok 4.1 агента в пальто и шляпе с разными ролями спорят чтобы получить ответ. В общем, Mixture of Mixtures of Experts. Текущая бета - вариант на 500B параметров, крупнейший ещё тренируется.
Доступно на grok.com для подписчиков SuperGrok

ByteDance: Seedance 2.0 Выпуск API откладывается, чтобы зачистить генерации от копирайта

Claude Code Security: агент для поиска уязвимостей в коде, успел уронить акции Cloudflare и CrowdStrike

FireRed: FireRed-Image-Edit 1.0 еще один китайский оупенсорс-стартап выпустил редактор картинок. Обгоняет всех подряд на их собственном бенчмарке REDEdit-Bench (верим). github, HF

Sarvam: Indus AI (105B)
We’re gradually rolling out Indus on a limited compute capacity, прокомментировал CEO компании. Объявляется конкурс шуток про название

@boris_again
11🔥4🤔2
IT в 2026

Украл у @daniilak
151👍20🤔61
Платформа VoiceKit от Т-Технологий теперь анализирует и живые разговоры сотрудников с клиентами

Если раньше платформа работала только с чатами и звонками контакт-центров, то теперь она может обрабатывать записи диалогов в офлайн точках: медклиниках, отелях и т.д. Все, что нужно сделать, – перекинуть запись беседы на платформу с аудиобейджа или микрофона сотрудника в конце смены. Платформа сама уберет ненужный шум на фоне, превратит речь в текст и сегментирует запись на отдельные консультации.

Транскрибировать аудио не новая задача. Самое сложное это получить из горы записей ценную информацию. VoiceKit использует для этого дашборды и семантический поиск, однако разработчики пошли дальше и добавили AI агента на базе собственной большой языковой модели T-Pro. С его помощью бизнес может получить ответы на основные беспокоящие вопросы, вроде: «почему клиенты отказываются от допуслуги», «каких товаров не хватало» или «что не нравится покупателям». Подбирать слова для запроса не нужно — инструмент распознает вопрос даже в свободных формулировках, а потом проверит гипотезу на выборке диалогов.

В платформу также встроен быстрый умный поиск по множеству коммуникаций – с его помощью компании могут понять, носит ли конкретная проблема системный характер или нет.
👍73🤬259🤔5👎32
AI is gay QED
7517🤔3👎2
А вы говорили у Антропика нереалистичные сценарии для эвалов на безопасность
20
Forwarded from Foom Countdown Party
To mitigate eval awareness you don't necessarily have to make the sandboxes more realistic
272
Красивое
43🔥18
Сегодня любим Claude Code

В голове давно витала идея: что если все формулы в книге заменить на красивые картинки с подписями? Можно и визуально облегчить, и текст сделать проще.

Проблема в том, что перерисовывать всё сил нет.

Подумано — завайбкожено. Показываю Claude Code и говорю — там же есть вроде бы какая-то либа, чтобы сделать математические визуализации из кода. Найди все Latex формулы и переделай, чтобы у меня был скрипт из которого генерируются картинки с формулами для каждой главы, и чтобы md файлы исходников их сразу подтягивали.

Он откопал manim, придумал как адаптировать его для создания картинок, очень долго страдал над latex шаблонами и шрифтами. В итоге получается такая красота и почти бесплатно. Всё равно много приходится поправлять руками (у моделей всё плохо с вижном), но клево же. Сам бы я не осилил это сделать.
63🔥19🤔8
Ээээммммм, аниме-литкод????
71🔥85
У админа немного течет крыша, накидайте мемов в комментариях
7720
Спустя час после того как пересел с Claude на Grok:
104😢187👎1
@downloadmoregpus выдал на днях очень точно
4842👎3👍1
🚀 Открыта регистрация:
Agentic Legal RAG Challenge 2026

Если вы строите RAG / agentic pipelines (ingestion → retrieval → generation) и вам важны метрики, близкие к реальному продакшену, это соревнование для вас.

Что именно оценивают:
Answer quality — насколько ответ корректный по сути
Grounding / faithfulness — подтверждён ли ответ конкретными фрагментами из юридических источников (c citations / chunk-level evidence)
Latency / TTFT — скорость, включая time-to-first-token (как быстро система начинает отдавать ответ)

Формат: Online участие / Live leaderboard + финальная проверка на private test set (без возможности “подгонки под паблик”)

Данные: 300+ юридических документов и 1 000+ вопросов

🏆 $32 000 призовой фонд — один из крупнейших в мире в сегменте Legal RAG/Agentic

📅 Период соревнования: 11 - 25 марта 2026 (регистрация уже открыта)

👉 Детали и регистрация: www.agentic-challenge.ai

Если у вас команда и уже есть свой стек (embeddings / vector DB / rerankers / LLM / tooling) — отличный шанс сравнить подходы на нормальной постановке и метриках.
🔥114👍1
Forwarded from шорткат
про нейронки и машинное обучение простыми словами

Из каждого утюга сказали про нейронки, но никто так и не смог донести до меня простыми словами, как именно чат жпт и дипсик выдают ответ на наши вопросы.

Ко мне на подкаст пришел Борис, который пишет книгу про ИИ для всех. В своей книге Борис рассказывает простыми словами для таких как я, что под капотом у нейросетей.

Обсудили с Борисом:

🟡как именно текстовые нейронки анализируют запрос и как именно выдают ответ
🟡как обучают нейронки и почему их бьют палками
🟡почему нейросети галлюцинируют

Получился насыщенный подкаст, послушать можно:

на youtube
на яндекс.музыке
в apple подкастах
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6088🤔5🔥4
Media is too big
VIEW IN TELEGRAM
Поумнели немного и хватит. Давно не показывал вам как продвигается моё хобби — стендап на английском. Ловите новые четыре минуты.

Раньше показывать было особо нечего. Но на днях планеты выстроились в ряд, я хорошо выступил и это попало на запись.

Любопытно, что у меня довольно дегенератская простая по темам комедия. Возможно потому, что в жизни хватает мест где надо быть умным, а на сцене скорее хочется быть простым веселым парнем с обостренной самоиронией.
6537👍21🔥5🤔3😢1
Dogfooding? Слышал об этом, я тоже кормлю своих разработчиков собачьей едой
86👍2
124👎2