Media is too big
VIEW IN TELEGRAM
Как видите можно вообще не читать. Видео не ускорено
Ревьюить статьи до того как они загрузились:🧠 🧠 🧠
Ревьюить статьи до того как они загрузились:
Please open Telegram to view this post
VIEW IN TELEGRAM
Маль кто знает, но на собеседовании на Senior AI Engineer в РФ задают только один вопрос:
Как произносится "Claude"?
Как произносится "Claude"?
# Как книга, Борис? Пост боли
В своем канале принято писать о том как у тебя всё круто. Это обязательно будет, но не сегодня.
Давно я не писал про свою книгу под рабочим названием "ИИ для всех." Вот что происходило: под новый год, спустя более 14 месяцев работы вместо ожидаемых изначально 9, я дописал рукопись. Ура! Теперь мы с издательством будем вместе её редактировать! Подумал я.
Но оказалось, что теперь мне нужно найти научного редактора и первый раз отредактировать книгу вместе с ним самостоятельно. Научред — это такой именитый и технически подкованный в теме человек, желательно с мощным хиршем, который поставит на книге подпись: "здесь всё четко."
Я был к этому готов, позвал своего бывшего начальника из Яндекса, PhD, постдока и именитого NLPшника — Диму. Мы вместе месяц редактировали книгу. В этот период я работал над ней почти каждый день. В спорах было сломано много копий. В основном потому, что я бываю тем ещё упертым бараном, а относительно книги ещё включается режим "я художник, я так вижу." Многие главы были переписаны, иллюстрации переделаны, формулы выброшены, объяснения упрощены. Книга объективно стала намного лучше.
Однако это был тяжелый период. Вероятно самый тяжелый до сих пор. Дело в том, что писать трудно, но весело. Ты изучаешь, творишь и развиваешься. Редактировать ощущается как более техническая работа: тяжело и муторно. Похоже на написание диплома. Хочется просто побыстрее разделаться с этим. Но в отличие от диплома это будут читать и ты не можешь сделать абы-как.
Наконец, я отправил заветные 220 страниц рукописи издательству. Даже все опечатки оттуда убрал и пунктуацию расставил (спасибо Gemini 3 Pro). Вот теперь они примут рукопись, мы начнем совместную работу, за дело возьмутся профессионалы и мячик будет не на моей стороне! Подумал я. И снова оказался неправ. Издательство пропало на две недели и вернулось с комментарием уровня: "Нашим читателям будет такое не понятно, попробуйте написать понятнее, в таком виде принять книгу не можем."
Вы когда нибудь пробовали 15 месяцев писать самую понятную на свете книгу про искусственный интеллект, чтобы услышать предложение написать понятнее?
При том, что я буквально давал онлифанс модели прочитать первую главу книги и она всё поняла (я хорошо знаю свою целевую аудиторию).
Я уже представил во всех красках прекрасный опыт поиска нового издателя в середине процесса. Но мы созвонились с Альпиной и, насколько я вижу, смогли найти общий язык. Будет ещё как минимум одна итерация редактирования с моей стороны. С более конкретными ожиданиями чем "сделайте понятнее." Книга станет ещё лучше. Надеюсь оно того стоит!
По текущему плану книга выйдет в печать в ноябре 2026.
Как же я был наивен в начале! Кажется по изначальным представлениям я уже должен был её опубликовать. Очень страшно не успеть. Вдруг ИИ хайп пройдет? Вдург её содержание устареет? Вдруг мы все станем скрепками и читать будет некому? Вдруг будет бутлерианский джихад и за нейросети будут вешать на столбах? Вдруг книга не поможет мне стать Forbes 30понтов до 30? Вдруг книга не выиграет "Просветителя", или вообще не будет никому интересна? Вдруг всё это зря?
Конечно ко всему этому надо относится стоически. Слишком много факторов не под моим контролем. Книга это долгосрочная история. Я сделаю всё, что в моих силах, а выйдет она когда выйдет. Главное в процессе не словить 30 инсультов до 30.
Стараюсь для себя рефреймить ситуацию: трудности это плата за попытки что-то делать. Если бы я лежал на диване и не писал бы никакой книги, то не было бы никаких переговоров с издательством. Но раз уж решил делать, то такова цена.
В своем канале принято писать о том как у тебя всё круто. Это обязательно будет, но не сегодня.
Давно я не писал про свою книгу под рабочим названием "ИИ для всех." Вот что происходило: под новый год, спустя более 14 месяцев работы вместо ожидаемых изначально 9, я дописал рукопись. Ура! Теперь мы с издательством будем вместе её редактировать! Подумал я.
Но оказалось, что теперь мне нужно найти научного редактора и первый раз отредактировать книгу вместе с ним самостоятельно. Научред — это такой именитый и технически подкованный в теме человек, желательно с мощным хиршем, который поставит на книге подпись: "здесь всё четко."
Я был к этому готов, позвал своего бывшего начальника из Яндекса, PhD, постдока и именитого NLPшника — Диму. Мы вместе месяц редактировали книгу. В этот период я работал над ней почти каждый день. В спорах было сломано много копий. В основном потому, что я бываю тем ещё упертым бараном, а относительно книги ещё включается режим "я художник, я так вижу." Многие главы были переписаны, иллюстрации переделаны, формулы выброшены, объяснения упрощены. Книга объективно стала намного лучше.
Однако это был тяжелый период. Вероятно самый тяжелый до сих пор. Дело в том, что писать трудно, но весело. Ты изучаешь, творишь и развиваешься. Редактировать ощущается как более техническая работа: тяжело и муторно. Похоже на написание диплома. Хочется просто побыстрее разделаться с этим. Но в отличие от диплома это будут читать и ты не можешь сделать абы-как.
Наконец, я отправил заветные 220 страниц рукописи издательству. Даже все опечатки оттуда убрал и пунктуацию расставил (спасибо Gemini 3 Pro). Вот теперь они примут рукопись, мы начнем совместную работу, за дело возьмутся профессионалы и мячик будет не на моей стороне! Подумал я. И снова оказался неправ. Издательство пропало на две недели и вернулось с комментарием уровня: "Нашим читателям будет такое не понятно, попробуйте написать понятнее, в таком виде принять книгу не можем."
Вы когда нибудь пробовали 15 месяцев писать самую понятную на свете книгу про искусственный интеллект, чтобы услышать предложение написать понятнее?
При том, что я буквально давал онлифанс модели прочитать первую главу книги и она всё поняла (я хорошо знаю свою целевую аудиторию).
Я уже представил во всех красках прекрасный опыт поиска нового издателя в середине процесса. Но мы созвонились с Альпиной и, насколько я вижу, смогли найти общий язык. Будет ещё как минимум одна итерация редактирования с моей стороны. С более конкретными ожиданиями чем "сделайте понятнее." Книга станет ещё лучше. Надеюсь оно того стоит!
По текущему плану книга выйдет в печать в ноябре 2026.
Как же я был наивен в начале! Кажется по изначальным представлениям я уже должен был её опубликовать. Очень страшно не успеть. Вдруг ИИ хайп пройдет? Вдург её содержание устареет? Вдруг мы все станем скрепками и читать будет некому? Вдруг будет бутлерианский джихад и за нейросети будут вешать на столбах? Вдруг книга не поможет мне стать Forbes 30
Конечно ко всему этому надо относится стоически. Слишком много факторов не под моим контролем. Книга это долгосрочная история. Я сделаю всё, что в моих силах, а выйдет она когда выйдет. Главное в процессе не словить 30 инсультов до 30.
Стараюсь для себя рефреймить ситуацию: трудности это плата за попытки что-то делать. Если бы я лежал на диване и не писал бы никакой книги, то не было бы никаких переговоров с издательством. Но раз уж решил делать, то такова цена.
🔥143❤84 31😢3👍2
AI 2012: garbage in -> garbage out
AI 2026:
AI 2026:
while True:
garbage in -> garbage outForwarded from epsilon correct
Gemini 3.1 Pro
model card
Обновили нашу флагманскую модель, основной фокус в этом релизе на агентских способностях и кодинге, но и в общих способностях моделька подкачалась. Цена осталась такой же, как на 3 Pro.
Поиграться, как обычно, можно на ai.dev
model card
Обновили нашу флагманскую модель, основной фокус в этом релизе на агентских способностях и кодинге, но и в общих способностях моделька подкачалась. Цена осталась такой же, как на 3 Pro.
Поиграться, как обычно, можно на ai.dev
🔥27❤4 2
OpenTalks.ai 2026 был просто супер. Хочу сказать отдельное спасибо Роме за то, что позвал меня.
Общаться по 12-14 часов каждый день три дня подряд обычно не в моем стиле, но здесь получалось легко и естественно. Поймал ощущение легкой дереализации как в детском лагере в детстве.
Только тут все умные. Обсуждают как заставить агентов хорошо писать научные статьи про агентов, в чем природа сознания икакие корпорации стоило бы национализировать . Остаёшься с желанием умнеть и скорее что-то делать.
На фотографии: проблемы любой команды разработчиков в понедельник
Общаться по 12-14 часов каждый день три дня подряд обычно не в моем стиле, но здесь получалось легко и естественно. Поймал ощущение легкой дереализации как в детском лагере в детстве.
Только тут все умные. Обсуждают как заставить агентов хорошо писать научные статьи про агентов, в чем природа сознания и
На фотографии: проблемы любой команды разработчиков в понедельник
🔥56 28👎3❤2👍2
#дайджест
Дайджест AI/ML за неделю 16-22 февраля
Google: Gemini 3.1 Pro
В ежемесячной ротации компании с SOTA LLM настало время Google.
На SWE-Bench прорывов нет, по большинству бенчмаркрв небольшой отрыв, во многом потому что модели начиают упираться в потолок. Самый заметный рост в агентных (ARC-AGI 77.1% [+9пп], использование MCP 69% [+9пп]) и научных (Humanity's Last Exam 44.4% [+4.4пп], SciCode 59% [+3пп]) бенчмарках. Длина контекста все также 1М. Цена $2/$12, то есть сравнимо с GPT-5.2 и в 2 раза дешевле Opus 4.6.
Доступно как обычно в Google AI Studio, Gemini CLI, Google Antigravity и по API.
бэнчмарки, блогпост.
Google: Lyria 3
Генератор музыки от Google. Треки всего по 30 секунд, из необычного - мультимодальность, можно приложить картинку как референс. Больше ориентируются не на на диктовку текста песни в промпт, а на общее описание "напиши мне песню о X". Теперь это модель по умолчанию в YouTube Dream Track - инструменте для создания саундтреков к видео.
Попробовать здесь, Блогпост
Anthropic: Sonnet 4.6
Качество Opus 4.5 по цене Sonnet 4.5 ($3/$15). При этом по Computer use, tool use и другим агентским бенчмаркам находится на уровне Opus 4.6, по эрудиции и MMMU ожидаемо отстает и от Opus 4.5. Также увеличили контекст до 1М.
Доступна везде как модель по умолчанию.
Блогпост
xAI: Grok 4.20 (Beta)
Четыре Grok 4.1 агентав пальто и шляпе с разными ролями спорят чтобы получить ответ. В общем, Mixture of Mixtures of Experts. Текущая бета - вариант на 500B параметров, крупнейший ещё тренируется.
Доступно на grok.com для подписчиков SuperGrok
ByteDance: Seedance 2.0 Выпуск API откладывается, чтобы зачистить генерации от копирайта
Claude Code Security: агент для поиска уязвимостей в коде, успел уронить акции Cloudflare и CrowdStrike
FireRed: FireRed-Image-Edit 1.0 еще один китайский оупенсорс-стартап выпустил редактор картинок. Обгоняет всех подряд на их собственном бенчмарке REDEdit-Bench (верим). github, HF
Sarvam: Indus AI (105B)
We’re gradually rolling out Indus on a limited compute capacity, прокомментировал CEO компании. Объявляется конкурс шуток про название
@boris_again
Дайджест AI/ML за неделю 16-22 февраля
Google: Gemini 3.1 Pro
В ежемесячной ротации компании с SOTA LLM настало время Google.
На SWE-Bench прорывов нет, по большинству бенчмаркрв небольшой отрыв, во многом потому что модели начиают упираться в потолок. Самый заметный рост в агентных (ARC-AGI 77.1% [+9пп], использование MCP 69% [+9пп]) и научных (Humanity's Last Exam 44.4% [+4.4пп], SciCode 59% [+3пп]) бенчмарках. Длина контекста все также 1М. Цена $2/$12, то есть сравнимо с GPT-5.2 и в 2 раза дешевле Opus 4.6.
Доступно как обычно в Google AI Studio, Gemini CLI, Google Antigravity и по API.
бэнчмарки, блогпост.
Google: Lyria 3
Генератор музыки от Google. Треки всего по 30 секунд, из необычного - мультимодальность, можно приложить картинку как референс. Больше ориентируются не на на диктовку текста песни в промпт, а на общее описание "напиши мне песню о X". Теперь это модель по умолчанию в YouTube Dream Track - инструменте для создания саундтреков к видео.
Попробовать здесь, Блогпост
Anthropic: Sonnet 4.6
Качество Opus 4.5 по цене Sonnet 4.5 ($3/$15). При этом по Computer use, tool use и другим агентским бенчмаркам находится на уровне Opus 4.6, по эрудиции и MMMU ожидаемо отстает и от Opus 4.5. Также увеличили контекст до 1М.
Доступна везде как модель по умолчанию.
Блогпост
xAI: Grok 4.20 (Beta)
Четыре Grok 4.1 агента
Доступно на grok.com для подписчиков SuperGrok
ByteDance: Seedance 2.0 Выпуск API откладывается, чтобы зачистить генерации от копирайта
Claude Code Security: агент для поиска уязвимостей в коде, успел уронить акции Cloudflare и CrowdStrike
FireRed: FireRed-Image-Edit 1.0 еще один китайский оупенсорс-стартап выпустил редактор картинок. Обгоняет всех подряд на их собственном бенчмарке REDEdit-Bench (верим). github, HF
Sarvam: Indus AI (105B)
We’re gradually rolling out Indus on a limited compute capacity, прокомментировал CEO компании. Объявляется конкурс шуток про название
@boris_again
Gemini CLI
Build, debug & deploy with AI
❤11🔥4🤔2
Платформа VoiceKit от Т-Технологий теперь анализирует и живые разговоры сотрудников с клиентами
Если раньше платформа работала только с чатами и звонками контакт-центров, то теперь она может обрабатывать записи диалогов в офлайн точках: медклиниках, отелях и т.д. Все, что нужно сделать, – перекинуть запись беседы на платформу с аудиобейджа или микрофона сотрудника в конце смены. Платформа сама уберет ненужный шум на фоне, превратит речь в текст и сегментирует запись на отдельные консультации.
Транскрибировать аудио не новая задача. Самое сложное это получить из горы записей ценную информацию. VoiceKit использует для этого дашборды и семантический поиск, однако разработчики пошли дальше и добавили AI агента на базе собственной большой языковой модели T-Pro. С его помощью бизнес может получить ответы на основные беспокоящие вопросы, вроде: «почему клиенты отказываются от допуслуги», «каких товаров не хватало» или «что не нравится покупателям». Подбирать слова для запроса не нужно — инструмент распознает вопрос даже в свободных формулировках, а потом проверит гипотезу на выборке диалогов.
В платформу также встроен быстрый умный поиск по множеству коммуникаций – с его помощью компании могут понять, носит ли конкретная проблема системный характер или нет.
Если раньше платформа работала только с чатами и звонками контакт-центров, то теперь она может обрабатывать записи диалогов в офлайн точках: медклиниках, отелях и т.д. Все, что нужно сделать, – перекинуть запись беседы на платформу с аудиобейджа или микрофона сотрудника в конце смены. Платформа сама уберет ненужный шум на фоне, превратит речь в текст и сегментирует запись на отдельные консультации.
Транскрибировать аудио не новая задача. Самое сложное это получить из горы записей ценную информацию. VoiceKit использует для этого дашборды и семантический поиск, однако разработчики пошли дальше и добавили AI агента на базе собственной большой языковой модели T-Pro. С его помощью бизнес может получить ответы на основные беспокоящие вопросы, вроде: «почему клиенты отказываются от допуслуги», «каких товаров не хватало» или «что не нравится покупателям». Подбирать слова для запроса не нужно — инструмент распознает вопрос даже в свободных формулировках, а потом проверит гипотезу на выборке диалогов.
В платформу также встроен быстрый умный поиск по множеству коммуникаций – с его помощью компании могут понять, носит ли конкретная проблема системный характер или нет.
👍73🤬25 9🤔5👎3❤2
А вы говорили у Антропика нереалистичные сценарии для эвалов на безопасность
Forwarded from Foom Countdown Party
To mitigate eval awareness you don't necessarily have to make the sandboxes more realistic
Forwarded from Just links
Bullshit Benchmark https://github.com/petergpt/bullshit-benchmark
GitHub
GitHub - petergpt/bullshit-benchmark: BullshitBench measures whether AI models challenge nonsensical prompts instead of confidently…
BullshitBench measures whether AI models challenge nonsensical prompts instead of confidently answering them, created by Peter Gostev. - petergpt/bullshit-benchmark
❤7👍1
Сегодня любим Claude Code
В голове давно витала идея: что если все формулы в книге заменить на красивые картинки с подписями? Можно и визуально облегчить, и текст сделать проще.
Проблема в том, что перерисовывать всё сил нет.
Подумано — завайбкожено. Показываю Claude Code и говорю — там же есть вроде бы какая-то либа, чтобы сделать математические визуализации из кода. Найди все Latex формулы и переделай, чтобы у меня был скрипт из которого генерируются картинки с формулами для каждой главы, и чтобы md файлы исходников их сразу подтягивали.
Он откопал manim, придумал как адаптировать его для создания картинок, очень долго страдал над latex шаблонами и шрифтами. В итоге получается такая красота и почти бесплатно. Всё равно много приходится поправлять руками (у моделей всё плохо с вижном), но клево же. Сам бы я не осилил это сделать.
В голове давно витала идея: что если все формулы в книге заменить на красивые картинки с подписями? Можно и визуально облегчить, и текст сделать проще.
Проблема в том, что перерисовывать всё сил нет.
Подумано — завайбкожено. Показываю Claude Code и говорю — там же есть вроде бы какая-то либа, чтобы сделать математические визуализации из кода. Найди все Latex формулы и переделай, чтобы у меня был скрипт из которого генерируются картинки с формулами для каждой главы, и чтобы md файлы исходников их сразу подтягивали.
Он откопал manim, придумал как адаптировать его для создания картинок, очень долго страдал над latex шаблонами и шрифтами. В итоге получается такая красота и почти бесплатно. Всё равно много приходится поправлять руками (у моделей всё плохо с вижном), но клево же. Сам бы я не осилил это сделать.
❤63🔥19🤔9