Борис опять
16.1K subscribers
1.49K photos
77 videos
35 files
1.52K links
life = curiosity + irreducible noise

Whois: https://t.me/boris_again/3400

Лс: @btseytlin
Download Telegram
Media is too big
VIEW IN TELEGRAM
Покажу над чем я работал последние недели. Мы с кофаундером (продукта которого пока нет 😂) сделали прототип AI агента для тестирования мобильных приложений и игр.

Идея в том, что агенты могут увеличить покрытие — ты спишь, а оно тестирует. Можно тестировать длинный хвост случаев, которые не под силу автотестам. Пример на видео: наш агент играет в Wordle и сам, исходя из описанных правил игры, обнаруживает какие тест кейсы нужно проверить.

Есть глобальный вижн про то, что QA становится болтнеком в мире где софт делается за минуту. Но это всё не важно. Важно, что делать агентов неожиданно прикольно! Я один из тех программистов кто начинал с написания игр в детстве. Там было клевое ощущение: закодил фичу и вдург человечек ходит. С GUI агентом я испытываю что-то подобное. Придумал как сформировать для него контекст и вдруг LLMка проходит онбординг.

Сейчас мы хотим собрать обратную связь. Если вы занимаетесь QA мобильных приложений или игр, то мы бы хотели с вами пообщаться чаc, в идеале прогнать агента на вашей задаче. Напишите в лс: @btseytlin
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥82👍20107🤔1
Подался в https://30-under-30.forbes.ru/get-in в категории "Наука и технологии."

Это мой последний шанс туда податься. Чуть не провафлил: дедлайн уже 15 февраля. Если вы хотели подаваться, то тоже не вафлите

Я хочу быть самым успешным безработным. Попробуем не соскамиться (слишком быстро)
13042🔥22👎3
🐉 Открыт набор на Technical AI Safety курс по оценке LLM: подходы, бенчмарки и методология

Evals for AI Safety — это методология измерения качества, надежности и безопасности ИИ-систем. В условиях повсеместного внедрения языковых моделей в продакшн умение корректно оценивать их возможности и риски становится приоритетным навыком.

Как устроен курс:
🔘Анализ методологии evals на основе современных и классических статей в области
🔘Менторы из Apollo research, AI Lab SKOLKOVO, AIRI Institute, Яндекс и др
🔘Обучение в мини-группах, по 4-6 человек
🔘Формат: оффлайн в Москве или онлайн
🔘Ожидаемая нагрузка: 10-15 часов в неделю
🔘Стоимость: бесплатно, отбор на конкурсной основе

Цель курса:
Дать базу для начала карьеры в области оценки ИИ и понимание того, какую роль evals играет в AI Safety. Программа знакомит с основными концепциями evals, учит анализировать существующие бенчмарки, проектировать собственные оценки и разрабатывать дизайн экспериментов в области evals. Участники курса освоят Inspect AI (один из самых популярных фреймворков для оценки LLM).

Кого мы ждем:
🔘Студентов STEM-направлений, планирующих карьеру в области ИИ
🔘IT-специалистов, желающих освоить навык тестирования языковых моделей
🔘Продвинутых и начинающих специалистов в области ML, которые хотят углубиться в методологию оценки моделей

Подробнее: тут
Подать заявку на участие в курсе, а также на фасилитацию можно до 22 февраля: тут

Если вам интересно менторство, преподавание, сотрудничество с курсом или вы хотите задать вопрос, то напишите Юле
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥135👎2
Один из прикольных случаев с GUI агентом под мобилки. Я посадил его проходить обучение в 4х стратегии. На одном из этапов ему нужно было ткнуть на казарму подсвеченную золотым свечением. Так же на неё указывала сверху стрелка.

Агент упорно, раз за разом, тыкал на стрелку и возмущался, что не работает. Реалистичная симуляция пользователя!
8210🤔3👎2
Очень забавно: просто выбираешь то ревью, что хуже (без форматирования, короче, более агрессивное) и в 9/10 случаях это Human
😢23118🤔7🔥3
Подписчики: - Мы хотим детекцию сгенерированных текстов.
Я: - У нас есть детекция сгенерированных текстов дома.
Детекция сгенерированных текстов дома: https://www.reviewer3.com/evidence/arena - попробуй угадать сам, какая рецензия написана человеком, а какая - LLMкой!
15
Media is too big
VIEW IN TELEGRAM
Как видите можно вообще не читать. Видео не ускорено

Ревьюить статьи до того как они загрузились: 🧠🧠🧠
Please open Telegram to view this post
VIEW IN TELEGRAM
74🤔6👍2🤬2
Маль кто знает, но на собеседовании на Senior AI Engineer в РФ задают только один вопрос:

Как произносится "Claude"?
1479🔥3👎2
# Как книга, Борис? Пост боли

В своем канале принято писать о том как у тебя всё круто. Это обязательно будет, но не сегодня.

Давно я не писал про свою книгу под рабочим названием "ИИ для всех." Вот что происходило: под новый год, спустя более 14 месяцев работы вместо ожидаемых изначально 9, я дописал рукопись. Ура! Теперь мы с издательством будем вместе её редактировать! Подумал я.

Но оказалось, что теперь мне нужно найти научного редактора и первый раз отредактировать книгу вместе с ним самостоятельно. Научред — это такой именитый и технически подкованный в теме человек, желательно с мощным хиршем, который поставит на книге подпись: "здесь всё четко."

Я был к этому готов, позвал своего бывшего начальника из Яндекса, PhD, постдока и именитого NLPшника — Диму. Мы вместе месяц редактировали книгу. В этот период я работал над ней почти каждый день. В спорах было сломано много копий. В основном потому, что я бываю тем ещё упертым бараном, а относительно книги ещё включается режим "я художник, я так вижу." Многие главы были переписаны, иллюстрации переделаны, формулы выброшены, объяснения упрощены. Книга объективно стала намного лучше.

Однако это был тяжелый период. Вероятно самый тяжелый до сих пор. Дело в том, что писать трудно, но весело. Ты изучаешь, творишь и развиваешься. Редактировать ощущается как более техническая работа: тяжело и муторно. Похоже на написание диплома. Хочется просто побыстрее разделаться с этим. Но в отличие от диплома это будут читать и ты не можешь сделать абы-как.

Наконец, я отправил заветные 220 страниц рукописи издательству. Даже все опечатки оттуда убрал и пунктуацию расставил (спасибо Gemini 3 Pro). Вот теперь они примут рукопись, мы начнем совместную работу, за дело возьмутся профессионалы и мячик будет не на моей стороне! Подумал я. И снова оказался неправ. Издательство пропало на две недели и вернулось с комментарием уровня: "Нашим читателям будет такое не понятно, попробуйте написать понятнее, в таком виде принять книгу не можем."

Вы когда нибудь пробовали 15 месяцев писать самую понятную на свете книгу про искусственный интеллект, чтобы услышать предложение написать понятнее?

При том, что я буквально давал онлифанс модели прочитать первую главу книги и она всё поняла (я хорошо знаю свою целевую аудиторию).

Я уже представил во всех красках прекрасный опыт поиска нового издателя в середине процесса. Но мы созвонились с Альпиной и, насколько я вижу, смогли найти общий язык. Будет ещё как минимум одна итерация редактирования с моей стороны. С более конкретными ожиданиями чем "сделайте понятнее." Книга станет ещё лучше. Надеюсь оно того стоит!

По текущему плану книга выйдет в печать в ноябре 2026.

Как же я был наивен в начале! Кажется по изначальным представлениям я уже должен был её опубликовать. Очень страшно не успеть. Вдруг ИИ хайп пройдет? Вдург её содержание устареет? Вдруг мы все станем скрепками и читать будет некому? Вдруг будет бутлерианский джихад и за нейросети будут вешать на столбах? Вдруг книга не поможет мне стать Forbes 30 понтов до 30? Вдруг книга не выиграет "Просветителя", или вообще не будет никому интересна? Вдруг всё это зря?

Конечно ко всему этому надо относится стоически. Слишком много факторов не под моим контролем. Книга это долгосрочная история. Я сделаю всё, что в моих силах, а выйдет она когда выйдет. Главное в процессе не словить 30 инсультов до 30.

Стараюсь для себя рефреймить ситуацию: трудности это плата за попытки что-то делать. Если бы я лежал на диване и не писал бы никакой книги, то не было бы никаких переговоров с издательством. Но раз уж решил делать, то такова цена.
🔥1438431😢3👍2
12439🔥3
AI 2012: garbage in -> garbage out

AI 2026:

while True:
garbage in -> garbage out
9641👎3
Forwarded from epsilon correct
Gemini 3.1 Pro
model card

Обновили нашу флагманскую модель, основной фокус в этом релизе на агентских способностях и кодинге, но и в общих способностях моделька подкачалась. Цена осталась такой же, как на 3 Pro.

Поиграться, как обычно, можно на ai.dev
🔥2742
OpenTalks.ai 2026 был просто супер. Хочу сказать отдельное спасибо Роме за то, что позвал меня.

Общаться по 12-14 часов каждый день три дня подряд обычно не в моем стиле, но здесь получалось легко и естественно. Поймал ощущение легкой дереализации как в детском лагере в детстве.

Только тут все умные. Обсуждают как заставить агентов хорошо писать научные статьи про агентов, в чем природа сознания и какие корпорации стоило бы национализировать. Остаёшься с желанием умнеть и скорее что-то делать.

На фотографии: проблемы любой команды разработчиков в понедельник
🔥5628👎32👍2
#дайджест

Дайджест AI/ML за неделю 16-22 февраля

Google: Gemini 3.1 Pro
В ежемесячной ротации компании с SOTA LLM настало время Google.
На SWE-Bench прорывов нет, по большинству бенчмаркрв небольшой отрыв, во многом потому что модели начиают упираться в потолок. Самый заметный рост в агентных (ARC-AGI 77.1% [+9пп], использование MCP 69% [+9пп]) и научных (Humanity's Last Exam 44.4% [+4.4пп], SciCode 59% [+3пп]) бенчмарках. Длина контекста все также 1М. Цена $2/$12, то есть сравнимо с GPT-5.2 и в 2 раза дешевле Opus 4.6.
Доступно как обычно в Google AI Studio, Gemini CLI, Google Antigravity и по API.
бэнчмарки, блогпост.

Google: Lyria 3
Генератор музыки от Google. Треки всего по 30 секунд, из необычного - мультимодальность, можно приложить картинку как референс. Больше ориентируются не на на диктовку текста песни в промпт, а на общее описание "напиши мне песню о X". Теперь это модель по умолчанию в YouTube Dream Track - инструменте для создания саундтреков к видео.
Попробовать здесь, Блогпост

Anthropic: Sonnet 4.6
Качество Opus 4.5 по цене Sonnet 4.5 ($3/$15). При этом по Computer use, tool use и другим агентским бенчмаркам находится на уровне Opus 4.6, по эрудиции и MMMU ожидаемо отстает и от Opus 4.5. Также увеличили контекст до 1М.
Доступна везде как модель по умолчанию.
Блогпост

xAI: Grok 4.20 (Beta)
Четыре Grok 4.1 агента в пальто и шляпе с разными ролями спорят чтобы получить ответ. В общем, Mixture of Mixtures of Experts. Текущая бета - вариант на 500B параметров, крупнейший ещё тренируется.
Доступно на grok.com для подписчиков SuperGrok

ByteDance: Seedance 2.0 Выпуск API откладывается, чтобы зачистить генерации от копирайта

Claude Code Security: агент для поиска уязвимостей в коде, успел уронить акции Cloudflare и CrowdStrike

FireRed: FireRed-Image-Edit 1.0 еще один китайский оупенсорс-стартап выпустил редактор картинок. Обгоняет всех подряд на их собственном бенчмарке REDEdit-Bench (верим). github, HF

Sarvam: Indus AI (105B)
We’re gradually rolling out Indus on a limited compute capacity, прокомментировал CEO компании. Объявляется конкурс шуток про название

@boris_again
11🔥4🤔2
IT в 2026

Украл у @daniilak
152👍20🤔61