Борис опять – Telegram

Борис опять

16.1K subscribers

1.49K photos

77 videos

35 files

1.52K links

life = curiosity + irreducible noise

Whois: https://t.me/boris_again/3400

Лс: @btseytlin

Download Telegram

About

Blog

Apps

Platform

Борис опять

16.1K subscribers

Борис опять

Media is too big

VIEW IN TELEGRAM

Покажу над чем я работал последние недели. Мы с кофаундером (продукта которого пока нет 😂) сделали прототип AI агента для тестирования мобильных приложений и игр.

Идея в том, что агенты могут увеличить покрытие — ты спишь, а оно тестирует. Можно тестировать длинный хвост случаев, которые не под силу автотестам. Пример на видео: наш агент играет в Wordle и сам, исходя из описанных правил игры, обнаруживает какие тест кейсы нужно проверить.

Есть глобальный вижн про то, что QA становится болтнеком в мире где софт делается за минуту. Но это всё не важно. Важно, что делать агентов неожиданно прикольно! Я один из тех программистов кто начинал с написания игр в детстве. Там было клевое ощущение: закодил фичу и вдург человечек ходит. С GUI агентом я испытываю что-то подобное. Придумал как сформировать для него контекст и вдруг LLMка проходит онбординг.

Сейчас мы хотим собрать обратную связь. Если вы занимаетесь QA мобильных приложений или игр, то мы бы хотели с вами пообщаться чаc, в идеале прогнать агента на вашей задаче. Напишите в лс: @btseytlin

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥82👍20❤107🤔1

7.13K viewsedited 14:13

Борис опять

Подался в https://30-under-30.forbes.ru/get-in в категории "Наука и технологии."

Это мой последний шанс туда податься. Чуть не провафлил: дедлайн уже 15 февраля. Если вы хотели подаваться, то тоже не вафлите

Я хочу быть самым успешным безработным. Попробуем не соскамиться (слишком быстро)

130❤42🔥22👎3

6.01K viewsedited 17:45

Борис опять

https://github.com/brimtown/claude-fortress

Две самые великие консольные тулы в истории объединили

GitHub - brimtown/claude-fortress: Let Claude have Fun: https://dwarffortresswiki.org/DF2014:Fun

Let Claude have Fun: https://dwarffortresswiki.org/DF2014:Fun - brimtown/claude-fortress

🔥17

6.48K views10:00

Борис опять

Forwarded from ЦДО “Моноид”

🐉

Открыт набор на Technical AI Safety курс по оценке LLM: подходы, бенчмарки и методология

Evals for AI Safety — это методология измерения качества, надежности и безопасности ИИ-систем. В условиях повсеместного внедрения языковых моделей в продакшн умение корректно оценивать их возможности и риски становится приоритетным навыком.

Как устроен курс:
🔘Анализ методологии evals на основе современных и классических статей в области
🔘Менторы из Apollo research, AI Lab SKOLKOVO, AIRI Institute, Яндекс и др
🔘Обучение в мини-группах, по 4-6 человек
🔘Формат: оффлайн в Москве или онлайн
🔘Ожидаемая нагрузка: 10-15 часов в неделю
🔘Стоимость: бесплатно, отбор на конкурсной основе

Цель курса:
Дать базу для начала карьеры в области оценки ИИ и понимание того, какую роль evals играет в AI Safety. Программа знакомит с основными концепциями evals, учит анализировать существующие бенчмарки, проектировать собственные оценки и разрабатывать дизайн экспериментов в области evals. Участники курса освоят Inspect AI (один из самых популярных фреймворков для оценки LLM).

Кого мы ждем:
🔘Студентов STEM-направлений, планирующих карьеру в области ИИ
🔘IT-специалистов, желающих освоить навык тестирования языковых моделей
🔘Продвинутых и начинающих специалистов в области ML, которые хотят углубиться в методологию оценки моделей

Подробнее: тут
Подать заявку на участие в курсе, а также на фасилитацию можно до 22 февраля: тут

Если вам интересно менторство, преподавание, сотрудничество с курсом или вы хотите задать вопрос, то напишите Юле

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13❤5👎2

5.39K views12:09

Борис опять

Forwarded from Love. Death. Transformers.

❤50

6.36K views12:31

Борис опять

Один из прикольных случаев с GUI агентом под мобилки. Я посадил его проходить обучение в 4х стратегии. На одном из этапов ему нужно было ткнуть на казарму подсвеченную золотым свечением. Так же на неё указывала сверху стрелка.

Агент упорно, раз за разом, тыкал на стрелку и возмущался, что не работает. Реалистичная симуляция пользователя!

82❤10🤔3👎2

7.22K viewsedited 17:40

Борис опять

Очень забавно: просто выбираешь то ревью, что хуже (без форматирования, короче, более агрессивное) и в 9/10 случаях это Human

😢23❤118🤔7🔥3

6.64K viewsedited 13:50

Борис опять

Forwarded from Техножрица 👩‍💻👩‍🏫👩‍🔧

Подписчики: - Мы хотим детекцию сгенерированных текстов.
Я: - У нас есть детекция сгенерированных текстов дома.
Детекция сгенерированных текстов дома: https://www.reviewer3.com/evidence/arena - попробуй угадать сам, какая рецензия написана человеком, а какая - LLMкой!

ICLR Review Arena: Which Is Human? - Reviewer3

Read two blinded ICLR 2025 review comments and pick the one written by a human reviewer.

15

5.72K views13:50

Борис опять

Media is too big

VIEW IN TELEGRAM

Как видите можно вообще не читать. Видео не ускорено

Ревьюить статьи до того как они загрузились: 🧠

🧠

🧠

Please open Telegram to view this post

VIEW IN TELEGRAM

74🤔6👍2🤬2

7.5K viewsedited 13:52

Борис опять

Маль кто знает, но на собеседовании на Senior AI Engineer в РФ задают только один вопрос:

Как произносится "Claude"?

147❤9🔥3👎2

6.83K viewsedited 17:55

Борис опять

65

6.3K views19:52

Борис опять

# Как книга, Борис? Пост боли

В своем канале принято писать о том как у тебя всё круто. Это обязательно будет, но не сегодня.

Давно я не писал про свою книгу под рабочим названием "ИИ для всех." Вот что происходило: под новый год, спустя более 14 месяцев работы вместо ожидаемых изначально 9, я дописал рукопись. Ура! Теперь мы с издательством будем вместе её редактировать! Подумал я.

Но оказалось, что теперь мне нужно найти научного редактора и первый раз отредактировать книгу вместе с ним самостоятельно. Научред — это такой именитый и технически подкованный в теме человек, желательно с мощным хиршем, который поставит на книге подпись: "здесь всё четко."

Я был к этому готов, позвал своего бывшего начальника из Яндекса, PhD, постдока и именитого NLPшника — Диму. Мы вместе месяц редактировали книгу. В этот период я работал над ней почти каждый день. В спорах было сломано много копий. В основном потому, что я бываю тем ещё упертым бараном, а относительно книги ещё включается режим "я художник, я так вижу." Многие главы были переписаны, иллюстрации переделаны, формулы выброшены, объяснения упрощены. Книга объективно стала намного лучше.

Однако это был тяжелый период. Вероятно самый тяжелый до сих пор. Дело в том, что писать трудно, но весело. Ты изучаешь, творишь и развиваешься. Редактировать ощущается как более техническая работа: тяжело и муторно. Похоже на написание диплома. Хочется просто побыстрее разделаться с этим. Но в отличие от диплома это будут читать и ты не можешь сделать абы-как.

Наконец, я отправил заветные 220 страниц рукописи издательству. Даже все опечатки оттуда убрал и пунктуацию расставил (спасибо Gemini 3 Pro). Вот теперь они примут рукопись, мы начнем совместную работу, за дело возьмутся профессионалы и мячик будет не на моей стороне! Подумал я. И снова оказался неправ. Издательство пропало на две недели и вернулось с комментарием уровня: "Нашим читателям будет такое не понятно, попробуйте написать понятнее, в таком виде принять книгу не можем."

Вы когда нибудь пробовали 15 месяцев писать самую понятную на свете книгу про искусственный интеллект, чтобы услышать предложение написать понятнее?

При том, что я буквально давал онлифанс модели прочитать первую главу книги и она всё поняла (я хорошо знаю свою целевую аудиторию).

Я уже представил во всех красках прекрасный опыт поиска нового издателя в середине процесса. Но мы созвонились с Альпиной и, насколько я вижу, смогли найти общий язык. Будет ещё как минимум одна итерация редактирования с моей стороны. С более конкретными ожиданиями чем "сделайте понятнее." Книга станет ещё лучше. Надеюсь оно того стоит!

По текущему плану книга выйдет в печать в ноябре 2026.

Как же я был наивен в начале! Кажется по изначальным представлениям я уже должен был её опубликовать. Очень страшно не успеть. Вдруг ИИ хайп пройдет? Вдург её содержание устареет? Вдруг мы все станем скрепками и читать будет некому? Вдруг будет бутлерианский джихад и за нейросети будут вешать на столбах? Вдруг книга не поможет мне стать Forbes 30 ~~понтов~~ до 30? Вдруг книга не выиграет "Просветителя", или вообще не будет никому интересна? Вдруг всё это зря?

Конечно ко всему этому надо относится стоически. Слишком много факторов не под моим контролем. Книга это долгосрочная история. Я сделаю всё, что в моих силах, а выйдет она когда выйдет. Главное в процессе не словить 30 инсультов до 30.

Стараюсь для себя рефреймить ситуацию: трудности это плата за попытки что-то делать. Если бы я лежал на диване и не писал бы никакой книги, то не было бы никаких переговоров с издательством. Но раз уж решил делать, то такова цена.

🔥143❤8431😢3👍2

7.04K viewsedited 14:40

Борис опять

❤12439🔥3

7.71K views16:56

Борис опять

AI 2012: garbage in -> garbage out

AI 2026:

while True: 
 garbage in -> garbage out

96❤41👎3

7.27K views10:56

Борис опять

Forwarded from epsilon correct

Gemini 3.1 Pro
model card

Обновили нашу флагманскую модель, основной фокус в этом релизе на агентских способностях и кодинге, но и в общих способностях моделька подкачалась. Цена осталась такой же, как на 3 Pro.

Поиграться, как обычно, можно на ai.dev

🔥27❤42

6.22K views16:15

Борис опять

OpenTalks.ai 2026 был просто супер. Хочу сказать отдельное спасибо Роме за то, что позвал меня.

Общаться по 12-14 часов каждый день три дня подряд обычно не в моем стиле, но здесь получалось легко и естественно. Поймал ощущение легкой дереализации как в детском лагере в детстве.

Только тут все умные. Обсуждают как заставить агентов хорошо писать научные статьи про агентов, в чем природа сознания и какие корпорации стоило бы национализировать. Остаёшься с желанием умнеть и скорее что-то делать.

На фотографии: проблемы любой команды разработчиков в понедельник

🔥5628👎3❤2👍2

6.04K viewsedited 16:56

Борис опять

#дайджест

Дайджест AI/ML за неделю 16-22 февраля

Google: Gemini 3.1 Pro
В ежемесячной ротации компании с SOTA LLM настало время Google.
На SWE-Bench прорывов нет, по большинству бенчмаркрв небольшой отрыв, во многом потому что модели начиают упираться в потолок. Самый заметный рост в агентных (ARC-AGI 77.1% [+9пп], использование MCP 69% [+9пп]) и научных (Humanity's Last Exam 44.4% [+4.4пп], SciCode 59% [+3пп]) бенчмарках. Длина контекста все также 1М. Цена $2/$12, то есть сравнимо с GPT-5.2 и в 2 раза дешевле Opus 4.6.
Доступно как обычно в Google AI Studio, Gemini CLI, Google Antigravity и по API.
бэнчмарки, блогпост.

Google: Lyria 3
Генератор музыки от Google. Треки всего по 30 секунд, из необычного - мультимодальность, можно приложить картинку как референс. Больше ориентируются не на на диктовку текста песни в промпт, а на общее описание "напиши мне песню о X". Теперь это модель по умолчанию в YouTube Dream Track - инструменте для создания саундтреков к видео.
Попробовать здесь, Блогпост

Anthropic: Sonnet 4.6
Качество Opus 4.5 по цене Sonnet 4.5 ($3/$15). При этом по Computer use, tool use и другим агентским бенчмаркам находится на уровне Opus 4.6, по эрудиции и MMMU ожидаемо отстает и от Opus 4.5. Также увеличили контекст до 1М.
Доступна везде как модель по умолчанию.
Блогпост

xAI: Grok 4.20 (Beta)
Четыре Grok 4.1 агента ~~в пальто и шляпе~~ с разными ролями спорят чтобы получить ответ. В общем, Mixture of Mixtures of Experts. Текущая бета - вариант на 500B параметров, крупнейший ещё тренируется.
Доступно на grok.com для подписчиков SuperGrok

ByteDance: Seedance 2.0 Выпуск API откладывается, чтобы зачистить генерации от копирайта

Claude Code Security: агент для поиска уязвимостей в коде, успел уронить акции Cloudflare и CrowdStrike

FireRed: FireRed-Image-Edit 1.0 еще один китайский оупенсорс-стартап выпустил редактор картинок. Обгоняет всех подряд на их собственном бенчмарке REDEdit-Bench (верим). github, HF

Sarvam: Indus AI (105B)
We’re gradually rolling out Indus on a limited compute capacity, прокомментировал CEO компании. Объявляется конкурс шуток про название

@boris_again

Build, debug & deploy with AI

❤11🔥4🤔2

5.8K views12:47

Борис опять

IT в 2026

Украл у @daniilak

152👍20🤔6❤1

6.91K viewsedited 15:00