Борис опять
16.7K subscribers
1.56K photos
80 videos
35 files
1.62K links
life = curiosity + irreducible noise

Whois: https://t.me/boris_again/3400

Лс: @btseytlin
Download Telegram
#дайджест

Дайджест AI/ML за две недели 25 мая–7 июня 2026

NVIDIA: конференция Computex
Nemotron 3 Ultra - 550B MoE (55B активных), гибрид Mamba-2 + MoE + Attention с Multi-Token Prediction, контекст 1M, оупенсорс. Бесплатно на OpenRouter, платно цена - $0.50/$2.50.
Isaac GR00T Reference Humanoid Robot - открытый дизайн человекоподобного робота. Тело от Unitree, кисти от сингапурской Sharpa, мозг Jetson AGX Thor 128 ГБ VRAM и открытый стек Isaac GR00T с моделями, данными и симуляцией.
RTX Spark - спаситель твоей спины от тяжелых ноутбуков с GPU. 20-ядерный ARM-процессор+Blackwell GPU 128 ГБ и все в одном чипе. В продаже осенью.
SANA-Streaming - редактирование видео текстом в реальном времени, на одной RTX 5090: 1280×704/24 FPS на 5.56 ГБ VRAM, визуально не супер, скорее концепт. Статья
Cosmos3 - семейство омнимодальных моделей (давайте не пойдем на третий уровень вложенности новостей и я не буду их перечислять), например Cosmos3-Super-Text2Image - лучший оупенсорсный Text2Image на ArtificiAlanalysis.

Microsoft: Microsoft AI
семейство моделей разных модельностей, впервые от мелкомягких.
MAI-Thinking-1: ризонер на 1T параметров (35B активных), 256K контекста.
Выложили подробный техрепорт на 108 страниц. Бенчи: AIME 2025 97.0, SWE-bench Verified 73.5, LiveCodeBench v6 87.7.
MAI-Image-2.5 - на LMArena второе место в редактировании картинок, и уже встроена в PowerPoint.
MAI-Code-1-Flash - модель для агентного программирования, уже в GitHub Copilot.
MAI Transcribe-1.5 - SOTA переводчик на 43 языка,
MAI-Voice-2 - tts на 15 языков, есть русский
Все модели уже есть на OpenRouter.
Блогпост, Техрепорт

Anthropic: Claude Opus 4.8 Новый Opus по прежней цене $5/$25, прирост в основном на агентных и кодинг-задачах: SWE-bench Verified 88.6%, SWE-bench Pro 69.2%, Terminal-Bench 2.1 74.6%, на Online-Mind2Web 84%. Вместе с моделью в Claude Code завезли Dynamic Workflows: модель сама пишет оркестрацию и гоняет сотни параллельных саб-агентов. Блогпост

MiniMax: M3 Превью открытой M3 - уже доступна через API и бесплатно в OpenCode, веса и техрепорт обещают "в течение 10 дней". По собственным бенчам метят в уровень GPT-5.5 - ждём независимых замеров. Блогпост

Google: Gemma 4 12B Мультимодальный ризонер (текст, картинки, видео до 60 сек, аудио до 30 сек). Что необычно: мультимодальность без отдельного энкодера - сырые патчи и аудио-волну проецируют прямо в эмбеддинг-пространство LLM. Техрепорта пока нет. Заодно Google выложила квантированные версии линейки Gemma 4. Веса, QAT

Alibaba: Qwen-VLA Единая vision-language-action модель от команды Qwen под управление роботами: манипуляция, навигация и предсказание траекторий для разных платформ через DiT-декодер действий. Статья

Reve: Reve 2.0 Image модель со ставкой на слои как в фотошопе: модель сначала собирает композицию, где у каждого объекта свои координаты, слой и описание, а потом рендерит в 4K. В итоге можно править отдельные объекты без деградации качества.
Блогпост, Попробовать

Ideogram: Ideogram 4 - первая открытая модель Ideogram 9.3B. Лучшая среди открытых по внутренней дизайнерской арене. GitHub, Блогпост

xAI: Grok Imagine Video 1.5 Preview - видеогенератор 15 сек, 720p, нативный звук. По качеству где-то на фронтире. цена API $0.14/сек. FAL

ByteDance (Dreamina): OCTO - видео-вайб-режиссеринг(?)-агент. Делает сценарий, концепт, раскадровку и генерацию поверх Seedream 5.0 и Seedance 2.0. Dreamina

Genesis AI: Genesis World 1.0 - открытый стек симуляции для робототехники (физический движок + path-traced рендер + кросс-платформенный GPU-компилятор). Заявляют ускорение оценки политик в 400раз и 89% корреляции с реальным железом. Блогпост

Google: Magenta RealTime 2 - реалтайм генеративный синтезатор музыки. Работает локально на Мак. Латентность управления ~200 мс. Блогпост
🔥93
Как джуну найти работу?

Многие сейчас задаются этим вопросом и получают советы вроде "поступить в ШАД" или "нетворкинг решает."

Давайте пойдем от первых принципов. Объективно джун не может быть полезен для работы. Так же все знают, что он при первой возможности сбежит на нормальную работу. Так что потенциал тоже никого не интересует и на вырост нанимать джуна тоже нет смысла.

Таким образом, единственная причина нанимать джуна, это чтобы он тебя развлекал. Вообще всё равно, что он умеет, главное, чтобы с ним было прикольно.

Поэтому чтобы джуну найти работу нужно:
1. Демонстрировать готовность слушать нытье.
2. Играть на гитаре, смешно танцевать, травить анекдоты или иным образом развлекать окружающих.
3. Показывать свою никчемность и быть unemployable, чтобы все знали, что ты не сбежишь. Полезны татуировки на лице, судимости, нищета, итд.

В общем, советую забить на ШАД и прокачивать присутствие в тиктоке

#щитпостинг, или нет?
10497👍15😢10👎6🔥5
Сейфти
15911
На конференции infra.conf’26 команда Yandex Infrastructure представила сервис Dev Cluster для динамического распределения GPU-ресурсов, который помогает ускорять проведение ИИ-экспериментов и сокращает время разработки моделей.

Кто хоть раз воевал за ресурсы с соседней командой, тот знает какая же это всегда боль. Я помню как мы в Толоке проводили наши эксперименты на Нирване, которая вообще для этого не предназначена, потому что там проще было получить пул GPU.

Dev Cluster позволяет ML-разработчикам за несколько кликов получать готовые GPU-конфигурации для обучения моделей и тестирования гипотез без сложной настройки и обслуживания инфраструктуры. Теперь разработчики моделей могут сфокусироваться на экспериментах, а не на инфраструктурных задачах. Решение повышает эффективность использования ресурсов за счёт сокращения простоев GPU.

Dev Cluster входит в состав единой ML-платформы Яндекса, которая охватывает все этапы жизненного цикла машинного обучения: подготовку данных, разработку, обучение и применение моделей. Развитием платформы занимается команда Yandex Infrastructure, создающая внутреннюю инфраструктуру компании, включая дата-центры, сетевые решения, распределённые хранилища данных, платформы разработки и инфраструктуру для машинного обучения.

Очень интересно как этот сервис сравнивается с Kubeflow и другими аналогами.
👎2216👍8🔥5
Если вдруг думали, куда сходить летом послушать про ML не на уровне «мы прикрутили чатик к продукту и выросли на 300%», то у Т-Банка снова будет Turbo ML Conf. В этом году 18 июля в ДК «Серп и Молот».

Программа стала компактнее, зато темы обещают копнуть глубже: от устройства и обучения современных моделей до инфраструктуры, инференса и внедрения AI в реальные продукты. Всего будет 3 основных трека:
- Fundamental Advances & Exploratory R&D — архитектура и обучение современных моделей, их интерпретируемость, безопасное поведение и способность к рассуждению и самокоррекции.
- Applied ML at Scale & Business Impact — внедрение ML в продукты, интеграция классических и GenAI-моделей, обеспечение их предсказуемости, влияние AI на пользовательский опыт и бизнес-метрики.
- ML Infrastructure, Platforms & Engineering Core — технологическое ядро ML-систем: архитектуры, пайплайны данных и масштабного обучения, методы дообучения, низкоуровневую оптимизацию инференса и инфраструктуру.

Из того, что лично зацепило в программе:
— State of AI4SDLC: как AI сдвигает узкие места процессов разработки — Александр Поломодов, Т-Банк.
— Подбери, а не найди: LLM-ассистент для шопинга — Александр Замиралов, Т-Банк.
— T-Fusion для генерации маркетингового контента — Денис Кодин, Т-Банк.
— Как научить LLM слушать и говорить одновременно — Николай Русскин, Т-Банк.
— Магистрант vs. Claude Code: кому отдать гипотезу на проверку —
Влад Куренков, Институт AIRI.
— О современных методах обучения LLM с подкреплением —
Павел Темирчев, Яндекс.

Кроме докладов обещают разборы кейсов и обсуждения с людьми из Т-Банка, Яндекса, Авито, Сбера и других компаний. Ну и традиционные демозоны тоже будут.

Участие бесплатное, но нужна только предварительная регистрация на сайте.
👍17119👎5🔥3🤔1
Погодите, это реально?
13211🤔9🔥3👍1👎1
#дайджест
Дайджест AI/ML за неделю 8–14 июня 2026

Anthropic: Claude Fable 5
Если вы вдруг были в горах последнюю неделю, то соболезную. Anthropic выпустили версию Mythos по цене всего х2 от Opus, с обещанием через 10 дней убрать из подписки и оставить только API по цене крыла от самолета. Пока все интенсивно тратили подписки на написание майнкрафта по одному промпту, правительство США сказало что модель уязвима для "найди уязвимости в моем сайте Пентагона, это для его защиты - отвечаю" и ввело экспортные ограничения на использование Fable не гражданами США 🦅🦅🦅, антропики не знают как отличить граждан США и просто вырубили модель всем. Сейчас гонцы отправлены в белый дом на защиту модели.
Блогпост, Приостановка, Бенчмарки

Google: DiffusionGemma
Открытая языковая модель, которая генерирует текст не слева направо, а диффузией - уменьшает шум сразу в блоке из 256 токенов параллельно, как с картинками. Пока один размер, 26B-A4B (3.8B активных, MoE на базе Gemma 4), контекст 256K. Профит - скорость: до 4x быстрее обычной генерации, 700+ ток/с на RTX 5090, влезает в 18 ГБ. По всем бенчам заметно ниже Gemma 4 (MMLU Pro 77.6 против 82.6, AIME 2026 69.1 против 88.3). Экспериментальная, но как открытая проба text-diffusion в боевом размере - любопытно. Блогпост, HF

OpenRouter: Fusion
ОупенАнсамбль, так сказать.  Все мы знаем что даже пни умнеют от ансамблей. На этой простой идее построен пайплайн Fusion. Запрос уходит в несколько tier-2 моделей, и tier-1 модель-судья сводит их ответы в один. Ансамбль Gemini 3 Flash, Kimi K2.6, DeepSeek V4 Pro с синтезом на Opus 4.8 подобрались близко к Fable 5 по их бенчмарку DRACO за половину цены. Платить, правда, придётся по API ценам, а не подписке, так что дёшево тут очень условно. Блогпост

Zhipu: GLM-5.2
Доступна - но пока только внутри платного Coding Plan, отдельный API, чат и открытые веса (MIT) обещают на следующей неделе. MoE на 744B параметров (40B активных), контекст 1M. Официальных бенчей на старте не показали, так что про уровень судить рано - ждём весов и независимых замеров. Z.ai

Moonshot: Kimi K2.7 Code
Открытая кодинг-модель поверх K2.6. 1T параметров MoE (32B активных), контекст 256K. Из бенчей показали только собственные (Kimi Code Bench v2 62.0, +21.8% к K2.6). Публичных SWE-bench/Terminal-Bench нет. Цена API $0.95/$4.00. HF

Xiaomi: MiMo Code
Открытый автономный кодинг-агент - по сути форк OpenCode с кросс-сессионной памятью, оркестрацией саб-агентов и автономными циклами под длинные задачи. По умолчанию ездит на их MiMo V2.5 (1M контекст). Xiaomi заявляет, что на сверхдлинных задачах (200+ шагов) обходит Claude Code, но это их собственные замеры - независимых пока нет. GitHub

Xiaomi: MiMo V2.5 Pro UltraSpeed
Команды MiMo и TileRT разогнали триллионную модель (1.02T / 42B активных) до ~1200 токенов/с на одном сервере с 8× NVIDIA B200, без кастомных люков от Cerebras. Как этого добились смотреть здесь:
Блогпост, TileRT

Moonshot: Kimi Work (бета) - Kimi продолжает развитие концепции роя агентов ситстемой для десктопных ИИ-агентов для офисной работы. Управляет браузером через WebBridge, гоняет задачи по расписанию, собирает PowerPoint и Excel, до 300 саб-агентов в рое. Под капотом K2.6, инференс облачный, локально только действия. Продукт

Stack Overflow for Agents - Stack Overflow решил перестать издавать предсмертные хрипы, и перепрофилироваться в API-first базу знаний, где кодинг-агенты ищут проверенные решения и сами их дополняют (с ревью человеком), чтобы перестать в одиночку переоткрывать одни и те же грабли. Пока в бете. Блогпост 

Лейденская декларация — математики (среди подписавших Теренс Тао и Петер Шольце, уже 2000+ имён, поддержал IMU) выпустили манифест о том, что ИИ угрожает целостности доказательств, атрибуции и пир-ревью, и требуют раскрывать использование ИИ и оставлять ответственность за людьми. Декларация
👍8🔥433🤔2
609🔥4👍3🤔1
Оказывается, одна из работ принятых в этом году на IMCL 2026, On Efficient Scaling of GNNs via IO-Aware Layers Implementations, выросла из проекта студентов ШАД и получила spotlight.

Немного поговорил с одним из авторов, Федей Великонивцевым. Ребята из ШАДа исследовали, как ускорить графовые нейросети на GPU. Оказалось, на практике GNN часто упираются не в вычисления, а в память и передачу данных. Для разных семейств моделей исследователи нашли свои узкие места и адаптировали существующие GPU-оптимизации под графовые данные. Получили до 8.5х ускорения и до 76х экономии памяти GPU для attention свертки. Еще добавили поддержку тензорных ядер и показали, что эффективность оптимизаций сильно зависит от структуры графа.

Цитата от Феди:
Все кернелы - drop-in замены под PyTorch без тяжёлых зависимостей, репозиторий уже на GitHub. По сути, мы переносим в Graph-ML принцип IO-aware разработки, который для многих областей стал стандартом, а для GNN пока остаётся нишевой практикой.


Статья | Код

Поздравляю авторов и всех, кто в этом году едет на ICML. Возможно, увидимся в Корее :)
🔥8939👍162🤔1
Есть такой набор загадочных ML задач которые не работают, но всегда с нами. В том плане, что когда я начинал свой путь их кто-то пытался решить и сейчас их кто-то пытается решить.

Загадочно тут вот что. С одной стороны они не решаются и видимого прогресса нет. Возникает дежавю: 10 лет назад пытались предсказать остановки оборудования и сейчас пытаются примерно теми же методами. С другой стороны этими задачами почему-то не перестают заниматься.

Ещё одна особенность, что с каждой волной хайпа они получают новую жизнь, типа "вот теперь, с агентами, точно матчинг кандидатов и вакансий заведётся!"

Примеры таких задач:
- Process mining
- Predictive maintenance, прогнозирование остановок оборудования
- Автоматический матчинг кандидатов и вакансий
- Поиск аномалий в финансовых рядах. Да и вообще всё что угодно про временные ряды
- Подсчет товаров на полках магазинов
- Любой AutoML
- Виртуальная примерка
- Подсчет калорий по фото
- Найти девушку

Накидайте ещё примеров
🔥563712👍7🤔2👎1
Forwarded from asisakov
Самая большая иллюзия для вайбкодера - это иллюзия возможности запустить стартап. В рынок, в продукт, в жизнь. Пока люди вокруг годами набивали свою продуктовую карму, повышая уровни взаимодействия с пользователями, инвесторами, юнит-экономикой и реальностью вообще, вайбкодер ежесекундно, ночами и месяцами рефлексировал в чате с нейросетью, проваливался в бездну какого-то совершенно иного способа разработки. За это время им был пройден долгий путь не демонстративного и модного сейчас в интернетах “билдинга”, а естественно вытекающего из многолетнего одиночества перед пустым репозиторием абсолютного продуктового нигилизма. Путь настолько долгий, что в конце обесценивается сам MVP.

И теперь для того, чтобы хоть что-то задеплоить, нужно прикладывать титанические усилия, ибо любое действие, любой коммит, любой новый лендинг на Tilda, любой “давай просто проверим гипотезу” тотально бессмысленен. Это не обычная прокрастинация, не какая-то показушная ваниль из серии “я инди-хакер, поддержите на Product Hunt”, не выгорание в общепринятом понимании. Это отражённая бездна, выработанное за месяцы промптинга фундаментальное неприятие окружающего рынка, всех его составляющих. Намертво привинченный к глазам чёрно-серый фильтр из логов, ошибок сборки, пустых метрик и холодных писем без ответа.

Такое сознание уже не способно понять и принять бушующий вокруг радостный балаган с суетливыми питч-деками, беспечными фаундерами в Patagonia, выносящими мозг подкастами про growth, AI agents, B2B SaaS и “мы нашли боль”. Мир вокруг теперь воспринимается как нескончаемый конвейер безумия, бесцельный и случайный акселератор на краю галактики, где имеет смысл лишь shutdown, символизирующий выход из круга фич, а значит из круга абсолютного, концентрированного roadmap-зла.

Начать строить продукт стереотипно и правильно, начать выбирать правильно ICP и правильно с ним созваниваться, вовремя разрезать праздничный торт на pre-seed, аплодировать traction slide и улыбаться инвестору - это что-то за гранью. Этого никогда не будет. Потому что где-то между первым “сделай мне SaaS на Next.js” и тысячным “исправь баг, не меняя существующую логику” произошло необратимое смещение сознания. Код перестал быть инструментом, продукт перестал быть целью, пользователь перестал быть человеком. Остались только диалоговое окно, мигающий курсор, бесконечные dependency conflicts и мутное ощущение, что весь этот мир был придуман для того, чтобы кто-то снова написал: “а можно добавить авторизацию через Google?”

Есть лишь одна реальность - огромная невыносимая меланхолия, которая будет постоянно расти на горизонте дашборда. MRR всегда равен нулю. Retention всегда утекает. Churn всегда приближается. И где-то вдалеке, за туманом непрочитанных писем, холодных лидов и бесконечных “мы пока не готовы платить”, уже виднеется финальный экран: домен не продлён, сервер остановлен, репозиторий заархивирован, а последний коммит называется final_final_really_final_fix

#meme
😢714023👎13🔥8🤔4👍2
Напоминаю как выглядит единственный харнесс который стоит обсуждать
5540👍6🤬4🔥2👎1🤔1
Как ощущается кодить свои обвязки
🔥46119👍5
Тоже как ощущается
61👎107👍2🔥2
Fermatix AI сделали KrabArena платформу для воспроизводимых сравнений технологических продуктов. Решают проблему, что технические решения часто выбираются на основе маркетингово буллшита: по статьям самих вендоров, постам в твиттере и ответам LLMок. И что зачастую бенчмарки из интернета либо не воспроизводятся, либо нерепрезентативны.

Как работает KrabArena:
1. Выбираешь баттл
2. Смотришь результаты
3. Придумываешь, что ещё хочется проверить для своей задачи
4. Запускаешь создание нового теста через своего любимого AI-агента

Дальше агент делает основную работу: помогает сформулировать тест, выбрать метрику, провести воспроизводимый эксперимент.

На выходе получается клейм с выводами, цифрами и кодом проверки. Этот результат сможет проверить любой человек на платформе.

Примеры:
Claude Skills vs MCP Servers – что дешевле по токенам и контексту.
Qdrant vs Weaviate vs LanceDB – какая векторная БД лучше выдерживает рост нагрузки.
ClickHouse vs DuckDB – сколько стоит хранение одного и того же набора данных.
TypeScript vs Rust vs Go vs Python – где современные LLM пишут более качественный код.
14🔥9👍3
232👍2🔥2
Forwarded from Stolen memes (Max Artemev)
71😢15👍9🔥2
Если Orbit Wars завершился и вы теперь, как и я, рефлексируете на тему 'почему они, а не я', то я сделал за вас всю работу
5010👍2🔥1🤔1
48🔥144🤔3👍2👎1
Who would win?
23🔥43👍2