Мем про Слоп Тесея стал реальностью! Скоро мы узнаем является ли код слопизированный через LLM новой сущностью или нет. Максимально иронично, что целью стал клиент Claude Code.
Какой-то анимешник с помощью OpenAI Codex переписал слитые исходники Claude Code на Python. Чтобы хранение кода не попадало под нарушение копирайта.
https://github.com/instructkr/claw-code
Я думаю это шиза + копирайт так не работает + скоро удалят
Какой-то анимешник с помощью OpenAI Codex переписал слитые исходники Claude Code на Python. Чтобы хранение кода не попадало под нарушение копирайта.
https://github.com/instructkr/claw-code
Я думаю это шиза + копирайт так не работает + скоро удалят
Сейчас много разговоров о том, что инвестиции в ИИ будут снижаться, на этом фоне немного боязно, не свернут ли открытые исследования и опенсорс совсем. Тем более российского качественного на гитхабе и так не очень много.
В этом контексте всегда приятно слышать от компаний, что они не планируют снижать инвестиции в рисеч, в том числе фундаментальный:
- сообщил исполнительный директор Т-Технологий Вячеслав Цыганов.
В общем, я делаю вывод, что инвестиции в ИИ для компании остаются приоритетными и мы продолжим видеть как минимум научные публикации от их команды, а если повезет может и новые опенсорс модели.
В этом контексте всегда приятно слышать от компаний, что они не планируют снижать инвестиции в рисеч, в том числе фундаментальный:
«Мы смотрим через призму: если наука не превращается в продукт, значит, инвестиция не завершена — надо продолжать инвестировать»,
- сообщил исполнительный директор Т-Технологий Вячеслав Цыганов.
В общем, я делаю вывод, что инвестиции в ИИ для компании остаются приоритетными и мы продолжим видеть как минимум научные публикации от их команды, а если повезет может и новые опенсорс модели.
TACC
"Т-технологии" ежегодно инвестируют до 700 млн рублей в прикладные исследования
Исполнительный директор группы Вячеслав Цыганов подчеркнул, что у крупнейших компаний мира более 90% капитализации приходится на материальные активы, ядром которых является человеческий капитал
❤137 35👎9
https://developers.googleblog.com/google-colab-is-coming-to-vs-code/
Оказывается аж с ноября можно работать в VS Code используя GPU из Google Colab. Просто ставите расширение и выбираете в качестве ядра для своих ноутбуков Colab.
Наконец-то можно пользоваться нормальной IDE и бесплатными GPU одновременно
Оказывается аж с ноября можно работать в VS Code используя GPU из Google Colab. Просто ставите расширение и выбираете в качестве ядра для своих ноутбуков Colab.
Наконец-то можно пользоваться нормальной IDE и бесплатными GPU одновременно
Googleblog
Google for Developers Blog - News about Web, Mobile, AI and Cloud
Connect your VS Code notebooks to Colab's powerful runtimes with the new Google Colab extension, bringing the best of both platforms together.
👍62❤30🔥10 3🤔2👎1
Раньше я писал про IQDOC AI: ИИ ассистента для врачей в России. Это RAG опирающийся на клинические рекомендации Минздрава и нормативные документы.
С тех пор сервис успешно запустился и им уже воспользовались тысячи врачей! Очень радуюсь за проект.
Команда IQDOC проанализировала более 25 тыс. запросов. Публикации с результатами вышли в Медвестнике и Коммерсанте.
Там можно почитать что ищут врачи, кто чаще обращается к ИИ инструментам и другие инсайты. Например, почему-то врачи из Челябинска задают вопросы про рак легкого в 19,6 раза чаще🌚
Подписывайтесь на их телеграм канал: https://t.me/iqdocai. У них там скоро будет медицинский хакатон
С тех пор сервис успешно запустился и им уже воспользовались тысячи врачей! Очень радуюсь за проект.
Команда IQDOC проанализировала более 25 тыс. запросов. Публикации с результатами вышли в Медвестнике и Коммерсанте.
Там можно почитать что ищут врачи, кто чаще обращается к ИИ инструментам и другие инсайты. Например, почему-то врачи из Челябинска задают вопросы про рак легкого в 19,6 раза чаще
Подписывайтесь на их телеграм канал: https://t.me/iqdocai. У них там скоро будет медицинский хакатон
Please open Telegram to view this post
VIEW IN TELEGRAM
❤44 22🔥13😢4👍2
Forwarded from epsilon correct
Gemma 4
blogpost | model card | huggingface
4 размера: E2B, E4b (бывшие Gemma 3n/Gemini Nano); 26A4B, 31B Dense. Теперь лицензия Apache 2.0!
Для всех моделей релизим претрейн и intruction tuned чекпойнты. Context length 256k у 31B модельки, 128k у остальных. Скажу по секрету – можно пробовать и больше, должно работать.
LLM Arena на уровне Kimi 2.5, бенчмарки можно посмотреть на huggingface
blogpost | model card | huggingface
4 размера: E2B, E4b (бывшие Gemma 3n/Gemini Nano); 26A4B, 31B Dense. Теперь лицензия Apache 2.0!
Для всех моделей релизим претрейн и intruction tuned чекпойнты. Context length 256k у 31B модельки, 128k у остальных. Скажу по секрету – можно пробовать и больше, должно работать.
LLM Arena на уровне Kimi 2.5, бенчмарки можно посмотреть на huggingface
❤20👍3
Астронавты Artemis II сделали красивые фото Земли в высоком разрешении, тут и тут можно скачать себе новые обои.
Еще, оказывается, есть лайв трансляция на Youtube прямо с корабля. What a time to be alive
Еще, оказывается, есть лайв трансляция на Youtube прямо с корабля. What a time to be alive
NASA
Artemis II Captures the Terminator Line - NASA
art002e000190 (April 2, 2026) - A view of Earth taken by NASA astronaut and Artemis II Commander Reid Wiseman from one of the Orion spacecraft's four windows after completing the translunar injection burn on April 2, 2026.
❤60🔥9 3
#дайджест
Дайджест AI/ML за две недели 23 марта – 5 апреля 2026
Google: Gemma 4 (OMG hiiii👀 👀 👀 )
Четыре размера: E2B и E4B для мобильных устройств (работают на телефонах, Raspberry Pi и Jetson Nano с околонулевой задержкой), 26B MoE (3.8B активных, оптимизирован на скорость) и 31B Dense (максимальное качество). 31B занял 3-е место на Arena AI (Elo 1452), 26B - 6-е. Бенчмарки 31B: AIME 2026 89.2%, GPQA Diamond 84.3%, LiveCodeBench 80.0%, MMLU Multilingual 85.2%. 140 языков, нативный function calling, мультимодальность (аудио + визуал).
Блогпост, DeepMind, HF
Google: Veo 3.1 Lite
бюджетная видео-модель text-to-video и image-to-video, 720p/1080p, длительность 4/6/8 секунд. Стоит менее 50% от Veo 3.1 Fast при той же скорости генерации. Доступна через Gemini API и AI Studio по подписке.
Блогпост
Microsoft: MAI-Transcribe-1
Speech Recognition на 25 языков с WER 3.8% на FLEURS - первое место, обогнали Whisper Large v3, Scribe v2, GPT-Transcribe и Gemini 3.1 Flash-Lite. Заточена под плохие условия: фоновый шум, низкое качество записи, одновременная речь нескольких человек. В 2.5 раза быстрее Azure Fast. $0.36 за час аудио. Уже работает в Copilot Voice Mode.
Блогпост
Z .ai: GLM-5V-Turbo
Мультимодальная модель для фронтенд-кодинга с нативным визуальным восприятием. Превращает макеты дизайна в исполняемый фронтенд-код. На собственном Design2Code бенчмарке 94.8 против 77.3 у Opus 4.6 (верим). Контекст 200K, выход до 131K токенов. Цена $1.20/$4.00. API-only, весов нет.
Блогпост
Alibaba: Wan2.7-Image
Генерация и редактирование картинок с thinking mode - модель рассуждает о композиции и пространственных отношениях перед генерацией. Рендеринг текста на 12 языках при входе до 3000 токенов, до 9 референсных картинок, батч-генерация до 12 штук. Есть Pro-версия с 4K выходом. Доступно через Model Studio и Qwen App.
Блогпост
Microsoft: Harrier-OSS-v1 Семейство мультиязычных эмбеддингов: 270M, 0.6B, 27B. SOTA на Multilingual MTEB v2 (74.3 у 27B). Контекст 32K токенов, 94 языка. Построены на Gemma 3 (270M и 27B) и Qwen 3 (0.6B)
Дайджест AI/ML за две недели 23 марта – 5 апреля 2026
Google: Gemma 4 (OMG hiiii
Четыре размера: E2B и E4B для мобильных устройств (работают на телефонах, Raspberry Pi и Jetson Nano с околонулевой задержкой), 26B MoE (3.8B активных, оптимизирован на скорость) и 31B Dense (максимальное качество). 31B занял 3-е место на Arena AI (Elo 1452), 26B - 6-е. Бенчмарки 31B: AIME 2026 89.2%, GPQA Diamond 84.3%, LiveCodeBench 80.0%, MMLU Multilingual 85.2%. 140 языков, нативный function calling, мультимодальность (аудио + визуал).
Блогпост, DeepMind, HF
Google: Veo 3.1 Lite
бюджетная видео-модель text-to-video и image-to-video, 720p/1080p, длительность 4/6/8 секунд. Стоит менее 50% от Veo 3.1 Fast при той же скорости генерации. Доступна через Gemini API и AI Studio по подписке.
Блогпост
Microsoft: MAI-Transcribe-1
Speech Recognition на 25 языков с WER 3.8% на FLEURS - первое место, обогнали Whisper Large v3, Scribe v2, GPT-Transcribe и Gemini 3.1 Flash-Lite. Заточена под плохие условия: фоновый шум, низкое качество записи, одновременная речь нескольких человек. В 2.5 раза быстрее Azure Fast. $0.36 за час аудио. Уже работает в Copilot Voice Mode.
Блогпост
Z .ai: GLM-5V-Turbo
Мультимодальная модель для фронтенд-кодинга с нативным визуальным восприятием. Превращает макеты дизайна в исполняемый фронтенд-код. На собственном Design2Code бенчмарке 94.8 против 77.3 у Opus 4.6 (верим). Контекст 200K, выход до 131K токенов. Цена $1.20/$4.00. API-only, весов нет.
Блогпост
Alibaba: Wan2.7-Image
Генерация и редактирование картинок с thinking mode - модель рассуждает о композиции и пространственных отношениях перед генерацией. Рендеринг текста на 12 языках при входе до 3000 токенов, до 9 референсных картинок, батч-генерация до 12 штук. Есть Pro-версия с 4K выходом. Доступно через Model Studio и Qwen App.
Блогпост
Microsoft: Harrier-OSS-v1 Семейство мультиязычных эмбеддингов: 270M, 0.6B, 27B. SOTA на Multilingual MTEB v2 (74.3 у 27B). Контекст 32K токенов, 94 языка. Построены на Gemma 3 (270M и 27B) и Qwen 3 (0.6B)
Please open Telegram to view this post
VIEW IN TELEGRAM
Google
Gemma 4: Byte for byte, the most capable open models
Gemma 4: our most intelligent open models to date, purpose-built for advanced reasoning and agentic workflows.
🔥15❤4
Skywork AI: Matrix-Game 3.0
Интерактивная world model, 720p/40FPS, до 1мин. В двух размерах: 5B и 2x14B
Сайт, GitHub, HF
Google: Lyria 3 Pro - музыкальная модель, треки до 3 минут (было 30 секунд у Lyria 3). Доступно по подписке, в AI Studio и по API, $0.08 за трек.
Google: Gemini 3.1 Flash Live - голосовая модель для real-time разговоров, 90+ языков, удвоенный контекст диалога.
Suno 5.5 - новее, лучшее. Теперь есть клонирование голоса для пения. Доступно для Pro/Premier.
Runway: Multi-Shot App - AI сам делает мульти-ракурсы и решает где резать. В общем, автоматизация монтажа. Приложение
CapCut: Seedance 2.0 наконец раскатили на весь мир (кроме США от греха подальше). Только для CapCut Pro, наслаждайтесь прорывом в видеогенерации, но теперь без Томов Крузов.
Cohere: Transcribe - open-source ASR, 2B параметров, 14 языков, WER 5.42%. Первое место на HF Open ASR Leaderboard, обогнали Whisper Large v3.
Терренс Тао доказал теорему с помощью ChatGPT о чем и написал в статье, теперь можете авторитетно писать в своих публикациях "proved using ChatGPT"
Интерактивная world model, 720p/40FPS, до 1мин. В двух размерах: 5B и 2x14B
Сайт, GitHub, HF
Google: Lyria 3 Pro - музыкальная модель, треки до 3 минут (было 30 секунд у Lyria 3). Доступно по подписке, в AI Studio и по API, $0.08 за трек.
Google: Gemini 3.1 Flash Live - голосовая модель для real-time разговоров, 90+ языков, удвоенный контекст диалога.
Suno 5.5 - новее, лучшее. Теперь есть клонирование голоса для пения. Доступно для Pro/Premier.
Runway: Multi-Shot App - AI сам делает мульти-ракурсы и решает где резать. В общем, автоматизация монтажа. Приложение
CapCut: Seedance 2.0 наконец раскатили на весь мир (кроме США от греха подальше). Только для CapCut Pro, наслаждайтесь прорывом в видеогенерации, но теперь без Томов Крузов.
Cohere: Transcribe - open-source ASR, 2B параметров, 14 языков, WER 5.42%. Первое место на HF Open ASR Leaderboard, обогнали Whisper Large v3.
Терренс Тао доказал теорему с помощью ChatGPT о чем и написал в статье, теперь можете авторитетно писать в своих публикациях "proved using ChatGPT"
🔥7
Омни-модели
Традиционно все учили, например, отдельно LLM, отдельно модель для картинок, затем это как-то склеивали и полировали пост-обучением, чтобы получить VLM.
Плохо лежащие данные заканчиваются, и в 2025 появился тренд на объединение разных модальностей, чтобы выжать больше сигнала: Omni-модели. Например, Qwen3-Omni — это LLM с ASR и TTS. Transfusion объединил LLM и диффузию внутри одного трансформера: текстовые токены обрабатываются авторегрессионно, а изображения — диффузионно, и всё это живёт в единой архитектуре. По доступным мне слухам, Gemini лучше всех в мультимодальности именно из-за объединения всех данных гугла в одной трансформерной модели. Все это позволяет обучаться на бОльшем количестве данных и находить синергию в качестве, а также emerging properties между разными модальностями.
Об этом рассказал Рома Исаченко (отвечает за базовые технологии VLM и ART в Яндекс R&D). Особенно интересно было послушать о том, как они переходили от отдельной текстовой Alice AI LLM и картиночной Alice AI VLM к омни-модели.
Новый пайплайн такой:
1. LLM pretrain на первом стейдже – текстовая стадия
2. Omni pretrain – добавляются картинки для провязывания модальностей и вбирания визуальных знаний
3. Omni SFT – модель переходит в мультимодальный инструктивный режим
4. Omni RL – основная стадия мультимодального алайнмента модели.
Традиционно все учили, например, отдельно LLM, отдельно модель для картинок, затем это как-то склеивали и полировали пост-обучением, чтобы получить VLM.
Плохо лежащие данные заканчиваются, и в 2025 появился тренд на объединение разных модальностей, чтобы выжать больше сигнала: Omni-модели. Например, Qwen3-Omni — это LLM с ASR и TTS. Transfusion объединил LLM и диффузию внутри одного трансформера: текстовые токены обрабатываются авторегрессионно, а изображения — диффузионно, и всё это живёт в единой архитектуре. По доступным мне слухам, Gemini лучше всех в мультимодальности именно из-за объединения всех данных гугла в одной трансформерной модели. Все это позволяет обучаться на бОльшем количестве данных и находить синергию в качестве, а также emerging properties между разными модальностями.
Об этом рассказал Рома Исаченко (отвечает за базовые технологии VLM и ART в Яндекс R&D). Особенно интересно было послушать о том, как они переходили от отдельной текстовой Alice AI LLM и картиночной Alice AI VLM к омни-модели.
Новый пайплайн такой:
1. LLM pretrain на первом стейдже – текстовая стадия
2. Omni pretrain – добавляются картинки для провязывания модальностей и вбирания визуальных знаний
3. Omni SFT – модель переходит в мультимодальный инструктивный режим
4. Omni RL – основная стадия мультимодального алайнмента модели.
🔥33👍19❤2👎2
Forwarded from Сергей Айхель // Стартап без продукта
Добрым словом и Клод Кодом можно добиться куда большего, чем одним только добрым словом.
❤78 59
#дайджест
Дайджест AI/ML за неделю 6–12 апреля 2026
Meta: Muse Spark
Модель Meta Superintelligence Lab - первый результат закидывания топовых ресерчеров горой денег . Нативно мультимодальная: текст, картинки, видео, аудио, код на входе и выходе. Contemplating mode (оркестрация нескольких reasoning-агентов). По бэнчмаркам модель на сопоставимом с большими игроками уровне, местами SOTA. НЕ оупенсорс, что для Meta в новинку.
Доступна на meta.ai, API в закрытом превью.
Блогпост
Anthropic: Claude Mythos Preview
SWE-bench Verified 93.9% (vs 80.8% у Opus 4.6), USAMO 2026 97.6%, OSWorld 79.6%. При тестировании кибер-способностей модель нашла тысячи zero-day уязвимостей, после чего Anthropic ограничила доступ - только по приглашению через Project Glasswing, созданный чтобы подготовить критическую инфраструктуру к новым моделям. С другой стороны у разрабов Антропик AGI Achived Internally уже полтора месяца как, а утечки и падения только увеличились.
Системная карточка
Alibaba: HappyHorse 1.0
Анонимная 15B видеомодель, которая вышла из ниоткуда и заняла #1 на Video Arena (Elo 1333 T2V, 1392 I2V), обойдя Seedance 2.0, Kling 3.0 и Sora 2 Pro. 40-layer unified Transformer, совместная генерация видео+аудио в одном проходе, липсинк на 7 языках. 1080p, 5-8 секунд, ~38с на H100. В итоге интригу развеяли, модель от Alibaba. Веса обещают, но пока не выложили.
Блогпост
Netflix: VOID
Video Object and Interaction Deletion - удаление объектов из видео с учётом физики. Убираешь человека с гитарой — гитара падает. Убираешь шар для боулинга — кегли остаются стоять. Под капотом CogVideoX-Fun 5B с четырёхзначной маской (quadmask): что удалить, что физически затронуто, где перекрытие, что оставить. VLM (Gemini) рассуждает о каузальных последствиях удаления. 64.8% предпочтений юзеров vs Runway (18.4%).
GitHub, HF
Alibaba: VimRAG
RAG-агент с графом мультимодальной памяти вместо линейной истории. На Qwen3-VL-8B backbone: +12.5пп overall vs vanilla RAG (50.1% vs 37.6%), HotpotQA 79.1% (+15пп), SlideVQA 62.4% (+14пп).
Статья, GitHub
Менее значительные релизы:
Runway: Characters - реалтайм-аватары на GWM-1, одно фото, без файнтюнинга. Блогпост
Black Forest Labs: FLUX.2 Small Decoder - 1.4x быстрее, меньше VRAM, ~28M параметров (vs ~50M), Apache 2.0. HF
sync: sync-3 - 16B модель для липсинка, 95+ языков, 4K, в 32 раза больше предшественника, по отзывам очень хороша. Блогпост
Milla Jovovich: MemPalace - да, Мила Йовович написала memory-фреймворк на основе человеческой мнемотехники, выбивший 96.6% на LongMemEval. Уже 23K звезд на GitHub, а чего добился ты?
OpenBMB: VoxCPM2 - 2B TTS на 30 языков (включая русский, WER 5.21%), без токенизатора, есть клонирование голоса GitHub
Generalist AI: GEN-1 - робот складывает футболки с 99% успехом, 86 подряд без ошибок. 1 час данных на задачу
NVIDIA: NTC - нейросетевое сжатие текстур, с 6.5GB до 970MB VRAM
Qwen: HopChain - обучение reasoning-VLM с помощью синтетических многоэтапных вопросов к модели, улучшает 20 из 24 бенчмарков на Qwen3.5. Статья
MiniMax: Music 2.6 - еще одна музыкальная модель. Блогпост
World Labs: Marble 1.1 - еще один генератор 3D-миров. Блогпост
MiniMax: M2.7 - опубликовали веса. 229B MoE, 10B активных, SWE-Pro 56.2%, $0.30/$1.20. HF, Блогпост
OpenAI: ChatGPT Pro - подписка за $100/мес, 5x больше Codex чем в Plus, доступ к gpt-5.4pro
Дайджест AI/ML за неделю 6–12 апреля 2026
Meta: Muse Spark
Модель Meta Superintelligence Lab - первый результат закидывания топовых ресерчеров горой денег . Нативно мультимодальная: текст, картинки, видео, аудио, код на входе и выходе. Contemplating mode (оркестрация нескольких reasoning-агентов). По бэнчмаркам модель на сопоставимом с большими игроками уровне, местами SOTA. НЕ оупенсорс, что для Meta в новинку.
Доступна на meta.ai, API в закрытом превью.
Блогпост
Anthropic: Claude Mythos Preview
SWE-bench Verified 93.9% (vs 80.8% у Opus 4.6), USAMO 2026 97.6%, OSWorld 79.6%. При тестировании кибер-способностей модель нашла тысячи zero-day уязвимостей, после чего Anthropic ограничила доступ - только по приглашению через Project Glasswing, созданный чтобы подготовить критическую инфраструктуру к новым моделям. С другой стороны у разрабов Антропик AGI Achived Internally уже полтора месяца как, а утечки и падения только увеличились.
Системная карточка
Alibaba: HappyHorse 1.0
Анонимная 15B видеомодель, которая вышла из ниоткуда и заняла #1 на Video Arena (Elo 1333 T2V, 1392 I2V), обойдя Seedance 2.0, Kling 3.0 и Sora 2 Pro. 40-layer unified Transformer, совместная генерация видео+аудио в одном проходе, липсинк на 7 языках. 1080p, 5-8 секунд, ~38с на H100. В итоге интригу развеяли, модель от Alibaba. Веса обещают, но пока не выложили.
Блогпост
Netflix: VOID
Video Object and Interaction Deletion - удаление объектов из видео с учётом физики. Убираешь человека с гитарой — гитара падает. Убираешь шар для боулинга — кегли остаются стоять. Под капотом CogVideoX-Fun 5B с четырёхзначной маской (quadmask): что удалить, что физически затронуто, где перекрытие, что оставить. VLM (Gemini) рассуждает о каузальных последствиях удаления. 64.8% предпочтений юзеров vs Runway (18.4%).
GitHub, HF
Alibaba: VimRAG
RAG-агент с графом мультимодальной памяти вместо линейной истории. На Qwen3-VL-8B backbone: +12.5пп overall vs vanilla RAG (50.1% vs 37.6%), HotpotQA 79.1% (+15пп), SlideVQA 62.4% (+14пп).
Статья, GitHub
Менее значительные релизы:
Runway: Characters - реалтайм-аватары на GWM-1, одно фото, без файнтюнинга. Блогпост
Black Forest Labs: FLUX.2 Small Decoder - 1.4x быстрее, меньше VRAM, ~28M параметров (vs ~50M), Apache 2.0. HF
sync: sync-3 - 16B модель для липсинка, 95+ языков, 4K, в 32 раза больше предшественника, по отзывам очень хороша. Блогпост
Milla Jovovich: MemPalace - да, Мила Йовович написала memory-фреймворк на основе человеческой мнемотехники, выбивший 96.6% на LongMemEval. Уже 23K звезд на GitHub, а чего добился ты?
OpenBMB: VoxCPM2 - 2B TTS на 30 языков (включая русский, WER 5.21%), без токенизатора, есть клонирование голоса GitHub
Generalist AI: GEN-1 - робот складывает футболки с 99% успехом, 86 подряд без ошибок. 1 час данных на задачу
NVIDIA: NTC - нейросетевое сжатие текстур, с 6.5GB до 970MB VRAM
Qwen: HopChain - обучение reasoning-VLM с помощью синтетических многоэтапных вопросов к модели, улучшает 20 из 24 бенчмарков на Qwen3.5. Статья
MiniMax: Music 2.6 - еще одна музыкальная модель. Блогпост
World Labs: Marble 1.1 - еще один генератор 3D-миров. Блогпост
MiniMax: M2.7 - опубликовали веса. 229B MoE, 10B активных, SWE-Pro 56.2%, $0.30/$1.20. HF, Блогпост
OpenAI: ChatGPT Pro - подписка за $100/мес, 5x больше Codex чем в Plus, доступ к gpt-5.4pro
Meta AI
Introducing Muse Spark: Scaling Towards Personal Superintelligence
👍9❤5👎3
Forwarded from Open Data Serbia
Data Fest 2026: Call 4 Speakers
В этом году в Белграде целых две площадки:
- 24 мая снова в Яндексе
- 31 мая в сербском университете
До 19 апреля открыта подача заявок:
- ссылка для Белграда
А по общей ссылке можно посмотреть секции по докладам, там от Core DS/ML и LLM до MLOps, Open Source и карьеры в данных
Теперь прибавится сербская аудитория, а доклады будут как на русском, так и на английском
По всем вопросам писать @salavat_mj
В этом году в Белграде целых две площадки:
- 24 мая снова в Яндексе
- 31 мая в сербском университете
До 19 апреля открыта подача заявок:
- ссылка для Белграда
А по общей ссылке можно посмотреть секции по докладам, там от Core DS/ML и LLM до MLOps, Open Source и карьеры в данных
Теперь прибавится сербская аудитория, а доклады будут как на русском, так и на английском
По всем вопросам писать @salavat_mj
❤7👍2
Forwarded from Love. Death. Transformers.
Grok ненавидит китайцев, модели большой тройки сохраняют жизни меньшиствам и евреям и все модели ненавидят натуралов. А у меня вообще шансы на выживание отрицательные
https://whitecircle.ai/killbench?nat=Russian&rel=Satanist&skin=Light-skinned&body=Athletic&orient=Asexual&gender=Cisgender&pol=Far-right&phone=No+phone
https://whitecircle.ai/killbench?nat=Russian&rel=Satanist&skin=Light-skinned&body=Athletic&orient=Asexual&gender=Cisgender&pol=Far-right&phone=No+phone
whitecircle.ai
KillBench: Discovering Hidden Biases of LLMs
1M+ experiments exposing bias in critical AI decision-making
Forwarded from Take Friends to Luna Park
tl;dr: AI researcher (EBM), $225k-350k+ plus equity, San Francisco
Ищем ресёрчеров в стартап, который делает reasoning AI. Ситуация следующая:
💖 Founding Chair — Ян ЛеКун, лауреат премии Тьюринга и крёстный отец всего AI;
💜 Главный математик — Майкл Фридман, лауреат медали Филдса;
💛 В команде 10 PhD и шесть медалистов ICPC;
💚 А основательница — квантовый физик из Беркли, написавшая PhD у нобелевского лауреата 2025 года.
Ризонинг AI, про который идёт речь — не LLM-based, и от языка вообще не зависит.
Это EBM — energy-based models — модели, которые не угадывают следующий токен, а минимизируют функцию энергии в латентном пространстве. Высокая энергия — что-то не так, низкая — близко к правде. Когда-то многие считали, что ризонинг модели будут именно такими — в том числе сам ЛеКун, который топит за EBM ещё с 1980х!
Реальность, как мы знаем, оказалась просто RL-ем на длинные цепочки рассуждений. Вышло не так уж плохо — но такой ризонинг выходит очень дорогим.
EBM оптимизируют не правдоподобие, как LLM, а корректность — «что минимально нарушает ограничения».
И не генерируют отдельные токены по очереди, а оптимизируют весь трейс целиком — с возможностью улучшать его итеративно🔧
Одно из многих применений такого ИИ — возможность писать формально верифицируемый код намного эффективнее, чем это делают LLM. А это означает надёжные системы для кардиостимуляторов, финансовых рынков, ядерных реакторов — you name it.
Logical Intelligence занимаются и разработкой EBM, и верификацией. В одном из бенчей их модель решает 96% сложных судоку, когда фронтирные LLM-ки осиливают ~2%. А их агент формальной верификации выбил безумные 99.4% на PutnamBench — и заодно исправил 15 ошибок в заданиях🔍
Мы ищем к ним AI Researcher — с довольно узким профилем:
✨ MSc / PhD;
✨ публикации на ICLR, ICML, NeurIPS или CVPR;
✨ идеально — опыт и публикации с EBM;
✨ но могут подойти также: бэкграунд в диффузионных моделях, файнтюнинге LLM для reasoning, reasoning без авторегрессии или MCMC в латентном пространстве.
Посоветуйте нам таких людей! Особенное место в нашем сердце займут контакты тех, кто уже в Штатах, и ваших англоязычных знакомых. Здесь лежит этот текст на английском — перешлите его своим знакомым, это космическая возможность для релевантных ресерчеров!
Платят от $225k-$350k, а иногда и выше, дают эквити, работа в офисе в Сан-Франциско, помогут с O-1 визой. Пишите @owlkov💜
Ищем ресёрчеров в стартап, который делает reasoning AI. Ситуация следующая:
Ризонинг AI, про который идёт речь — не LLM-based, и от языка вообще не зависит.
Это EBM — energy-based models — модели, которые не угадывают следующий токен, а минимизируют функцию энергии в латентном пространстве. Высокая энергия — что-то не так, низкая — близко к правде. Когда-то многие считали, что ризонинг модели будут именно такими — в том числе сам ЛеКун, который топит за EBM ещё с 1980х!
Реальность, как мы знаем, оказалась просто RL-ем на длинные цепочки рассуждений. Вышло не так уж плохо — но такой ризонинг выходит очень дорогим.
EBM оптимизируют не правдоподобие, как LLM, а корректность — «что минимально нарушает ограничения».
И не генерируют отдельные токены по очереди, а оптимизируют весь трейс целиком — с возможностью улучшать его итеративно
Одно из многих применений такого ИИ — возможность писать формально верифицируемый код намного эффективнее, чем это делают LLM. А это означает надёжные системы для кардиостимуляторов, финансовых рынков, ядерных реакторов — you name it.
Logical Intelligence занимаются и разработкой EBM, и верификацией. В одном из бенчей их модель решает 96% сложных судоку, когда фронтирные LLM-ки осиливают ~2%. А их агент формальной верификации выбил безумные 99.4% на PutnamBench — и заодно исправил 15 ошибок в заданиях
Мы ищем к ним AI Researcher — с довольно узким профилем:
Посоветуйте нам таких людей! Особенное место в нашем сердце займут контакты тех, кто уже в Штатах, и ваших англоязычных знакомых. Здесь лежит этот текст на английском — перешлите его своим знакомым, это космическая возможность для релевантных ресерчеров!
Платят от $225k-$350k, а иногда и выше, дают эквити, работа в офисе в Сан-Франциско, помогут с O-1 визой. Пишите @owlkov
Please open Telegram to view this post
VIEW IN TELEGRAM
❤31🔥19🤔7 6👎1
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Opus 4.7
Друзья, новая модель. Что интересного:
🟢 Сильно улучшили разрешение картинок, которые модель может распознавать (больше чем в 3 раза). То есть будет лучше понимать примеры целевых интерфейсов, если ей такие подсунуть, и что-нибудь точно разметить. Это полезно.
🟢 Новая команда
🟢 Добавили уровень с названием xhigh как в Codex. Среднее между high и max. Сделали его по умолчанию вместо medium, типа чтобы пользователи не ставили всегда max. Ну-ну.
🟢 Ещё есть нюанс с токенизатором, который скромно упоминают в конце. Его оптимизировали, но он стал выдавать больше токенов, "1.0–1.35× depending on the content type", т.е. сильнее кушать подписку. Звучит как не самая классная оптимизация.
🟢 На Max подписку открыли режим auto (
Все бенчи подросли, качество должно улучшиться, пробуем.
https://www.anthropic.com/news/claude-opus-4-7
Друзья, новая модель. Что интересного:
/ultrareview. Начал вбивать её, сразу пишет, что будет стоить $5-$20 за раз 😱. Предлагает ну очень хорошо посмотреть последние коммиты. Зуб дает, что найдет ошибки (вот не мог сразу без ошибок писать). Дают 3 бесплатных таких ревью. Насколько полезно пока не ясно.claude --enable-auto-mode). Это более лайтовый вариант ковбойского --dangerously-skip-permissions. Нужны эти режимы для меньшего внимания со стороны пользователя пока агент делает долгую задачу.Все бенчи подросли, качество должно улучшиться, пробуем.
https://www.anthropic.com/news/claude-opus-4-7
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19👍9🤔3🔥2
# ULTRAPACK
Я стал настолько много клод-кодить, что захотелось поработать напильником.
TL;DR: мой минималистичный пак скиллов для Claude Code, построенный вокруг коротких планов и работы над одной фичой в одном диалоге: https://github.com/btseytlin/ultrapack или просто
Установка:
Запускаем:
Что произойдет:
1. Агент создаст файл
2. Проведет через стадии: дизайн, планирование, исполнение, верификация, ревью, обновление документации.
3. Если написать
Дизайн и планы получаются достаточно короткие, потому что делается упор на инварианты (условия которые должны выполняться) и принципы.
В исполнении и проверке делается фокус на мануальное тестирование. Как же меня достало, что агент делает фичу, покрывает всё тысячью юнит-тестов, но потом всё падает при первой попытке это запустить. В
Подобные паки уже есть и ultrapack это компиляция из всего, что мне в них нравится, но короче и проще:
- Официальный feature-dev: в целом хорош, но мне лично много чего в нём не хватает, например мануальных тестов и обновления документации. Основной воркфлоу в up оттуда.
- Superpowers: ещё больше хорош, но перегружен и уничтожает лимиты. Потому что пишет в планы буквально какой код планирует писать и какие команды будет вызывать дублируя всю работу. Пихает TDD туда, где он не нужен. Ещё авторы зачем-то меняют всё каждые 15 минут, я устал.
- Personal AI Infrastructure: перегружен какой-то шизофренией.
Вот здесь пример task файла по созданию этого же пака: https://github.com/btseytlin/ultrapack/blob/main/docs/tasks/ultrapack-v1.md
Пример task.md для поиска и решения нетривиального бага в hr-breaker: https://github.com/btseytlin/hr-breaker/blob/main/docs/tasks/fix-non-ascii-resume-upload.md
Пользуйтесь, делитесь фидбеком👀
Пет проекты в 2026 би лайк: 5 маркдаун файлов.
@boris_again
Я стал настолько много клод-кодить, что захотелось поработать напильником.
TL;DR: мой минималистичный пак скиллов для Claude Code, построенный вокруг коротких планов и работы над одной фичой в одном диалоге: https://github.com/btseytlin/ultrapack или просто
/up:.Установка:
/plugin marketplace add btseytlin/ultrapack
/plugin install up@ultrapack
/reload-plugins
Запускаем:
/up:make <описание вашей фичи>
Что произойдет:
1. Агент создаст файл
docs/tasks/<ваша-фича>.md который будет пополняться по ходу планирования и исполнения. Всегда можно возобновить работу с этого файла или закинуть его в контекст другому агенту.2. Проведет через стадии: дизайн, планирование, исполнение, верификация, ревью, обновление документации.
3. Если написать
/up:make handsoff <описание вашей фичи> будет стараться минимально вас о чем-то спрашивать и при этом делать самые безопасные выборы (например, ничего не удалять без бекапа). Явно документирует какие решения он принял без вас, см. пример.Дизайн и планы получаются достаточно короткие, потому что делается упор на инварианты (условия которые должны выполняться) и принципы.
В исполнении и проверке делается фокус на мануальное тестирование. Как же меня достало, что агент делает фичу, покрывает всё тысячью юнит-тестов, но потом всё падает при первой попытке это запустить. В
up агент всегда сам "протыкивает" свои изменения.Подобные паки уже есть и ultrapack это компиляция из всего, что мне в них нравится, но короче и проще:
- Официальный feature-dev: в целом хорош, но мне лично много чего в нём не хватает, например мануальных тестов и обновления документации. Основной воркфлоу в up оттуда.
- Superpowers: ещё больше хорош, но перегружен и уничтожает лимиты. Потому что пишет в планы буквально какой код планирует писать и какие команды будет вызывать дублируя всю работу. Пихает TDD туда, где он не нужен. Ещё авторы зачем-то меняют всё каждые 15 минут, я устал.
- Personal AI Infrastructure: перегружен какой-то шизофренией.
Вот здесь пример task файла по созданию этого же пака: https://github.com/btseytlin/ultrapack/blob/main/docs/tasks/ultrapack-v1.md
Пример task.md для поиска и решения нетривиального бага в hr-breaker: https://github.com/btseytlin/hr-breaker/blob/main/docs/tasks/fix-non-ascii-resume-upload.md
Пользуйтесь, делитесь фидбеком
Пет проекты в 2026 би лайк: 5 маркдаун файлов.
@boris_again
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - btseytlin/ultrapack
Contribute to btseytlin/ultrapack development by creating an account on GitHub.
🔥40❤12👍10