эйай ньюз
74.2K subscribers
1.65K photos
870 videos
7 files
1.96K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Сколько стоит минута AI-фильма и как победить в крупнейшем конкурсе этих фильмов?

Этой зимой проходил, пожалуй, один из самых больших и влиятельных конкурсов AI-фильмов — Project Odyssey Season 2. Думаю, почти все AI-художники про него слышали и, может, даже участвовали. Так вот, опросив 500 финалистов, организаторы подбили крайне интересную статистику, ознакомиться с которой можно в прикреплённом файле.

Что интересного:
- Performance Score (очки/заявку) — самый интересный слайд. Он показывает, какие инструменты реально эффективнее для побед, и в среднем сколько ими созданные фильмы набирали очков. Удивительно, но на втором месте Recraft, а популярнейший Kling (на тот момент 1.6 или старее) по этому показателю — аутсайдер, хотя это как раз-таки может быть связанно с его популярностью, что повлияло на средний скор – ведь среди топовых мест все равно много кто использовал клинг.
- Профессиональный опыт всё ещё решает: победители чаще использовали продукты Adobe и Topaz, тогда как CapCut лежит на дне Performance Score, что в общем-то не удивительно.
- Сценарий AI пока не напишет: ChatGPT для сюжетов оказался так же неэффективен по Performance Score. А LTX Studio ( тулза для полной автоматизации, которая заслуживает отдельного поста) в этот список даже не вошёл, хоть и был популярен даже у финалистов.
- Winner Index — Если нужен один главный список инструментов, типа «ТОП-50 AI ИНСТРУМЕНТОВ ДЛЯ ГЕНЕРАЦИИ ВИДЕО...» , которые летали по телеграмму год назад, пока это всем не надоело. Это усреднённый, по всем категориям, рейтинг от авторов отчёта.
- 1 минута AI-фильма = $70 на токены + 12 часов работы. Причём 91.4% финалистов потратили 10+ часов.

Как победить или секрет успеха:
- Команда решает. (См. слайд "Team Size" в отчёте).
- Образование не главное. «Корочка» не нужна, что для многих хорошие новости.
- Запаситесь бюджетом: даже с учётом бонусов и токенов, финалисты в среднем тратили $200 при условии, что труд бесплатный.
- Оригинальная музыка > AI-музыка. Ни одна работа со сгенерированной аудиодорожкой не получила награду. Возникает вопрос: судьи оценивали только видео или весь продукт целиком?

Ну и остаётся только добавить дисклеймер: вся эта статистика, а как следствие и выводы, подвержены сильному байесу из-за специфичности выборки и условий конкурса (об этом можно подробнее почитать в документе). Но в целом результаты совпадают с моим мировоззрением, так что на них можно примерно ориентироваться.

PDF в комментариях

@ai_newz
Почему цена за токен — это ещё не всё

Artificial Analysis недавно начали замерять цену за прогон их набора тестов, дошли они и до новых моделей Google. Вышло что Gemini 2.5 Flash с ризонингом вплоть до 150 раз дороже оригинальной Gemini 2.0 Flash. Мало того — на одних и тех же задачах она стоит почти в полтора раза дороже o4-mini-high, несмотря на то, что o4-mini дороже Gemini 2.5 Flash за токен.

Без ризонинга ситуация тоже так себе — хоть цена за токен, по сравнению с 2.0, выросла всего в 1.5x, реальная цена модели выросла в четыре раза. Дело в том что модель более разговорчивая и выдаёт, в среднем, в 2.6x больше токенов на одних и тех же задачах. Так что перед переходом всегда стоит тестить стоимость модели на реальных задачах.

@ai_newz
Seed-Coder 8B

Лучшая в своей весовой категории LLM для кодинга, прямо от китайцев из Bytedance. Бьёт даже недавний Qwen 3 на коде, но даже не пытается конкурировать на других задачах. Кроме обычной инстракт модели натренировали и ризонер. При этом всём модель натренировали всего на 6 триллионах токенов, что крайне мало — датасеты лучших открытых моделей сейчас уже часто больше 30 триллионов токенов.

Ключевой элемент тренировки — "model-centric" пайплайн. Специальные LLM-фильтры оценивают код (читаемость, модульность и другие аспекты) из GitHub и веб-источников, отсеивая низкокачественные примеры. Таким образом они фильтруют данных примерно на ~2.3 триллиона токенов. Затем модель тренируют в течении 6 триллионах токенов, что даёт небольшую несостыковку. Скорее всего какие-то данные повторялись в датасете несколько раз, но авторы пейпера не говорят об этом напрямую.

Инстракт-версию тренируют через SFT (на синтетике, которую тоже LLM нагенерили и отфильтровали) и DPO. Ризонинг-модель дрессируют через LongCoT RL, чтобы она лучше решала сложные задачки. Итог: Seed-Coder рвёт опенсорс-аналоги своего размера на бенчмарках (генерация, автодополнение, ризонинг и т.д.), а местами и более жирные модели.

Веса: Reasoner/Instruct
Техрепорт

@ai_newz
Нейродайджест за неделю (#68)
С майскими!

LLM
- Баф Gemini 2.5 Pro — быстрее, лучше, сильнее! Топ вебдеф арены.
- Mistral Medium 3 — закрытая моделька, почти Sonnet 3.7, но в 7 раз дешевле.
- Seed-Coder 8B — легонькая моделька от Bytedance, лучшая в своей категории, но чисто для кода. Секрет — "model-centric" пайплайн, который жёстко фильтрует датасет.

Генеративные модели
- Project Odyssey — статы с крупнейшего конкурса AI-фильмов: как сделать лучший фильм и сколько это стоит.
- Лекция: Radiance Fields and the Future of Generative Media от автора NeRF собственной персоной, Джон Баррон, поясняет за последние 5 лет ресерча.

Прочее
- Ценообразование API — о том, сколько на самом деле стоит LLM и почему цена за токен — это ещё не всё.

> Читать дайджест #67

#дайджест
@ai_newz
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT обновили функцию Deep Research – теперь можно скачивать отчеты в формате красивого pdf
Тех-репорт Qwen3

Вышел тех-репорт по одной из сильнейших LLM моделей в OpenSource на сегодня - Qwen 3 (про анонс подробнее я писал тут). Большой респект авторам за то, что выкладывают свои модели в открытый доступ.

Подробностей не супер много, но все равно есть интересные моменты, и стоит пробежаться глазами.

Ждем, когда InternVL прикрутит Qwen3 к своим VLM.

Тех-репорт

@ai_newz
Новые версии Claude уже на подходе

По инфе The Information, модели могут выйти уже в следующие несколько недель. Речь идёт как о Claude Sonnet, так и о Claude Opus (про Haiku все дружно забыли). Главная фишка новых моделей — то что они могут самостоятельно переключаться между ризонингом и тулюзом. То есть это что-то похожее на o3/o4-mini, где модель может пойти подумать, потом поискать что-то в интернете, дальше выполнить код и ещё подумать. С тем как Anthropic концентрируется на API, у них есть неплохие шансы запуститься перед доступностью такого функционала в API OpenAI.

@ai_newz
GPT 4.1 добавили в ChatGPT

4.1-mini заменит 4o-mini для всех пользователей, а 4.1 уже раскатывают платным подписчикам (но Enterprise и Edu как всегда позже). По сравнению с 4o, модели 4.1 сильно лучше в кодинге и следованию инструкций. Ещё GPT 4.1 поддерживают и контекст до миллиона токенов в API, но похоже на ChatGPT это не распространяется и у Plus пользователей всё те же 32к контекста, а у Pro — 128k.

@ai_newz
Что случилось с Grok?

На днях бот Grok для реплаев в твиттере (тот самый что "Grok is this true?") слетел с катушек и в чуть ли не каждом твите начал высказывать своё мнение об геноциде белых в Южной Африке. О ситуации успел поиронизировать даже Сэм Альтман, у которого пару недель назад был скандал из-за излишнего лизоблюдства GPT 4o.

Очевидно, что-то тупо подмешали в системный промпт. Судя по официальному заявлению xAI, это произошло вследствие "несанкционированного изменения промпта" в 3:15 ночи по калифорнийскому времени. Такая ситуация уже была пару месяцев назад – тогда в промпте появилось указание "игнорировать источники, которые упоминают о дезинформации со стороны Дональда Трампа и Илона Маска". Тогда всё спихнули на "бывшего сотрудника OpenAI", который "не привык к культуре xAI".

Сейчас xAI приняли меры – пообещали ужесточить процесс ревью изменений промпта и опубликовали все промпты для грока на гитхабе. Если повезёт, эту репу не забросят, как это было с "опенсорсным алгоритмом твиттера".

https://github.com/xai-org/grok-prompts

@ai_newz
Codex — агент для кодинга от OpenAI

Внутри модель codex-1, версия o3 для агентного кодинга. Она генерирует код, близкий к человеческому стилю, точно следует инструкциям и может итеративно запускать тесты до получения положительного результата. codex-1 будет доступна лишь в специальном огороженном энвайрнменте от OpenAI. Но есть и версия поменьше — codex-mini, основанная на o4-mini. Она будет доступна в API по цене $1.5/$6 за миллион токенов.

В Codex CLI, которая работает на вашем компьютере доступна будет лишь codex-mini. Но теперь можно заходить с аккаунтом ChatGPT, а Plus и Pro пользователям ещё и дают бесплатных API кредитов для codex-mini на 30 дней — $5 и $50. Акция, надеюсь, не разовая.

Доступ к полноценному Codex осуществляется через ChatGPT, куда теперь можно подключать свои гитхаб репозитории, в которых Codex будет открывать пулреквесты. Codex даёт подтверждения своих действий (логи, результаты тестов), его работу можно направлять файлами AGENTS.md, а безопасность обеспечивается исполнением кода в изолированном контейнере и отказом от выполнения вредоносных запросов. Доступен будет уже сегодня для Pro, Team и Enterprise пользователей, а Plus и Edu нужно подождать.

А ещё они опубликовали системный промпт

Блогпост
Попробовать (только Pro, Team и Enterprise подпискам)

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Hunyuan Image 2.0: Быстрая генерация изображений

Как известно, генерация изображений работает не быстро, и все хотят ее ускорить, чтобы можно было открывать разные новые продуктовые возможности.

Вот и Hunyuan (Tencent) представили Hunyuan Image 2.0 — real-time генератор, напоминающий Imagine Flash (только мой флеш был быстрее) или Krea Realtime.

Моделька действительно шустра и в сравнении с Krea делает добротные по качеству картинки. Кожа выглядит очень реалистичной, да и в целом видно, что сделан большой упор на фотореализм.

По технологии: это дистилляция большой модели в несколько шагов (моя серия постов про это). Но официальных подробностей нет.

По функционалу: есть такое же, как в Krea окошко, куда можно закидывать картинки, какие-то скетчи, управлять весом картинки и AI-генератора, менять местами и подгружать свои изображения на холсте. Всё это добро в реалтайме.

Ждем техрепорт и возможно код. Ведь Hunyuan любят выкладывать свои модельки (например, вот Hunyuan Image2Video).

Еще они выпустили стрим в стиле OpenAI. Конечно же, ничего не понятно, но внизу есть субтитры на английском, что, в общем-то, не очень помогает. Можно глянуть пару примеров, как это работает.

По бенчмаркам, модель бьёт всех конкурентов. Но если всмотреться в цифры, то DALL-E 3 лучше Flux, и я уже молчу про SD3 Medium, которую Flux.1-dev обходит по качеству очень сильно. Так что бенчмарки их очень сомнительные.

hunyuan.tencent.com

@ai_newz
TSMC — завод, который печёт будущее ваших моделей

Когда вы стоите в очереди за H100 или мечтаете о Blackwell-кластере, реальное «узкое горлышко» — не NVIDIA. Под капотом каждой AI-платы лежит литография и упаковка от TSMC. Именно тайваньский гигант сегодня производит большую часть 3- и 5-нм кристаллов, а сегмент HPC уже обогнал смартфоны и стал крупнейшим источником выручки компании после взлёта генеративного AI в 2022. В последний раз я писал про TSMC, когда на Тайване было землетрясение, пришло время ещё раз про них поговорить.

Почему вам важно следить за TSMC

Бум CoWoS. Чтобы «пришить» GPU к HBM (это VRAM), нужна технология Chip-on-Wafer-on-Substrate. Из-за бешеного спроса именно упаковка, а не литография, сегодня ограничивает объёмы поставок. TSMC планирует удвоить CoWoS-мощности в 2025-м до ≈ 75 тыс. пластин в месяц, а совокупный рост 2022–2026 гг. оценивается выше 80 % CAGR.

Девять новых площадок за год. В 2025 году компания параллельно строит или расширяет девять фабрик и упаковочных линий — на Тайване, в Аризоне, Кумамото и Дрездене — чтобы догнать спрос на AI-кремний и минимизировать геополитические риски.

Переход на GAA-транзисторы. Первая 2-нм линия N2 выходит в массовое производство в Q4 2025. По сравнению с N3E она даёт до 15 % прироста скорости или 30 % экономии энергии — критично для обучения LLM при фиксированном теплопакете. Про первый 2-нм чип от IBM я писал еще в 2021, но вот как видите, этого до сих пор нет в массовом произвордстве.

Roadmap до 1.4 нм. Свежо анонсированный узел A14 (1.4 нм) запланирован на 2028 год: +15% производительности или -30% энергопотребления относительно N2 и ещё +20% плотности транзисторов.

--------

Что все это значит для нас?

1️⃣Больше GPU — и раньше. Удвоение CoWoS высвободит сотни тысяч ускорителей в 2025 г., смягчив дефицит и цены на аренду мощностей в облаке.

2️⃣Новые узлы = больше параметров за тот же ватт. 2-нм GAA-кристаллы позволят разместить ~25 % больше логики в том же тепловом бюджете; при переходе на A14 этот выигрыш вырастет ещё примерно на пятую часть. Больше FLOPS/Вт → дешевле обучение и тонкая настройка.

3️⃣3D-стек Stack-SoIC. Параллельно TSMC наращивает собственную монолитную интеграцию чипов (SoIC). Это открывает дорогу компактным модульным ускорителям для edge-inference, где критична скорость и потребление.

4️⃣Горизонт планирования. Если вы строите инфраструктуру под следующий виток LLM-ок, закладывайте: массовые кластеры N2-GPU появятся к началу 2026 г., первые «1.4 нм» образцы — к 2028-му. Именно на этих узлах появятся архитектуры с HBM4 и шиной >10 ТБ/с.
Для справки - текущие "Blackwell" B100 пострены по 3-нм процессу.

TL;DR: пока мы оптимизируем loss-функции и режем latency инженерными трюками, TSMC втихую расширяет физические пределы кремния. Если вам важна доступность железа и цена обучения, то следить за роудмапами фабрики полезно так же, как за релизами PyTorch.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейродайджест за неделю (#69)
(nice)

LLM
- Codex от OpenAI — кодинг-агент на тюне o3. Чётко слушает инструкции, следует человеческому стилю, можно подключить свой GitHub и идти пить чай, пока модель работает.
- GPT-4.1 в ChatGPT — модель добавили в веб-интерфейс (ранее только API). Контекст 1М не завезли, но обещают значительное улучшение в коде по сравнению с 4o.
- Новые Claude на подходе? — слив от The Information: модели стоит ждать в ближайшие пару недель.
- Техрепорт Qwen3 — есть что почитать.
- Deep Research в PDF— приятное quality-of-life обновление.

Генеративные модели
- Hunyuan Image 2.0 — риалтайм text2img моделька (как Imagine Flash) с хорошей кожей и UI интерфейсом, но на китайском.

Прочее
- Grok опять шалит? — официальный аккаунт Grok для реплаев в Твиттере каждый заданный вопрос уводил в тему геноцида белых в Южной Африке. Что?
- Update по TSMC — новые фабрики, 2-нм GAA-транзисторы, наращивание CoWoS мощностей -> больше, мощнее, быстрее.

> Читать дайджест #68

#дайджест
@ai_newz