эйай ньюз
60.2K subscribers
1.42K photos
735 videos
7 files
1.74K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
Нейродайджест за предыдущую неделю (#19)

На прошлой неделе забыл выпустить дайджест. Ловите его сейчас:)

1. Хот Ньюс
- Цепочка скандалов в OpenAI: уход ключевых сотрудников, NDA с пожизненным запретом критики и конфликт с Скарлетт Йоханссон из-за использования её голоса. Вот ещё Vox получили доступ к внутренним документам
- Новый законопроект в Калифорнии может существенно ограничить тренинг домашних моделей и опенсорс LLM.

2. Туториалы
- Шикарный гайд по Llama3 на GitHub, где можно собрать Llama 3 пошагово, используя официальные веса.
- Наткнулся на гайд по созданию RAG архитектуры на открытых LLM. Видео для новичков, все пошагово.

3. Говорящие железяки
- Гонки на ChatBot Arena. OpenAI, Google и Meta доминируют в рейтингах, а Gemini 1.5 Pro занимает второе место после GPT-4.
- Компании релизят новые модели под давлением интернетовских из /r/LocalLlama. Reddit-сообщество активно требует новые модели от различных компаний и те поддаются.
- KV-cache для больших промптов в Gemini. Новая фича от Google снижает задержку обработки и стоимость запросов за счет переиспользования KV кэшей для больших промптов.
- Мистраль выпустили новую 7B модель с поддержкой вызова функций и улучшенным токенизатором.

4. Разное
- Статейка Юргена про ускорение диффузии с кешированием, где он процитировал нашу статью – то есть меня процитировал сам мегачад Шмидхубер 💪
- Слили Stable Audio 2.0. Качество оказалось не на высоте, но зато с открытыми весами.
- Синдром самозванца у GPT-4o. Оказывается боты тоже умеют ругаться и спорить, лол.
- Игрушки с полной свободой вместе c GPT, Detroit Become Human рядом не стоял в плане ветвления сюжета, когда такое засунут в настоящие игры?

> Читать дайджест #18

#дайджест
@ai_newz
Нейродайджест за неделю (#20)
Юбилейный выпуск!

1. ГПТ
- Как достать любой кастомный промпт и загруженные файлы из GPT?. Гид по взлому кастомных гптишек. Попробуйте, меня взломать :)
- GPT-2 за двадцать долларов. Карпатый разогнал GPT-2 до 180k токенов в секунду. За такие деньги грех не попробовать.
- "Generate an image of an astronaut riding a horse". Бесплатные пользователи ChatGPT получили доступ к GPT-4o. Правда результат генерации изображений не тот, которого все ждали (см. пост).
- FineWeb-Edu: самый качественный опенсорс датасет для претрейна LLM. На 5.4 трлн токенов.

2. Пару слов о Калифорнии и Мета
- Отчет о моей поездке в Калифорнию. Про встречи с коллегами и боссами в Meta. Продолжение. Закрытая вечеринка для команды GenAI, советы по карьерному росту и про моё знакомство с CPO Meta :)

3. Тулзы и модели
- ToonCrafter: модель для генерации анимации между двумя кадрами. А вот ComfyUI для неё. Модель теперь потребляет меньше видеопамяти. Через будет месяц на любой мультиварке?
- Погружение в кроличью нору знаний. Теперь можно учить новые концепты с помощью GPT (а так же с Claude) и бесконечно зумиться в текст.
- Microsoft запустил Copilot бота для Telegram. Бот от Microsoft работает на базе GPT. Бинг уже ищет любой способ привлечь трафик.

4. Что-то на твитерском
- Маск привлёк в XAI $6 млрд в раунде B. Он собрал деньги на 100 тысяч GPU для Grok-3 и обещает AGI через 2 года.
- А еще вот Илон Маск спорит с Яном ЛеКуном. Маск утверждает, что Tesla не использует Convolutional Neural Networks (CNN). Ну, если он так говорит...
- Просто группа гуманоидных роботов убирается в офисе. Ничего необычного.

> Читать дайджест #19

#дайджест
@ai_newz
Нейродайджест за неделю (#21)

Генеративные модели
  - Kling! Ооо, вот кто нас порадовал генерацией видео на этой неделе. Китайцы подготовили достойный ответ Соре, и он уже доступен для тестов счастливчикам с китайским номером или ID. Дорогие подписчики, у кого-то вышло получить доступ? ( Примеры | Танцульки )
  - SD 3 на следующей неделе. 12 июня выложат веса Medium модели всего на 2B. Ну и ладно, сами прикрутим еще пару миллиардов параметров.
  - Nvidia RTX Remix тулкит для ремастеров игрушек нулевых вместе с комфи, которая уже стала новым стандартом. Rip автоматик.
  - Релиз Stable Audio 2, почти сразу после громкого слива, который оказался версией Open 1.0, но качество по-прежнему не очень.

Птица говорун
  - Qwen 2 — ещё одна новинка от китайцев. Ламу 3 побили на бенчмарках, но не на арене.
  - Diffusion On Syntax Trees. Интересный подход к генерации кода. В процессе денойзинга вносят изменения в синтаксическое дерево кода.
  - Репорт о запасе данных в интернете + мои мысли. Пожалуй, уже точно можно сказать, что дата — это новая нефть, так вот оказывается, она почти закончилась.
  - К2 — модель, которой нечего скрывать. Можно взглянуть и наложить свои грязные ручонки на всё, от кода до промежуточных чекпоинтов.

Прочее
  - Заметки с презы AMD (помимо SD3). Новые GPU и прочие вкусности для датацентров.
  - Маск то ли троллит, то ли несёт чушь. В Тесла реально нет CNN? Пацаны и дамы, верим да/нет?

> Читать дайджест #20

#дайджест
@ai_newz
Нейродайджест за неделю (#22)

Жаркая вышла неделька.

Хайптрейн видео
- Сравнение Kling vs Sora на похожих промптах. Эх, тогда мы даже не знали о Luma…
- Мои тесты Kling на промптах из комментариев.
- А вот нашумевшая Luma (т.к. доступна всем). Тесты с теми же промптами.
- Твиттерский собрал целый клип за вечер вместе с Luma.
- Мемесы от Luma. Как это развидеть?
- Подъехал официальный гайд по Luma.
- Вот еще GPT'шка для написания промтов для Luma.
- Follow-Your-Emoji. Завезли ControlNet для лица и первый бенчмарк.

Новые приколы от OpenAI
- За стол OpenAI садится товарищ генерал из АНБ (КГБ). Теперь все серьезно. Пол Накасоне должен будет отвечать за “безопасность”, но это не точно:)
- Чел топил за продление и ужесточение акта о массовой слежке в США (FISA). Может, все не так плохо, но вот подробности.
- POV: Видео с места событий в АНБ.

LLM
- 4-х часовой гайд по трейну ЛЛМ от Карпатого. Пилим свой GPT-2 с пошаговым гайдом.
- YaFSDP – ускоряем трейн ЛЛМ за счет грамотной оптимизации. Яндекс тоже что-то может.

Преза Apple WWDC
- Image Playground. Ну теперь-то погенерим стикеры.
- AI – Apple Intelligence. Главные вкусности iOS 18.
- Рынок: революшен не произошел.
- А вот у Маска с таких нововведений пригорело. Чел грозится забанить все айфоны и маки, если новый функционал невозможно будет отключить. Боится сливов (новость выше видели?). Ну ладно, храни свои секреты…

Прочее
- Nvidia теперь дороже всего рынка Германии, лол. Кожанка взял свой третий триллион.
- SD-3 Medium. Веса лежат там, где им положено. Но к новой версии есть пара вопросов: что там с анатомией?
- Flappy Bird на чем угодно. Старый добрый Code Bullet пришел с очередным приколом на выходные.

> Читать дайджест #21


#дайджест
@ai_newz
Нейродайджест за неделю (#23)

LLM/AGI
- ClosedAI сама подумывает сменить статус компании с нонпрофит на benefit corporation. В целом, от нонпрофит у них осталось только название.
- Суцкевер: возрождение. Илья основал свою новую Safe Superintelligence Inc. Будут пилить AGI без коммерции (и денег, лол).
- GPT 4-o в пролете. Claude 3.5 Sonnet - пушка гонка! + Artifacts.

Что-то про видео
- Анонс Runway GEN-3. Продолжение недели text-2-video порадует. По черрипикам они ближе всех к Sora.
- Showcase Luma. Вот что бывает, когда инструмент используют прямыми руками. Челики выжали из доступной всем нейронки видосы уровня 99% Сора.
- Сразу две video2sfx модели. Elevenlabs тролит Google, «повторив» ресерч DeepMind за сутки.

StabilityAI
- SD3 Medium - мертворожденный продукт. Подробности о внутренней кухне StabilityAI от разраба Comfy UI.
- В стране StabilityAI новый король. В контору зашли новые инвесторы во главе с новым CEO Премом Аккараджу. Может, мы еще увидим новый восход SAI.

Ништяки для кодеров
- Фундаментальное обновление NumPy 2.0. Это первая такая обнова за 18 лет.
- DeepSeek Coder V2. Специальная модель для кода, на уровне Claude 3.5 Sonnet, но очень быстрая и очень эффективная.

Прочее
- Нейросеть из редстоуна. Челик собрал MLP для распознавания рукописных цифр в майнкрафте.
- Коллеги из Мета выпустили две open source модельки: мультимодальный генератор
Chameleon и ускореные LLM с помощью декодинга нескольких токенов за раз (
Multi-Token Prediction Language Model).
- Робот гуманойд своими руками. Stanford заопенсорсили и выложили все необходимые детали для сборки и тренировки собственного робота помощника. А еще он все за вами повторяет как в живой стали, можно идти на ринг🥊
- Мой личный тест ассистента Gemini. Вердикт - рубильник на стене умнее. С вами был обзорщик LLM-ок и умных лампочек, Артем 😄.

> Читать дайджест #22

#дайджест
@ai_newz
Нейродайджест за неделю (#24)

Всякая ML всячина
- Большой курс Карпатого! Репо уже построили, пока без самих лекций. Следим, а пока вот список других его обучалок.
- Суд над аудио генеративками. Три крупнейших рекорд-лейбла подали коллективный иск на Suno и Udio. Ждем мощного прецедента в мире AI.
- Sohu – специальный чип для трансформеров. Повышенная эффективность >> мощнее/быстрее вычисления. Но работает сугубо и только для трансформеров, вот чем это чревато. А вот краткое объяснение того, в чем заключается оптимизация.
- AI стартап акселератор от Мета. Денег не дают, но помогут советом)
- Как получать $1M мидлом. Если кратко, устройтесь в Nvidia пару лет назад.
- Diffusion vs auto-regression. AR еще жив?

LLM
- Показалось, что OpenAI зашевелились после релиза Claude 3.5.
Но в итоге релиз презентованного функционала будет только осенью.
- Слив весов Gemini Nano. А еще гайд по запуску в браузере.
- Релиз Gemma 2. Даже про веса не забыли. В целом, неплохая моделька.
- Horny AI. Войс мод Chat GPT навалил кринжа.
- Джейлбрейк Claude Sonnet 3.5. Конечно же, уже пофиксили, но интересно посмотреть формат.

Движущиеся картинки
- Kling научился в image2video. А вот нормального доступа до сих пор нет( Зато есть мемы. Вот Kling даже Вилла Смита накормил макарошками. Тесты новой функции.
- Оптимизация видео диффузии. Взяли все те же принципы из нашего Cache me if you can
- Keyframe Luma. Ну оч кайфовый морфинг.
- StreamingT2V. SORA-like генерация в опен сорсе! Обещают скоро…
- GEN-3 vs Sora. Сравнение моделек, голосуем за лучшего!

> Читать дайджест #23

#дайджест
@ai_newz
Нейродайджест за неделю (#25)

Video
- Общий доступ GEN-3, но дорого и как-то бесполезно.
- Runway ту зе мун!!! после не слишком плохого релиза челики оценили себя в 4 ярда и хотят привлечь $450М. Поговаривают, они могут стать Midjourney в text2video (последние смогли отбиться от Dall-E).
- Double the compute. Luma тоже не сидят на месте и удвоили свои мощности. Может, мой запрос недельной давности уже готов?

О жизни и карьере
- Днем бью по клавишам, а вечером по морде или как не сойти с ума на работе.
- Как пробиться в AI? Мой гайд про карьерные траектории в AI или как стать топовым ресерч сайнтистом.
- Цукерберг умеет флексить. А чем вы занимаетесь в пятницу вечером?

Живые железяки
- Нейролюбовница Character.AI или как вымрет человечество, чем грозит любовь к их чатам.
- Архитектура CAI или как дешевле обрабатывать 20К запросов в секунду.
- Автономные агенты выросли в майнкрафте. Большой пост про самостоятельных роботов и систему для их мышления OmniJARVIS. Боюсь, что будет, если совместить их с CharacterAI.

Прочее
- GPT4o дома be like. Французы заопенсорсили свою омнимодальную модель.
- ЭйАй пузырь. Где деньги, Лебовски Альтман?! Где-то среди хайпа затерялись 600 миллиардов кассового разрыва, и их никак не могут найти.

> Читать дайджест#24

#дайджест
@ai_newz
Нейродайджест за неделю (#26)

LLM
- Context Caching в массы. Новая фича от Google зашла и другим провайдерам, теперь адаптируют.
- Grok 2 на подходе. Маск, как всегда, тизерит золотые горы gpu, ну а тем временем вторая версия LLM уже тюнится.
- Flash Attention 3! Всякие ускоряшки и улучшалки.
- Доходы OpenAI. Они, конечно, хайпуют, но денег, как оказалось, не так уж и много...
- Варим GPT-2 🗿. Гайд от Карпатыча о том, как натренировать свою LLM за 500 баксов.
- Системный промпт для Claude Sonnet 3.5. Работает лучше, чем джун в 90% случаев. Сори, пацаны, я с вами.

GPU
- Nvidia все также поставляет ГПУ в Китай, несмотря на запреты. Как кожанка умудрился это провернуть и подробности про новую линейку.
- Набор инструкций для H100 и 4090. Теперь проще оптимизироваться код под конкретные архитектуры нейронок.

Генеративки
- Новый геймдев от PhysDreamer. Или как создавать миры в риалтайме.
- Видеогенерация от нового стартапа Odyssey. Обещают супер контроль над картинкой для Голливуда, благодаря 4-м отдельным моделям для света, текстур, моушена и геометрии.
- Как контролировать стиль в MJ, как это реализовано (IP-Adapter) и небольшой ликбез по волшебным кнопкам MidJourney.

Прочее
- Задачки по ML. Готовимся к собесу AI Coding с этими сайтами.
- Правки в законе, регулирующем большие модели в США или о страшном сне опенсорса. Движемся в верном (нет) направлении, и все еще есть вопросики.

> Читать дайджест #25

#дайджест
@ai_newz
Нейродайджест за неделю (#27)

LLM
- Suck Up! Игрушка, где нужно обмануть нпс с прикрученной ллм.
- MobileLLM. Мощнейший способ оптимизировать модельки под мобилы.
- MathΣtral и Codestral Mamba Свежий подгон от Mistral для матеши и кода. Правда последняя сыпется после пары тысяч токенов. И еще вот мем обзор.
- NeMo. Еще один релиз Мистраль - мини (на 12B лол) мультиязычная модель.
- GPT-4o mini. Супер дешевая и эффективная модель, эх ушла эпоха gpt 3.5
- Claude for Android. Простенькое приложение для мобилок.

Гайды

- Workspace Labs. Гугл начали раскатывать представленные на последней презентации фичи.
- Воркшопы Nvidia. Гайды ну прям для самых прошаренных, так как обойдутся в копеечку. Но зато какая там инфа!
- Очередной ШЭДЭЭВР от Эндрю Ына. Небольшой курс по промпт-инжинирингу LLaMa для самых маленьких.

Прочее
- CloneRobotics. Терминатор все ближе, поляки строят анатомически точный клон человека, пока есть только рука.
- Виртуальный аватар с нейрорендером. Чел прикрутил геймпад от плойки к простенькой 3д модельке персонажа и прогнал через img2img.
- PixArt 900M 1024x1024. Расширенная txt2img модель. Интересно, как стакают слои в DiT диффущиях. Радует, что опенсорс не стоит на месте.

Я провел юбилейный стрим в честь 50К, посвещенный учебе и карьере в AI.
Релевантные посты, про которые я говорил на стриме:
– Как я запромоутился на Staff Research Scientist (тык)
– Инженерные грейды в Big Tech (ч1)
– Инженерные грейды в Big Tech (ч2)
– Как я вкатывался в AI:
Часть 1
Часть 2
– Что я делал в первые месяцы PhD (из письма от моего научника)
– Нетворкинг или как я познакомился со свом интерн-менеджером из Faсebook (тык)
– Мои ресерч проекты на стыке Истории Искусств и Computer Vision (тык)

> Читать дайджест #26

#дайджест
@ai_newz
Нейродайджест за неделю (#28)

Жаркая выдалась неделя, такая же как погода за окном. Кстати, давно трогали траву?

LLM
- LLama 3.1 вышла из клетки - Meta выпустила новую версию на 8B, 70B и долгожданную 405B! Контекст теперь 128к токенов. Ждем, когда простые смертные смогут потыкать палочкой в 405B версию на домашнем железе, лол.
- Llama 3.1 405B теперь самая дешевая топовая модель - API провайдеры предлагают токены по $3 за миллион. Дешевле только даром.
- Квантизированная Llama 3.1 405B на двух макбуках - Запустили 4-битную версию на двух макбуках. Не ну вот это я понимаю chatgpt для народа.
- Файнтюним LLaMa 3.1 8B бесплатно - Теперь можно тюнить модель в Google Colab, процесс влезает в бесплатные лимиты. Идеально для тех, кто хочет почувствовать себя настоящим ИИ-инженером и запилить что-нибудь под себя.
- GPT-4o mini покаряtт олимп chatbot arena - малышка забралась подозрительно высоко. OpenAI, кажется, перестаралась с тюнингом для бенчмарков.
- Позже LMSYS выложили матчапы GPT-4o mini на арене - Кажется что люди голосуют за него, потому что лень читать длинные ответы других ботов.
- OpenAI запустили поиск - Временный прототип с выдачей ссылок на источники.
- AlphaProof решает олимпиадные задачи - Нейросеть Google набрала 28 из 42 баллов на IMO (это такая олимпиада по матеше).Внутри Lean и AlphaZero.

Генеративные модели

- Kling AI вышел в массы - Китайский генератор видео теперь доступен всем. Ждем наплыва шедевров от диванных режиссеров.
- Убийца Kling, генератор видео Qingying - Генерирует 6-секундные видео за 30 секунд. Качество среднее но тоже живенько.
- Слили список видео для тренировки Runway GEN-3 - Оказалось, что там куча пиратского контента и ютуб-блогеров. Никогда такого небыло и вот опять.

Подборки курсов
- Подборка курсов по Reinforcement Learning - Для тех, кто хочет понять, как научить ИИ играть в видеоигры лучше вас. Хотя с нашими клешнями это не так сложно.
- Список книг по AI и бизнесу - Для тех, кто хочет не только кодить, но и зарабатывать на ИИ. Темщики на месте?

Всякая-всячина
- In-Context Reinforcement Learning - Новый метод позволяет ИИ адаптироваться к новым типам действий на лету. Ждем что боты в играх будут учиться новым приемам прямо во время матча и вдогонку.
- ПК для Deep Learning в 2к 24 - Принесли дорогующу сборку за $5700, чтобы файнтюнить СОТА модели.
- Билеты на ECCV - Я купил билеты на топовую конференцию по компьютерному зрению в Милане. Буду организовывать тусу!
- XAI построили крупнейший тренировочный кластер. Он настолько большой, что на него не хватает электричества. Прикольно как теперь энергия стала главной проблемой, а не чипы.


> Читать дайджест #27

#дайджест
@ai_newz