эйай ньюз
60.2K subscribers
1.42K photos
744 videos
7 files
1.74K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
Нейродайджест за неделю (#23)

LLM/AGI
- ClosedAI сама подумывает сменить статус компании с нонпрофит на benefit corporation. В целом, от нонпрофит у них осталось только название.
- Суцкевер: возрождение. Илья основал свою новую Safe Superintelligence Inc. Будут пилить AGI без коммерции (и денег, лол).
- GPT 4-o в пролете. Claude 3.5 Sonnet - пушка гонка! + Artifacts.

Что-то про видео
- Анонс Runway GEN-3. Продолжение недели text-2-video порадует. По черрипикам они ближе всех к Sora.
- Showcase Luma. Вот что бывает, когда инструмент используют прямыми руками. Челики выжали из доступной всем нейронки видосы уровня 99% Сора.
- Сразу две video2sfx модели. Elevenlabs тролит Google, «повторив» ресерч DeepMind за сутки.

StabilityAI
- SD3 Medium - мертворожденный продукт. Подробности о внутренней кухне StabilityAI от разраба Comfy UI.
- В стране StabilityAI новый король. В контору зашли новые инвесторы во главе с новым CEO Премом Аккараджу. Может, мы еще увидим новый восход SAI.

Ништяки для кодеров
- Фундаментальное обновление NumPy 2.0. Это первая такая обнова за 18 лет.
- DeepSeek Coder V2. Специальная модель для кода, на уровне Claude 3.5 Sonnet, но очень быстрая и очень эффективная.

Прочее
- Нейросеть из редстоуна. Челик собрал MLP для распознавания рукописных цифр в майнкрафте.
- Коллеги из Мета выпустили две open source модельки: мультимодальный генератор
Chameleon и ускореные LLM с помощью декодинга нескольких токенов за раз (
Multi-Token Prediction Language Model).
- Робот гуманойд своими руками. Stanford заопенсорсили и выложили все необходимые детали для сборки и тренировки собственного робота помощника. А еще он все за вами повторяет как в живой стали, можно идти на ринг🥊
- Мой личный тест ассистента Gemini. Вердикт - рубильник на стене умнее. С вами был обзорщик LLM-ок и умных лампочек, Артем 😄.

> Читать дайджест #22

#дайджест
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Там Китайцы обновили свою модель для видео генерации Kling (пост про нее). Теперь она умеет оживлять фото, "Image-to-Video", как и Luma, а также может продлить видео вплоть до 3 минут – будет генериться по кусочкам, где каждый кусочек контролируется отдельным промптом.

Пёсель очень круто бежит, да так что уши трясутся ❤️.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Карпатый готовит большой курс по LLM – LLM101n: Let's build a Storyteller

Андрей будет учить с нуля и буквально всему - архитектуре, подготовке датасетов, тюнингу, оптимизации, фреймворкам (PyTorch+Jax), CUDA. На выходе у студентов получится что-то похожее на ChatGPT, только написанное абсолютно с нуля.

Такое ему не впервой, он вместе со своим профом Ли Фей-Фей создал и вёл легендарный курс CS231 по глубокому обучению в Стенфорде (имхо этот курс – база, всем советую), да и обучающие видео у него выходят отличные.

В публичном доступе есть репа с содержанием курса, но самих лекций пока нету

Список туториалов Карпатого про LLM:
- Строим GPT с нуля, с разбором кода в ноутбуке (2ч)
- Как тренировали ChatGPT (large scale)
- Интро в большие языковые модели (LLM), тоже от Карпатого. (1ч)
- Токенизация в GPT и как ее закодить (2ч)
- Как воспроизвести и натренировать GPT-2 (124M) с нуля (4ч)

#ликбез
@ai_newz
OpenAI готовится раскатывать голосовой режим для ChatGPT для пользователей. Для этого Anthropic всего лишь нужно было выпустить модель получше.

@ai_newz
Gemini Nano уже доступна в Chrome Canary

Gemini Nano - версия Gemini для запуска локально 😈. Тренировали её на тех же данных, что и модели побольше, и она такая же мультимодальная, просто поменьше. Релизнуть её Google обещал ещё с Chrome 126, не вышло. Сейчас она доступна в Canary для всех, официальный релиз, видно, не за горами.

А теперь вот как можно её запустить прямо в Chrome:
Качаем Chrome Canary и ставим там язык English (United States)
В адресное строке вводим chrome://flags и устанавливаем Enables optimization guide on device на Enabled BypassPerfRequirement, а Prompt API for Gemini Nano на Enabled
Перезапускаем Хром
Заходим в chrome://components и удостоверяемся что Optimization Guide On Device Model версия 2024.6.5.2205 или выше, если это не так - жмём Check for updates.
Вы великолепны! Поюзать для чата можно тут. Моделька очень ТУПОЙ, но круто, что разработчикам сайтов теперь доступна LLM для локального инференса :)

Ещё умельцы уже расколупали это чудо, вытянули из Хрома веса и выложили на Huggingface в формате TFLite.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Три крупнейших рекорд-лейбла подали коллективный иск на Suno и Udio.

Не успел взять подписку, чтобы скинуть вам свои тестики upload audio в Суно, так лавочку скоро и прикроют.

Аудио, наверное, самая сложная и забюрократизированная часть творчества. Нигде больше (кроме, пожалуй, кино) нет такого тотального контроля со стороны паблишеров.

Картинки и текстульки напиздить легко, а вот лейблы будут бороться за свои права до последнего. Этим многие и объясняют такое медленное развитие в генерации музыки.

Вот основные тезисы бюрократов, честно систнутые вдохновленные этим постом:

- Они обвиняют Suno & Udio в "умышленном нарушении авторских прав в почти невообразимых масштабах".
- Приводят доказательства того, что обе компании тренировались на их музыке, в том числе на материалах, которые очень похожи на их записи (ABBA, Майкл Джексон, Green Day, Джеймс Браун и многие другие). Вот ссыль с "похожими треками".
- Утверждают, что fair use — это только когда человек взял и переработал оригинальное произведение/идею, но не машина в огромных масштабах.
- По их словам, "массовое воровство... записей, защищенных авторским правом, угрожает всей музыкальной экосистеме и многочисленным сотрудникам, которые в ней работают".
- Что-то там про анонимных соучастников, которые помогали в копировании/скреппинге.
- Они требуют суда присяжных.

Конечно же, это не первый такой иск против AI. Интересно в этом то, что это первый раз, когда в игру вступают такие крупные игроки, как Warner, и музыкальные юристы, которые только тем и занимаются, что отсуживают авторские права. Вероятно, это дело поставит точку в спорах об авторском праве и AI.

Вот еще можно почитать полные судебные документы: Suno, Udio.

Я пробежался по документу про Суно –довольно занятное чтиво. Но все же мне этот кейс кажется очень притянутым за уши. Например, они утверждают, что в сгенерированном кавере на "I Feel Good" (James Brown), ноты на фразе "I knew tha I would now" совпадают c нотами в оригинальном треке. С одной стороны - какова вероятность получить это случайно? Низкая, согласен. С другой стороны треки абсолютно по-разному звучат, и объединяют их только текст, который подал на вход юзер. То есть это в прямом смысле кавер, а не плагиат музыкального трека. Но я не юрист, конечно. Если есть юристы в чате - прокомментируйте, как вы считаете.

@ai_newz
🔥Sohu - первый ASIC для трансформеров

Хоть NVIDIA B200 и кажется жутко мощной, именно перемножением матриц там занимается очень малая транзисторов чипа. Матричное умножение - это базовая операция в нейронках, под которую заточены tensor cores, и их как раз всего 528 штук в H100. В итоге получается, что в H100 за эти операции отвечает всего около 3% транзисторов. [тут должна быть картинка с чуваком копающим яму - сделайте мем плиз]. А оставшиеся 97% транзисторов отвечают за управление и снабжение вычислительной части данными, плюс на всякий вторичный функционал.

Стартапу Etched, за счёт крайне сильной специализации (их чип может запускать только трансформеры) удалось сильно сократить накладные расходы и повысить количество компьюта на чип. Выросла и эффективность использования компьюта (MFU) - тут она более 90%! Для контекста: на H100 максимальная достигнутая эффективность чуть больше 50%.

Результаты поражают - LLaMa 70B на одной ноде из 8 новых чипов Sohu выдаёт полмиллиона токенов в секунду! Стартап только что привлёк 120 миллионов финансирования, так что, надеюсь, релиз не за горами.

Блогпост с анонсом чипа

@ai_newz
Восемь вот таких вот малышей "Sohu" может заменить 160xH100 - мощная заявка 🔫. Интересно что будте по цене?

Однако фишка в том, что Sohu поддерживает только трансформеры, и только их инференс. То есть мы жертвуем универсальностью (как у GPU от NVIDIA) в пользу сткорости очень узкой группы операций, которые нужны для инференса трансформеров.

После начала массового производства Sohu будет такая ситуёвина: чтобы создать принципиально новую архитектуру, которая потенциально может заменить трансформеры в проде, нужно будет показать что новая архитектура работает на универсальных GPU быстрее чем трансформеры на специальном железе вроде Sohu. Либо нужно будет закладывать дополнительные ресурсы на новые специализированные чипы для новой архитектуры. Короче, это будет гораздо трудно осуществить, и мы можем на какое-то время оказатсья в локальном минимуме с нашими трансформерами [мысли с дивана].

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
эйай ньюз
OpenAI готовится раскатывать голосовой режим для ChatGPT для пользователей. Для этого Anthropic всего лишь нужно было выпустить модель получше. @ai_newz
Хотели нормальный голосовой интерфейс в ChatGPT? А раскатают его на всех Plus юзеров только осенью, вместо обещанных "пары недель". До этого им пользоваться будет только "небольшая группа альфа юзеров". Ну хоть приложение для маков выпустили, и на том спасибо.

Делаем ставки кто из конкурентов выпустит такой режим раньше, господа.

@ai_newz
Мета запускает AI стартап акселератор в Париже совместно с Hugging Face, Scaleway и HEC Paris Incubator.

Думаю некоторым ребятам из канала это может быть интересно.

Денег не предлагают, но и взамен эквити не требуют. На программе дадут менторов из Парижского Meta FAIR (фаундер Mistral до стартапа там делал PhD и работал – подробнее в этом посте), из HuggingFace, и еще от HEC Paris Incubator можно будет получить помощь по бизнесу (маркетинг, сейлз и тд).

Подать можно до 16 августа: ссылка.

@ai_newz