Мишин Лернинг 🇺🇦🇮🇱
7.94K subscribers
1.13K photos
137 videos
4 files
603 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
📼 OpenAI — SORA: Генерация видео по текстовому описанию

Очень впечатлило качество и консистентность генераций.

upd: paper (тех репорт) обещают выложить сегодня чуть позже.

👉 https://openai.com/sora
не сдавайтесь 🫶
Google опенсорснул Gemma-3B и Gemma-9B. Или Gemma-2B Gemma7B? А разве не Gemma-2.51B Gemma-8,54B?

Размер модели является ключевым показателем, по которому оцениваются её возможности и сравниваются различные модели. Под размером модели подразумевается (всего-навсего) количество обучаемых параметров. Но Гугл решил перевести свои модели в более легкую весовую категорию, дав моделям имена 2B и 7B. Хотя, Gemma-7B, которая, как оказалось, имеет 8,54 миллиарда параметров, что значительно превышает цифру, предполагаемую в её названии.

Другие модели, такие как Mistral-7B и Llama-7B, имеют 7,24 и 6,74 миллиарда параметров соответственно и названы более точно.

Решения Google использовать объем словаря токенизатора в 256K токенов, в отличие от меньшего размера в 32K токенов (для Llama) привело к огромному количеству embedding параметров: ~20% от общего размера 2.51B модели и ~9% от 8.54B.
Мишин Лернинг 🇺🇦🇮🇱
Google опенсорснул Gemma-3B и Gemma-9B. Или Gemma-2B Gemma7B? А разве не Gemma-2.51B Gemma-8,54B? Размер модели является ключевым показателем, по которому оцениваются её возможности и сравниваются различные модели. Под размером модели подразумевается (всего…
Точность в нейминге размера модели критически важна для LLM, поскольку это влияет на справедливость сравнения, воспроизводимость результатов и понимание компромиссов между размером модели и её производительностью.

Решил создать тред на HF. так что поддержать идею о переименовании модели Gemma7B в Gemma-9B можно тут:

👉 https://huggingface.co/google/gemma-7b/discussions/34

А то ресерч-маркетологи ведут себя как на рынке, ну и вообще, камон, округление все в начальной школе проходили.
Мишин Лернинг 🇺🇦🇮🇱
Точность в нейминге размера модели критически важна для LLM, поскольку это влияет на справедливость сравнения, воспроизводимость результатов и понимание компромиссов между размером модели и её производительностью. Решил создать тред на HF. так что поддержать…
Собственно. Конец истории:

Ресерч-маркетологи из Google закрыли proposal о переименовании модели.

В их ответе три поинта.

1) Ну, это эмбеддинги. Ну, они, это типа, ну не совсем прям считаются...

— В смысле не считаются? А почему HaggingFace говорит 8.54B? (см скриншот)

2) Ну это мы их не считаем.

Кто мы? Почему остальные считают? А то, что осталось, тоже не считаете? У вас же и без embedding'ов 7.75B!

3) Что касается появляющегося класса открытых моделей 7B, мы нацелены на те же варианты использования, что и другие модели класса 7B, с точки зрения совместимости аппаратного и программного обеспечения.


— Ага, вы 7B (то есть 7 миллиардов параметров) не потому что у вас 7B +- 0.4(9)B параметров, а потому что вашу модель будут юзать на том же железе, что и Llama 7B. Ах, вот оно как... Понял, вопросов больше не имею.
Принес вам реальные метрики Claude 3 vs GPT-4

Маркетологи Anthropic решили сравнивать Claude 3 не с последней версией GPT-4-Turbo, а GPT-4 годичной давности, взяв метрики модели GPT-4 марта 2023 года.

А по факту, GPT-4-Turbo показывает результаты, которые значительно лучшие, чем Claude 3.
Сегодня Международный женский день.

Тут не будет поздравлений, состоящих из пошлых клише в стиле "... женщины, которые вдохновляют нас не только своей красотой, но и своими успехами".. аж плохо стало...

Я хочу написать о реальной борьбе, которую ведет каждая женщина. Этот день — не о цветах и комплиментах, а о признании тех вызовов, с которыми сталкиваются женщины ежедневно.

Сегодня я хочу призвать каждого из нас задуматься. Начнем с того, что будем открыто говорить и признавать проблему, которая существует.

Могу добавить, что я очень рад тому, что вижу все больше женщин в сфере AI ресерча, которые делают невероятно крутые вещи. И еще рад тому, что в моем окружении нет места токсичным рабочим паттернам и стереотипам, а есть уважение, равенство и доверие!

Всем хорошего дня!
Все, что вы хотели знать о SORA

The Wall Street Journal взяли интервью у Миры Мурати (OpenAI CTO). Ждем SORA в этом году (она надеется, что будет доступно юзерам в течение пары месяцев). Обещают стоимость генераций, соизмеримую с DALL-E (что бы это ни значило)

📼 YouTube: https://www.youtube.com/watch?v=mAUpxN-EIgU
Маск пытается в OpenAI 2.0

Его новая компания xAI, выложила 314B (а это реально Пи3дец как много для опенсорса) MoE модель Grok-1.

По метрикам, пишут, что лучше чем GPT-3.5, но, имхо для 314B звезд с неба не хватает. Реализация на:

import haiku as hk
import jax


Из интересного, это самый большой опенсорс (в текущем поколении моделей), да еще и под лицензией apache. Ну а пока, кажется, что 46.7B (8x7B MoE) Mixtral или Hermes-Mixtral (ну и если нужно полегче 7B Mistral / Hermes-Mistral или совсем лайтовую 2.7B phi2) самое адекватное, что есть из опенсорса.

Код здесь. https://github.com/xai-org/grok-1
🫦 GPT-4o — Вот вам "HER" от OpenAI

tl:dr End-to-End Image + Text + Speech версия GPT-4

До появления GPT-4o использование режима Voice Mode с ChatGPT позволяло получать ответы со средним временем задержки в 2.8 секунды для GPT-3.5 и 5.4 секунды для GPT-4. В этом режиме были задействованы три отдельные модели:

1. Speech-to-Text переводила аудио в текст

2. Затем уже GPT-3.5 или GPT-4 обрабатывала текст и генерировала ответ.

3. И, наконец, третья модель переводила текст обратно в аудио.

Это означает, что модель GPT-4 не имеет доступа ко всей информации — она не воспринимает интонации, не различает голоса разных собеседников и не учитывает фоновые шумы, она не может воспроизводить смех, пение или передавать эмоции.

GPT-4o представляет собой новую модель, обученную end-to-end на трех доменах, включая текст, изображения и аудио.

👁 Блог OpenAI
🎞 YouTube OpenAI

Го тестить:
Модель ChatGPT "HER"
📰 OpenAI объявили, что начали обучение новой версии GPT, скорее всего, речь идет про GPT-5.

В посте говорится, что сегодня совет директоров OpenAI сформировал Комитет по Безопасности, возглавляемый Бретом Тейлором, Адамом Д’Анджело, Николь Селигманом и Самом Альтманом. И это связано с обучением и выпуском следующей версии GPT, цитирую: OpenAI недавно начала обучение своей следующей передовой модели, и мы ожидаем, что полученные системы выведут нас на новый уровень возможностей на нашем пути к AGI. Скорее всего, речь идет именно про GPT-5.

Анализируя актуальный релиз GPT-4o, можно сделать вывод, что кроме еще более дорого претрейна из коробки стоит ожидать:
— более качественный Aligning (понимание и следование намерениям пользователя) с уклоном не только в точность, но и в безопасность
— Еще больший упор в мультимодальность. Тут фантазирую, но вероятно, что будет еще более глубокий fuse визуальных, текстовых и аудио токенов.

читать 👉 OpenAI Board Forms Safety and Security Committee
This media is not supported in your browser
VIEW IN TELEGRAM
🪩 Диффузионки позволяют ремастерить игры при помощи текстовых промптов.

Nvidia показала пайплайн ремастеринга текстур в популярном графично-нодовом интерфейсе ComfyAI.

Теперь можно не только апскейлить текстуры с определением свойств материалов для трассировки лучей, но и контролировать стиль при помощи промптов. RTX Remix — инструмент для ремастеринга классических игр с использованием технологий трассировки лучей и DLSS 3.5. И интеграция RTX Remix Toolkit с ComfyUI выглядит обещающей, позволяя модерам задавать стиль текстур с помощью текстовых промптов. Это ускоряет процесс моддинга и упрощает создание качественных текстур.

Теперь маленькие команды модеров могут быстро создавать текстуры высокого разрешения с физически корректными свойствами, освобождая время для доработки ключевых элементов.

А пока ждем обещанный Half-Life 2 RTX. Ну и я лично мечтал бы увидеть Half-Life Alyx с RTX в VR.
Forwarded from Denis Sexy IT 🤖
Если вы любите пытаться сломать защиту в разных LLM с помощью промпт инъекций – то у меня вам полезная ссылка, датасет из почти ~1500 промпт инъекций собранных с Reddit, Discord, Twitter и тп.

https://github.com/verazuo/jailbreak_llms

Внутри промпты и для старых инъекций, вроде DAN, до более новых с base64, leet code и тп.

Следующий шаг, это натренировать на этом модель, которая будет ломать другие модели автоматом ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
🏆 Свежая Claude 3.5 Sonnet обгоняет GPT-4o

По заявлениям Anthropic их средняя по размерам модель выигрывает в основных benchmark’ах GPT-4o. Конечно выводы делать еще рано, и стоит подождать обновления Chatbot Arena Leaderboard (https://chat.lmsys.org)

Anthropic обещают обновить их младшую Haiku и старшую Opus модели до 3.5 в течение этого года.

📋 Anthropic 3.5 Sonnet (blog post)
А вот вам вишенка на всём этом вашем торте: теперь в Claude 3.5 Sonnet есть возможность запускать код и даже отображать svg. Кстати, интерпретатор обещали еще на старте Claude 3.

https://youtu.be/rHqk0ZGb6qo?si=paltJiI21vu2SXh-
🖥️ Десктопная версия ChatGPT теперь доступна всем юзерам

* Пока только на MacOS

🗃️Скачать
Gemma2

Выложили 4 модели 9B и 22B, включая Instruct (IT) версии

🤗 hf blog
Forwarded from Tony