А вот мои приколюхи с помощью IC Light. Не стал париться с автоматиком, а в демке освещение изменятся только промптом. Оказывается, работает даже с пейзажами. Но мелкие детали все же коверкает.
На первой фотке - я катаюсь в Гудаури. На второй - вид на Сан-Франциско, который я сфоткал во время своей последней поездки.
@ai_newz
На первой фотке - я катаюсь в Гудаури. На второй - вид на Сан-Франциско, который я сфоткал во время своей последней поездки.
@ai_newz
Орги ChatBot Arena проанализировали, как Llama-3 забралась так высоко на лидерборде.
Llama 3, будучи сравнительно маленькой моделью отстаёт от GPT-4 на более сложных задачах, типа матеши и ризонинга, судя по анализу от Lmsys. Но вот в креативных задачах и более абстрактных задачах, где нужно что-то придумать (куда сходить вечером и тп) выигрывает старшие модели причём со значительным отрывом. Таких запросов от юзеров по всей видимости большинство, и именно они закидывают ламу3 в топ. Но это не отвечает на вопрос, как ей удаётся побеждать старшие модели на этих запросах. Кажется, что если модель лучше и больше, то она должна быть умнее во всем.
Так почему же llama 3 так хороша? Если коротко, то это компьют и качественные данные.
- Датасет фильтровали и фильтровали, чтобы модель училась только на всем хорошем. Кстати секрет той же Dalle 3 или GPT-4 в том же. У Dalle3 картинки в трейн датасете очень подробно описаны gpt-шкой с виженом. А для самой GPT-4, понятно, тоже сильно фильтровали тексты.
- Есть такая гипотеза – Оптимальность модели по Шиншилле. Из нее следует, что для 8B модели оптимально по компьюту натренить ее на 200B токенах. И долгое время это считалось стандартом – якобы дальше тренить мелкую модель смысла нет, и лучше взять модель пожирнее. Но Llama3 натренили на 15 трлн токенов и она всё ещё продолжала учиться. Крч перетрейн капитальный.
- Аккуратный файнтюн на ручной разметке. Кроме почти уже стандартных supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO), и direct preference optimization (DPO) парни скормили лламе3 10 лямов размеченных вручную примеров.
Окей, с тяжелыми тасками она всё равно не очень справляется. Но, оказывается, это и не надо...🤷♀️
Юзеры обычно просят какую-нибудь фигню по типу "придумай то то, как сделать это..."
Лама благодаря хорошему датасету и ручному файнтюну просто оказалась очень харизматичной. Отвечает приятно, структура хорошая, на человека похожа:)
High-level Видосик про Llama3
Предыдущий пост про Llama3
Блог пост
@ai_newz
Llama 3, будучи сравнительно маленькой моделью отстаёт от GPT-4 на более сложных задачах, типа матеши и ризонинга, судя по анализу от Lmsys. Но вот в креативных задачах и более абстрактных задачах, где нужно что-то придумать (куда сходить вечером и тп) выигрывает старшие модели причём со значительным отрывом. Таких запросов от юзеров по всей видимости большинство, и именно они закидывают ламу3 в топ. Но это не отвечает на вопрос, как ей удаётся побеждать старшие модели на этих запросах. Кажется, что если модель лучше и больше, то она должна быть умнее во всем.
Так почему же llama 3 так хороша? Если коротко, то это компьют и качественные данные.
- Датасет фильтровали и фильтровали, чтобы модель училась только на всем хорошем. Кстати секрет той же Dalle 3 или GPT-4 в том же. У Dalle3 картинки в трейн датасете очень подробно описаны gpt-шкой с виженом. А для самой GPT-4, понятно, тоже сильно фильтровали тексты.
- Есть такая гипотеза – Оптимальность модели по Шиншилле. Из нее следует, что для 8B модели оптимально по компьюту натренить ее на 200B токенах. И долгое время это считалось стандартом – якобы дальше тренить мелкую модель смысла нет, и лучше взять модель пожирнее. Но Llama3 натренили на 15 трлн токенов и она всё ещё продолжала учиться. Крч перетрейн капитальный.
- Аккуратный файнтюн на ручной разметке. Кроме почти уже стандартных supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO), и direct preference optimization (DPO) парни скормили лламе3 10 лямов размеченных вручную примеров.
Окей, с тяжелыми тасками она всё равно не очень справляется. Но, оказывается, это и не надо...🤷♀️
Юзеры обычно просят какую-нибудь фигню по типу "придумай то то, как сделать это..."
Лама благодаря хорошему датасету и ручному файнтюну просто оказалась очень харизматичной. Отвечает приятно, структура хорошая, на человека похожа:)
High-level Видосик про Llama3
Предыдущий пост про Llama3
Блог пост
@ai_newz
Немного с задержкой, но вот все-таки он:
Нейродайджест за неделю (#17)
1. Ла Лэ Мэ
- Xiaomi из мира LLM. Deepseek V2. Топ за свои деньги, чуть хуже Llama 3.
- Майки тизерят MAI-1, это будет их первенец; без помощи OpenAI. Есть закос на уровень GPT-4, но с 500B MoE.
- Сравнительная таблица 100+ лучших LLM-ок для выбора под свои задачи.
- В чем феномен Llama 3 или подробный анализ успеха всеми любимой ламы.
2. Тизеры и релизы
- ElevenLabs снова всех уделал в звуке, представив свой txt2music. Судя по тизеру, у Suno и Udio нет шансов.
- IC Light или кнопка "Сделай красиво" для фотошоперов. Плагин для A1111 и др. мэтчит освещение фона и добавленного предмета.
3. Интересное
- Определяем и делаем Jiggle physics 🍒 для гауссовских сплатов по сгенерированному видео.
- Пускаем скупую мужскую слезу на олдскульные девайсы.
> Читать дайджест #16
#дайджест
@ai_newz
Нейродайджест за неделю (#17)
1. Ла Лэ Мэ
- Xiaomi из мира LLM. Deepseek V2. Топ за свои деньги, чуть хуже Llama 3.
- Майки тизерят MAI-1, это будет их первенец; без помощи OpenAI. Есть закос на уровень GPT-4, но с 500B MoE.
- Сравнительная таблица 100+ лучших LLM-ок для выбора под свои задачи.
- В чем феномен Llama 3 или подробный анализ успеха всеми любимой ламы.
2. Тизеры и релизы
- ElevenLabs снова всех уделал в звуке, представив свой txt2music. Судя по тизеру, у Suno и Udio нет шансов.
- IC Light или кнопка "Сделай красиво" для фотошоперов. Плагин для A1111 и др. мэтчит освещение фона и добавленного предмета.
3. Интересное
- Определяем и делаем Jiggle physics 🍒 для гауссовских сплатов по сгенерированному видео.
- Пускаем скупую мужскую слезу на олдскульные девайсы.
> Читать дайджест #16
#дайджест
@ai_newz
Курс по квантизации для тех, кто хочет быть в теме
Эндрю Ын, о котором здесь писалось уже не раз, вместе со спецами из обнимающего лица _marcsun и younesbelkada дропнул очередной эйай #ликбез. На этот раз о квантизации.
Квантизация — это сжатие модели с 32 до 16, 8 или даже 2 бит, не особо теряя при этом в качестве. Считай, raw перевели в jpeg. Так же как и без MoE современные ллм дорого тренировать, так и без квантизации их дорого инференсить - железо которое тянет эти килотонны весов влетает в копеечку.
Чему учат:
- применять си/асимметричную линейную квантизацию.
- квантизации на разных уровнях: по тензорам, по каналам, по группам.
- созданию квантизатора на практике с упаковкой до 2-х бит.
Ссылочка на курс
#ликбез
@ai_newz
Эндрю Ын, о котором здесь писалось уже не раз, вместе со спецами из обнимающего лица _marcsun и younesbelkada дропнул очередной эйай #ликбез. На этот раз о квантизации.
Квантизация — это сжатие модели с 32 до 16, 8 или даже 2 бит, не особо теряя при этом в качестве. Считай, raw перевели в jpeg. Так же как и без MoE современные ллм дорого тренировать, так и без квантизации их дорого инференсить - железо которое тянет эти килотонны весов влетает в копеечку.
Чему учат:
- применять си/асимметричную линейную квантизацию.
- квантизации на разных уровнях: по тензорам, по каналам, по группам.
- созданию квантизатора на практике с упаковкой до 2-х бит.
Ссылочка на курс
#ликбез
@ai_newz
www.deeplearning.ai
Quantization in Depth - DeepLearning.AI
Try out different variants of Linear Quantization, including symmetric vs. asymmetric mode, and granularities like per tensor, per channel, and per group.
Media is too big
VIEW IN TELEGRAM
OpenAI показали GPT-4o (omni), выбрал главное
Доступна для бесплатных пользователей
Запредельные результаты на Chatbot Arena - отрыв в 57 ELO на общих задачах и в 100 ELO на коде
Модель нативно понимает звук, с ней можно разговаривать, задержка разговора упала в 10 раз по сравнение с более ранним голосовым режимом
Она может петь
Нейронка понимает видео в реальном времени
У ChatGPT есть теперь приложение на MacOS, которому можно даже стримить экран!
В два раза быстрее и дешевле GPT-4 Turbo
Новый мультиязычный токенизатор - для для некоторых языков нужно теперь в 4.4x меньше токенов
За счёт этого модель суммарно в 3.5 раза дешевле для русского языка
Доступ к модели уже начали выдавать пользователям ChatGPT, API доступен разработчикам
Разговорный режим будет доступен для подписчиков Plus в ближайшие недели
Более продвинутые аудио и видео возможности дают ограниченным группам пользователей
Ждём завтрашнего Google I/O. Интересно, чем они смогут ответить.
>> Полное видео презентации
>> Страница модели с демками
>> Ещё офф пост с апдейтами
@ai_newz
Доступна для бесплатных пользователей
Запредельные результаты на Chatbot Arena - отрыв в 57 ELO на общих задачах и в 100 ELO на коде
Модель нативно понимает звук, с ней можно разговаривать, задержка разговора упала в 10 раз по сравнение с более ранним голосовым режимом
Она может петь
Нейронка понимает видео в реальном времени
У ChatGPT есть теперь приложение на MacOS, которому можно даже стримить экран!
В два раза быстрее и дешевле GPT-4 Turbo
Новый мультиязычный токенизатор - для для некоторых языков нужно теперь в 4.4x меньше токенов
За счёт этого модель суммарно в 3.5 раза дешевле для русского языка
Доступ к модели уже начали выдавать пользователям ChatGPT, API доступен разработчикам
Разговорный режим будет доступен для подписчиков Plus в ближайшие недели
Более продвинутые аудио и видео возможности дают ограниченным группам пользователей
Ждём завтрашнего Google I/O. Интересно, чем они смогут ответить.
>> Полное видео презентации
>> Страница модели с демками
>> Ещё офф пост с апдейтами
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
"Выигрыш в лотерею каждый день", "Японские первоклассные порнографические блокбастеры", "Бесплатные видео для просмотра онлайн"
Не бойтесь, меня не взломали. Это просто токены, которые нашли в новом мультиязычном токенизаторе GPT-4o, переведённые с китайского (大发快三的, _日本一级特黄大片, 免费视频在线观看). В датасет для тренировки токенизатора попала куча спама, и там теперь есть токены для рекламы казино, пиратского контента и просьб всяких нигерийских принцев
Я забираю обратно свои слова о том, что OpenAI тщательно фильтруют данные 😀
Это хороший пример того, какой бардак творится в токенизаторах даже SOTA LLM, и прекрасное напоминание о том, что и в OpenAI не боги горшки обжигают.
Какие ещё сюрпризы нас ждут в токенизаторе GPT-4o?
@ai_newz
Не бойтесь, меня не взломали. Это просто токены, которые нашли в новом мультиязычном токенизаторе GPT-4o, переведённые с китайского (大发快三的, _日本一级特黄大片, 免费视频在线观看). В датасет для тренировки токенизатора попала куча спама, и там теперь есть токены для рекламы казино, пиратского контента и просьб всяких нигерийских принцев
Я забираю обратно свои слова о том, что OpenAI тщательно фильтруют данные 😀
Это хороший пример того, какой бардак творится в токенизаторах даже SOTA LLM, и прекрасное напоминание о том, что и в OpenAI не боги горшки обжигают.
Какие ещё сюрпризы нас ждут в токенизаторе GPT-4o?
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Прикольный юзкейс GPT-4o – переводчик. Подумал, что мне оно могло бы пригодиться в поездах в Азию (Япония, Корея, Китай), где люди часто не знают английского от слова совсем. Несколько лет назад я пользовался Google Translate в таких ситуациях, и он, конечно, ни в какие сравнения не идет с GPT-4o. А тут гэпэтэшка так бодренько переводит приятным голосом, да и с минимальными задержками.
@ai_newz
@ai_newz
Через двадцать минут основная презентация Google I/O, так что вот мой минимальный список ожиданий:
* Релиз Gemini 1.5 Pro за пределами AI Studio
* Анонс (и желательно релиз) Gemini 1.5 Ultra
* Анонс, или хоть какой-то намёк на совместный VR шлем Google и Samsung
* Память и аналог GPTs для Gemini
* Видео функционал который они тизерили вчера
Хотелось бы увидеть какие-то подвижки к Gemini 2.0, побольше окно контекста для API Gemini 1.5, хоть какие-то опенсорс релизы и аналоги функционала со вчерашней презентации GPT-4o, но тут есть сомнения.
Я конечно же напишу пост по итогам, а стрим посмотреть можно тут (пока что там бегает вылезший из чашки диджей и поставляет кринж в промышленных масштабах).
@ai_newz
* Релиз Gemini 1.5 Pro за пределами AI Studio
* Анонс (и желательно релиз) Gemini 1.5 Ultra
* Анонс, или хоть какой-то намёк на совместный VR шлем Google и Samsung
* Память и аналог GPTs для Gemini
* Видео функционал который они тизерили вчера
Хотелось бы увидеть какие-то подвижки к Gemini 2.0, побольше окно контекста для API Gemini 1.5, хоть какие-то опенсорс релизы и аналоги функционала со вчерашней презентации GPT-4o, но тут есть сомнения.
Я конечно же напишу пост по итогам, а стрим посмотреть можно тут (пока что там бегает вылезший из чашки диджей и поставляет кринж в промышленных масштабах).
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Выкатили улучшенную Gemini 1.5 Pro.
- Она теперь доступна в Gemini Advanced (примиумная подписка) и для разработчиков.
- В Gemini 1.5 Pro (доступна в чате gemini.google.com) теперь длина контекста 1 млн токенов! Это прvерно 1.5k страниц тектса и больше чем вся книга "Война и Мир".
- Обещают вскоре добавить поддержку видео - до 1 часа.
- В приватном превью для разработчиков будет доступна версия с контекстом в 2 млн токенов!
https://blog.google/products/gemini/google-gemini-update-may-2024/
@ai_newz
- Она теперь доступна в Gemini Advanced (примиумная подписка) и для разработчиков.
- В Gemini 1.5 Pro (доступна в чате gemini.google.com) теперь длина контекста 1 млн токенов! Это прvерно 1.5k страниц тектса и больше чем вся книга "Война и Мир".
- Обещают вскоре добавить поддержку видео - до 1 часа.
- В приватном превью для разработчиков будет доступна версия с контекстом в 2 млн токенов!
https://blog.google/products/gemini/google-gemini-update-may-2024/
@ai_newz
Gemini 1.5 Flash - легкая и быстрая модель
На сцену выпустили Демиса Хассабиса, главу Google DeepMind.
Он показал Gemini 1.5 Flash, более лёгкую модель, оптимизированную для низкой задержки.
- Размер контекста у нее 1 миллионом токенов, и она лучше по бенчмаркам (смотри в комментах) чем предыдущая Gemini 1.0 Pro, и, конечно, быстрее.
- Умеет в мультимодальность.
- Уже доступна как public preview: тут
Это довольно круто. Думаю, что это своего рода GPT4-Turbo от Google.
>> Подбробности
@ai_newz
На сцену выпустили Демиса Хассабиса, главу Google DeepMind.
Он показал Gemini 1.5 Flash, более лёгкую модель, оптимизированную для низкой задержки.
- Размер контекста у нее 1 миллионом токенов, и она лучше по бенчмаркам (смотри в комментах) чем предыдущая Gemini 1.0 Pro, и, конечно, быстрее.
- Умеет в мультимодальность.
- Уже доступна как public preview: тут
Это довольно круто. Думаю, что это своего рода GPT4-Turbo от Google.
>> Подбробности
@ai_newz
Imagen 3 - новая моделька для генерации изображений.
Лучше понимает длинные промпты и рендерит текст.
Будет несколько версий Imagen 3, каждая оптимизирована для разных задач. От быстрой генерации скетчей, до high-res изображений.
>> Подробности | Записаться в вейтлист
@ai_newz
Лучше понимает длинные промпты и рендерит текст.
Будет несколько версий Imagen 3, каждая оптимизирована для разных задач. От быстрой генерации скетчей, до high-res изображений.
>> Подробности | Записаться в вейтлист
@ai_newz
Veo - конкурент Sora от Google
Понимает промпты в виде текста, видео и картинок, генерит в 1080p.
Модель доступна через вайтлист на labs.google, заявки уже принимаются.
@ai_newz
Понимает промпты в виде текста, видео и картинок, генерит в 1080p.
Модель доступна через вайтлист на labs.google, заявки уже принимаются.
@ai_newz
Новое железо!
1. Представили новое поколение чипов для тренировки от Google - TPU v6 Trillium, в 4.7 раз быстрее текущего поколения, будут доступны клиентам в конце 2024 года.
https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus
2. Гугл создал свой собственый Arm CPU: Axion для датацентров.
https://cloud.google.com/blog/products/compute/introducing-googles-new-arm-based-cpu
@ai_newz
1. Представили новое поколение чипов для тренировки от Google - TPU v6 Trillium, в 4.7 раз быстрее текущего поколения, будут доступны клиентам в конце 2024 года.
https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus
2. Гугл создал свой собственый Arm CPU: Axion для датацентров.
https://cloud.google.com/blog/products/compute/introducing-googles-new-arm-based-cpu
@ai_newz