я обучала одну модель
Невероятно, но гугл не отложили релиз Gemini на следующий год* 🥳 https://blog.google/technology/ai/google-gemini-ai/ Обходит сейчас GPT-4 на всех бенчах, кроме HellaSwag Проскимила технический репорт, и увы про архитектуру не сказано почти ничего, кроме…
Спустя пару дней у всех появилось больше времени почитать репорт и посмотреть демки, и общее впечатление от модели кажется начало у всех портиться
Не успела написать об этом раньше эйай ньюс, но гугл уже признали, что видео с демо было почти целиком фейковым, начиная с того, что голосом в реальном времени с Gemini никто не общался, и озвучку наложили позже. И наложили конечно на черрипикнутые фреймы. А еще что в видео прозносятся не те промпты, которые использовались при генерации ответа (вот про это более подробный твит). Например, в видео на моменте с дизайном машин произносили:
> Narrator: "Based on their design, which of these would go faster?'
А реальный промпт был:
> Real Prompt: "Which of these cars is more aerodynamic? The one on the left or the right? Explain why, using specific visual details."
В статье от Bloomberg рассказывают, что контрибуторам это тоже не понравилось и они начали распространять во внутренних чатиках ироничные мемы про эту демку (получается их подставили маркетологи?)
Второй консерн это бенчмарки. На многих из них отрыв от GPT-4 очень маленький, но особое внимание акцентировалось на MMLU, где он заметный. Плюс, Gemini заявлялась как первая модель, которая на нем превзошла уровень человеческих экспертов
Так вот, Gemini Ultra действительно лучше проходит MMLU с 32 chain-of-thought примерами – то есть, когда она генерит 32 варанта решения через chain-of-thought и выбирает лучший. Но на 5-shot промптинге выигрывает-то все равно GPT-4, когда такой сеттинг так-то сложнее 🤡 А в аппендиксе вообще сказано, что и по CoT@32 выигрывала тоже GPT-4, но вот с еще одним дополнительным косылем Gemini уехала вперед
Не успела написать об этом раньше эйай ньюс, но гугл уже признали, что видео с демо было почти целиком фейковым, начиная с того, что голосом в реальном времени с Gemini никто не общался, и озвучку наложили позже. И наложили конечно на черрипикнутые фреймы. А еще что в видео прозносятся не те промпты, которые использовались при генерации ответа (вот про это более подробный твит). Например, в видео на моменте с дизайном машин произносили:
> Narrator: "Based on their design, which of these would go faster?'
А реальный промпт был:
> Real Prompt: "Which of these cars is more aerodynamic? The one on the left or the right? Explain why, using specific visual details."
В статье от Bloomberg рассказывают, что контрибуторам это тоже не понравилось и они начали распространять во внутренних чатиках ироничные мемы про эту демку (получается их подставили маркетологи?)
Второй консерн это бенчмарки. На многих из них отрыв от GPT-4 очень маленький, но особое внимание акцентировалось на MMLU, где он заметный. Плюс, Gemini заявлялась как первая модель, которая на нем превзошла уровень человеческих экспертов
Так вот, Gemini Ultra действительно лучше проходит MMLU с 32 chain-of-thought примерами – то есть, когда она генерит 32 варанта решения через chain-of-thought и выбирает лучший. Но на 5-shot промптинге выигрывает-то все равно GPT-4, когда такой сеттинг так-то сложнее 🤡 А в аппендиксе вообще сказано, что и по CoT@32 выигрывала тоже GPT-4, но вот с еще одним дополнительным косылем Gemini уехала вперед
❤24
Тестировала пару дней midjourney v6, и нашла в нем забавную багу – почему-то он не может генерировать тонкие губы у людей, и при упоминании thin lips начинает их делать еще больше 🤔
Причины дискриминации тонких губ для меня загадочны, но зато прыщи на подбородке рисовать он научился, за реализм лайк
Причины дискриминации тонких губ для меня загадочны, но зато прыщи на подбородке рисовать он научился, за реализм лайк
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22😁11❤4🤔1
Как можно было заметить, количество шитпоста в этом канале за последнее время значительно сократилось. А это все потому, что я уехала на магистратуру! И была так занята, что написать об этом дошли руки только сейчас
Мне хотелось написать этот пост потому, что мне самой в ходе сбора документов очень помогало читать про опыт других людей. Еще я поступала с бакалврским дипломом, никак не связанным с DS/CS (он по политологии), и мне до последнего казалось, что такое невозможно провернуть и никто меня не возьмет на нормальную магу (в итоге взяли конечно). Так что если вы в такой же ситуации, может быть, этот пост вас на что-нибудь вдохновит
Внутри есть и просто немного всратых историй, например про то, как
- я завалила алгоритмический собес (со всеми было)
- Банк Грузии заблокировал мне SWIFT-перевод на 11 тысяч евро
- меня почти отказались сажать на автобус от Минска до Вильнюса, и потом мы стояли 6 часов на литовской границе
Надеюсь кому-то этот пост будет полезен, and enjoy!
https://teletype.in/@rinapch/hYrES8ENLPw
Мне хотелось написать этот пост потому, что мне самой в ходе сбора документов очень помогало читать про опыт других людей. Еще я поступала с бакалврским дипломом, никак не связанным с DS/CS (он по политологии), и мне до последнего казалось, что такое невозможно провернуть и никто меня не возьмет на нормальную магу (в итоге взяли конечно). Так что если вы в такой же ситуации, может быть, этот пост вас на что-нибудь вдохновит
Внутри есть и просто немного всратых историй, например про то, как
- я завалила алгоритмический собес (со всеми было)
- Банк Грузии заблокировал мне SWIFT-перевод на 11 тысяч евро
- меня почти отказались сажать на автобус от Минска до Вильнюса, и потом мы стояли 6 часов на литовской границе
Надеюсь кому-то этот пост будет полезен, and enjoy!
https://teletype.in/@rinapch/hYrES8ENLPw
Teletype
Как поступить на магу в Германию если ты лох(есса)
Привет! В этом лонгриде я собираюсь дать таймлапс и детали своего поступления. Во-первых, мне хочется как-то зафиксировать это в истории...
👍53🔥24❤9🤯3🤮2
Nous Research наконец-то реализовали идею, которая кмк давно уже витала в воздухе: скрестить блокчейн и ИИ, чтобы наконец-то получить объективный лидерборд для моделей
В топ лидерборда Huggingface давно залетают LLM размером всего в 7B, чисто из-за того, что популярные бенчмарки уже, скорее всего, попали в большие дампы всего интернета. Не говоря о том, что недобросовестные ресерчеры могут просто обучиться на тесте
Nous предлагают логичное решение – данные должны быть закрытые, постоянно обновляющиеся, но при этом обязательно децентрализованные. На их лидерборде GPT-4 постоянно догенеривает синтетические тестовые примеры, а эвалюаторы в распределенной сети Bittensor прогоняют добавленные модели на свежей выборке. Так, бенчмарк есть одновременно у всех и ни у кого, и при этом постоянно меняется🤯
Очень хочу посмотреть, какое там будет ранжирование, когда туда закинут популярные модели последних месяцев 👀 Особенно с очень большими заявлениями о метриках в статье, типа SOLAR
https://huggingface.co/spaces/NousResearch/finetuning_subnet_leaderboard
В топ лидерборда Huggingface давно залетают LLM размером всего в 7B, чисто из-за того, что популярные бенчмарки уже, скорее всего, попали в большие дампы всего интернета. Не говоря о том, что недобросовестные ресерчеры могут просто обучиться на тесте
Nous предлагают логичное решение – данные должны быть закрытые, постоянно обновляющиеся, но при этом обязательно децентрализованные. На их лидерборде GPT-4 постоянно догенеривает синтетические тестовые примеры, а эвалюаторы в распределенной сети Bittensor прогоняют добавленные модели на свежей выборке. Так, бенчмарк есть одновременно у всех и ни у кого, и при этом постоянно меняется
Очень хочу посмотреть, какое там будет ранжирование, когда туда закинут популярные модели последних месяцев 👀 Особенно с очень большими заявлениями о метриках в статье, типа SOLAR
https://huggingface.co/spaces/NousResearch/finetuning_subnet_leaderboard
Please open Telegram to view this post
VIEW IN TELEGRAM
❤35🥴14👍4💩4
я обучала одну модель
In all seriousness, вижн про выглядят круто, особенно в плане наложения приложений на окружающий мир. С одной стороны, из этого можно сделать крутой функционал, мне лично зашла идея не покупать мониторы к компу, а просто крутить вокруг него головой))) Еще…
This media is not supported in your browser
VIEW IN TELEGRAM
пророчества полугодовой давности сбылись: attention span зумеров больше никогда не оправится после выпуска apple vision pro
🥴42😁5🔥3
Please open Telegram to view this post
VIEW IN TELEGRAM
❤32😁20🕊3
Forwarded from Kali Novskaya (Tatiana Shavrina)
Media is too big
VIEW IN TELEGRAM
OpenAI только что выпустили SORA— text2video модель
Генерация видео по текстовому описанию наступила!
Сегодня обещают статью
Промпт:
🟣 https://openai.com/sora#research
Генерация видео по текстовому описанию наступила!
Сегодня обещают статью
Промпт:
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯17🔥8❤3👍3
Меня помимо фотореалистичности видео поразили еще конкретно вот эти два примера. На первом в каждом телевизоре свой видеоряд (мы прикрутили видео в твое видео), а на втором супер точно передан изгиб линзы камеры на телефоне, так, что вообще все пропорции соблюдены. И отдельно меня убивает, что модель смогла в ОТРАЖЕНИЯ в стекле, которые в нужный момент становятся четче, когда поезд проезжает темное здание…. Насколько крутую world model они смогли туда запихнуть
🤯44🔥12👍2👏2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
В последние сутки в Твиттере и на LocalLLaMA кажется нет ничего, кроме обсуждения groq (с q на конце). Все потому, что groq сервят Mixtral со скоростью вплоть до 500 токенов в секунду, пока конкуренты типа Together.ai не успевают за это время сгенерить 70
Секрет успеха тут в том, что groq уже много лет разрабатывали процессоры, которые должны составить конкуренцию NVIDIA, по крайней мере в области сервинга LLM. Собственно поэтому название для них затрейдмаркали как Language Processing Unit
Вот тут есть хороший разбор про то, как устроена архитектура их карточек. Я, как не самый большой эксперт в железе, почерпнула из него только идею, что эти процессоры оптимизированы именно для сервинга моделей, поскольку они гораздо реже перекладывают веса из RAM на сами чипы. А еще похоже их GroqCard уже продаются за 20 тысяч бачей. Если у вас нет таких денег, то их демо пока еще бесплатное – https://groq.com/
Хотя какой-то breakthrough у них случился только сейчас, groq как торговая марка был зарегистирован оказывается уже 7 лет назад (видимо в ту же секунду, как вышла Attention is all you need). А еще основали компанию те же люди, что разрабатывали TPU в Google🤯
Секрет успеха тут в том, что groq уже много лет разрабатывали процессоры, которые должны составить конкуренцию NVIDIA, по крайней мере в области сервинга LLM. Собственно поэтому название для них затрейдмаркали как Language Processing Unit
Вот тут есть хороший разбор про то, как устроена архитектура их карточек. Я, как не самый большой эксперт в железе, почерпнула из него только идею, что эти процессоры оптимизированы именно для сервинга моделей, поскольку они гораздо реже перекладывают веса из RAM на сами чипы. А еще похоже их GroqCard уже продаются за 20 тысяч бачей. Если у вас нет таких денег, то их демо пока еще бесплатное – https://groq.com/
Хотя какой-то breakthrough у них случился только сейчас, groq как торговая марка был зарегистирован оказывается уже 7 лет назад (видимо в ту же секунду, как вышла Attention is all you need). А еще основали компанию те же люди, что разрабатывали TPU в Google
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥38❤8🤯5👌4👍2🥴1
Как мне кажется, Mixture-of-Depths – одна из самых интересных недавно вышедших статей, так как посвящена она довольно очевидной проблеме, что все токены в механизме оттеншена потребляют одинаковое количество компьюта, хотя польза от них не одинаковая. Конкретно эта статья фокусируется на том, как тратить меньше вычислений на токены, которые особенно и не нужны в предсказании
Идея очень простая и поэтому уважаемая: перед каждым трансформер-блоком (в котором находится аттеншн и MLP) работает роутер, который выдает для каждого токена входной последовательности какой-нибудь вес. Дальше в блок поступают и обрабатываются только top-k токенов c наибольшими весами, а все остальные через residual connection обходят блок без каких-либо изменений. Соответственно, механизм оттеншена в итоге требует k^2 вычислений, где k << числа токенов во входной последовательности
Поскольку k задается самим пользователем, размеры матриц внутри аттеншена нам изначально известны, и мы точно можем посчитать, сколько компьюта урежет заданное значение k
Как корректно заметил один человек в реплаях Твиттера, в таком подходе если какой-то токен был проигнорирован в конкретном трансформер-блоке, то дальше все последующие токены не смогут аттендиться к нему, так как этот токен не попадет в KV-кеш. То есть он навсегда остается таким “слепым пятном” в этом блоке, но в следующих блоках он все равно может попасть в top-k и сыграть роль там. В теории возможно, что какой-то совсем бесполезный токен занулится во всех блоках и не окажет вообще никакого влияния на генерацию
В экспериментах лучшая вариация MoD оказалась та, где k был равен 256 (12.5% от всех входных токенов попадали в блок) и где роутер стоял перед каждым вторым трансформер-блоком. Помимо того, что у этой модели лосс был даже ниже, чем у стандартной модели с таким же количеством параметров, она еще и на 66% быстрее совершала шаг инференса. Это по сути и подтверждает, что куча операций в ванильном трансформере излишняя и не дает прироста качества
Довольно приколькую идею скрестить Mixture-of-Depths и Mixture-of-Experts предложили также сами авторы – просто можно заменить одного эксперта на identity function и готово👍 По-моему очень элегантно
Еще хорошую идею развития этого ресерча закидывают в конце в discussion – можно предположить, что некоторые токены очень полезны как keys, но не очень полезны как queries или наоборот. В общем кажется, что эта команда ресерчеров опубликует позднее что-то еще про более сложный роутинг
Идея очень простая и поэтому уважаемая: перед каждым трансформер-блоком (в котором находится аттеншн и MLP) работает роутер, который выдает для каждого токена входной последовательности какой-нибудь вес. Дальше в блок поступают и обрабатываются только top-k токенов c наибольшими весами, а все остальные через residual connection обходят блок без каких-либо изменений. Соответственно, механизм оттеншена в итоге требует k^2 вычислений, где k << числа токенов во входной последовательности
Поскольку k задается самим пользователем, размеры матриц внутри аттеншена нам изначально известны, и мы точно можем посчитать, сколько компьюта урежет заданное значение k
Как корректно заметил один человек в реплаях Твиттера, в таком подходе если какой-то токен был проигнорирован в конкретном трансформер-блоке, то дальше все последующие токены не смогут аттендиться к нему, так как этот токен не попадет в KV-кеш. То есть он навсегда остается таким “слепым пятном” в этом блоке, но в следующих блоках он все равно может попасть в top-k и сыграть роль там. В теории возможно, что какой-то совсем бесполезный токен занулится во всех блоках и не окажет вообще никакого влияния на генерацию
В экспериментах лучшая вариация MoD оказалась та, где k был равен 256 (12.5% от всех входных токенов попадали в блок) и где роутер стоял перед каждым вторым трансформер-блоком. Помимо того, что у этой модели лосс был даже ниже, чем у стандартной модели с таким же количеством параметров, она еще и на 66% быстрее совершала шаг инференса. Это по сути и подтверждает, что куча операций в ванильном трансформере излишняя и не дает прироста качества
Довольно приколькую идею скрестить Mixture-of-Depths и Mixture-of-Experts предложили также сами авторы – просто можно заменить одного эксперта на identity function и готово
Еще хорошую идею развития этого ресерча закидывают в конце в discussion – можно предположить, что некоторые токены очень полезны как keys, но не очень полезны как queries или наоборот. В общем кажется, что эта команда ресерчеров опубликует позднее что-то еще про более сложный роутинг
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43❤5🤔2🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
🥴52😁19😱5🔥3👍2
state of ai research apr 2024:
на lmsys появилась загадочная модель gpt2-chatbot, которая всем очень нравится и демонстрирует себя на уровне gpt-4 последних версий. при этом, никто не знает, что это и кто это тренировал 👁👄👁
в твиттере спекулируют, что это дроп от самих openai, что крайне на них не похоже, но на мои вопросы она отвечает действительно почти идентично gpt-4. из аргументов в пользу этого есть только то, что модель воспринимает special tokens именно характерные для openai, и что с ней работают типичные для openai промпт инджекшены
наконец-то завезли gpt-2vol2 спустя пять лет в общем🎧
на lmsys появилась загадочная модель gpt2-chatbot, которая всем очень нравится и демонстрирует себя на уровне gpt-4 последних версий. при этом, никто не знает, что это и кто это тренировал 👁👄👁
в твиттере спекулируют, что это дроп от самих openai, что крайне на них не похоже, но на мои вопросы она отвечает действительно почти идентично gpt-4. из аргументов в пользу этого есть только то, что модель воспринимает special tokens именно характерные для openai, и что с ней работают типичные для openai промпт инджекшены
наконец-то завезли gpt-2vol2 спустя пять лет в общем
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥30🥰2
Please open Telegram to view this post
VIEW IN TELEGRAM
😁12