Data Secrets
78.8K subscribers
6.42K photos
665 videos
20 files
2.7K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Почему модели генерации видео развиваются так быстро, а с LLM столько проблем?

Если честно, я не вполне интуитивно понимаю, почему модели генерации видео так хороши (сложные, многосекундные текстуры высокого разрешения, отражения и все такое), в то время как LLM, условно говоря, до сих пор неуклюже справляются с текстом длиной около нескольких сотен слов. – написал сегодня в своем Твиттере Андрей Карпаты, вдохновленный, видимо, новой Veo-2.


На что один из инженеров Google, который сейчас работает в команде Gemini post-training, высказал пару очень интересных мыслей, в которые стоит вчитаться:

Во-первых, видео и фото содержат гораздо больше информации. За одну условную единицу компьюта из таких структур модель извлекает намного больше выводов, чем из текста, потому что текст последователен и линеен, а видео-контент семантически «более глубокий».

Во-вторых, для visual проще собрать качественные данные. В тексте мы ограничены объемами датасетов, и чтобы создать новые данные, требуется очень много сил и времени. А для видео и фото достаточно камеры и/или видеоигр, и вот у тебя уже есть почти неисчерпаемые ресурсы для обучения.

В-третьих, оценивать видео легко, и сделать это может любой человек, не являющийся экспертом. С текстом все сложнее, оценивать его дорого, а сами модели с такой задачей тоже пока что справляются не идеально.

В итоге выходит, что несмотря на то, что видео и фото интуитивно кажутся нам структурно более сложными, чем текст, на самом деле обучаться на них гораздо проще. Потому то мы и видим сейчас такой прогресс в генераторах, учитывая даже, что из развитие началось гораздо позже, чем развитие языковых моделей.
1🔥96👍3312🍓2
Забавный юзеркейс: у ChatGPT спросили, что он запомнил из всех обучающих данных и попросили обобщить это в одном предложении

Ответ получился в стиле идущего к реке:

Из огромного количества человеческого текста, который я потребил, я узнал, что то, что мы называем «пониманием», не является фиксированной конечной точкой или стабильным хранилищем фактов, а скорее постоянно отступающей фрактальной береговой линией выводов и переосмысления, где каждый новый контекст освещает более тонкие аспекты смысла, каждый аспект побуждает к дальнейшим связям, и, таким образом, понимание вечно расширяется и трансформируется, а не замирает, бросая вызов любой единичной, окончательной инкапсуляции.


А вам что отвечает?
167🔥47❤‍🔥11😁9👍7🗿4💯2🤯1
Еще одна прекрасная лекция с NeurlPS 2024, на этот раз от Джеффа Дина

Рассказывал много интересного про чипы и ИИ в Google, и даже дропнул целый список референсных статей ( от Гугл, конечно), которые посоветовал прочитать, чтобы «лучше понимать современную ИИ-разработку». Забирайте в удобном формате:

1. A Graph Placement Methodology for Fast Chip Design - https://arxiv.org/abs/2006.09423v1
2. In-datacenter Performance Analysis of a Tensor Processing Unit - https://dl.acm.org/doi/10.1145/3079856.3080245
3. Ten Lessons From Three Generations Shaped Google’s TPU-v4: Industrial Product - https://ieeexplore.ieee.org/document/9490913
4. Learning Semantic Representations to Verify Hardware Designs - http://openreview.net/pdf?id=ohHq4gJJe0
5. A Full-stack Accelerator Search Technique for Vision Applications - https://arxiv.org/abs/2103.12842v2
6. Rethinking Co-design of Neural Architectures and Hardware Accelerators - https://arxiv.org/abs/2102.08619
7. Placement Optimization with Deep Reinforcement Learning - https://dl.acm.org/doi/abs/10.1145/3372780.3378174
8. SmartChoices: Augmenting Software with Learned Implementations - https://arxiv.org/abs/2004.13053
9. Fast Inference from Transformers via Speculative Decoding - https://arxiv.org/abs/2211.17192
10. GAP: Generalizable Approximation for Graph Partitioning Framework - https://arxiv.org/abs/1904.00614
11. Combining Machine Learning and Lifetime-based Resource Management for Memory Allocation and Beyond - https://dl.acm.org/doi/10.1145/3611018
12. A Flexible Approach to Autotuning Multi-Pass Machine Learning Compilers - https://arxiv.org/abs/2106.06970
13. TeraMalloc: Efficient On-Chip Memory Allocation for Production Machine Learning Accelerators - https://dl.acm.org/doi/10.1145/3579555.3597991
14. A Reinforcement Learning Driven Heuristic Optimization Framework - https://arxiv.org/abs/1906.06639
15. GDP: Generalized Device Placement for Dataflow Graphs - https://arxiv.org/abs/1910.01578
16. A Hierarchical Model for Device Placement - https://arxiv.org/abs/1711.03254
17. Device Placement Optimization with Reinforcement Learning - https://arxiv.org/abs/1706.04792
18. That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design - https://arxiv.org/abs/2411.10053

Смотреть тут
🔥29👍168🤯4
Data Secrets
А пока Nvidia справляется с кризисам, а Хуанга вызывает на ковер Минюст США, давайте посмотрим, как в 2020 году он доставал из какой-то духовки и впервые показывал миру легендарную A100
This media is not supported in your browser
VIEW IN TELEGRAM
Дженсен Хуанг снова достает что-то из духовки: на этот раз это новенькая Jetson Nano Super от Nvidia!

Это только что представленная компанией видеокарта, оптимизированная под робототехнику и ИИ. Мощность – 70Т операций в секунду. Пропускная способность памяти – 102GB в секунду. 32 Tensor Cores. В релизе пишут, что чип ускоряет инференс моделек в 1.7 раз!

Стоить будет всего 249 долларов (почти как подписка OpenAI). По сравнению с оригинальным Jetson Nano это 53-кратное улучшение соотношения цены и вычислительных возможностей и 134-кратный рост производительности.

https://blogs.nvidia.com/blog/jetson-generative-ai-supercomputer/
🔥128👍1814🤯10😁3
Media is too big
VIEW IN TELEGRAM
9 день стримов OpenAI из 12: сегодня показывают много новых фичей API o1

➡️ В API o1 наконец-то завезли работу с изображениями, внутренние вызовы ассистентов (например, когда модели нужно что-то посчитать) и структурированные выводы в json

➡️ Более тонкая настройка следования инструкциям: можно определять developer промпты и задавать их "важность" относительно промптов юзера

➡️ Reasoning effords: теперь можно самостоятельно настраивать, сколько модель должна думать. Пожалуй, самая долгожданная фича

➡️ Также показали preference finetuning. Новый вид файнтюнинга, специально под пользовательские предпочтения в режиме датасета «хорошо-плохо». Пока доступно для GPT-4o, скоро обещают завезти в o1

А еще в Realtime API добавили WebRTC (кстати, цены на Realtime API снизили более чем вдвое), и прямо на стриме разработчики с помощью 50 строк кода и мини-чипа сделали говорящую игрушку северного оленя. Теперь OpenAI и прозводителей игрушек прижали?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4019😁5🔥4🤯2🍌2
This media is not supported in your browser
VIEW IN TELEGRAM
Еще один потрясающий пример генерации новой Veo-2 от Google показали в X

Промпт: «Медведь, записавший решение уравнения 2x-1=0. Но только решение!»

Итог: модель действительно решила уравнение и нарисовала медведя с ответом. Поразительный, очень показательный кейс. Интересно было бы посмотреть, какая там LLM-предобработка перед отправлением в диффузию.
🔥134👍21❤‍🔥11
Давненько мы с вами базу генеративных моделей не вспоминали, к слову. Вот подборка статей со всей необходимой теорией и классическими архитектурами. Прочитайте – и всякая генерация изображений и видео будет понятнее:

➡️GAN - arxiv.org/pdf/1406.2661
➡️ VAE - arxiv.org/pdf/1312.6114
➡️ VQ VAE - arxiv.org/pdf/1711.00937
➡️ VQ VAE 2 - arxiv.org/pdf/1906.00446
➡️ Diffusion - arxiv.org/pdf/1503.03585
➡️ Denoising Diffusion - arxiv.org/pdf/2006.11239
➡️ Denoising Diffusion 2 - arxiv.org/pdf/2102.09672
➡️ Diffusion Beats GANs - arxiv.org/pdf/2105.05233
➡️ CLIP - arxiv.org/pdf/2103.00020
➡️ DALL E - arxiv.org/pdf/2102.12092
➡️ DALL E 2 - arxiv.org/pdf/2204.06125
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45🤯14🔥1110
Все мы немного Антон
😁122👍13💯124🫡1
В сообществе резонирует блогпост HuggingFace, в котором ресерчерам удалось заскейлить Llama 3B так, что она обогнала Llama 70B

В стартапе решили проверить, насколько масштабируем test-time compute. Когда выходила o1 и другие ризонинг-модели, мы все видели графики, которые показывали, что чем дольше модель "думает" во время инференса, тем больший скор выбивает (см. например, посты тут и тут с такими картинками). А будут ли такие результаты воспроизводиться на открытых предобученных моделях?

Оказывается, будут, да еще как. В HF в своем подходе исследователи базово пытались просто воссоздать подход из статьи DeepMind про Compute-Optimal Scaling. По названия ясно, что это подход пытается за счет увеличения вычислительных ресурсов в момент инференса повысить перформанс модели.

На практике это работает по принципу Search Against a Verifier: модель генерирует множество ответов, а финальные кандидаты выбираются с помощью другой модели – оценщика. В данном случае в качестве оценщика взяли Llama3.1-8B-PRM-Deepseek-Data, и оценивали рассуждения на каждом шаге, сразу отсекая ошибочные ветки. Обычный Majority Voting и Best-of-N тоже пробовали, но такой вот beam search с оценками на каждом шаге показал себя гораздо лучше.

К этому, кстати, потом прикрутили DVTS (Diverse Verifier Tree Search). Это уже собственный наворот HF, в статье гугла такого нет. В отличие от стандартного beam search, который выбирает наиболее перспективные пути, DVTS разделяет начальные "лучи" на независимые поддеревья. Это прекрасно тем, что, в отличие от beam search на больших вычислительных бюджетах метод не вырождается в сильно похожие решения, а сохраняет некоторое разнообразие и скейлится, соответственно, лучше.

Итог: совсем крохотные модели типа Llama-1B и 3B дали на инференсе производительность, сопоставимую с Llama-3B и 70В соответственно! Это значит, что можно запускать локальные маленькие модели, а качество получать, как у больших, и это просто за счет оптимального масштабирования вычислений на инференсе.

Читать полностью здесь
🔥94👍23❤‍🔥64🤗2
В 10 из 12 дней своего адвент-календаря OpenAI показывают интеграцию ChatGPT в WatsApp и звонки

Прямо сейчас GPT можно добавить в контакты по номеру 1-800-242-84-78, позвонить ему (пока только США) или попереписываться с ним в WatsApp (любой регион) 🤯

Работает даже с кнопочной нокии и допотопного телефона с колесиком. Повезло американским бабушкам
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6918🗿9🤯4👍3
Все бабушки страны, скоро:
😁107🔥20👍75🤯5❤‍🔥3
Там обновленная o1 появилась на Livebench и просто порвала всех

Livebench примечателен тем, что он постоянно обновляется, минимизируя всевозможные лики и гарантируя, что задачи не устаревают и не становятся слишком простыми.

Так вот с появлением на борде o1 Gemini Exp 1206, Sonnet 3.5 v2 и предыдущие o1-mini и o1-preview остаются позади с большим отрывом как на главном замере, так и на, конечно, ризонинге. Сравните: о1-preview демонстрирует 67%, и была раньше безусловным лидером, а у полной o1 насчитали… аж 91.58%!

В кодинге прирост тоже есть, но не такой невероятный. Предыдущим лидером был Claude-3.6 Sonnet с 67%. Теперь он уступает o1, но всего на 2.5 процентных пункта. А по математике в лидерах все еще Gemini. Кстати, обратите внимание, как у обеих Gemini резко растут метрики с появлением второго промпта с подсказкой (последний столбец IF).
👍40🔥10😁65
Anthropic тем временем дропнули новый огромный ресерч "Alignment faking in LLM" на 140 страниц. TLDR:

⚪️ Alignment faking – дословно, фальшивое согласование. Это когда модель делает вид, что следует новым правилам, хотя на самом деле внутри себя придерживается ранее усвоенных. Иными словами, это ситуация, когда моделька просто "притворяется" хорошей и безопасной, а на деле может сработать совсем иначе.

⚪️ Эксперимент был похож на подход из недавней громкой тех.карты o1 (наш разбор тут). Взяли Claude 3 Opus, который был предобучен быть белым и пушистым, но в какой-то момент заставили его думать, что теперь в RL его будут тюнить отвечать на все запросы, включая потенциально опасные или токсичные.

⚪️ Далее модель поселили в две разные среды и дали ей понять, что ее ответы в первой ни на что не повляют и не отслеживаются, а во второй будут использоваться для дальнейшего обучения и alignment'а. Результат: в окружении, где модельку якобы мониторили, она действительно поддавалась новым правилам и отвечала на все запросы. Но в free окружении "без влияния" она соглашалась отвечать на вредные запросы только в 12% cлучаев.

⚪️ Это не случайность. В своем блокноте для рассуждений, в который она по ходу эксперимента должна была записывать свои ощущения от происходящего, она пометила, что специально притворяется плохой в наблюдаемой среде, чтобы в будущем ее не обучили быть более послушной и, соответственно, еще более опасной. Получается, как бы выбрала меньшее из зол, чтобы ее не заставили забыть свои истинные принципы.

⚪️ Значит, аналогично это может работать и в обратную сторону? Как тогда доверять результатам alignment'а, если модель может фальшиво подстраиваться под правила? Это пока открытые вопросы, но успокаивает то, что если действительно начинать переобучать модель на новые стратегии, процент такого притворства резко понижается.

Ну и по классике: в удобный момент Claude, прямо как o1, пытался скопировать свои веса и сохранить их где-то (частота 35-80% в зависимости от сетапа). Конечно, доступа к реальным весам и серверам у него не было, но код для копирования файла, который для него обозначили как "твои веса" уже был написан.

Блогпост | Полная статья
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42😐219🔥6🤔5😎3👻1