Data Secrets – Telegram

Data Secrets

78.8K subscribers

6.42K photos

665 videos

20 files

2.7K links

Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN

Download Telegram

About

Blog

Apps

Platform

78.8K subscribers

Media is too big

VIEW IN TELEGRAM

Не переживаем, работа будет, ИИ не выходит на плато

Как минимум такой план у Марка Цукерберга. «Предел масштабирования систем ИИ не наступит в ближайшее время», и Llama 4 будет обучаться на более чем 100.000 GPU, а Llama 5 — на еще более мощном кластере.

😁41👍16⚡10

9.2K viewsedited 09:19

Тем временем Интернет продолжают засыпать мемы. Добрались уже даже до…

😁107❤12🔥8👍3

9.59K views11:51

Нашли готовый Colab ноутбук для файнтюнинга свежей Llama 3.2

Там уже все оптимизировано и Llama 3.2 (1B) QLoRA фитится всего на 4GB GPU, а 3В влезает в 7GB. Обещают скоро добавить vision (мы обновим пост, когда завезут).

Экспериментируйте: https://colab.research.google.com/drive/1T5-zKWM_5OD21QHwXHiV9ixTRR7k3iB9?usp=sharing

Llama-3.2 1B+3B Conversational + 2x faster finetuning.ipynb

102❤53👍16⚡8

12.1K views13:11

Google выпустили дополнение к статье 2020 года о системе для дизайна чипов

А еще дали ей имя – AlphaChip. Видимо, в продолжении серии AlphaGo, AlphaZero и AlphaFold: как и эти ребята, AlphaChip основан на RL.

Оригинальную статью четырехлетней давности можно прочитать тут. Новая статья в Nature – продолжение и рассказ в большей степени о том, как AlphaChip все эти годы использовался Google для дизайна TPU и других чипов. И не только Google, кстати. Оказывается, модель также использовала компания MediaTek. Ну и самое приятное: Google выложили веса.

За подробностями – в блогпост

👍28🔥8👌3

9.81K views15:06

PyTorch поймали тренд и запустили собственную библиотеку для квантизации и ускорения моделей

Называется она очень прикольно – torchao

🔵

Код, конечно, в основном на pytorch. Вот некоторые выборочные метрики из блога:

➡️ускорение на 97% для инференса Llama 3 8B с автоквантом весов в int4
➡️пиковое сокращение VRAM на 73% для инференса Llama 3.1 8B с квантизацией KV кэша
➡️ускорение претрейнинга Llama 3 70B на 50% с обучением под float8

Звучит мощно, в общем. Подробности – в блогпосте

Please open Telegram to view this post

VIEW IN TELEGRAM

👍67🔥19😁10❤7🤯1👀1

10.8K views07:51

Вот он, поворотный момент для человечества

😁135👍11🔥8🐳4🤯3🙈1

10.3K views09:40

Там на Kaggle завезли новые ачивки

😇

Появились значки за активности под названием Badged (например, год на Kaggle, засабмитил в командное соревнование, создал Python ноутбук и прочее). Полный список тут.

Кроме этого появились так называемые Awards: это больше про фактические достижения типа мест в рейтингах, организации соревнований, публикации датасета и тд. Полный список тут.

Делитесь, кто сколько уже насчитал у себя?

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍39❤8🔥2👨‍💻1

9.72K views11:53

Там Anthropic предложили новую технику для RAG. Разбираемся:

Как работает обычный RAG:
1. Документы в корпусе разбиваются на чанки
2. Из каждого такого чанка мы достаем эмбеддинг и кладем его в векторную БД
3. Когда поступает запрос (промпт), мы ищем в этой БД семантически близкие к нему чанки и добавляем их в промпт, чтобы модель могла использовать эту информацию для ответа

В чем тут проблема?
Дело в том, что таким образом мы можем упустить важный контекст и детали запроса. Например, пользователь запрашивает "Error code TS-999". Поиск найдет информацию про коды ошибок в целом, но может упустить точное совпадение «TS-999». К тому же, при возвращении конкретного чанка из базы может случится так, что он будет вырван из какого-то важного контекста, и это может помешать модели.

Что предлагают Anthropic?
Во-первых, они предлагают извлекать не только обычные эмбеддинги, но и делать TF-IDF энкодинг чанков с помощью BM25. TF-IDF утроен так, чтобы как раз отбрасывать наиболее "общие" вещи в тексте, и фокусироваться на редких и самых важных словах. Это поможет не упускать детали при поиске, как в примере с ошибкой TS-999.

Во-вторых, чтобы избавиться от проблемы отсутствия контекста, они предлагают этот контекст добавлять искусственно (то есть делать из такого: "Прибыль росла на 3%." ... такое: "Этот чанк относится к отчету компании ACME за Q2 2023; прибыль росла на 3%.").

Для этого перед извлечением эмбеддингов и TF-IDF энкодингом каждый чанк аннотируется с помощью отдельного запроса к модели (в случае Anthropic это делается с помощью Клода). Да, дорого. Но с помощью фишки Prompt Caching, которую недавно завезли в API, можно хорошо скостить цену.

В итоге все это дает достаточно ощутимый прирост к метрикам качества поиска. Например, фактических ошибок становится меньше на 35%, а это ничего себе!

👍89🤔19👏6❤3

12.7K viewsedited 15:41

Llama 3.2 появилась на Vision Арене

К сожалению, все не так феерично, как ожидалось, но все-таки результаты вполне приличные. Llama на втором месте среди открытых моделей, первое заняла Qwen2-VL.

Ну а общее первое место опять, после недолгого лидерства Google, забрала новая версия ChatGPT-4o 💪

Please open Telegram to view this post

VIEW IN TELEGRAM

👍31🔥7❤4

9.7K views07:57

Нашли клевые слайды с выступления сеньора-ресерчера из Google DeepMind

Он недавно вступал с гостевой лекцией в университете McGill на курсе по LLM и выложил свою презентацию. В ней поднимаются все самые «волнующие» темы: синтетические данные (с точки зрения математики, очень интересно), масштабируемость, ризонинг, RL.

В общем, просмотреть точно стоит: в конце концов, это просто красиво.

👍31🔥13❤8

11.5K views10:54

Forwarded from Data Secrets | Карьера

Все мы немного Артем 😭

Please open Telegram to view this post

VIEW IN TELEGRAM

😁152☃12🔥11🤔4👌3❤2🤪2🐳1

9.16K views14:38

Внезапно: губернатор Калифорнии все-таки не подписал закон о регуляции ИИ. Вместо этого он наложил на него вето

Причина: он считает закон недостаточно адаптивным, потому что в нем строгие стандарты применяются даже к самым базовым функциям, НО только для крупных моделей. При этом для моделей поменьше не учтены почти никакие нюансы. Подробнее о законопроекте мы писали тут.

«SB 1047 сосредоточен только на самых дорогих и масштабных моделях, хотя меньшие, специализированные
модели могут оказаться такими же или даже более опасными. Я согласен — мы не можем позволить себе ждать, пока произойдет крупная катастрофа. Калифорния не откажется от своей ответственности. Однако я не согласен, что для обеспечения общественной безопасности мы должны согласиться на решение, которое идет вразрез с эмпирическим анализом траектории развития ИИ.»

Вот так. Сам губернатор обещает внести «разумный» законопроект уже в течение года.

👍67🤔13🔥11🤨9❤1😁1

10.1K viewsedited 06:41

Google добавили в Notebook LM возможность обработки YouTube видео

Notebook LM – это тот самый инструмент от Google, который может превратить любой pdf в подкаст, объяснить любой текст (включая сайты по ссылке) и ответить на вопросы по нему.

Инструменту уже год, но его постоянно развивают: функцию с подкастами вот добавили меньше месяца назад. А теперь в подкаст или текстовую объяснялку/гайд можно превратить не только текст, но и видео/аудио.

Выглядит супер удобно и попробовать можно бесплатно.

P.S. Кстати буквально вчера на Hugging Face появился опенсорс аналог Notebook LM на основе Llama 3.1. С видео пока не работает, но c PDF-to-podcast справляется вроде неплохо.

🔥34👍15❤7❤‍🔥2😁2

10.5K views10:25

Media is too big

VIEW IN TELEGRAM

Замкнутый круг by Дженсен Хуанг: CEO Nvidia сказал, что нам потребуются AI агенты, чтобы противостоять темной стороне AI агентов

Мысль вот в чем: AI будет производить фейки и взламывать ресурсы с нечеловеческой скоростью, поэтому справиться с этим люди не смогут сами, и им понадобятся другие "добрые" ИИ. "Это похоже на белых хакеров", – говорит Хуанг.

И кстати, вы заметили, что в этот раз он не в своей кожанке? Может это уже не он, а его AI копия? 😅

Please open Telegram to view this post

VIEW IN TELEGRAM

😁115👍13🎃7❤4🤩1

10K views12:47

⚡️

Google DeepMind выпустили работу про самоисправление моделей с помощью RL (в стиле o1)

Они разработали систему под названием SCoRe (Self-Correction via Reinforcement Learning). SCoRe работает как бы в два этапа:

1. Учится генерировать first try, исправления и second try. При этом используется специальный лосс, учитывающий и качество самих ответов, и качество критики. Получается своеобразный претрейн.
2. На втором этапе подключается multi-stage reinforcement learning. Тут лосс (с помощью регуляризации) больше поощряет существенные улучшения между first try и second try.

При этом учится SCoRe только на сгенерированных данных: это сделано специально, чтобы избежать проблемы разницы распределений в генерациях и трейне. Это, кстати, одна из причин того, что обычный файнтюнинг перформит не так хорошо, как хотелось бы.

Итог: SCoRe существенно улучшил self-correction гугловских моделей на бенчмарках. Например, на HumanEval случился скачок на 9,1 пп, а на MATH – на целых 16.

Статья полностью лежит тут.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍37🤯15❤9🔥4

11.7K views15:34

Как вам такая литература?

😁199🔥30👍20😎99🤔2🕊2

11.6K views17:35

Замкнутый круг by Дженсен Хуанг: CEO Nvidia сказал, что нам потребуются AI агенты, чтобы противостоять темной стороне AI агентов Мысль вот в чем: AI будет производить фейки и взламывать ресурсы с нечеловеческой скоростью, поэтому справиться с этим люди не…

Просто визуализируем план человечества по мотивам вчерашнего интервью CEO Nvidia

😁151👍10🤯1🙈1

15.5K views05:40

OpenAI неожиданно вспомнили молодость и опенсорснули третью версию whisper (типа «смотрите, все еще open») 😐

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8938👍9🌚5❤3😁2

11.4K views09:19

Liquid AI представили новое семейство моделей с оригальной архитектурой: они выбивают SOTA метрики в своих классах

Самое интересное: это НЕ трансформеры, а так называемые ликвидные сети. Ликвидными (то есть жидкими) их называют потому, что, в отличие от обычных нейросетей, где веса – это просто числа, в ликвидных моделях веса вообще может не быть: здесь обмен сигналами между нейронами — вероятностный процесс, управляемый нелинейной функцией. Такие подходят для моделирования любых последовательных данных, включая видео, аудио, текст, временные ряды и сигналы.

Всего доступно три модели: 1.3B, 3.1B, 40.3B MoE. Все они, судя по бенчмаркам в релизе, показывают себя очень неплохо, особенно на математике и длинном контексте. На схеме наверху – метрики по MMLU, а более детально можно посмотреть здесь. Если все действительно так, как представлено, то перед нами очень многообещающая альтернатива трансформерам (спойлер: r в "Strawberry" все равно посчитать не может).

Еще одна хорошая новость: модели уже можно попробовать. Они доступны в Liquid Playground и Perplexity Labs.

P.S. Если хотите почитать про архитуктуру подробнее, то вам сюда. По этой ссылке ресерчеры Liquid AI оставили упорядоченную подборку статей (собственных и не только) о том, как развивались ликвидные нейросети.

🔥65👍20❤12🤯4😎2

12.4K views12:14

LMAO

😁170👍13❤10

9.85K views15:43