Data Secrets
78.8K subscribers
6.42K photos
665 videos
20 files
2.7K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Вот он, поворотный момент для человечества
😁135👍11🔥8🐳4🤯3🙈1
Там на Kaggle завезли новые ачивки 😇

Появились значки за активности под названием Badged (например, год на Kaggle, засабмитил в командное соревнование, создал Python ноутбук и прочее). Полный список тут.

Кроме этого появились так называемые Awards: это больше про фактические достижения типа мест в рейтингах, организации соревнований, публикации датасета и тд. Полный список тут.

Делитесь, кто сколько уже насчитал у себя?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍398🔥2👨‍💻1
Там Anthropic предложили новую технику для RAG. Разбираемся:

Как работает обычный RAG:
1. Документы в корпусе разбиваются на чанки
2. Из каждого такого чанка мы достаем эмбеддинг и кладем его в векторную БД
3. Когда поступает запрос (промпт), мы ищем в этой БД семантически близкие к нему чанки и добавляем их в промпт, чтобы модель могла использовать эту информацию для ответа

В чем тут проблема?
Дело в том, что таким образом мы можем упустить важный контекст и детали запроса. Например, пользователь запрашивает "Error code TS-999". Поиск найдет информацию про коды ошибок в целом, но может упустить точное совпадение «TS-999». К тому же, при возвращении конкретного чанка из базы может случится так, что он будет вырван из какого-то важного контекста, и это может помешать модели.

Что предлагают Anthropic?
Во-первых, они предлагают извлекать не только обычные эмбеддинги, но и делать TF-IDF энкодинг чанков с помощью BM25. TF-IDF утроен так, чтобы как раз отбрасывать наиболее "общие" вещи в тексте, и фокусироваться на редких и самых важных словах. Это поможет не упускать детали при поиске, как в примере с ошибкой TS-999.

Во-вторых, чтобы избавиться от проблемы отсутствия контекста, они предлагают этот контекст добавлять искусственно (то есть делать из такого: "Прибыль росла на 3%." ... такое: "Этот чанк относится к отчету компании ACME за Q2 2023; прибыль росла на 3%.").

Для этого перед извлечением эмбеддингов и TF-IDF энкодингом каждый чанк аннотируется с помощью отдельного запроса к модели (в случае Anthropic это делается с помощью Клода). Да, дорого. Но с помощью фишки Prompt Caching, которую недавно завезли в API, можно хорошо скостить цену.

В итоге все это дает достаточно ощутимый прирост к метрикам качества поиска. Например, фактических ошибок становится меньше на 35%, а это ничего себе!
👍89🤔19👏63
Llama 3.2 появилась на Vision Арене

К сожалению, все не так феерично, как ожидалось, но все-таки результаты вполне приличные. Llama на втором месте среди открытых моделей, первое заняла Qwen2-VL.

Ну а общее первое место опять, после недолгого лидерства Google, забрала новая версия ChatGPT-4o 💪
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥74
Нашли клевые слайды с выступления сеньора-ресерчера из Google DeepMind

Он недавно вступал с гостевой лекцией в университете McGill на курсе по LLM и выложил свою презентацию. В ней поднимаются все самые «волнующие» темы: синтетические данные (с точки зрения математики, очень интересно), масштабируемость, ризонинг, RL.

В общем, просмотреть точно стоит: в конце концов, это просто красиво.
👍31🔥138
Все мы немного Артем 😭
Please open Telegram to view this post
VIEW IN TELEGRAM
😁15212🔥11🤔4👌32🤪2🐳1
Внезапно: губернатор Калифорнии все-таки не подписал закон о регуляции ИИ. Вместо этого он наложил на него вето

Причина: он считает закон недостаточно адаптивным, потому что в нем строгие стандарты применяются даже к самым базовым функциям, НО только для крупных моделей. При этом для моделей поменьше не учтены почти никакие нюансы. Подробнее о законопроекте мы писали тут.

«SB 1047 сосредоточен только на самых дорогих и масштабных моделях, хотя меньшие, специализированные
модели могут оказаться такими же или даже более опасными. Я согласен — мы не можем позволить себе ждать, пока произойдет крупная катастрофа. Калифорния не откажется от своей ответственности. Однако я не согласен, что для обеспечения общественной безопасности мы должны согласиться на решение, которое идет вразрез с эмпирическим анализом траектории развития ИИ.»


Вот так. Сам губернатор обещает внести «разумный» законопроект уже в течение года.
👍67🤔13🔥11🤨91😁1
Google добавили в Notebook LM возможность обработки YouTube видео

Notebook LM – это тот самый инструмент от Google, который может превратить любой pdf в подкаст, объяснить любой текст (включая сайты по ссылке) и ответить на вопросы по нему.

Инструменту уже год, но его постоянно развивают: функцию с подкастами вот добавили меньше месяца назад. А теперь в подкаст или текстовую объяснялку/гайд можно превратить не только текст, но и видео/аудио.

Выглядит супер удобно и попробовать можно бесплатно.

P.S. Кстати буквально вчера на Hugging Face появился опенсорс аналог Notebook LM на основе Llama 3.1. С видео пока не работает, но c PDF-to-podcast справляется вроде неплохо.
🔥34👍157❤‍🔥2😁2
Media is too big
VIEW IN TELEGRAM
Замкнутый круг by Дженсен Хуанг: CEO Nvidia сказал, что нам потребуются AI агенты, чтобы противостоять темной стороне AI агентов

Мысль вот в чем: AI будет производить фейки и взламывать ресурсы с нечеловеческой скоростью, поэтому справиться с этим люди не смогут сами, и им понадобятся другие "добрые" ИИ. "Это похоже на белых хакеров", – говорит Хуанг.

И кстати, вы заметили, что в этот раз он не в своей кожанке? Может это уже не он, а его AI копия? 😅
Please open Telegram to view this post
VIEW IN TELEGRAM
😁115👍13🎃74🤩1
⚡️ Google DeepMind выпустили работу про самоисправление моделей с помощью RL (в стиле o1)

Они разработали систему под названием SCoRe (Self-Correction via Reinforcement Learning). SCoRe работает как бы в два этапа:

1. Учится генерировать first try, исправления и second try. При этом используется специальный лосс, учитывающий и качество самих ответов, и качество критики. Получается своеобразный претрейн.
2. На втором этапе подключается multi-stage reinforcement learning. Тут лосс (с помощью регуляризации) больше поощряет существенные улучшения между first try и second try.

При этом учится SCoRe только на сгенерированных данных: это сделано специально, чтобы избежать проблемы разницы распределений в генерациях и трейне. Это, кстати, одна из причин того, что обычный файнтюнинг перформит не так хорошо, как хотелось бы.

Итог: SCoRe существенно улучшил self-correction гугловских моделей на бенчмарках. Например, на HumanEval случился скачок на 9,1 пп, а на MATH – на целых 16.

Статья полностью лежит тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37🤯159🔥4
Как вам такая литература?
😁199🔥30👍20😎99🤔2🕊2
OpenAI неожиданно вспомнили молодость и опенсорснули третью версию whisper (типа «смотрите, все еще open») 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8938👍9🌚53😁2
Liquid AI представили новое семейство моделей с оригальной архитектурой: они выбивают SOTA метрики в своих классах

Самое интересное: это НЕ трансформеры, а так называемые ликвидные сети. Ликвидными (то есть жидкими) их называют потому, что, в отличие от обычных нейросетей, где веса – это просто числа, в ликвидных моделях веса вообще может не быть: здесь обмен сигналами между нейронами — вероятностный процесс, управляемый нелинейной функцией. Такие подходят для моделирования любых последовательных данных, включая видео, аудио, текст, временные ряды и сигналы.

Всего доступно три модели: 1.3B, 3.1B, 40.3B MoE. Все они, судя по бенчмаркам в релизе, показывают себя очень неплохо, особенно на математике и длинном контексте. На схеме наверху – метрики по MMLU, а более детально можно посмотреть здесь. Если все действительно так, как представлено, то перед нами очень многообещающая альтернатива трансформерам (спойлер: r в "Strawberry" все равно посчитать не может).

Еще одна хорошая новость: модели уже можно попробовать. Они доступны в Liquid Playground и Perplexity Labs.

P.S. Если хотите почитать про архитуктуру подробнее, то вам сюда. По этой ссылке ресерчеры Liquid AI оставили упорядоченную подборку статей (собственных и не только) о том, как развивались ликвидные нейросети.
🔥65👍2012🤯4😎2
LMAO
😁170👍1310
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем в Сан-Франциско прямо сейчас проходит OpenAI DevDay. Вот что уже показали:

➡️ Realtime api с минимальной задержкой. Это возможность встроить в свое приложение настоящий speech-to-speech. Будет доступно по цене базовой модели.

➡️ Vision файнтюнинг. Теперь можно тюнить свои модели с использованием изображений.

➡️ Завозят набор инструментов для кастомных дистилляций и ускорения моделей.

➡️ Finally: кэширование промптов, которое уже давно появилось у DeepSeek и Anthropic. На кэшированные промпты цена будет в половину меньше.

➡️ Интрумент для оценки моделей: можно будет нормально эвалить свои приложения.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥1211🤯3
Ой как неожиданно и приятно: бесплатные аккаунты в ChatGPT на этой неделе получат доступ к Advanced Voice 🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1081512👍2😁2
OpenAI: проводит DevDay

Anthropic в тот же день: выпускает пресс-релиз о том, что нанимает бывшего ко-фаундера OpenAI Дюрка Кингма

Дюрк – один из наименее известных, но все-таки учредитель OpenAI. Теперь он присоединится к Anthropic. В своем посте в Твиттере он написал что «не может дождаться встречи с огромным количеством бывших коллег из OpenAI» 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
😁143❤‍🔥12👍1
Как работает новый Prompt Caching OpenAI

Краткий ликбез: Prompt Caching – штука, позволяющая кешировать промпты, которые используются часто, а не кормить их модели заново при каждом запросе. Основная цель – понижать косты. Вчера OpenAI добавили его в свое API, а у Anthropic этой фичей можно пользоваться уже полтора месяца.

Однако, в отличие от Anthropic, у OpenAI запросы к моделям (это относится к GPT-4o, GPT-4o mini, o1-preview, o1-mini) будут кэшироваться автоматически. Экономия получается хорошая: можно скостить 50% затрат и 80% задержки ответов.

Разберемся, как этим пользоваться:

1) Чтобы у вас заработал Prompt Caching, запрос должен быть не короче 1024 токенов. Кстати, далее каждые 128 токенов размер максимально возможного кэша увеличивается.

2) Кроме того, кэширование заведется только если префиксы промптов, которые и будут кешироваться, совпадали идеально (фича ориентирована именно на какие-то системные промпты вашего приложения).

3) Система отправляет запросы на серверы, которые недавно обрабатывали идентичные запросы, и кэширует longest prefix. При этом кэш очищается через 5–10 минут бездействия, а максимальный срок хранения – 1 час.
🔥31👍117🤨4🤯1