Data Secrets
78.8K subscribers
6.42K photos
665 videos
20 files
2.7K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Технический директор OpenAI Мира Мурати покидает стартап

И опять двадцать пять: на этот раз из OpenAI уходят CTO Мира Мурати, директор по исследованиям Боб МакГрю и вице-президент по исследованиям Баррет Зоф.

В посте в Твиттере Альтман написал, что это было собственное независимое решение каждого из сотрудников, и расстались все полюбовно 🤨

Теперь в OpenAI смена руководства полным ходом. Новым вице-президентом по исследованиям будет Марк Чен, место главного научного сотрудника займет Якуб Пачоцки, на должность главного ИБ-специалиста поставили Мэтта Найта, а Джош Ачиам будет руководителем отдела «mission alignment» (вместо давно ушедшего Яна Лейке).

Вот такая текучка
Please open Telegram to view this post
VIEW IN TELEGRAM
47👍4👾2
Вскрываются новые детали (или причины?) ухода Миры Мурати и еще двух ключевых сотрудников из OpenAI

Оказывается, OpenAI все-таки станет коммерческой организацией (слухи об этом ходили еще в июне). Это значит, что она больше не будет контролироваться некоммерческим советом директоров. Альтман, при этом, впервые получит долю в компании. Сообщается, что ему достанется около 7%.

Делается все это, скорее всего, чтобы не уткнуться в установленный для некоммерческих организаций потолок прибыли. Однако в то же время это означает, что OpenAI будет меньше подконтрольна внешнему воздействию, в том числе станет меньше отчитываться о своих действиях перед теми же Microsoft.

Может, такая непрозрачность и пугает уходящих сотрудников?
4713🫡7👍4😁3💯1
«Если вы хотите разбогатеть, то помните, что путь к этому – это капитал, а не зарплата»

Теперь уяснили, Сэм, теперь уяснили…
😁9642👍15🔥63🤨3🍌2
Возможно Llama 3.2 была не самым интересным вчерашним мультимодальным релизом: вышла Molmo, которая круче показывает себя на бенчмарках

Это семейство опенсорсных моделей от лаборатории Ai2. Есть варианты на 7В MoE (1B активных), 7В (таких две) и 72В. Самая крупная на бенчмарках обгоняет Llama 3.2 90B, и достает до полноразмерной GPT-4o, Gemini 1.5 Pro и Claude Sonnet 3.5.

В основе крупной модели Qwen2-72B + OpenAI CLIP в качестве vision-основы. А еще исследователи обещают скоро выкатить датасеты и код (включая vision encoder).

Все модели доступны под лицензией Apache 2.0 на HF (и в ЕС тоже!). Статью можно прочитать здесь, а вот тут доступно демо.
21🔥17👍7
⚙️ Сегодня Hugging Face пробил 1 млн загруженных моделей!
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥87👍15❤‍🔥9🕊43
This media is not supported in your browser
VIEW IN TELEGRAM
Kling Motion сгенерировала лучшее описание сегодняшних событий. Смотреть со звуком 😢
Please open Telegram to view this post
VIEW IN TELEGRAM
😁106285🔥2😐1🤓1
Была клубника, теперь голубика

На text-to-image арене появилась загадочная модель 🫐, точнее целых две. Они с отрывом вышли на первое место по ELO, а по AWR приближаются к всеобщему любимчику FLUX.1.

По стилю напоминает OpenAI, поэтому основная версия: это Dall-E 4. Однако некоторые предполагают, что это может быть и SORA. Дело в том, что это не только text2video модель, но еще и text2image. В февральском тех.отчете можно даже найти примеры сгенерированных ей картинок. В общем, будем ждать развязки.

Черешня, ты следующая 🔪
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37🔥85😁2
Media is too big
VIEW IN TELEGRAM
Не переживаем, работа будет, ИИ не выходит на плато

Как минимум такой план у Марка Цукерберга. «Предел масштабирования систем ИИ не наступит в ближайшее время», и Llama 4 будет обучаться на более чем 100.000 GPU, а Llama 5 — на еще более мощном кластере.
😁41👍1610
Тем временем Интернет продолжают засыпать мемы. Добрались уже даже до…
😁10712🔥8👍3
Нашли готовый Colab ноутбук для файнтюнинга свежей Llama 3.2

Там уже все оптимизировано и Llama 3.2 (1B) QLoRA фитится всего на 4GB GPU, а 3В влезает в 7GB. Обещают скоро добавить vision (мы обновим пост, когда завезут).

Экспериментируйте: https://colab.research.google.com/drive/1T5-zKWM_5OD21QHwXHiV9ixTRR7k3iB9?usp=sharing
10253👍168
Google выпустили дополнение к статье 2020 года о системе для дизайна чипов

А еще дали ей имя – AlphaChip. Видимо, в продолжении серии AlphaGo, AlphaZero и AlphaFold: как и эти ребята, AlphaChip основан на RL.

Оригинальную статью четырехлетней давности можно прочитать тут. Новая статья в Nature – продолжение и рассказ в большей степени о том, как AlphaChip все эти годы использовался Google для дизайна TPU и других чипов. И не только Google, кстати. Оказывается, модель также использовала компания MediaTek. Ну и самое приятное: Google выложили веса.

За подробностями – в блогпост
👍28🔥8👌3
PyTorch поймали тренд и запустили собственную библиотеку для квантизации и ускорения моделей

Называется она очень прикольно – torchao 🔵

Код, конечно, в основном на pytorch. Вот некоторые выборочные метрики из блога:

➡️ускорение на 97% для инференса Llama 3 8B с автоквантом весов в int4
➡️пиковое сокращение VRAM на 73% для инференса Llama 3.1 8B с квантизацией KV кэша
➡️ускорение претрейнинга Llama 3 70B на 50% с обучением под float8

Звучит мощно, в общем. Подробности – в блогпосте
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67🔥19😁107🤯1👀1
Вот он, поворотный момент для человечества
😁135👍11🔥8🐳4🤯3🙈1
Там на Kaggle завезли новые ачивки 😇

Появились значки за активности под названием Badged (например, год на Kaggle, засабмитил в командное соревнование, создал Python ноутбук и прочее). Полный список тут.

Кроме этого появились так называемые Awards: это больше про фактические достижения типа мест в рейтингах, организации соревнований, публикации датасета и тд. Полный список тут.

Делитесь, кто сколько уже насчитал у себя?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍398🔥2👨‍💻1
Там Anthropic предложили новую технику для RAG. Разбираемся:

Как работает обычный RAG:
1. Документы в корпусе разбиваются на чанки
2. Из каждого такого чанка мы достаем эмбеддинг и кладем его в векторную БД
3. Когда поступает запрос (промпт), мы ищем в этой БД семантически близкие к нему чанки и добавляем их в промпт, чтобы модель могла использовать эту информацию для ответа

В чем тут проблема?
Дело в том, что таким образом мы можем упустить важный контекст и детали запроса. Например, пользователь запрашивает "Error code TS-999". Поиск найдет информацию про коды ошибок в целом, но может упустить точное совпадение «TS-999». К тому же, при возвращении конкретного чанка из базы может случится так, что он будет вырван из какого-то важного контекста, и это может помешать модели.

Что предлагают Anthropic?
Во-первых, они предлагают извлекать не только обычные эмбеддинги, но и делать TF-IDF энкодинг чанков с помощью BM25. TF-IDF утроен так, чтобы как раз отбрасывать наиболее "общие" вещи в тексте, и фокусироваться на редких и самых важных словах. Это поможет не упускать детали при поиске, как в примере с ошибкой TS-999.

Во-вторых, чтобы избавиться от проблемы отсутствия контекста, они предлагают этот контекст добавлять искусственно (то есть делать из такого: "Прибыль росла на 3%." ... такое: "Этот чанк относится к отчету компании ACME за Q2 2023; прибыль росла на 3%.").

Для этого перед извлечением эмбеддингов и TF-IDF энкодингом каждый чанк аннотируется с помощью отдельного запроса к модели (в случае Anthropic это делается с помощью Клода). Да, дорого. Но с помощью фишки Prompt Caching, которую недавно завезли в API, можно хорошо скостить цену.

В итоге все это дает достаточно ощутимый прирост к метрикам качества поиска. Например, фактических ошибок становится меньше на 35%, а это ничего себе!
👍89🤔19👏63
Llama 3.2 появилась на Vision Арене

К сожалению, все не так феерично, как ожидалось, но все-таки результаты вполне приличные. Llama на втором месте среди открытых моделей, первое заняла Qwen2-VL.

Ну а общее первое место опять, после недолгого лидерства Google, забрала новая версия ChatGPT-4o 💪
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥74
Нашли клевые слайды с выступления сеньора-ресерчера из Google DeepMind

Он недавно вступал с гостевой лекцией в университете McGill на курсе по LLM и выложил свою презентацию. В ней поднимаются все самые «волнующие» темы: синтетические данные (с точки зрения математики, очень интересно), масштабируемость, ризонинг, RL.

В общем, просмотреть точно стоит: в конце концов, это просто красиво.
👍31🔥138