Технический директор OpenAI Мира Мурати покидает стартап
И опять двадцать пять: на этот раз из OpenAI уходят CTO Мира Мурати, директор по исследованиям Боб МакГрю и вице-президент по исследованиям Баррет Зоф.
В посте в Твиттере Альтман написал, что это было собственное независимое решение каждого из сотрудников, и расстались все полюбовно🤨
Теперь в OpenAI смена руководства полным ходом. Новым вице-президентом по исследованиям будет Марк Чен, место главного научного сотрудника займет Якуб Пачоцки, на должность главного ИБ-специалиста поставили Мэтта Найта, а Джош Ачиам будет руководителем отдела «mission alignment» (вместо давно ушедшего Яна Лейке).
Вот такая текучка
И опять двадцать пять: на этот раз из OpenAI уходят CTO Мира Мурати, директор по исследованиям Боб МакГрю и вице-президент по исследованиям Баррет Зоф.
В посте в Твиттере Альтман написал, что это было собственное независимое решение каждого из сотрудников, и расстались все полюбовно
Теперь в OpenAI смена руководства полным ходом. Новым вице-президентом по исследованиям будет Марк Чен, место главного научного сотрудника займет Якуб Пачоцки, на должность главного ИБ-специалиста поставили Мэтта Найта, а Джош Ачиам будет руководителем отдела «mission alignment» (вместо давно ушедшего Яна Лейке).
Вот такая текучка
Please open Telegram to view this post
VIEW IN TELEGRAM
Вскрываются новые детали (или причины?) ухода Миры Мурати и еще двух ключевых сотрудников из OpenAI
Оказывается, OpenAI все-таки станет коммерческой организацией (слухи об этом ходили еще в июне). Это значит, что она больше не будет контролироваться некоммерческим советом директоров. Альтман, при этом, впервые получит долю в компании. Сообщается, что ему достанется около 7%.
Делается все это, скорее всего, чтобы не уткнуться в установленный для некоммерческих организаций потолок прибыли. Однако в то же время это означает, что OpenAI будет меньше подконтрольна внешнему воздействию, в том числе станет меньше отчитываться о своих действиях перед теми же Microsoft.
Может, такая непрозрачность и пугает уходящих сотрудников?
Оказывается, OpenAI все-таки станет коммерческой организацией (слухи об этом ходили еще в июне). Это значит, что она больше не будет контролироваться некоммерческим советом директоров. Альтман, при этом, впервые получит долю в компании. Сообщается, что ему достанется около 7%.
Делается все это, скорее всего, чтобы не уткнуться в установленный для некоммерческих организаций потолок прибыли. Однако в то же время это означает, что OpenAI будет меньше подконтрольна внешнему воздействию, в том числе станет меньше отчитываться о своих действиях перед теми же Microsoft.
Может, такая непрозрачность и пугает уходящих сотрудников?
Возможно Llama 3.2 была не самым интересным вчерашним мультимодальным релизом: вышла Molmo, которая круче показывает себя на бенчмарках
Это семейство опенсорсных моделей от лаборатории Ai2. Есть варианты на 7В MoE (1B активных), 7В (таких две) и 72В. Самая крупная на бенчмарках обгоняет Llama 3.2 90B, и достает до полноразмерной GPT-4o, Gemini 1.5 Pro и Claude Sonnet 3.5.
В основе крупной модели Qwen2-72B + OpenAI CLIP в качестве vision-основы. А еще исследователи обещают скоро выкатить датасеты и код (включая vision encoder).
Все модели доступны под лицензией Apache 2.0 на HF (и в ЕС тоже!). Статью можно прочитать здесь, а вот тут доступно демо.
Это семейство опенсорсных моделей от лаборатории Ai2. Есть варианты на 7В MoE (1B активных), 7В (таких две) и 72В. Самая крупная на бенчмарках обгоняет Llama 3.2 90B, и достает до полноразмерной GPT-4o, Gemini 1.5 Pro и Claude Sonnet 3.5.
В основе крупной модели Qwen2-72B + OpenAI CLIP в качестве vision-основы. А еще исследователи обещают скоро выкатить датасеты и код (включая vision encoder).
Все модели доступны под лицензией Apache 2.0 на HF (и в ЕС тоже!). Статью можно прочитать здесь, а вот тут доступно демо.
❤21🔥17👍7
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥87👍15❤🔥9🕊4❤3
This media is not supported in your browser
VIEW IN TELEGRAM
Kling Motion сгенерировала лучшее описание сегодняшних событий. Смотреть со звуком 😢
Please open Telegram to view this post
VIEW IN TELEGRAM
😁106 28❤5🔥2😐1🤓1
Была клубника, теперь голубика
На text-to-image арене появилась загадочная модель 🫐, точнее целых две. Они с отрывом вышли на первое место по ELO, а по AWR приближаются к всеобщему любимчику FLUX.1.
По стилю напоминает OpenAI, поэтому основная версия: это Dall-E 4. Однако некоторые предполагают, что это может быть и SORA. Дело в том, что это не только text2video модель, но еще и text2image. В февральском тех.отчете можно даже найти примеры сгенерированных ей картинок. В общем, будем ждать развязки.
Черешня, ты следующая🔪
На text-to-image арене появилась загадочная модель 🫐, точнее целых две. Они с отрывом вышли на первое место по ELO, а по AWR приближаются к всеобщему любимчику FLUX.1.
По стилю напоминает OpenAI, поэтому основная версия: это Dall-E 4. Однако некоторые предполагают, что это может быть и SORA. Дело в том, что это не только text2video модель, но еще и text2image. В февральском тех.отчете можно даже найти примеры сгенерированных ей картинок. В общем, будем ждать развязки.
Черешня, ты следующая
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37🔥8❤5😁2
Media is too big
VIEW IN TELEGRAM
Не переживаем, работа будет, ИИ не выходит на плато
Как минимум такой план у Марка Цукерберга. «Предел масштабирования систем ИИ не наступит в ближайшее время», и Llama 4 будет обучаться на более чем 100.000 GPU, а Llama 5 — на еще более мощном кластере.
Как минимум такой план у Марка Цукерберга. «Предел масштабирования систем ИИ не наступит в ближайшее время», и Llama 4 будет обучаться на более чем 100.000 GPU, а Llama 5 — на еще более мощном кластере.
😁41👍16⚡10
Нашли готовый Colab ноутбук для файнтюнинга свежей Llama 3.2
Там уже все оптимизировано и Llama 3.2 (1B) QLoRA фитится всего на 4GB GPU, а 3В влезает в 7GB. Обещают скоро добавить vision (мы обновим пост, когда завезут).
Экспериментируйте: https://colab.research.google.com/drive/1T5-zKWM_5OD21QHwXHiV9ixTRR7k3iB9?usp=sharing
Там уже все оптимизировано и Llama 3.2 (1B) QLoRA фитится всего на 4GB GPU, а 3В влезает в 7GB. Обещают скоро добавить vision (мы обновим пост, когда завезут).
Экспериментируйте: https://colab.research.google.com/drive/1T5-zKWM_5OD21QHwXHiV9ixTRR7k3iB9?usp=sharing
Google
Llama-3.2 1B+3B Conversational + 2x faster finetuning.ipynb
Colab notebook
102❤53👍16⚡8
Google выпустили дополнение к статье 2020 года о системе для дизайна чипов
А еще дали ей имя – AlphaChip. Видимо, в продолжении серии AlphaGo, AlphaZero и AlphaFold: как и эти ребята, AlphaChip основан на RL.
Оригинальную статью четырехлетней давности можно прочитать тут. Новая статья в Nature – продолжение и рассказ в большей степени о том, как AlphaChip все эти годы использовался Google для дизайна TPU и других чипов. И не только Google, кстати. Оказывается, модель также использовала компания MediaTek. Ну и самое приятное: Google выложили веса.
За подробностями – в блогпост
А еще дали ей имя – AlphaChip. Видимо, в продолжении серии AlphaGo, AlphaZero и AlphaFold: как и эти ребята, AlphaChip основан на RL.
Оригинальную статью четырехлетней давности можно прочитать тут. Новая статья в Nature – продолжение и рассказ в большей степени о том, как AlphaChip все эти годы использовался Google для дизайна TPU и других чипов. И не только Google, кстати. Оказывается, модель также использовала компания MediaTek. Ну и самое приятное: Google выложили веса.
За подробностями – в блогпост
👍28🔥8👌3
PyTorch поймали тренд и запустили собственную библиотеку для квантизации и ускорения моделей
Называется она очень прикольно – torchao🔵
Код, конечно, в основном на pytorch. Вот некоторые выборочные метрики из блога:
➡️ ускорение на 97% для инференса Llama 3 8B с автоквантом весов в int4
➡️ пиковое сокращение VRAM на 73% для инференса Llama 3.1 8B с квантизацией KV кэша
➡️ ускорение претрейнинга Llama 3 70B на 50% с обучением под float8
Звучит мощно, в общем. Подробности – в блогпосте
Называется она очень прикольно – torchao
Код, конечно, в основном на pytorch. Вот некоторые выборочные метрики из блога:
Звучит мощно, в общем. Подробности – в блогпосте
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67🔥19😁10❤7🤯1👀1
Там на Kaggle завезли новые ачивки 😇
Появились значки за активности под названием Badged (например, год на Kaggle, засабмитил в командное соревнование, создал Python ноутбук и прочее). Полный список тут.
Кроме этого появились так называемые Awards: это больше про фактические достижения типа мест в рейтингах, организации соревнований, публикации датасета и тд. Полный список тут.
Делитесь, кто сколько уже насчитал у себя?
Появились значки за активности под названием Badged (например, год на Kaggle, засабмитил в командное соревнование, создал Python ноутбук и прочее). Полный список тут.
Кроме этого появились так называемые Awards: это больше про фактические достижения типа мест в рейтингах, организации соревнований, публикации датасета и тд. Полный список тут.
Делитесь, кто сколько уже насчитал у себя?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39❤8🔥2👨💻1
Там Anthropic предложили новую технику для RAG. Разбираемся:
Как работает обычный RAG:
1. Документы в корпусе разбиваются на чанки
2. Из каждого такого чанка мы достаем эмбеддинг и кладем его в векторную БД
3. Когда поступает запрос (промпт), мы ищем в этой БД семантически близкие к нему чанки и добавляем их в промпт, чтобы модель могла использовать эту информацию для ответа
В чем тут проблема?
Дело в том, что таким образом мы можем упустить важный контекст и детали запроса. Например, пользователь запрашивает "Error code TS-999". Поиск найдет информацию про коды ошибок в целом, но может упустить точное совпадение «TS-999». К тому же, при возвращении конкретного чанка из базы может случится так, что он будет вырван из какого-то важного контекста, и это может помешать модели.
Что предлагают Anthropic?
Во-первых, они предлагают извлекать не только обычные эмбеддинги, но и делать TF-IDF энкодинг чанков с помощью BM25. TF-IDF утроен так, чтобы как раз отбрасывать наиболее "общие" вещи в тексте, и фокусироваться на редких и самых важных словах. Это поможет не упускать детали при поиске, как в примере с ошибкой TS-999.
Во-вторых, чтобы избавиться от проблемы отсутствия контекста, они предлагают этот контекст добавлять искусственно (то есть делать из такого: "Прибыль росла на 3%." ... такое: "Этот чанк относится к отчету компании ACME за Q2 2023; прибыль росла на 3%.").
Для этого перед извлечением эмбеддингов и TF-IDF энкодингом каждый чанк аннотируется с помощью отдельного запроса к модели (в случае Anthropic это делается с помощью Клода). Да, дорого. Но с помощью фишки Prompt Caching, которую недавно завезли в API, можно хорошо скостить цену.
В итоге все это дает достаточно ощутимый прирост к метрикам качества поиска. Например, фактических ошибок становится меньше на 35%, а это ничего себе!
Как работает обычный RAG:
1. Документы в корпусе разбиваются на чанки
2. Из каждого такого чанка мы достаем эмбеддинг и кладем его в векторную БД
3. Когда поступает запрос (промпт), мы ищем в этой БД семантически близкие к нему чанки и добавляем их в промпт, чтобы модель могла использовать эту информацию для ответа
В чем тут проблема?
Дело в том, что таким образом мы можем упустить важный контекст и детали запроса. Например, пользователь запрашивает "Error code TS-999". Поиск найдет информацию про коды ошибок в целом, но может упустить точное совпадение «TS-999». К тому же, при возвращении конкретного чанка из базы может случится так, что он будет вырван из какого-то важного контекста, и это может помешать модели.
Что предлагают Anthropic?
Во-первых, они предлагают извлекать не только обычные эмбеддинги, но и делать TF-IDF энкодинг чанков с помощью BM25. TF-IDF утроен так, чтобы как раз отбрасывать наиболее "общие" вещи в тексте, и фокусироваться на редких и самых важных словах. Это поможет не упускать детали при поиске, как в примере с ошибкой TS-999.
Во-вторых, чтобы избавиться от проблемы отсутствия контекста, они предлагают этот контекст добавлять искусственно (то есть делать из такого: "Прибыль росла на 3%." ... такое: "Этот чанк относится к отчету компании ACME за Q2 2023; прибыль росла на 3%.").
Для этого перед извлечением эмбеддингов и TF-IDF энкодингом каждый чанк аннотируется с помощью отдельного запроса к модели (в случае Anthropic это делается с помощью Клода). Да, дорого. Но с помощью фишки Prompt Caching, которую недавно завезли в API, можно хорошо скостить цену.
В итоге все это дает достаточно ощутимый прирост к метрикам качества поиска. Например, фактических ошибок становится меньше на 35%, а это ничего себе!
👍89🤔19👏6❤3
Llama 3.2 появилась на Vision Арене
К сожалению, все не так феерично, как ожидалось, но все-таки результаты вполне приличные. Llama на втором месте среди открытых моделей, первое заняла Qwen2-VL.
Ну а общее первое место опять, после недолгого лидерства Google, забрала новая версия ChatGPT-4o💪
К сожалению, все не так феерично, как ожидалось, но все-таки результаты вполне приличные. Llama на втором месте среди открытых моделей, первое заняла Qwen2-VL.
Ну а общее первое место опять, после недолгого лидерства Google, забрала новая версия ChatGPT-4o
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥7❤4
Нашли клевые слайды с выступления сеньора-ресерчера из Google DeepMind
Он недавно вступал с гостевой лекцией в университете McGill на курсе по LLM и выложил свою презентацию. В ней поднимаются все самые «волнующие» темы: синтетические данные (с точки зрения математики, очень интересно), масштабируемость, ризонинг, RL.
В общем, просмотреть точно стоит: в конце концов, это просто красиво.
Он недавно вступал с гостевой лекцией в университете McGill на курсе по LLM и выложил свою презентацию. В ней поднимаются все самые «волнующие» темы: синтетические данные (с точки зрения математики, очень интересно), масштабируемость, ризонинг, RL.
В общем, просмотреть точно стоит: в конце концов, это просто красиво.
👍31🔥13❤8