TLDR новостной заметки:
— документ является подробным планом того, как OpenAI намерены использовать Strawberry для проведения «deep research» (исследований) — для этого сильно прокачали reasoning, то есть «рассуждения» модели
— деталей о публичном появлении системы нет, равно как и нет деталей о принципе работы. Последнее хранится в секрете даже от большинства сотрудников компании
— ранее в этом году два источника описывали увиденную ими демонстрацию Q*: система была способна отвечать на сложные научные и математические вопросы, находящиеся за пределами возможностей моделям сегодняшнего дня. Данная информация о двух источниках появляется впервые (то есть скорее всего Reuters не были убеждены на 100%, и не публиковали новость. Сейчас информация, вероятно, каким-то образом подтвердилась)
— в четверг в OpenAI была еженедельная встреча «на всех», где показывали свежие навыки моделей (об этом писал Bloomberg). Однако не ясно, имеет ли это хоть какую-то связь с Strawberry/Q*
— также в документе подчёркивается, что «среди возможностей, на которые нацелен проект Strawberry, входит выполнение задач с длинным горизонтом планирования». Тут имеются в виду сложные задачи, которые требуют от модели выполнения ряда действий в течение длительного периода времени
— дообучение модели производилось на «deep-research» наборе данных. Не уточняется, что это такое, но сделаю аккуратное предположение, что это грубо говоря промежуточные мысли, которые приводят к некоторым выкладкам. Именно эта часть данных обычно нигде не сохранена и не описана, и потому модели не могут ей научиться — мол, почему было сделано так, а не эдак
— OpenAI также планирует протестировать возможности Strawberry в выполнении работы программистов и инженеров машинного обучения
===
Моё мнение: в целом всё достаточно верхнеуровнево и правдоподобно-логично, очевидного бреда нет. Однако это не говорит о том, что это правда. OpenAI, как и другие, 100% работают по этим направлениям, главный вопрос в конкретных достижениях.
Появление аж двух новостей за неделю (Bloomberg и Reuters), а также проведение внутреннего демо скорее указывает на приближение к релизу. Это не значит, что систему анонсируют через пару недель, но ждать, должно, осталось не долго. Хоть до ноябрьского DevDay ещё...
Такие демо недолго живут без анонса, потому что быстро утекают: Sam Altman говорил, что увидел приложение с голосовым режимом GPT-4o буквально за неделю до мини-презентации: до этого работа шла маленькой командой.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
И отдельно хочу показать визуализацию планируемой ловли ускорителя руками Мехазиллы (да, башню так называют). Глядя на видео не забывайте, что серебристая цистерна из нержавейки имеет высоту 71 метр (24-этажное здание) и массу без топлива порядка 200 тонн.…
Увидел сравнение Starship и Saturn V (в масштабе), решил написать пост для того, чтобы давать ссылку в будущем. В комментариях часто спрашивают «так а чё, ну другие ракеты же есть ❓ ».
Основных тезиса три, и все они связаны между собой:
— стоимость запуска
— многоразовость
— конструкция, созданная с прицелом на масштабирование производства
Многие ракеты уходящей эпохи — продукты почти штучные. Их всегда было дорого запускать (особенно сверхтяжёлые, выводящие более 100 тонн на орбиту), и было ясно, что максимум будут десятки запусков, так как заказчиков не так много (в самом начале и вовсе один — государство).
До настоящего времени было всего 4 программы сверхтяжей: Saturn V и Н1 (для Лунной гонки), Энергия, SLS (разработка началась после 2010-го), в сумме 20 полётов — из которых 13 у Saturn V с7 6 высадками на другое небесное тело. В настоящее время есть другие программы либо без даты пусковых испытаний, либо 2027 (Китай).
Легко увидеть, почему так вышло — все проекты государственные, большая часть сделана для престижа, денег не экономили, но и поддерживать программы долго не собирались. Отсюда следуют бешеные цены на запуск — во-первых, нужно учитывать стоимость разработки проекта (десятки миллиардов долларов), которая делится на очень маленькое число пусков, а, во-вторых, гнаться за дешевизной не было смысла/времени/желания.
SpaceX подошли к проблеме с кардинально другой стороны — они поняли, что если пусков будет много, то имеет смысл вложиться в разработку и сделать технологическое чудо: обеспечить полную многоразовость и при этом держать цену производства как можно ниже. Starship показал, что корабль, сделанный 1) из дешёвой и доступной нержавейки 2) без специальных чистых комнат, на пустыре около океана 3) с дешёвыми легко заменяемыми компактными двигателями 4) специально с прицелом на конвейерное производство и масштабирование — возможен.
Ну а с многоразовостью всё понятно — мы не выбрасываем самолёты после каждого рейса, так почему ракетам оставаться одноразовыми? Давайте пробовать спасать сначала части, а затем и всю систему — и корабль, и ускоритель. Хоть их производство и не такое дорогое, всё же дешевле просто залить топлива и пустить ещё раз. И ещё раз. И ещё... вот так это будет выглядеть.
Прочитать про экономику пусков можно в предыдущем посте.
На картинке: выделил примерный объем отсека с полезной нагрузкой. Starship может вывести на орбиту тысячу кубометров груза (это больше, чем жилой объем МКС, собираемой несколькими государствами) ЗА ОДИН РАЗ.
===
Ой, и ещё — будущие версии корабля будут ещё больше и ещё выше😵
Основных тезиса три, и все они связаны между собой:
— стоимость запуска
— многоразовость
— конструкция, созданная с прицелом на масштабирование производства
Многие ракеты уходящей эпохи — продукты почти штучные. Их всегда было дорого запускать (особенно сверхтяжёлые, выводящие более 100 тонн на орбиту), и было ясно, что максимум будут десятки запусков, так как заказчиков не так много (в самом начале и вовсе один — государство).
До настоящего времени было всего 4 программы сверхтяжей: Saturn V и Н1 (для Лунной гонки), Энергия, SLS (разработка началась после 2010-го), в сумме 20 полётов — из которых 13 у Saturn V с
Легко увидеть, почему так вышло — все проекты государственные, большая часть сделана для престижа, денег не экономили, но и поддерживать программы долго не собирались. Отсюда следуют бешеные цены на запуск — во-первых, нужно учитывать стоимость разработки проекта (десятки миллиардов долларов), которая делится на очень маленькое число пусков, а, во-вторых, гнаться за дешевизной не было смысла/времени/желания.
SpaceX подошли к проблеме с кардинально другой стороны — они поняли, что если пусков будет много, то имеет смысл вложиться в разработку и сделать технологическое чудо: обеспечить полную многоразовость и при этом держать цену производства как можно ниже. Starship показал, что корабль, сделанный 1) из дешёвой и доступной нержавейки 2) без специальных чистых комнат, на пустыре около океана 3) с дешёвыми легко заменяемыми компактными двигателями 4) специально с прицелом на конвейерное производство и масштабирование — возможен.
Ну а с многоразовостью всё понятно — мы не выбрасываем самолёты после каждого рейса, так почему ракетам оставаться одноразовыми? Давайте пробовать спасать сначала части, а затем и всю систему — и корабль, и ускоритель. Хоть их производство и не такое дорогое, всё же дешевле просто залить топлива и пустить ещё раз. И ещё раз. И ещё... вот так это будет выглядеть.
Прочитать про экономику пусков можно в предыдущем посте.
На картинке: выделил примерный объем отсека с полезной нагрузкой. Starship может вывести на орбиту тысячу кубометров груза (это больше, чем жилой объем МКС, собираемой несколькими государствами) ЗА ОДИН РАЗ.
===
Ой, и ещё — будущие версии корабля будут ещё больше и ещё выше
Please open Telegram to view this post
VIEW IN TELEGRAM
Что-то все модели выпускают, а от Mistral🇫🇷 давно новостей не было. Сегодня они выпустили две модели, одна заточена на математику, другая — на написание кода.
MathΣtral — компактная модель размера 7B, по архитектуре эквивалентная ранним релизам компании. Её доучили на решение сложных математических задач, требующих комплексных, многосутпенчатых логических рассуждений.
На MMLU модель показывает прирост более чем в 10% в отдельных под-категориях, и целых 15% в элементарной математике, физических задачах старшей школы/колледжей и, внезапно, машинном обучении.
Модель справилась с 2мя задачами из 30 на American Invitational Mathematics Examination (AIME). Это второй из трёх этапов отбора команды на международную олимпиаду по математике в США — тут задачки уже поинтереснее, но всё ещё не как на финалах. Кажется, что 2 задачи это мало, но из моделей сопоставимого размера лишь китайский Qwen 2 7B тоже решает 2; большинство остальных — нуль.
Проценты решений задач других олимпиад можете увидеть на картинке
Модель уже доступна на HF (не торрент!). Её, кстати, делали совместно с Project Numina — это проект, члены которого также недавно выиграли соревнование AIMO по решению олимпиадных задач LLMками (писал тут). Там победное решение использовало DeepSeek Math 7B (вторая строчка в таблице). Так что при следующем запуске соревнования можно ожидать, что результат первого места ещё подскочит вверх — просто за счёт смены одной модели на другую, чуть более мощную.
Для справки: maj@16 означает, что модель независимо генерирует 16 решений на задачу, после чего проводится голосование большинством, и выбирается тот ответ, который чаще попадался. Важно понимать, что это не означает, что система даёт 16 ответов с 16 попыток — попытка одна, а maj позволяет выбрать один ответ, который модели кажется наиболее правильным.
MathΣtral — компактная модель размера 7B, по архитектуре эквивалентная ранним релизам компании. Её доучили на решение сложных математических задач, требующих комплексных, многосутпенчатых логических рассуждений.
На MMLU модель показывает прирост более чем в 10% в отдельных под-категориях, и целых 15% в элементарной математике, физических задачах старшей школы/колледжей и, внезапно, машинном обучении.
Модель справилась с 2мя задачами из 30 на American Invitational Mathematics Examination (AIME). Это второй из трёх этапов отбора команды на международную олимпиаду по математике в США — тут задачки уже поинтереснее, но всё ещё не как на финалах. Кажется, что 2 задачи это мало, но из моделей сопоставимого размера лишь китайский Qwen 2 7B тоже решает 2; большинство остальных — нуль.
Проценты решений задач других олимпиад можете увидеть на картинке
Модель уже доступна на HF (не торрент!). Её, кстати, делали совместно с Project Numina — это проект, члены которого также недавно выиграли соревнование AIMO по решению олимпиадных задач LLMками (писал тут). Там победное решение использовало DeepSeek Math 7B (вторая строчка в таблице). Так что при следующем запуске соревнования можно ожидать, что результат первого места ещё подскочит вверх — просто за счёт смены одной модели на другую, чуть более мощную.
Для справки: maj@16 означает, что модель независимо генерирует 16 решений на задачу, после чего проводится голосование большинством, и выбирается тот ответ, который чаще попадался. Важно понимать, что это не означает, что система даёт 16 ответов с 16 попыток — попытка одна, а maj позволяет выбрать один ответ, который модели кажется наиболее правильным.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Судя по комментариям, почти все выбирают одну тему из трех. Давайте проголосуем.
Andrey Karpathy, ко-фаундер OpenAI и ex-Директор по AI в Tesla, не дождался моего лонга по образованию и открыл Eureka Labs, школу нового типа, основанную на искусственном интеллекте.
Текст анонса:
===
Как мы можем приблизиться к идеальному опыту изучения чего-то нового? Например, в случае с физикой можно представить, как вы работаете над высококачественными учебными материалами вместе с Фейнманом, который будет сопровождать вас на каждом этапе пути. К сожалению, экспертов в предметной области, которые глубоко увлечены, прекрасно преподают, бесконечно терпеливы и свободно говорят на всех языках мира, также очень мало и они не могут лично обучать все 8 миллиардов людей.
Однако с учетом недавнего прогресса в области генеративного искусственного интеллекта этот опыт обучения кажется вполне достижимым. Преподаватель по-прежнему разрабатывает материалы курса, но они поддерживаются, активно используются и масштабируются с помощью ИИ-помощников преподавателя, которые оптимизированы для помощи учащимся в их изучении. Этот симбиоз Учитель + ИИ может проводить целую программу курсов на общей платформе. Если мы добьемся успеха, любому будет легко научиться чему-либо, расширяя образование как по доступности (большое количество людей, изучающих что-то), так и по объему (любой человек изучает большое количество предметов, сверх того, что сегодня возможно без посторонней помощи).
Нашим первым продуктом станет, очевидно, лучший в мире курс по искусственному интеллекту LLM101n. Это курс для студентов бакалавриата, и он поможет студенту натренировать собственный ИИ, очень похожий на уменьшенную версию этого самого помощника преподавателя по искусственному интеллекту. Материалы курса будут доступны онлайн, но мы также планируем вести как цифровую, так и физическую группы для прохождения курса.
Сегодня мы с головой уходим в создание LLM101n, но мы с нетерпением ждем будущего, в котором ИИ станет ключевой технологией для увеличения человеческого потенциала.
Чему бы вы хотели научиться?
Текст анонса:
===
Как мы можем приблизиться к идеальному опыту изучения чего-то нового? Например, в случае с физикой можно представить, как вы работаете над высококачественными учебными материалами вместе с Фейнманом, который будет сопровождать вас на каждом этапе пути. К сожалению, экспертов в предметной области, которые глубоко увлечены, прекрасно преподают, бесконечно терпеливы и свободно говорят на всех языках мира, также очень мало и они не могут лично обучать все 8 миллиардов людей.
Однако с учетом недавнего прогресса в области генеративного искусственного интеллекта этот опыт обучения кажется вполне достижимым. Преподаватель по-прежнему разрабатывает материалы курса, но они поддерживаются, активно используются и масштабируются с помощью ИИ-помощников преподавателя, которые оптимизированы для помощи учащимся в их изучении. Этот симбиоз Учитель + ИИ может проводить целую программу курсов на общей платформе. Если мы добьемся успеха, любому будет легко научиться чему-либо, расширяя образование как по доступности (большое количество людей, изучающих что-то), так и по объему (любой человек изучает большое количество предметов, сверх того, что сегодня возможно без посторонней помощи).
Нашим первым продуктом станет, очевидно, лучший в мире курс по искусственному интеллекту LLM101n. Это курс для студентов бакалавриата, и он поможет студенту натренировать собственный ИИ, очень похожий на уменьшенную версию этого самого помощника преподавателя по искусственному интеллекту. Материалы курса будут доступны онлайн, но мы также планируем вести как цифровую, так и физическую группы для прохождения курса.
Сегодня мы с головой уходим в создание LLM101n, но мы с нетерпением ждем будущего, в котором ИИ станет ключевой технологией для увеличения человеческого потенциала.
Чему бы вы хотели научиться?
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?
Хорошие бенчмарки для ИИ-агентов — это нам надо обязательно (особенно в преддверии GPT-5 / Gemini-2). Есть отдельное направление бенчмарков, которые симулируют работу с привычными нам инструментами — с сайтами или приложениями, которыми специалисты пользуются в работе каждый день (WorkArena, WebArena, OSWorld).
В данной работе, созданной в коллаборации нескольких компаний и учебных заведений (преимущественно, китайских), создается бенчмарк для оценки ИИ-агентов в дата-инженерии и дата-саенс (джуны-вкатыватели напряглись). Покрыт полный цикл, разделённый на 5 компонент (в скобках — поддерживаемые инструменты):
— Data Warehousing (Snowflake, BigQuery)
— Data Ingestion (Airbyte, никогда не пользовался)
— Data Transformation (dbt)
— Data Visualization (Superset, Metabase)
— Data Orchestration (Airflow, Dagster)
(а ещё есть эксели, куда без них,😥 )
В общем, если вы касались дата-инженерии, то понимаете, что набор увесистый, и хоть и не покрывает всего зоопарка решений, которые встречаются на местах. Но самое интересное тут — принцип сбора данных. Суммарно 10 разметчиков подготовили 494 задачи, в среднем на одну уходило 4 часа. В самом начале процесса они искали и изучали учебные курсы/туториалы (больше 200 ссылок для доп. информации).
Из этих туториалов создавались задачи, но требовалось, чтобы как минимум 2 ключевых аспекта задачи были изменены. На практике это означает, что скорее всего используются те же инструменты, что и в туториале, но с немного другой целью / условиями и ограничениями по данным — всё это помогает предотвратить переобученность LLM под задачи. Например, в задаче оркестрации скриптов один проект для запуска меняется на другой, а также добавляется условие запуска ежедневно в 10 утра (в оригинальном уроке этого условия вообще не было).
Также каждая задача сопровождается некоторым количеством вспомогательного кода, который позволяет развернуть среду и запустить нужные приложения, то есть как бы имитировать рабочее пространство в момент времени начала решения. После окончания работы над задачей она независимо проверяется ещё двумя разметчиками, что они могут сами взять и повторить решение, и что всё работает. Так что потолок метрики доли решенных задач тут 100%.
В среднем, каждая задача требует обращения к 2.5 разным приложениям (включая терминал и IDE для написания кода). Все таски разделены на простые (не более 5 шагов для решения, где шаг — это нажатие на кнопку или этап написания кода) - 20%, средние (6-16 шагов) - 63%, и 17% сложных задач с более чем 15 шагами.
Хорошие бенчмарки для ИИ-агентов — это нам надо обязательно (особенно в преддверии GPT-5 / Gemini-2). Есть отдельное направление бенчмарков, которые симулируют работу с привычными нам инструментами — с сайтами или приложениями, которыми специалисты пользуются в работе каждый день (WorkArena, WebArena, OSWorld).
В данной работе, созданной в коллаборации нескольких компаний и учебных заведений (преимущественно, китайских), создается бенчмарк для оценки ИИ-агентов в дата-инженерии и дата-саенс (джуны-вкатыватели напряглись). Покрыт полный цикл, разделённый на 5 компонент (в скобках — поддерживаемые инструменты):
— Data Warehousing (Snowflake, BigQuery)
— Data Ingestion (Airbyte, никогда не пользовался)
— Data Transformation (dbt)
— Data Visualization (Superset, Metabase)
— Data Orchestration (Airflow, Dagster)
(а ещё есть эксели, куда без них,
В общем, если вы касались дата-инженерии, то понимаете, что набор увесистый, и хоть и не покрывает всего зоопарка решений, которые встречаются на местах. Но самое интересное тут — принцип сбора данных. Суммарно 10 разметчиков подготовили 494 задачи, в среднем на одну уходило 4 часа. В самом начале процесса они искали и изучали учебные курсы/туториалы (больше 200 ссылок для доп. информации).
Из этих туториалов создавались задачи, но требовалось, чтобы как минимум 2 ключевых аспекта задачи были изменены. На практике это означает, что скорее всего используются те же инструменты, что и в туториале, но с немного другой целью / условиями и ограничениями по данным — всё это помогает предотвратить переобученность LLM под задачи. Например, в задаче оркестрации скриптов один проект для запуска меняется на другой, а также добавляется условие запуска ежедневно в 10 утра (в оригинальном уроке этого условия вообще не было).
Также каждая задача сопровождается некоторым количеством вспомогательного кода, который позволяет развернуть среду и запустить нужные приложения, то есть как бы имитировать рабочее пространство в момент времени начала решения. После окончания работы над задачей она независимо проверяется ещё двумя разметчиками, что они могут сами взять и повторить решение, и что всё работает. Так что потолок метрики доли решенных задач тут 100%.
В среднем, каждая задача требует обращения к 2.5 разным приложениям (включая терминал и IDE для написания кода). Все таски разделены на простые (не более 5 шагов для решения, где шаг — это нажатие на кнопку или этап написания кода) - 20%, средние (6-16 шагов) - 63%, и 17% сложных задач с более чем 15 шагами.
Please open Telegram to view this post
VIEW IN TELEGRAM
Примеры пары простых задачек:
1. Закинуть данные из папки в Google Drive в таблицу в BigQuery
2. Выгрузить топ-20 драматических фильмов из IMDB-таблички в Snowflake в csv доп. требованиями
Обе задачи решаются только кликами в UI и написанием простого кода запросов (тоже в браузере).
Больше примеров можно посмотреть вот тут — там прямо целые видео того, как GPT-4o справляется с задачами (больше 30 примеров)
1. Закинуть данные из папки в Google Drive в таблицу в BigQuery
2. Выгрузить топ-20 драматических фильмов из IMDB-таблички в Snowflake в csv доп. требованиями
Обе задачи решаются только кликами в UI и написанием простого кода запросов (тоже в браузере).
Больше примеров можно посмотреть вот тут — там прямо целые видео того, как GPT-4o справляется с задачами (больше 30 примеров)
Выводы и результаты такие:
— для открытых LLM использовалось текстовое описание происходящего на экране, без картинок. Потому качество сильно хуже и его даже рассматривать не будем
— для фронтир VLM (GPT-4o, Claude-3) подаются картинки с экрана, а также ещё пара трюков: дополнительная информация в контекст (RAG над документацией) + Set-of-Mark (когда кнопки/текст на экране распознают и выделяют на картинке для модели)
— глобально решается 14% задач, что очень мало, но тут можно сделать много срезов
— например, простых задач решается уже 40% (сложных — 1.2%)
— также решается 20% задач, требующих только работу с графическим интерфейсом, без консоли или IDE
— (см. картинку) GPT-4V решает 25% задач на визуализацию, GPT-4o 24% на Data Ingestion
— GPT сильно превосходит модели Google и Anthropic
Так что пока живём, джунов не заменит. Но очень хочется, чтобы при релизе GPT-5 и Claude-3.5-Opus прям сразу рассказали про метрики на этом и схожих бенчмарках — чтобы понимать, какую долю работу мы скоро потеряем...
— для открытых LLM использовалось текстовое описание происходящего на экране, без картинок. Потому качество сильно хуже и его даже рассматривать не будем
— для фронтир VLM (GPT-4o, Claude-3) подаются картинки с экрана, а также ещё пара трюков: дополнительная информация в контекст (RAG над документацией) + Set-of-Mark (когда кнопки/текст на экране распознают и выделяют на картинке для модели)
— глобально решается 14% задач, что очень мало, но тут можно сделать много срезов
— например, простых задач решается уже 40% (сложных — 1.2%)
— также решается 20% задач, требующих только работу с графическим интерфейсом, без консоли или IDE
— (см. картинку) GPT-4V решает 25% задач на визуализацию, GPT-4o 24% на Data Ingestion
— GPT сильно превосходит модели Google и Anthropic
Так что пока живём, джунов не заменит. Но очень хочется, чтобы при релизе GPT-5 и Claude-3.5-Opus прям сразу рассказали про метрики на этом и схожих бенчмарках — чтобы понимать, какую долю работу мы скоро потеряем...
Сиолошная
Выводы и результаты такие: — для открытых LLM использовалось текстовое описание происходящего на экране, без картинок. Потому качество сильно хуже и его даже рассматривать не будем — для фронтир VLM (GPT-4o, Claude-3) подаются картинки с экрана, а также ещё…
Понятно ли вам примерно, как именно «простая LLM которая генерирует следующее слово» решает эти задачи?
Anonymous Poll
15%
Да, прекрасно понимаю функционал агента
48%
Нууу очень примерно, плюс минус
37%
Нет, вообще не понимаю, модель же просто текст генерирует?
Кто-то в редакции CNBC немного облажался, нажал не ту кнопку, и выпустил в релиз вот эту новость: OpenAI debuts mini version of its most powerful model yet
Речь идёт о запуске GPT-4o mini, и что якобы она была запущена в четверг (сегодня). Однако никаких анонсов или релизов нет, в API её нет, на сайте ChatGPT тоже. И всё же я думаю, что это просто ранний анонс, который должен был случиться вечером (по Калифорнии — утром).
Почему? Ранее на неделе на LMSYS Arena была замечена тестовая модель upcoming-gpt-mini, вероятно, также как и в случае gpt2-chatbot, OpenAI перед релизом проводили тестирование и оценку.
GPT-4o-mini должна стать заменой GPT-3.5, которую не обновляли больше года, и, по идее, за схожую цену предлагать сильно более умную модель. Позже в этом году в неё планируют добавить обработку видео и аудио (и может даже генерцию?). Этого нет в новости, но полагаю, что у неё может быть увеличенная длина контекста (как раз для работы с новыми модальностями) — потому что маленькую модель проще разворачивать на инфраструктуре, и нужно меньше ресурсов.
Модель будет доступна и бесплатным пользователям тоже.
Новость показал автор канала @cgevent, спасибо!
UPD: такую же новость запостил bloomberg.
Речь идёт о запуске GPT-4o mini, и что якобы она была запущена в четверг (сегодня). Однако никаких анонсов или релизов нет, в API её нет, на сайте ChatGPT тоже. И всё же я думаю, что это просто ранний анонс, который должен был случиться вечером (по Калифорнии — утром).
Почему? Ранее на неделе на LMSYS Arena была замечена тестовая модель upcoming-gpt-mini, вероятно, также как и в случае gpt2-chatbot, OpenAI перед релизом проводили тестирование и оценку.
GPT-4o-mini должна стать заменой GPT-3.5, которую не обновляли больше года, и, по идее, за схожую цену предлагать сильно более умную модель. Позже в этом году в неё планируют добавить обработку видео и аудио (и может даже генерцию?). Этого нет в новости, но полагаю, что у неё может быть увеличенная длина контекста (как раз для работы с новыми модальностями) — потому что маленькую модель проще разворачивать на инфраструктуре, и нужно меньше ресурсов.
Модель будет доступна и бесплатным пользователям тоже.
Новость показал автор канала @cgevent, спасибо!
UPD: такую же новость запостил bloomberg.
CNBC
OpenAI debuts mini version of its most powerful model yet
OpenAI on Thursday launched a new AI model, "GPT-4o mini," the artificial intelligence startup's latest effort to expand use of its popular chatbot.
Сиолошная
Кто-то в редакции CNBC немного облажался, нажал не ту кнопку, и выпустил в релиз вот эту новость: OpenAI debuts mini version of its most powerful model yet Речь идёт о запуске GPT-4o mini, и что якобы она была запущена в четверг (сегодня). Однако никаких…
Вышла
Вот картинка с бенчмарками, сравнивать можно с Gemini Flash от Google (обе на графике — в оранжевых тонах).
Очень заметен отрыв на датасете MATH (задачи по математике🧐 ). Одни скажут «прорыв😏 », другие — «да переобучились на данных!». А правду узнаем уже из опыта использования моделей!
Правда модель от OpenAI ... дешевле в 2 раза! Всего 15 центов за миллион входных токенов, и 60 за миллион на выходе — это ОЧЕНЬ мало. Дешевле GPT-3.5-Turbo на 65%!
И напомню, что даже эти копейки можно срезать на 50%, если пользоваться Batch API (это когда вы загружаете файл с сотнями-тысячами запросов, и он в течение суток обрабатывается; не подходит для чатов, но подходит для разных неприоритетных фоновых задач).
К сожалению, контекст так и остался на отметке в 128000 токенов.
P.S.: с этим релизом GPT-3.5-Turbo, представитель прошлого поколения моделей, уходит на покой🫡 спи сладко. Но ещё на покой ушли десятки опенсурсных моделей: многие 70B варианты дороже даже у демпингующих провайдеров 🥺 Да что там, gemma-2-27b (крутая моделька гугла) стоит $0.27 — почти в два раза дороже 🤯
Вот картинка с бенчмарками, сравнивать можно с Gemini Flash от Google (обе на графике — в оранжевых тонах).
Очень заметен отрыв на датасете MATH (задачи по математике
Правда модель от OpenAI ... дешевле в 2 раза! Всего 15 центов за миллион входных токенов, и 60 за миллион на выходе — это ОЧЕНЬ мало. Дешевле GPT-3.5-Turbo на 65%!
И напомню, что даже эти копейки можно срезать на 50%, если пользоваться Batch API (это когда вы загружаете файл с сотнями-тысячами запросов, и он в течение суток обрабатывается; не подходит для чатов, но подходит для разных неприоритетных фоновых задач).
К сожалению, контекст так и остался на отметке в 128000 токенов.
P.S.: с этим релизом GPT-3.5-Turbo, представитель прошлого поколения моделей, уходит на покой
Please open Telegram to view this post
VIEW IN TELEGRAM
В прошлом году, когда ведущие разработчики ИИ стремились ускориться за счёт все более крупных кластеров, Sam Altman планировал игру вдолгую. Он решил основать новую компанию, которая могла бы разработать и произвести новые ИИ-специализированные чипы, а также помочь создать фабрики по производству чипов и центры обработки данных для их размещения.
Некоторые детали планов просочились в прессу, о них написали в The Information. Ниже моя тезисная выжимка:
— OpenAI ещё в прошлом году начали нанимать команду по разработке чипов. В частности, к ним присоединилась часть ветеранов из Google, работавших над TPU — в том числе руководитель проекта Richard Ho
— скорее всего, дизайн чипов ещё не начался, и первые образцы массового производства не стоит ждать ранее 2026-го
— однако команда уже сейчас рассматривает разные варианты компоновки памяти/форма-факторы/etc
— Sam говорил с Broadcom (американский производитель чипов с рыночной оценкой $750B), TSMC (тайваньский гигант, $880B) и даже Intel о совместной работе над чипом
— «ну говорил и говорил, видимо сами не могут сделать?», могли подумать вы. Думаю, проблема куда шире — как говорил Sam, мир не понимает, СКОЛЬКО мощностей нам нужно будет (помните шутки про 7 триллионов?), и просто пытается выстроить огромную сеть производства, взяв лучшее от каждого
— «Амбиции Sam'а по расширению производства показались многим руководителям маловероятными, поскольку для этого потребуется много капитала и специализированной рабочей силы. Altman был «слишком агрессивен, чтобы я мог в это поверить», — заявил генеральный директор TSMC на пресс-конференции в прошлом месяце, когда его спросили о перспективах открытия новых заводов»
— запросы о расширении производства/постройки заводов/другие эксклюзивные договоренности с OpenAI кажутся рисковыми, так как требуют инвестиций, которые не окупятся без покупателей
— Но Sama к этому готов — недавно он сказал одному руководителю из отрасли, что намеревается создать одну или несколько компаний с внешними инвесторами для оплаты недвижимости, электроэнергии, центров обработки данных и специализированных серверов с чипами искусственного интеллекта. И добавил, что OpenAI возьмет на себя обязательство арендовать эти серверы
— OpenAI будет являться акционером (и возможно контролирующим лицом) в новой компании/ях, и совет директоров уже ознакомился с планами
И финальное:
В приватной беседе с директорами из отрасли Sam сказал, что публично представит проект в этом году. Так что ждём, будем смотреть вот так😳 на грандиозные планы по изменению индустрии.
На фото Sam летит на своём суперкаре за $4M с одной встречи на другую, торопится парень.
UPD: Broadcom — это компания, которая делает TPU для Google (источник)
Некоторые детали планов просочились в прессу, о них написали в The Information. Ниже моя тезисная выжимка:
— OpenAI ещё в прошлом году начали нанимать команду по разработке чипов. В частности, к ним присоединилась часть ветеранов из Google, работавших над TPU — в том числе руководитель проекта Richard Ho
— скорее всего, дизайн чипов ещё не начался, и первые образцы массового производства не стоит ждать ранее 2026-го
— однако команда уже сейчас рассматривает разные варианты компоновки памяти/форма-факторы/etc
— Sam говорил с Broadcom (американский производитель чипов с рыночной оценкой $750B), TSMC (тайваньский гигант, $880B) и даже Intel о совместной работе над чипом
— «ну говорил и говорил, видимо сами не могут сделать?», могли подумать вы. Думаю, проблема куда шире — как говорил Sam, мир не понимает, СКОЛЬКО мощностей нам нужно будет (помните шутки про 7 триллионов?), и просто пытается выстроить огромную сеть производства, взяв лучшее от каждого
— «Амбиции Sam'а по расширению производства показались многим руководителям маловероятными, поскольку для этого потребуется много капитала и специализированной рабочей силы. Altman был «слишком агрессивен, чтобы я мог в это поверить», — заявил генеральный директор TSMC на пресс-конференции в прошлом месяце, когда его спросили о перспективах открытия новых заводов»
— запросы о расширении производства/постройки заводов/другие эксклюзивные договоренности с OpenAI кажутся рисковыми, так как требуют инвестиций, которые не окупятся без покупателей
— Но Sama к этому готов — недавно он сказал одному руководителю из отрасли, что намеревается создать одну или несколько компаний с внешними инвесторами для оплаты недвижимости, электроэнергии, центров обработки данных и специализированных серверов с чипами искусственного интеллекта. И добавил, что OpenAI возьмет на себя обязательство арендовать эти серверы
— OpenAI будет являться акционером (и возможно контролирующим лицом) в новой компании/ях, и совет директоров уже ознакомился с планами
И финальное:
В приватной беседе с директорами из отрасли Sam сказал, что публично представит проект в этом году. Так что ждём, будем смотреть вот так
На фото Sam летит на своём суперкаре за $4M с одной встречи на другую, торопится парень.
UPD: Broadcom — это компания, которая делает TPU для Google (источник)
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышла вторая часть описания победного решения AIMO (олимпиады по математике, которую решают LLM-ки) — вводные тут, если пропустили.
В ней рассказывается, как собирали данные для дообучения моделей, всего около миллиона задач не только с ответами, но и решениями (самой важной частью). Это существенно больше того, что было доступно на момент начала соревнований:
— MATH (7500 задач, все - околоолимпиадного уровня)
— GSM8k (7470 задач от OpenAI, но обычного школьного уровня, без олимпиад)
— orca-math (200 тысяч задач, сгенерированных синтетически через ChatGPT, тоже не олимпиадные)
Как видите, на фоне этого миллион — это ого-го! Какие сусеки скребли для сборки:
— китайский экзамен K-12 за все годы (там ещё и вариантов куча). Все задания были в PDF, их оцифровали, а затем перевели через GPT-4o (~260 тысяч задач)
— официальные решения задач AMC и AIME — всего 6500 задач, из которых оставили 4300, потому что остальные пересекались с валидационной выборкой. Как-то совсем мало, да?
— Да, потому эти задачи использовали как часть промпта для GPT-4 с целью создания синтетики - и размножили их до 160 тысяч примеров. Брали подход из вот этой статьи, промпты есть в самом конце. Процесс состоит из 3 шагов: написание новой задачи, валидация корректности постановки вопроса (и внесение корректировок), написание решения. Этот же подход применяли и к вышеупомянутому MATH
— 152 тысячи задач из PDF-ок/с сайтов международных и региональных олимпиад. Тут из-за разнородности данных пришлось запариваться, и для части файлов даже делать ручную разметку, где текст/решение вообще находится. После извлечения GPT-4o отвечала за перевод, а также за переформатирование решения и ответа. Это вообще острая тема, потому что везде всё разнородно, и это обычно плохо влияет на каечство обучения. Вручную такие объемы не перелопатить, хорошо, что можно аутсорсить GPT-хе
Ну и по мелочам то да сё, вышло 860к. А дальше самое интересное, как получали остаток — с помошью GPT-4 и TIR (Tool-Integrated Reasoning) — это когда модель может пользоваться питоном и не писать решение, а генерировать код, решающий задачу. Для геометрических задач есть отдельные библиотеки даже. Если ответ, полученный кодом, является неправильным, то мы повторяем процесс, генерируем новое решение, и так по кругу. В таком подходе нельзя быть уверенным, что решение на 100% правильное и учитывает всё, но🤷♂️
И собственно всё. Дальше финальная модель сначала обучается математике в целом, обучаясь на первой части (где все решения приведены к единому виду) 3 эпохи, а затем доучивается писать код для решений в течение 4 эпох.
Над проектом работало больше 20 человек, вложено огромное количество усилий, но зато следующим итерациям соревнования будет легко, ведь есть такая база для старта.
В ней рассказывается, как собирали данные для дообучения моделей, всего около миллиона задач не только с ответами, но и решениями (самой важной частью). Это существенно больше того, что было доступно на момент начала соревнований:
— MATH (7500 задач, все - околоолимпиадного уровня)
— GSM8k (7470 задач от OpenAI, но обычного школьного уровня, без олимпиад)
— orca-math (200 тысяч задач, сгенерированных синтетически через ChatGPT, тоже не олимпиадные)
Как видите, на фоне этого миллион — это ого-го! Какие сусеки скребли для сборки:
— китайский экзамен K-12 за все годы (там ещё и вариантов куча). Все задания были в PDF, их оцифровали, а затем перевели через GPT-4o (~260 тысяч задач)
— официальные решения задач AMC и AIME — всего 6500 задач, из которых оставили 4300, потому что остальные пересекались с валидационной выборкой. Как-то совсем мало, да?
— Да, потому эти задачи использовали как часть промпта для GPT-4 с целью создания синтетики - и размножили их до 160 тысяч примеров. Брали подход из вот этой статьи, промпты есть в самом конце. Процесс состоит из 3 шагов: написание новой задачи, валидация корректности постановки вопроса (и внесение корректировок), написание решения. Этот же подход применяли и к вышеупомянутому MATH
— 152 тысячи задач из PDF-ок/с сайтов международных и региональных олимпиад. Тут из-за разнородности данных пришлось запариваться, и для части файлов даже делать ручную разметку, где текст/решение вообще находится. После извлечения GPT-4o отвечала за перевод, а также за переформатирование решения и ответа. Это вообще острая тема, потому что везде всё разнородно, и это обычно плохо влияет на каечство обучения. Вручную такие объемы не перелопатить, хорошо, что можно аутсорсить GPT-хе
Ну и по мелочам то да сё, вышло 860к. А дальше самое интересное, как получали остаток — с помошью GPT-4 и TIR (Tool-Integrated Reasoning) — это когда модель может пользоваться питоном и не писать решение, а генерировать код, решающий задачу. Для геометрических задач есть отдельные библиотеки даже. Если ответ, полученный кодом, является неправильным, то мы повторяем процесс, генерируем новое решение, и так по кругу. В таком подходе нельзя быть уверенным, что решение на 100% правильное и учитывает всё, но
И собственно всё. Дальше финальная модель сначала обучается математике в целом, обучаясь на первой части (где все решения приведены к единому виду) 3 эпохи, а затем доучивается писать код для решений в течение 4 эпох.
Над проектом работало больше 20 человек, вложено огромное количество усилий, но зато следующим итерациям соревнования будет легко, ведь есть такая база для старта.
Please open Telegram to view this post
VIEW IN TELEGRAM
Кроме модели на 7 миллиардов параметров для соревнования, победители обучили ещё и модель на 72B (инициализированную из Qwen 2 от Alibaba) и выложили её (как и все даннные).
Результаты замеров и сравнений на картинке, сверху табличка для крохи 7B, снизу тяжеловесы.
0-shot — это когда модель сходу выдаёт первое попавшееся решение; maj@64 означает, что модель генерирует 64 решения (каждое решение = одна или больше Python-программа. Их получается несколько в том случае, если вылазит баг - тогда LLM пытается их исправить по тексту ошибки), а затем между всеми полученными ответами выбирается тот, который встречается чаще. Понятно, что во втором случае качество должно расти, что и наблюдается.
CoT = модель, обученная только на первом шаге, без написания кода программ (то есть и считает она сама, и может ошибиться даже в 2+2), TIR = с Python.
Самое интересное, пожалуй, смотреть на AIME 2024 как на самое свежее соревнование, где почти наверняка были новые задачки. А ещё на MATH — так как авторы очень старались отфильтровать похожие задачи и не тренироваться на них. 72B модель без кода показывает результат 68% при генерации ответа с первого раза. Это совсем чуть меньше 70.2%, которые были у свежей GPT-4o mini. По графику можно было подумать, что OpenAI переобучились, но видимо это достижимая планка через качественные данные и синтетику.
Результаты замеров и сравнений на картинке, сверху табличка для крохи 7B, снизу тяжеловесы.
0-shot — это когда модель сходу выдаёт первое попавшееся решение; maj@64 означает, что модель генерирует 64 решения (каждое решение = одна или больше Python-программа. Их получается несколько в том случае, если вылазит баг - тогда LLM пытается их исправить по тексту ошибки), а затем между всеми полученными ответами выбирается тот, который встречается чаще. Понятно, что во втором случае качество должно расти, что и наблюдается.
CoT = модель, обученная только на первом шаге, без написания кода программ (то есть и считает она сама, и может ошибиться даже в 2+2), TIR = с Python.
Самое интересное, пожалуй, смотреть на AIME 2024 как на самое свежее соревнование, где почти наверняка были новые задачки. А ещё на MATH — так как авторы очень старались отфильтровать похожие задачи и не тренироваться на них. 72B модель без кода показывает результат 68% при генерации ответа с первого раза. Это совсем чуть меньше 70.2%, которые были у свежей GPT-4o mini. По графику можно было подумать, что OpenAI переобучились, но видимо это достижимая планка через качественные данные и синтетику.
Какие направления дальнейшей работы видят авторы:
— Всё еще покрыты не все ресурсы/форумы/региональные и локальные олимпиады. Можно получить сколько-то десятков-сотен тысяч задач
— Улучшения в процессе разметки и извлечения, чтобы приводить всё к одному формату
— корректировка сгенерированных синтетически решений: сейчас валидность проверяется лишь по соответствию ответу, но при этом ход решения может быть как чуть-чуть, так и в целом неправильным. Хорошей идеей может стать использование GPT-4 для перепроверки/перегенерации, чтобы не обучать свои модели на мусоре
— сейчас используется только Python, но можно подключать другие инструменты. В обществе математиков давно разработаны пруверы (доказывают) и солверы (решают), даже специальные языки есть
— улучшение процесса создания синтетических решений. Сейчас некоторые задачи слишком сложны даже для GPT-4, и в решениях есть явные паттерны ошибок, которые можно постараться обойти промптами и примерами
— во всех постах выше речь шла про решения задач, имеющих численный ответ. Но на олимпиадах не менее часто попадаются и задачи на доказательство, и у LLM тут по нулям. Создание датасета доказательств и способов обучения на этом также должно улучшить общие навыки моделей (ждём от OpenAI...)
Вот так вот. Ждём второй раунд соревнований, посмотрим, сколько можно выжать сверх полученных результатов просто за счёт чуть более умной тренировки + агрегаций предсказаний + валидации + ...
— Всё еще покрыты не все ресурсы/форумы/региональные и локальные олимпиады. Можно получить сколько-то десятков-сотен тысяч задач
— Улучшения в процессе разметки и извлечения, чтобы приводить всё к одному формату
— корректировка сгенерированных синтетически решений: сейчас валидность проверяется лишь по соответствию ответу, но при этом ход решения может быть как чуть-чуть, так и в целом неправильным. Хорошей идеей может стать использование GPT-4 для перепроверки/перегенерации, чтобы не обучать свои модели на мусоре
— сейчас используется только Python, но можно подключать другие инструменты. В обществе математиков давно разработаны пруверы (доказывают) и солверы (решают), даже специальные языки есть
— улучшение процесса создания синтетических решений. Сейчас некоторые задачи слишком сложны даже для GPT-4, и в решениях есть явные паттерны ошибок, которые можно постараться обойти промптами и примерами
— во всех постах выше речь шла про решения задач, имеющих численный ответ. Но на олимпиадах не менее часто попадаются и задачи на доказательство, и у LLM тут по нулям. Создание датасета доказательств и способов обучения на этом также должно улучшить общие навыки моделей (ждём от OpenAI...)
Вот так вот. Ждём второй раунд соревнований, посмотрим, сколько можно выжать сверх полученных результатов просто за счёт чуть более умной тренировки + агрегаций предсказаний + валидации + ...
Сиолошная
Послушал свежее интервью Microsoft CTO Kevin Scott, и почти всё обсуждение строилось вокруг AI и дальнейшего развития. Microsoft вообще чем-то другим занимается? 🤣 — вопреки мнению многих скептиков, пока не видно уменьшения эффективности масштабирования моделей.…
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Ранее в этом году я узнал от Sam Altman, что OpenAI спонсирует, вероятно, самое масштабное исследования по безусловному базовому доходу (UBI) (источник: подкаст с Lex Fridman, таймкод). Очень ждём его результатов в начале 2024го года! Но сегодня я узнал,…
Please open Telegram to view this post
VIEW IN TELEGRAM
Закончил 6-часовую игровую сессию в Deadlock (😉 🥱 ), зашёл в Твиттер, а там оказывается во всю идёт обсуждение выхода LLAMA-3-405B (самого большого варианта, который МЕТА обещала). По слухам, она должна появиться завтра, 23-го, однако уже появилась карточка модели и даже веса на 4chan'е слили. Ссылок я давать не буду, подождём оф. релиза.
Однако посмотреть на метрики очень интересно. Они ОЧЕНЬ заманчивые, в отдельных бенчмарках даже выше GPT-4o (не mini, а самой большой настоящей!). На MMLU-Pro (усложнённая версия MMLU, с 10 вариантами ответа, вопросами, взятыми из разных источников) обходит и её, и Claude 3.5 Sonnet на полпроцентика. Но это слухи, просто ждём завтра и сверяем цифры.
Что ещё интересно:
— якобы для дообучения на последнем этапе использовалось 25 миллионов синтетических примеров. Интересно про это было бы почитать, ждём статью
— модели позиционируются как многоязычные с поддержкой французского, немецкого, хинди, итальянского, португальского, испанского и тайского языков
— почему моделИ? потому что 70B и 8B тоже обновят до версии LLAMA 3.1, и метрики очень сильно вырастут. Есть предположение, что этого удалось достичь через онлайн-дистилляцию 405B модельки — Google, например, так и делал с Gemma/Gemini Flash. Если завтра это подтвердится — с меня рассказ, как и почему это работает
Pastebin с карточкой модели
Источник картинки
Ну и самое главное:
— Если META и вправду это выложит, то....КОГДА АНОНС GPT-4.5???👀 Sama, пора 🙂
UPD: ещё в карточке есть интересная фраза
> Our study of Llama-3.1-405B’s social engineering uplift for cyber attackers was conducted to assess the effectiveness of AI models in aiding cyber threat actors in spear phishing campaigns.
Однако посмотреть на метрики очень интересно. Они ОЧЕНЬ заманчивые, в отдельных бенчмарках даже выше GPT-4o (не mini, а самой большой настоящей!). На MMLU-Pro (усложнённая версия MMLU, с 10 вариантами ответа, вопросами, взятыми из разных источников) обходит и её, и Claude 3.5 Sonnet на полпроцентика. Но это слухи, просто ждём завтра и сверяем цифры.
Что ещё интересно:
— якобы для дообучения на последнем этапе использовалось 25 миллионов синтетических примеров. Интересно про это было бы почитать, ждём статью
— модели позиционируются как многоязычные с поддержкой французского, немецкого, хинди, итальянского, португальского, испанского и тайского языков
— почему моделИ? потому что 70B и 8B тоже обновят до версии LLAMA 3.1, и метрики очень сильно вырастут. Есть предположение, что этого удалось достичь через онлайн-дистилляцию 405B модельки — Google, например, так и делал с Gemma/Gemini Flash. Если завтра это подтвердится — с меня рассказ, как и почему это работает
Pastebin с карточкой модели
Источник картинки
Ну и самое главное:
— Если META и вправду это выложит, то....КОГДА АНОНС GPT-4.5???
UPD: ещё в карточке есть интересная фраза
> Our study of Llama-3.1-405B’s social engineering uplift for cyber attackers was conducted to assess the effectiveness of AI models in aiding cyber threat actors in spear phishing campaigns.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
OpenAI создали комитет по безопасности. Он отвечает за выработку рекомендаций по критически важным решениям в области AI Safety для всех проектов OpenAI. Самая главная часть в посте: «OpenAI has recently begun training its next frontier model...» Вторая…
Пятеро сенаторов Демократической партии США направили письмо с 12 вопросами Sam Altman и OpenAI с запросом на предоставление информации об усилиях по созданию безопасного и надежного искусственного интеллекта. Это происходит на фоне недавних сообщений от осведомителей, что компания поспешила с тестированием безопасности своей последней модели (GPT-4o), чтобы успеть к анонсу в мае.
Полное письмо тут, ниже — отдельные интересные вопросы:
— Планирует ли компания следовать своему обещанию выделять 20% мощностей на исследований AI Safety?
— Избавилась ли компания от практики подписаний договоренностей о пожизненном отчуждени права на критику бывшими сотрудниками?
— Существуют ли в OpenAI процедуры, позволяющие сотрудникам выражать обеспокоенность по поводу кибербезопасности и безопасности? Как решаются эти проблемы, когда они возникают?
— Планирует ли компания в настоящее время привлекать независимых экспертов по безопасной и ответственной разработке ИИ к своим процессам, процедурам и методам тестирования и оценки безопасности, а также к своей структуре управления, например, к комитету по безопасности? (ответ — да, они это активно делают, о чём написано во многих отчётах)
— Обязуется ли OpenAI предоставить свою следующую базовую модель правительственным учреждениям США для тестирования, проверки, анализа и оценки перед развертыванием?
По последнему пункту — напомню, в конце весны OpenAI собрали комитет (в который вошел отставной генерал, помните?), который должен составить публично доступный документ с рекомендациями по процессу оценки и развёртывания модели.
Источник: WSJ
Полное письмо тут, ниже — отдельные интересные вопросы:
— Планирует ли компания следовать своему обещанию выделять 20% мощностей на исследований AI Safety?
— Избавилась ли компания от практики подписаний договоренностей о пожизненном отчуждени права на критику бывшими сотрудниками?
— Существуют ли в OpenAI процедуры, позволяющие сотрудникам выражать обеспокоенность по поводу кибербезопасности и безопасности? Как решаются эти проблемы, когда они возникают?
— Планирует ли компания в настоящее время привлекать независимых экспертов по безопасной и ответственной разработке ИИ к своим процессам, процедурам и методам тестирования и оценки безопасности, а также к своей структуре управления, например, к комитету по безопасности? (ответ — да, они это активно делают, о чём написано во многих отчётах)
— Обязуется ли OpenAI предоставить свою следующую базовую модель правительственным учреждениям США для тестирования, проверки, анализа и оценки перед развертыванием?
По последнему пункту — напомню, в конце весны OpenAI собрали комитет (в который вошел отставной генерал, помните?), который должен составить публично доступный документ с рекомендациями по процессу оценки и развёртывания модели.
Источник: WSJ
Вы знаете, у меня в канале нет ни рекламы, ни упоминания чего-то, с чем я не взаимодействовал/что я не читал до этого. Продолжаю эту традицию, и хочу привлечь ваше внимание к вот такой вакансии на Senior Backend Engineer (с готовностью вкатываться в AI) в Explee.
Стартап делается силами Алекса Катаева (ex-CTO Skyeng) и Харитона Матвеева (ex co-founder Skyeng). Я с ребятами встречался пару раз, и немного общался в личке, и всё что они спрашивали было мега адекватным — такие вопросы по LLM не каждый инженер не то что спросит, а даже поймет.
Сама вакансия: https://jobs.explee.com/backend-engineer/
Explee — потенциальный конкурент Perplexity, тоже делают веб-поиск с LLM-ками, но с куда бОльшим контекстом и глубиной проработки. Примеры ответов на три вопроса вы можете найти на странице вакансии. А вот мой запрос про бенчмарки для LLM-агентов и основные проблемы. (сервисом пока не получится пользоваться, ждите запуск через N недель)
===
Compensation: $7,000/m – $10,000/m, equity 0.1% – 0.4%, удалёнка, но команда иногда встречается в EU на виллах.
Уверен, в канале есть люди, которые подходят под жёсткие (но справедливые и понятные) требования, и буду рад, если получится кому-то помочь найти клёвую команду.
Стартап делается силами Алекса Катаева (ex-CTO Skyeng) и Харитона Матвеева (ex co-founder Skyeng). Я с ребятами встречался пару раз, и немного общался в личке, и всё что они спрашивали было мега адекватным — такие вопросы по LLM не каждый инженер не то что спросит, а даже поймет.
Сама вакансия: https://jobs.explee.com/backend-engineer/
Explee — потенциальный конкурент Perplexity, тоже делают веб-поиск с LLM-ками, но с куда бОльшим контекстом и глубиной проработки. Примеры ответов на три вопроса вы можете найти на странице вакансии. А вот мой запрос про бенчмарки для LLM-агентов и основные проблемы. (сервисом пока не получится пользоваться, ждите запуск через N недель)
===
Compensation: $7,000/m – $10,000/m, equity 0.1% – 0.4%, удалёнка, но команда иногда встречается в EU на виллах.
Уверен, в канале есть люди, которые подходят под жёсткие (но справедливые и понятные) требования, и буду рад, если получится кому-то помочь найти клёвую команду.
Поехали
https://llama.meta.com/
Метрики из вчерашнего слива оказались правдивыми
Приятная поддержка 128k токенов контекста, причём по метрикам на in context retrieval даже лучше GPT-4o и Sonnet 3.5
https://llama.meta.com/
Метрики из вчерашнего слива оказались правдивыми
Приятная поддержка 128k токенов контекста, причём по метрикам на in context retrieval даже лучше GPT-4o и Sonnet 3.5