Сиолошная
44.5K subscribers
764 photos
133 videos
1 file
944 links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Please open Telegram to view this post
VIEW IN TELEGRAM
Кто-то в редакции CNBC немного облажался, нажал не ту кнопку, и выпустил в релиз вот эту новость: OpenAI debuts mini version of its most powerful model yet

Речь идёт о запуске GPT-4o mini, и что якобы она была запущена в четверг (сегодня). Однако никаких анонсов или релизов нет, в API её нет, на сайте ChatGPT тоже. И всё же я думаю, что это просто ранний анонс, который должен был случиться вечером (по Калифорнии — утром).

Почему? Ранее на неделе на LMSYS Arena была замечена тестовая модель upcoming-gpt-mini, вероятно, также как и в случае gpt2-chatbot, OpenAI перед релизом проводили тестирование и оценку.

GPT-4o-mini должна стать заменой GPT-3.5, которую не обновляли больше года, и, по идее, за схожую цену предлагать сильно более умную модель. Позже в этом году в неё планируют добавить обработку видео и аудио (и может даже генерцию?). Этого нет в новости, но полагаю, что у неё может быть увеличенная длина контекста (как раз для работы с новыми модальностями) — потому что маленькую модель проще разворачивать на инфраструктуре, и нужно меньше ресурсов.

Модель будет доступна и бесплатным пользователям тоже.

Новость показал автор канала @cgevent, спасибо!

UPD: такую же новость запостил bloomberg.
Сиолошная
Кто-то в редакции CNBC немного облажался, нажал не ту кнопку, и выпустил в релиз вот эту новость: OpenAI debuts mini version of its most powerful model yet Речь идёт о запуске GPT-4o mini, и что якобы она была запущена в четверг (сегодня). Однако никаких…
Вышла

Вот картинка с бенчмарками, сравнивать можно с Gemini Flash от Google (обе на графике — в оранжевых тонах).

Очень заметен отрыв на датасете MATH (задачи по математике 🧐). Одни скажут «прорыв😏», другие — «да переобучились на данных!». А правду узнаем уже из опыта использования моделей!

Правда модель от OpenAI ... дешевле в 2 раза! Всего 15 центов за миллион входных токенов, и 60 за миллион на выходе — это ОЧЕНЬ мало. Дешевле GPT-3.5-Turbo на 65%!

И напомню, что даже эти копейки можно срезать на 50%, если пользоваться Batch API (это когда вы загружаете файл с сотнями-тысячами запросов, и он в течение суток обрабатывается; не подходит для чатов, но подходит для разных неприоритетных фоновых задач).

К сожалению, контекст так и остался на отметке в 128000 токенов.

P.S.: с этим релизом GPT-3.5-Turbo, представитель прошлого поколения моделей, уходит на покой 🫡 спи сладко. Но ещё на покой ушли десятки опенсурсных моделей: многие 70B варианты дороже даже у демпингующих провайдеров 🥺 Да что там, gemma-2-27b (крутая моделька гугла) стоит $0.27 — почти в два раза дороже 🤯
Please open Telegram to view this post
VIEW IN TELEGRAM
В прошлом году, когда ведущие разработчики ИИ стремились ускориться за счёт все более крупных кластеров, Sam Altman планировал игру вдолгую. Он решил основать новую компанию, которая могла бы разработать и произвести новые ИИ-специализированные чипы, а также помочь создать фабрики по производству чипов и центры обработки данных для их размещения.

Некоторые детали планов просочились в прессу, о них написали в The Information. Ниже моя тезисная выжимка:
— OpenAI ещё в прошлом году начали нанимать команду по разработке чипов. В частности, к ним присоединилась часть ветеранов из Google, работавших над TPU — в том числе руководитель проекта Richard Ho
— скорее всего, дизайн чипов ещё не начался, и первые образцы массового производства не стоит ждать ранее 2026-го
— однако команда уже сейчас рассматривает разные варианты компоновки памяти/форма-факторы/etc
— Sam говорил с Broadcom (американский производитель чипов с рыночной оценкой $750B), TSMC (тайваньский гигант, $880B) и даже Intel о совместной работе над чипом
— «ну говорил и говорил, видимо сами не могут сделать?», могли подумать вы. Думаю, проблема куда шире — как говорил Sam, мир не понимает, СКОЛЬКО мощностей нам нужно будет (помните шутки про 7 триллионов?), и просто пытается выстроить огромную сеть производства, взяв лучшее от каждого
— «Амбиции Sam'а по расширению производства показались многим руководителям маловероятными, поскольку для этого потребуется много капитала и специализированной рабочей силы. Altman был «слишком агрессивен, чтобы я мог в это поверить», — заявил генеральный директор TSMC на пресс-конференции в прошлом месяце, когда его спросили о перспективах открытия новых заводов»
— запросы о расширении производства/постройки заводов/другие эксклюзивные договоренности с OpenAI кажутся рисковыми, так как требуют инвестиций, которые не окупятся без покупателей
— Но Sama к этому готов — недавно он сказал одному руководителю из отрасли, что намеревается создать одну или несколько компаний с внешними инвесторами для оплаты недвижимости, электроэнергии, центров обработки данных и специализированных серверов с чипами искусственного интеллекта. И добавил, что OpenAI возьмет на себя обязательство арендовать эти серверы
— OpenAI будет являться акционером (и возможно контролирующим лицом) в новой компании/ях, и совет директоров уже ознакомился с планами

И финальное:
В приватной беседе с директорами из отрасли Sam сказал, что публично представит проект в этом году. Так что ждём, будем смотреть вот так 😳 на грандиозные планы по изменению индустрии.

На фото Sam летит на своём суперкаре за $4M с одной встречи на другую, торопится парень.

UPD: Broadcom — это компания, которая делает TPU для Google (источник)
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышла вторая часть описания победного решения AIMO (олимпиады по математике, которую решают LLM-ки) — вводные тут, если пропустили.

В ней рассказывается, как собирали данные для дообучения моделей, всего около миллиона задач не только с ответами, но и решениями (самой важной частью). Это существенно больше того, что было доступно на момент начала соревнований:
— MATH (7500 задач, все - околоолимпиадного уровня)
— GSM8k (7470 задач от OpenAI, но обычного школьного уровня, без олимпиад)
— orca-math (200 тысяч задач, сгенерированных синтетически через ChatGPT, тоже не олимпиадные)

Как видите, на фоне этого миллион — это ого-го! Какие сусеки скребли для сборки:
— китайский экзамен K-12 за все годы (там ещё и вариантов куча). Все задания были в PDF, их оцифровали, а затем перевели через GPT-4o (~260 тысяч задач)
— официальные решения задач AMC и AIME — всего 6500 задач, из которых оставили 4300, потому что остальные пересекались с валидационной выборкой. Как-то совсем мало, да?
— Да, потому эти задачи использовали как часть промпта для GPT-4 с целью создания синтетики - и размножили их до 160 тысяч примеров. Брали подход из вот этой статьи, промпты есть в самом конце. Процесс состоит из 3 шагов: написание новой задачи, валидация корректности постановки вопроса (и внесение корректировок), написание решения. Этот же подход применяли и к вышеупомянутому MATH
— 152 тысячи задач из PDF-ок/с сайтов международных и региональных олимпиад. Тут из-за разнородности данных пришлось запариваться, и для части файлов даже делать ручную разметку, где текст/решение вообще находится. После извлечения GPT-4o отвечала за перевод, а также за переформатирование решения и ответа. Это вообще острая тема, потому что везде всё разнородно, и это обычно плохо влияет на каечство обучения. Вручную такие объемы не перелопатить, хорошо, что можно аутсорсить GPT-хе

Ну и по мелочам то да сё, вышло 860к. А дальше самое интересное, как получали остаток — с помошью GPT-4 и TIR (Tool-Integrated Reasoning) — это когда модель может пользоваться питоном и не писать решение, а генерировать код, решающий задачу. Для геометрических задач есть отдельные библиотеки даже. Если ответ, полученный кодом, является неправильным, то мы повторяем процесс, генерируем новое решение, и так по кругу. В таком подходе нельзя быть уверенным, что решение на 100% правильное и учитывает всё, но 🤷‍♂️

И собственно всё. Дальше финальная модель сначала обучается математике в целом, обучаясь на первой части (где все решения приведены к единому виду) 3 эпохи, а затем доучивается писать код для решений в течение 4 эпох.

Над проектом работало больше 20 человек, вложено огромное количество усилий, но зато следующим итерациям соревнования будет легко, ведь есть такая база для старта.
Please open Telegram to view this post
VIEW IN TELEGRAM
Кроме модели на 7 миллиардов параметров для соревнования, победители обучили ещё и модель на 72B (инициализированную из Qwen 2 от Alibaba) и выложили её (как и все даннные).

Результаты замеров и сравнений на картинке, сверху табличка для крохи 7B, снизу тяжеловесы.

0-shot — это когда модель сходу выдаёт первое попавшееся решение; maj@64 означает, что модель генерирует 64 решения (каждое решение = одна или больше Python-программа. Их получается несколько в том случае, если вылазит баг - тогда LLM пытается их исправить по тексту ошибки), а затем между всеми полученными ответами выбирается тот, который встречается чаще. Понятно, что во втором случае качество должно расти, что и наблюдается.

CoT = модель, обученная только на первом шаге, без написания кода программ (то есть и считает она сама, и может ошибиться даже в 2+2), TIR = с Python.

Самое интересное, пожалуй, смотреть на AIME 2024 как на самое свежее соревнование, где почти наверняка были новые задачки. А ещё на MATH — так как авторы очень старались отфильтровать похожие задачи и не тренироваться на них. 72B модель без кода показывает результат 68% при генерации ответа с первого раза. Это совсем чуть меньше 70.2%, которые были у свежей GPT-4o mini. По графику можно было подумать, что OpenAI переобучились, но видимо это достижимая планка через качественные данные и синтетику.
Какие направления дальнейшей работы видят авторы:

— Всё еще покрыты не все ресурсы/форумы/региональные и локальные олимпиады. Можно получить сколько-то десятков-сотен тысяч задач

— Улучшения в процессе разметки и извлечения, чтобы приводить всё к одному формату

— корректировка сгенерированных синтетически решений: сейчас валидность проверяется лишь по соответствию ответу, но при этом ход решения может быть как чуть-чуть, так и в целом неправильным. Хорошей идеей может стать использование GPT-4 для перепроверки/перегенерации, чтобы не обучать свои модели на мусоре

— сейчас используется только Python, но можно подключать другие инструменты. В обществе математиков давно разработаны пруверы (доказывают) и солверы (решают), даже специальные языки есть

— улучшение процесса создания синтетических решений. Сейчас некоторые задачи слишком сложны даже для GPT-4, и в решениях есть явные паттерны ошибок, которые можно постараться обойти промптами и примерами

— во всех постах выше речь шла про решения задач, имеющих численный ответ. Но на олимпиадах не менее часто попадаются и задачи на доказательство, и у LLM тут по нулям. Создание датасета доказательств и способов обучения на этом также должно улучшить общие навыки моделей (ждём от OpenAI...)

Вот так вот. Ждём второй раунд соревнований, посмотрим, сколько можно выжать сверх полученных результатов просто за счёт чуть более умной тренировки + агрегаций предсказаний + валидации + ...
Закончил 6-часовую игровую сессию в Deadlock (😉🥱), зашёл в Твиттер, а там оказывается во всю идёт обсуждение выхода LLAMA-3-405B (самого большого варианта, который МЕТА обещала). По слухам, она должна появиться завтра, 23-го, однако уже появилась карточка модели и даже веса на 4chan'е слили. Ссылок я давать не буду, подождём оф. релиза.

Однако посмотреть на метрики очень интересно. Они ОЧЕНЬ заманчивые, в отдельных бенчмарках даже выше GPT-4o (не mini, а самой большой настоящей!). На MMLU-Pro (усложнённая версия MMLU, с 10 вариантами ответа, вопросами, взятыми из разных источников) обходит и её, и Claude 3.5 Sonnet на полпроцентика. Но это слухи, просто ждём завтра и сверяем цифры.

Что ещё интересно:
— якобы для дообучения на последнем этапе использовалось 25 миллионов синтетических примеров. Интересно про это было бы почитать, ждём статью
— модели позиционируются как многоязычные с поддержкой французского, немецкого, хинди, итальянского, португальского, испанского и тайского языков
— почему моделИ? потому что 70B и 8B тоже обновят до версии LLAMA 3.1, и метрики очень сильно вырастут. Есть предположение, что этого удалось достичь через онлайн-дистилляцию 405B модельки — Google, например, так и делал с Gemma/Gemini Flash. Если завтра это подтвердится — с меня рассказ, как и почему это работает

Pastebin с карточкой модели
Источник картинки

Ну и самое главное:
— Если META и вправду это выложит, то....КОГДА АНОНС GPT-4.5??? 👀 Sama, пора 🙂

UPD: ещё в карточке есть интересная фраза
> Our study of Llama-3.1-405B’s social engineering uplift for cyber attackers was conducted to assess the effectiveness of AI models in aiding cyber threat actors in spear phishing campaigns.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
OpenAI создали комитет по безопасности. Он отвечает за выработку рекомендаций по критически важным решениям в области AI Safety для всех проектов OpenAI. Самая главная часть в посте: «OpenAI has recently begun training its next frontier model...» Вторая…
Пятеро сенаторов Демократической партии США направили письмо с 12 вопросами Sam Altman и OpenAI с запросом на предоставление информации об усилиях по созданию безопасного и надежного искусственного интеллекта. Это происходит на фоне недавних сообщений от осведомителей, что компания поспешила с тестированием безопасности своей последней модели (GPT-4o), чтобы успеть к анонсу в мае.

Полное письмо тут, ниже — отдельные интересные вопросы:
— Планирует ли компания следовать своему обещанию выделять 20% мощностей на исследований AI Safety?
— Избавилась ли компания от практики подписаний договоренностей о пожизненном отчуждени права на критику бывшими сотрудниками?
— Существуют ли в OpenAI процедуры, позволяющие сотрудникам выражать обеспокоенность по поводу кибербезопасности и безопасности? Как решаются эти проблемы, когда они возникают?
— Планирует ли компания в настоящее время привлекать независимых экспертов по безопасной и ответственной разработке ИИ к своим процессам, процедурам и методам тестирования и оценки безопасности, а также к своей структуре управления, например, к комитету по безопасности? (ответ — да, они это активно делают, о чём написано во многих отчётах)
— Обязуется ли OpenAI предоставить свою следующую базовую модель правительственным учреждениям США для тестирования, проверки, анализа и оценки перед развертыванием?

По последнему пункту — напомню, в конце весны OpenAI собрали комитет (в который вошел отставной генерал, помните?), который должен составить публично доступный документ с рекомендациями по процессу оценки и развёртывания модели.

Источник: WSJ
Вы знаете, у меня в канале нет ни рекламы, ни упоминания чего-то, с чем я не взаимодействовал/что я не читал до этого. Продолжаю эту традицию, и хочу привлечь ваше внимание к вот такой вакансии на Senior Backend Engineer (с готовностью вкатываться в AI) в Explee.

Стартап делается силами Алекса Катаева (ex-CTO Skyeng) и Харитона Матвеева (ex co-founder Skyeng). Я с ребятами встречался пару раз, и немного общался в личке, и всё что они спрашивали было мега адекватным — такие вопросы по LLM не каждый инженер не то что спросит, а даже поймет.

Сама вакансия: https://jobs.explee.com/backend-engineer/

Explee — потенциальный конкурент Perplexity, тоже делают веб-поиск с LLM-ками, но с куда бОльшим контекстом и глубиной проработки. Примеры ответов на три вопроса вы можете найти на странице вакансии. А вот мой запрос про бенчмарки для LLM-агентов и основные проблемы. (сервисом пока не получится пользоваться, ждите запуск через N недель)

===

Compensation: $7,000/m – $10,000/m, equity 0.1% – 0.4%, удалёнка, но команда иногда встречается в EU на виллах.

Уверен, в канале есть люди, которые подходят под жёсткие (но справедливые и понятные) требования, и буду рад, если получится кому-то помочь найти клёвую команду.
Поехали

https://llama.meta.com/

Метрики из вчерашнего слива оказались правдивыми

Приятная поддержка 128k токенов контекста, причём по метрикам на in context retrieval даже лучше GPT-4o и Sonnet 3.5
Ссылка на техническую статью с описанием процесса разработки: PDF

Пост будет обновляться тезисами из неё:
— Тренировка самой большой модели потребовала 3.8 × 10^25 FLOPs — примерно в полтора раза больше, чем оригинальная GPT-4, но ниже планки регуляторов США в 1.0 x 10^26 в 3 раза
— для улучшения метрик в программировании использовали много синтетики и переводов между разными языками программирования
— проводят анализ того, насколько метрики в бенчмарках завышены из-за присутствия данных в тренировочной выборке, и как это влияет на метрики. Правда для самых расхожих бенчмарков типа MMLU оценку дать не смогли, так как повторений уж слишком много (там зачастую общие вопросы, например, про историю — ну как тут фильтровать?)
— анализируется FP8-квантизация 405B модели, рекомендуется не трогать первые слои (они самые чувствительные)
— в FP8 должно влазить на 640 гигабайт VRAM (то есть 8xH100/A100), но с маленьким батчом и контекстом
Сиолошная
Поехали https://llama.meta.com/ Метрики из вчерашнего слива оказались правдивыми Приятная поддержка 128k токенов контекста, причём по метрикам на in context retrieval даже лучше GPT-4o и Sonnet 3.5
Модели META также стали доступны у множества провайдеров. Вот сводная табличка всех цен для удобства.

Зелёным выделил выгодные цены для младшей модели на 8B и самой большой на 405B. Они потенциально являются конкурентами моделей GPT-4o mini и GPT-4o.

Цены указаны за миллион токенов (~0.75 слова) и делятся на вход — сколько в промпте — и на выход, сколько нужно генерировать. Для каких-то задач важнее длинный промпт, а сама генерация буквально 1 строчка (или даже одно слово), для других наоборот, генерация куда длиннее.

Для сравнения цены OpenAI:
— $0.15/$0.6 за младшую модель
— $5/$15 за полноценную

А если вам не нужно получать ответы моментально, то OpenAI предоставляют Batch API: вы закидываете файл с запросами (можно делать цепочки сообщений), ждёте до 24 часов и платите лишь половину цены. Идеально для генерации синтетических данных / разметки малоприоритетных запросов. У других провайдеров такой сервис отсутствует.

Итого выходит, что сравнимые цены лишь у самых демпингующих игроков (не ясно, работают ли они в минус, в ноль или зарабатывают), но только если нужно получать ответ быстро.

Интересно ещё, какие провайдеры разворачивают модель в 16-битной конфигурации, а какие довольствуются FP8-квантизациями. Это важно, так как хоть немного, но влияет на качество (об этом даже сама META пишет в статье).

Так что может быть такое, что те, кто продаёт доступ к модели дешевле всех, на самом деле выдают качество чуть хуже, и лучше делать сравнение. По своему опыту знаю, например, что DeepInfra (не представлено на слайде) точно ужимают модели — стабильно на пару процентов просадка относительно других.

Выводы: GPT-4o всё ещё актуальна по цене, как малая, так и большая версии. Особенно если с запросами торопиться не нужно, или если языки отличаются от официально поддерживаемых.
А ещё! OpenAI добавили сегодня возможность дообучения GPT-4o mini. Раньше такое было доступно лишь для серии GPT-3.5-turbo, для 4-ки функция находилась в ограниченном экспериментальном режиме.

Дообучение полезно, когда вам нужно подправить поведение модели (но не её знания). Обычно я предлагаю такую аналогию: мы как бы сжимаем инструкции в промпте в обучаемые параметры. Это позволяет не писать длинный детальный промпт каждый раз, и как следствие экономить на токенах, а возможно даже повышать качество.

В чем подвох? Запросы к такой модели стоят дороже, ведь OpenAI должны хранить копию дообученной модели отдельно специально под вас.

Цена подпрыгивает ровно в 2 раза:
— $0.15->$0.3 за миллион входных токенов
— $0.6->$1.2 за миллион генерируемых

Так что если генерация меньше промпта, а сам промпт достаточно длинный, и за счёт дообучения большую его часть можно опустить — то будет выгода. Другая опция — вам нужно делать обработку в фоне, а не в реальном времени: Batch API доступно и тут! И да, оно возвращает цену к исходной, деля её на 2.

В других случаях лучше продолжать пользоваться общедоступной моделью.

А теперь внимание — бонус! Дообучение будет БЕСПЛАТНЫМ для всех пользователей 4-5 тиров до 23-го сентября! То есть вы можете ничего не потратить на итерации тренировки, а затем за пару баксов потестировать, как оно стало, лучше или хуже? А если результат понравится — переехать. Думаю, для части задач переход с 4o на 4o mini может быть разумным — разница в цене космическая. Для верности можно прогонять дообученную модель 3 раза — это всё равно будет раз в 5 дешевле 😃

Документация к дообучению — тут, там всё просто, не нужно знать машинное обучение.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Вышел анализ доходов и расходов OpenAI от авторитетного издания The Information. Он основывается на ранее нераскрытых внутренних финансовых данных и информаторах, участвующих в бизнесе.

В этом году компания может потерять до 5 МИЛЛИАРДОВ долларов. Если в анализе нет крупных ошибок, то скорее всего OpenAI потребуется привлечь больше средств в ближайший +-год. Но обо всём по порядку:

— человек, непосредственно знакомый с расходами на железо, сказал, что на март 2024-го OpenAI планировали потратить на аренду серверов для ChatGPT $4B. Сюда входит только применение уже готовых обученных моделей для поддержания сервиса (включая распознавание голоса, генерацию, итд)
— суммарно кластеры для ChatGPT, со слов источника, примерно эквиваленты 350'000 видеокарточек A100, и из них ~80% идут напрямую на ChatGPT. Microsoft берёт по $1.30 в час за одну карту A100 — это большой дисконт: сейчас при заключении трёхлетнего соглашения на аренду на Azure средняя цена $1.7 (на год — вообще $2.82)
— однако плановая выручка за этот год, если помните мой прошлый пост, составляет примерно $3.5B (с учётом роста $4.5B), то есть почти окупает эту часть затрат. Но ведь это не всё...
— в дополнение, расходы на сервера для тренировки моделей оценивались ещё в $3B 😨 И это охренеть как много — сами OpenAI планировали потратить всего $800M, но по непонятной причине раздули бюджет. Может, обучение стало приносить меньше плодов, и нужны инвестиции покрупнее, а может наоборот, стало ясно, что вот если раза в 4 увеличить, то станет конфеткой. В любом случае модель следующего поколения будет куда дороже предшественников и того, что мы наблюдаем у META 😅
— плюс, есть расходы на персонал. В компании работает примерно 1'500 человек, и с учётом стремительного роста (в конце 2023-го было ~900), офисы-зарплты-кофе-то-сё, это ещё миллиард-полтора. А ведь на сайте числится больше 200 открытых вакансий...
— итого суммарно за год компания сжигает $8.5B — беспрецедентная сумма, которая кажется гигантской на фоне последнего раунда инвестиций от Microsoft в размере $10B. И тут ещё не учтено, что вообще-то планируется пустить трафик от Apple iPhone на ChatGPT, и количество запросов, а равно и траты, прыгнут вверх
— итого, ~$8.5B потратят, ~$4.5B получат, чистые потери составят $3.5-4.5B. Хорошо, что по договорённостям OpenAI платят своим инвесторам долю от прибыли (которая равна 0)
— у конкурентов не так, например, Anthropic планирует потратить $2.5B на кластера, а выручка у них $800M, да часть ещё и уходит Amazon. Так что их потери могут быть где-то $2B, что в абсолюте меньше, но как доля от выручки существенно больше. Да ещё и инвестиций не так много

И бонус:
— на данный момент не известен размер тренировочных кластеров OpenAI, которые используются для обучения модели следующего поколения (уже запущено, анонс планируется до конца года), однако на первый квартал 2024-го это было 120'000 A100 — до того, как Microsoft должна была предоставить OpenAI гораздо больше серверов для учебных целей.
GPT-4, напомню, училась на 25'000 карт, LLAMA-3-405B — на 16'000 (но более мощных).
Please open Telegram to view this post
VIEW IN TELEGRAM
😳 какой-то урожайный сезон — новая моделька от Mistral 🇫🇷, Large 2 (на 123B параметров)

1) 128K контекст (как у LLAMA-3.1)
2) Поддержка языков: Английский, французский, немецкий, испанский, итальянский, португальский, голландский, русский, китайский, японский, корейский, арабский и хинди
3) прокачали математику и программирование — на картинке метрики для разных ЯП на бенчмарке MultiPL-E
4) также, как и в LLAMA-3.1, улучшили следование инструкциям и использование инструментов
5) лицензия не позволяет коммерческое использование, но можно свободно заниматься исследовательской деятельностью

Блог
Модель на HF 🤗

Возможно, моделька потеряется на фоне релизов LLAMA (кроме мб программирования). Она слишком большая для локального использования, а в API есть LLAMA побольше и покачественнее, и поменьше но подешевле, ну и OpenAI никуда не делись. Зато на La Platforme можно будет теперь запускать дообучение. Цена у самих французов $3 и $9 за миллион токенов на входе/выходе — СИИИИЛЬНО больше 70B LLAMA, и совсем немногим дешевле GPT-4o.
Please open Telegram to view this post
VIEW IN TELEGRAM
Новая статья от OpenAI (блог, pdf)

Предлагается метод для формирования награды во время обучения на основе правил (Rule Based Reward, RBR): формулируются функции для желаемого или нежелательного поведения (например, отказы не должны носить осуждающий характер). Награда - это некоторое число или набор чисел, которые модель старается максимизировать во время обучения (то есть что-то, что несёт положительный сигнал). Самая простая награда - "ответ не содержит оскорблений": даём +1 балл.

В отличие от предыдущих методов, использующих обратную связь (от человека или LLM), этот метод использует детализированные многоступенчатые промпты, что приводит к большему контролю, точности и простоте обновления.

Главный результат — получаемая модель становится более полезной и при этом безопасной, то есть реже отказывается от того, от чего не нужно, и чаще отвечает на запросы, которые могли показаться нарушающими правила, но таковыми не являются. На графике это изображено как попадание модели в верхний правый уголок.

И да, этот подход использовался при дообучении GPT-4o (и большой, и mini).

Детальный разбор мб позже сделаю.