AI Product | Igor Akimov
3.82K subscribers
657 photos
101 videos
44 files
655 links
Download Telegram
Дали доступ к новой "супер-рассуждающей" модели от ChatGPT. Можете накидать вопросов для тестов
Попросил o1 проанализировать всю доступную информацию про o1 (а самая мякотка там конечно System Card, по сути научная статья про ее работу и тесты).
https://assets.ctfassets.net/kftzwdyauwt9/67qJD51Aur3eIc96iOfeOP/71551c3d223cd97e591aa89567306912/o1_system_card.pdf

Вот выводы в формате статьи
Новая эра ИИ: OpenAI o1-preview и её ключевые особенности
С развитием искусственного интеллекта (ИИ) и машинного обучения возможности моделей становятся всё более разнообразными и функциональными. В 2024 году OpenAI представила новую модель под названием o1-preview. Это значительный шаг вперед в области обработки естественного языка, обучения и решения сложных задач. В этой статье мы рассмотрим ключевые особенности и возможности модели, её потенциальные применения, а также важные моменты, касающиеся безопасности и обучения.

Что такое OpenAI o1-preview?
OpenAI o1-preview — это новейшая модель ИИ, разработанная на основе более ранних версий, таких как GPT-4o. Основное отличие o1-preview от её предшественников заключается в способности более глубоко анализировать и обрабатывать информацию, прежде чем предложить решение задачи. Это достигается за счёт применения так называемого подхода «цепочки рассуждений» (chain-of-thought), который позволяет модели более тщательно обдумывать свои ответы и решения, особенно в сложных контекстах.

Модель была обучена с использованием обучения с подкреплением (reinforcement learning), что позволило ей более эффективно решать задачи в таких областях, как наука, программирование, математика и другие сложные дисциплины. В дополнение к этому, её результаты постоянно улучшаются по мере увеличения количества вычислительных ресурсов, как на этапе обучения, так и на этапе тестирования.

Основные достижения и особенности OpenAI o1-preview
1. Превосходные результаты в задачах программирования и математики

Одной из ключевых целей создания o1-preview было улучшение способностей модели к решению сложных задач, требующих логических рассуждений, программирования и математических вычислений. Модель продемонстрировала выдающиеся результаты на таких платформах, как Codeforces, где она показала уровень знаний и навыков, сопоставимый с лучшими программистами.

На соревнованиях Codeforces o1-preview достигла рейтинга Эло в 1258 баллов, что соответствует 62 процентилю участников. Это гораздо лучше по сравнению с предыдущей версией GPT-4o, которая набрала только 808 баллов и вошла лишь в 11 процентиль.

В области математики модель также продемонстрировала высокие результаты, решив в среднем 74% задач на американском математическом экзамене AIME (2024). Это ставит её на уровень топ-500 студентов США, готовящихся к Олимпиаде по математике (USA Math Olympiad).

2. Улучшенная производительность на тестах по естественным наукам

Кроме программирования и математики, o1-preview показала высокие результаты и в таких дисциплинах, как физика, химия и биология. Модель превзошла многие из ранее существующих моделей на тестах GPQA (General Physical and Quantitative Assessment), предназначенных для оценки научных знаний на уровне PhD.

Например, на тестах по физике, биологии и химии o1-preview продемонстрировала более высокую точность по сравнению с её предшественниками. Она даже превзошла уровень, ожидаемый от кандидатов наук, на некоторых тестах, что свидетельствует о её глубоком понимании предметной области.

3. Превосходство в многоязычных задачах

Одним из значительных преимуществ o1-preview является её способность решать задачи на различных языках. Модель была протестирована на 14 языках, включая такие сложные языки, как арабский, китайский и испанский, и показала отличные результаты, что делает её отличным выбором для многоязычных приложений. Это открывает возможности использования модели в глобальных проектах, требующих точного перевода и анализа текста на разных языках.
Подход «цепочки рассуждений» (chain-of-thought)
Ключевое нововведение, которое выделяет o1-preview среди других моделей, — это применение метода «цепочки рассуждений». Этот подход позволяет модели генерировать внутреннюю цепочку логических шагов, прежде чем она выдаст окончательный ответ. Это особенно полезно при решении сложных задач, где требуется многократный пересчёт, проверка и коррекция промежуточных шагов.

Пример использования: Допустим, модель получает задание на решение сложной математической задачи. Прежде чем выдать ответ, она сначала разбивает задачу на несколько шагов, оценивает каждый из них, проверяет, не допущена ли ошибка, и лишь затем предлагает решение. Такой подход позволяет избежать случайных ошибок и значительно повышает точность ответа.

Благодаря этому новшеству o1-preview продемонстрировала улучшенные результаты по сравнению с GPT-4o в большинстве задач, требующих глубоких логических рассуждений. В том числе это касается сложных задач в таких областях, как программирование, кодирование шифров и анализ больших объёмов данных.

Безопасность и этичность использования модели
С ростом возможностей ИИ возникает всё больше вопросов относительно безопасности и ответственности при его применении. Одной из основных целей разработки o1-preview было создание более безопасной и этичной модели, которая не только предоставляет точные ответы, но и строго следует правилам безопасности и этики.

1. Защита от вредоносного использования

Важным аспектом безопасности стало тестирование модели на способность противостоять попыткам её взлома (так называемым "jailbreaking" атакам). В ходе этих тестов, модель o1-preview показала значительно более высокую устойчивость к таким попыткам по сравнению с GPT-4o. Например, в одном из сложнейших тестов по jailbreak оценке, o1-preview набрала 84 балла из 100, в то время как GPT-4o смогла набрать только 22 балла.

2. Безопасность при обработке чувствительной информации

Модель o1-preview также была протестирована на способность обрабатывать чувствительную информацию, не нарушая правил безопасности. Например, она показала высокие результаты в задачах, связанных с медициной и биологическими данными, демонстрируя понимание этических норм и следование установленным правилам.

3. Превосходные результаты на внутренних тестах OpenAI

Согласно внутренним тестам OpenAI, модель o1-preview показала выдающиеся результаты на тестах безопасности и отказоустойчивости. Она также была протестирована в реальных сценариях использования, включая работу с данными, имеющими высокий уровень конфиденциальности.

Применение OpenAI o1-preview в различных сферах
OpenAI o1-preview была разработана с учётом широкого спектра применений. Её улучшенные способности к логическим рассуждениям и глубокой аналитике позволяют использовать модель в различных областях:

1. Научные исследования

Благодаря способности решать сложные задачи в области математики и естественных наук, o1-preview может быть использована учёными для анализа данных, выполнения сложных вычислений и решения задач, требующих высокого уровня знаний.

2. Программирование и разработка

Модель была специально настроена для того, чтобы быть эффективной в решении задач программирования. Она может помогать разработчикам с написанием и отладкой кода, что делает её мощным инструментом для автоматизации разработки программного обеспечения.

3. Образование

С учётом её многоязычных возможностей и способностей к решению сложных математических задач, o1-preview может быть использована в образовательных учреждениях для обучения студентов, проведения онлайн-тестов и помощи в подготовке к экзаменам.

4. Бизнес и аналитика

Модель может быть использована для анализа больших объёмов данных, создания отчётов и предложений, а также для автоматизации бизнес-процессов, требующих сложных вычислений и принятия решений.
OpenAI o1-mini: доступная альтернатива
Вместе с моделью o1-preview была выпущена её уменьшенная версия — o1-mini. Это более дешёвая и быстрая модель, которая сохраняет многие возможности o1-preview, особенно в задачах, связанных с программированием и математикой.

Основное преимущество o1-mini заключается в её доступности и меньшей стоимости вычислений. Это делает её отличным вариантом для использования в проектах, где требуются сильные способности к логическим рассуждениям, но нет необходимости в широком знании мира.

Цена
Модель OpenAI o1-preview предназначена для решения сложных задач, требующих глубокого уровня рассуждения и обширных знаний, и стоит $15 за 1 миллион входных токенов и $60 за 1 миллион выходных токенов, в то время как предыдущая сильная модель стоит $5/$15. Это делает её самой дорогой среди доступных моделей, но она обеспечивает максимальную производительность в научных и аналитических задачах. Более доступная версия — o1-mini, которая оптимизирована для программирования, математики и научных задач, стоит $3 за 1 миллион входных токенов и $12 за 1 миллион выходных токенов, предлагая значительную экономию при сохранении высокой точности в специализированных областях. В сравнении с GPT-4o-mini, которая стоит $0.15/$0.60

Заключение
Модель OpenAI o1-preview представляет собой значительный шаг вперёд в области искусственного интеллекта, особенно в задачах, требующих глубоких логических рассуждений, программирования и научных вычислений. Её способность думать через «цепочку рассуждений» позволяет ей решать задачи с высокой точностью, что делает её полезным инструментом для научных исследований, программирования, образования и бизнеса.
Ладно, к делам земным.

Google тоже не спит, а фигачит инновации.
Выпустили открытые DataGemma, натюненные на минимизацию галлюцинаций и которые сверяются с Google Data Commons, хранилищем проверенных данных о мире, чтобы выдавать точный ответ.

Основная идея в том, что теперь модели, прежде чем дать ответ, будут сверяться с этой базой данных. Например, если вы задаете вопрос о том, насколько увеличилось использование возобновляемых источников энергии в мире, DataGemma проверит статистику в Data Commons и даст точный ответ. Это поможет сократить количество ошибок, сделав AI более надежным инструментом для исследований, принятия решений и других задач, требующих точных данных.

Сделали 2 подхода: RIG и RAG. В первом случае сначала получаем ответ от LLM, потом валидируем его в базе, во-втором в промпт запихиваем нужный контекст из этой базы. На картинке подробнее.

В итоге стало лучше по фактической точности (но конечно не идеально все равно) и ответы больше нравятся людям, особенно из RAG.

Веса - https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643
Статья - https://docs.datacommons.org/papers/DataGemma-FullPaper.pdf
Блог - https://blog.google/technology/ai/google-datagemma-ai-llm/
Берег эту новость еще со времен отпуска.
LM Studio, моя любимая система для запуска локальных LLM, обновилась до версии 0.3!
https://lmstudio.ai/blog/lmstudio-v0.3.0

Вот какие обновления:
- Локальный чат с вашими документами! Теперь можно свои секретные рабочие документы (до 30 Мб), скрипты интервью, имейлы локально и безопасно "опрашивать", переписывать, саммаризовывать без слива всего в интернет

- Можно каждую локальную модель просить выдать валидный JSON

- Тем для UI добавили

- Автоконфигурацию в соответствии с вашим оборудованием (не надо будет руками все подбирать)

- Можно запускать как сервер, чтобы другие устройства по сети обращались. Например, завели комп с норм видюхой и дали доступ к нему коллегам.

- Папочки для чатов (как же не хватает этого в ChatGPT).

- Ну и мелочи всякие

Как обычно самый большой минус, что на Mac работает только с процессорами M1/M2/M3, с Intel лучше использовать jan.ai

Пользуйтесь!
О, как раз исследовал библиотеки для анонимизации и удаления персональных данных. Вышло свежее - Пиранья

Piiranha-v1 - 280-мегабайтная открытая модель кодировщика для обнаружения PII. Поддерживает 6 языков (русского нет, но с именами/адресами вы и сами можете разобраться, а все остальное - цифры) с отличными результатами тестов и выпущена под лицензией MIT!

🛡 Обнаруживает 17 типов PII (Personal Identifiable Information)
🔑 Поддерживаемые типы PII: Номер счета, номер здания, город, номер кредитной карты, дата рождения, водительское удостоверение, электронная почта, имя, фамилия, идентификационная карта, пароль, номер социального страхования, адрес улицы, налоговый номер, номер телефона, имя пользователя, почтовый индекс.
🎯 98,27% обнаружения лексем PII
🔍 99,44% общая точность классификации
💯 100% точность для электронных писем и почти идеальная точность для паролей
🌐 Поддержка английского, испанского, французского, немецкого, итальянского и голландского языков
🧠 Доработанная версия microsoft/mdeberta-v3-base
🧮 Длина контекста 256 токенов, больший текст необходимо разбить на части
🆓 Доступно по лицензии MIT

Модель тут: https://huggingface.co/iiiorg/piiranha-v1-detect-personal-information
Хм... Генератор музыки Suno даёт 1 месяц Pro подписки по промокоду
NICK100
Audio
Новая text-to-speech и voice cloning моделька - FishAudio. Достаточно 30 секунд для клонирования. 50 генераций бесплатно, а так подписка 10 баксов в месяц.

Звезд с неба не хватает, но стоит очень дешево и есть API. Плюс она опенсорсная - https://github.com/fishaudio
Там уже наклонировали кучу голосов для вас, в том числе каких-нибудь Масков и Трампов. Вот например хит Бритни Спирс от него в аттаче.

Подробнее: https://fish.audio/
Microsoft конечно двигает технологии к людям.
Сделали типа AI-генерацию кода вычислений на Python в Excel. Просто пишешь или выбираешь из списка, чего тебе сделать с данными надо
https://youtu.be/zkyzrLwRwlo
Вчера OpenAI сбросили у всех лимиты на O1, а сегодня их увеличили (видимо нагрузка не такая большая, как ожидали)

Для платников мини-версию теперь можно гонять аж 50 раз в день, а большую версию - 50 сообщениями в неделю мучить (вместо 30).
А вот кстати подробности, как OpenAI тренировал улучшение размышлений в GPT O1.

Новый подход показывает, что правильные шаги в цепочке рассуждений повышают производительность больше, чем концентрация на конечном результате/ответе! OpenAI улучшил результаты GPT-4 с 42,5 до 78 % на бенчмарке MATH, используя Process-supervised reward models (PRM, то есть которые за каждый шаг награду дают, а не только за результат). Это приводит к более надежным и точным результатам при решении сложных задач на рассуждение.

Реализация:
1️⃣ Зафайнтюнили GPT-4 (даже не О, поэтому так долго все было), чтобы настроить специальную пошаговую выдачу рассуждений.
2️⃣ Сгенерировали задачу, похожую на MATH, используя доработанную GPT-4, и представили ее разметчикам, чтобы те пометили каждый шаг как положительный, отрицательный или нейтральный (в аттаче как это выглядит). Получили датасет из задач, решений и шагов RPM800k (тоже выложили).
3️⃣ Обучили PRM с использованием набора данных PRM800K для оценки каждого промежуточного шага рассуждения, чтобы обратная связь была по каждому шагу рассуждения.
4️⃣ Использовали методы активного обучения для улучшения RPM и отбора наиболее информативных образцов данных для аннотирования человеком.
5️⃣ Обучили GPT-4 с помощью RLHF и использовали PRM для улучшения промежуточных шагов рассуждений. Опять же GPT-4, которая на 1.8T параметров и самая дорогая и медленная.

Интересное:
🔧 Файнтюн LLM помог выдавать пошаговый формат, с чем не справляются текущие модели.
📊 PRM800K содержит 800 тыс. шагов для 75 тыс. решений 12 тыс. задач.
🎯 78% правильных решений на бенчмарке MATH по сравнению с 72,4% для моделей вознаграждения за результат (а не за шаги).
💼 Активное обучение снижает стоимость и повышает эффективность обратной связи с человеком.
💰 Обратная связь от человека использовалась только для маркировки шагов рассуждения, все остальное синтетика.

Подробнее тут: https://arxiv.org/abs/2305.20050

И самое прикольное, что теперь O1 поможет генерировать еще более качественные и валидные данные для обучения моделей следующего поколения. Так что данных будет завались, потолок еще очень далеко. Ну и даже сейчас если GPT-4o я считал скорее выпусником ВУЗа для сложных задач, то O1 - это уже опытный сотрудник!
Китайцы продолжают двигать опенсорс.
Новая Qwen-2.5 в 7 разных размерах и 2 специально заточенные под математику версии, на подходе модель для кодинга!

Производительность на 5-70% выше, чем у предыдущего поколения, обходит по тестам Meta Llama 3.1 70B и соответствует 405B! Qwen 2.5 32B превосходит OpenAI GPT-4o mini. 🤯

📈 Обучены на 18 триллионах токенов, вход до 128К токенов, выход до 8К.
🌎 Поддержка более 29 языков, включая английский, французский, испанский, китайский и другие.
Улучшенное следование инструкциям, понимание структурированных данных и вывод JSON.
🎭 Улучшена обработка системных подсказок для улучшения ролевых игр и работы чатботов.
🔓 Все размеры выпущены под Apache 2.0, кроме 72B и 3B
🥇 72B превосходит более крупные модели, такие как Llama3-405B
🥈 7B и 32B являются лучшими среди своих размеров
🧑🏻‍💻 Улучшенные модели кодирования на подходе (7B превосходит 22B CodeStral).

В общем, лучшие опенсорс модели по бенчмаркам в своем размере.

Подробнее: https://qwenlm.github.io/blog/qwen2.5-llm/

Модели: https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e
Mastering RAG.pdf
23.5 MB
Скачал тут от разработчиков RAG-систем руководство по их созданию. Напоминаю, что это по сути ответ на вопрос LLM-кой с получением доп.информации из внешней базы, например, вашей базы знаний или документации. Практически все AI-стартапы, где пишут, что они "тренируются на ваших данных", банально используют RAG. Это наверное самый частый юзкейс и с самым высоким ROI сейчас.

Понятно, что они свое решение пиарят, но быстро посмотрел и интересного много, от выбора векторной базы и эмбеддингов, до разрезания больших документов на кусочки хитрыми способами и промпт-инжиниринга.
Цукерберг учит ребенка нейросетям с пеленок :)
Смотрю тут развернутую LLM Arena (вкладка NEW: Overview) и какая-то новая необъявленная chatgpt-4o-latest-20240903 оказывается на прям новой высоте. В API она тоже есть под именем chatgpt-4o-latest и даже был соблазн переключиться, но работает медленно... От 2 до 7 раз на тестах. Видимо скоро будут анонсы о какой-то более крутой, но дорогой GPT-4o от OpenAI.

Ну и из прикольного, Илон Маск с Гроком обошел и Antropic, и GPT-4o, и на равных с самой сильной моделью от Google.

https://lmarena.ai/
Фух, я пережил довольно тяжелый период планирования и вернулся.
Все еще жду визу в Англию (прошел месяц, ау) на OpenAI Dev Day, но и на этом Dev Day навалили новостей.

Во-первых, запустили RealtimeAPI - https://openai.com/index/introducing-the-realtime-api/
Advanced Voice Mode, который показывали на демо 3 месяца назад.

Раньше для создания подобного голосового помощника разработчикам приходилось транскрибировать аудио с помощью модели автоматического распознавания речи, например Whisper, передавать текст в текстовую модель для умозаключений или рассуждений, а затем воспроизводить его с помощью модели преобразования текста в речь. Такой подход часто приводил к потере эмоций, акцентов и ударений, а также к заметным задержкам. С помощью API Chat Completions разработчики могут обрабатывать весь процесс с помощью одного вызова API, хотя это по-прежнему медленнее, чем человеческий разговор. API Realtime улучшает эту ситуацию за счет прямой потоковой передачи входных и выходных аудиоданных, обеспечивая более естественный разговор. Он также может автоматически обрабатывать прерывания, подобно расширенному голосовому режиму в ChatGPT.

Под капотом Realtime API позволяет создать постоянное WebSocket-соединение для обмена сообщениями с GPT-4o. API поддерживает вызов функций, что позволяет голосовым помощникам отвечать на запросы пользователей, вызывая действия или получая новый контекст. Например, голосовой помощник может разместить заказ от имени пользователя или получить соответствующую информацию о клиенте, чтобы персонализировать свои ответы.

Все очень круто!
Есть только 2 минуса: это дорого, в среднем 15 центов за минуту (обычный пайплайн, что выше описали они, стоит 5-9 центов, и индусский кол-центр будет стоить 3), и это не работает в Европе из-за самого лучшего в мире регулирования AI... 😢
Далее разрешили файнтюнить GPT-4o с помощью картинок
https://openai.com/index/introducing-vision-to-the-fine-tuning-api/

Это конечно открывает прям огромный пласт возможностей использования, если вам надо какие-то computer vision задачи решать. Например, знаки или разметку на дороге (как сделал Grab всего по 100 картинок) или распознавание UI элементов, как Automat, или с помощью 200 картинок инвойсов подняли качество на 7% они же, или генерация кода сайта по картинке с помощью сайтов, собранных на вашем фреймворке (что сделал Coframe). И файнтюнить можно на ваших данных до конца месяца бесплатно, а дальше примерно $10 за 100 картиночек 1000x1000 пикселей и API будет стоить в 1.5 раза дороже, но это все равно копейки по сравнению с обучением такой модели самостоятельно и размещением у себя.