Forwarded from Kali Novskaya
🌸OpenAI O1 — новый лидер LLM🌸
#nlp #про_nlp #nlp_papers
Как и обещала, разбираем новые результаты OpenAI: что произошло и что это значит?
TL;DR
12 сентября OpenAI зарелизили новую модель — О1 — вместе с описанием и подробными оценками перформанса модели в разных сложных задачах. Модель показывает огромный прирост качества в задачах, требующих рассуждений и знаний. Модель построена вокруг многоступенчатого рассуждения и механизмов self-reflection, chain-of-thought.
🌸Основные достижения и оценка
Несколько месяцев назад Сэм Альтман стал предлагать методологию оценки систем по уровням: школьник — аспирант — профессор — теперь эта система с нами надолго!
Модель показывает очень существенный прирост качества на задачах прохождения школьных и выпускных квалифиционных экзаменов (MMLU), бенчмарков на решение математических задач и кодинга. Прирост относительно метрик GPT-4o существенный: от 4 до 35%!
Некоторые задачи, например, MMLU College Mathematics, решены на 98+%!
Но добавлены и новые
процедры оценки, которые готовят нас к следующим релизам:
— агентные оценки: оценки в степени автономности модели (пока низко), способности к убеждению (средне), оценки на применения в кибербезопасности (низкий риск), оценки катастрофических рисков ( а тут уже средний риск ой-ой).
При этом самих индустриальных агентных бенчмарков не дают, но думаю, сообщество скоро посчитает.
Доступа в интернет у превью модели нет.
Ну а теперь про последствия:
🌸Формат работы с LLM поменяется!
Если такой формат окажется востребован (а он окажется, но не во всех задачах — только в самых интеллектроемких), то некоторые вещи поменяются навсегда.
— Больше никакого промт-инжиниринга, "подумай шаг за шагом", "я дам тебе 10 долларов". Все это встраивается в ваш промпт за вас на бэкенде (так уже было с промптами Dalle 3 и у Anthropic), или вовсе встроено в процедуры SFT.
Модель уже сама додумывает, как лучше представить и дополнить ваш запрос, и затем исполняет его шаг за шагом.
— Полюбившиеся нам хаки и джейлбрейки тоже перестанут работать. У модели отдельные методы проверки на безопасность в режиме self-reflection.
🌸Формат обучения LLM и агентных систем тоже поменяется!
Если вместо большого претрейна собственной модели вы теперь только файнтюните Llama 3, тобог вам судья вы все делаете правильно. Но дальше — больше! По представленным результатам мы видим, что прирост качества от улучшения претрейна уже сатурировался, и если еще в этом году основной прирост приходился на вложения в качественный SFT, то теперь основной прирост бует приходиться на inference-time compute методы. DeepMind, к слову, делает то же самое.
🌸Ограничения
— Модель — экспериментальная, и нужно понимать, что это не продолжение работы над gpt4. Поэтому излишние рассуждения пока добавляются куда ни попадя (см скрин Сережи). Думаю, это вопрос времени, понять, в каких случаях рассуждения дольше 1-2 шага вообще необходимы.
— Митигация легальных рисков: в этот раз в самом начале статьи заявлено, что для обучения модели использованынелегальные открытые данные, в том числе научные (читай: мы используем Anna's Archive), а также законные проприетарные данные, полученные в результате партнерств. Попробуйте поймайте!
🟣 Playground https://platform.openai.com/playground/chat?models=o1-preview
🟣 Score card https://cdn.openai.com/o1-system-card.pdf
#nlp #про_nlp #nlp_papers
Как и обещала, разбираем новые результаты OpenAI: что произошло и что это значит?
TL;DR
12 сентября OpenAI зарелизили новую модель — О1 — вместе с описанием и подробными оценками перформанса модели в разных сложных задачах. Модель показывает огромный прирост качества в задачах, требующих рассуждений и знаний. Модель построена вокруг многоступенчатого рассуждения и механизмов self-reflection, chain-of-thought.
🌸Основные достижения и оценка
Несколько месяцев назад Сэм Альтман стал предлагать методологию оценки систем по уровням: школьник — аспирант — профессор — теперь эта система с нами надолго!
Модель показывает очень существенный прирост качества на задачах прохождения школьных и выпускных квалифиционных экзаменов (MMLU), бенчмарков на решение математических задач и кодинга. Прирост относительно метрик GPT-4o существенный: от 4 до 35%!
Некоторые задачи, например, MMLU College Mathematics, решены на 98+%!
Но добавлены и новые
процедры оценки, которые готовят нас к следующим релизам:
— агентные оценки: оценки в степени автономности модели (пока низко), способности к убеждению (средне), оценки на применения в кибербезопасности (низкий риск), оценки катастрофических рисков ( а тут уже средний риск ой-ой).
При этом самих индустриальных агентных бенчмарков не дают, но думаю, сообщество скоро посчитает.
Доступа в интернет у превью модели нет.
Ну а теперь про последствия:
🌸Формат работы с LLM поменяется!
Если такой формат окажется востребован (а он окажется, но не во всех задачах — только в самых интеллектроемких), то некоторые вещи поменяются навсегда.
— Больше никакого промт-инжиниринга, "подумай шаг за шагом", "я дам тебе 10 долларов". Все это встраивается в ваш промпт за вас на бэкенде (так уже было с промптами Dalle 3 и у Anthropic), или вовсе встроено в процедуры SFT.
Модель уже сама додумывает, как лучше представить и дополнить ваш запрос, и затем исполняет его шаг за шагом.
— Полюбившиеся нам хаки и джейлбрейки тоже перестанут работать. У модели отдельные методы проверки на безопасность в режиме self-reflection.
🌸Формат обучения LLM и агентных систем тоже поменяется!
Если вместо большого претрейна собственной модели вы теперь только файнтюните Llama 3, то
🌸Ограничения
— Модель — экспериментальная, и нужно понимать, что это не продолжение работы над gpt4. Поэтому излишние рассуждения пока добавляются куда ни попадя (см скрин Сережи). Думаю, это вопрос времени, понять, в каких случаях рассуждения дольше 1-2 шага вообще необходимы.
— Митигация легальных рисков: в этот раз в самом начале статьи заявлено, что для обучения модели использованы
Please open Telegram to view this post
VIEW IN TELEGRAM
Openai
OpenAI Platform
В прошлые выходные на Фестивале науки мы с вызвавшим неоднозначную реакцию обновленным Оптимусом предложили коллегам поговорить о том, как обучаются большие языковые модели сегодня; и разумеется, говорили про мультимодальность данных цифрового дискурса (иными словами, на видео тоже учатся). Так вот в эти выходные предлагаю почитать интересную статью на эту тему☕️🍂
❤2👍1
Forwarded from Эксплойт
Новому поколению YandexGPT — быть. Яндекс запустил четвертую версию своей текстовой нейронки.
Новая линейка YandexGPT 4 превосходит по качеству ответов предыдущие версии. Она способна рассуждать и обрабатывать в четыре раза больше запросов — порядка 60 страниц текста.
Также прокачали бизнес-потенциал модели — например, она теперь может найти ошибки в пользовательском соглашении или вытащить нужные данные из огромного медиаплана.
@exploitex
Новая линейка YandexGPT 4 превосходит по качеству ответов предыдущие версии. Она способна рассуждать и обрабатывать в четыре раза больше запросов — порядка 60 страниц текста.
Также прокачали бизнес-потенциал модели — например, она теперь может найти ошибки в пользовательском соглашении или вытащить нужные данные из огромного медиаплана.
@exploitex
Forwarded from ТЕХНО: Яндекс про технологии
Рассказываем в карточках, какие из прогнозов на 2024 год сбылись, а какие — нет.
Подписывайтесь 👉 @techno_yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from ТЕХНО: Яндекс про технологии
Anonymous Poll
70%
Обычным поиском
35%
GPT (Алиса, ChatGPT и т.д.)
26%
Генеративным поиском (Поиск с Нейро, Perplexity и т.д.)
8%
Спрошу у друзей
В свете запуска расширения от GPT для поиска в браузере для меня показались интересными результаты опроса, согласно которому даже подписчики канала Яндекса по технологиям на ⅔ предпочитают обычный поиск общению с голосовыми помощниками… возможно, интересуясь технологиями, знают больше об ошибках генеративного ии😉
Google
ChatGPT for Google - Интернет-магазин Chrome
Отображать ответ ChatGPT наряду с результатами поиска
Forwarded from МГУ имени М.В.Ломоносова
Ученые МГУ определили способы использования ИИ при изучении иностранных языков
#наука_мгу #днт
Ученые Московского университета выделили ограничения и перспективные направления для интеграции технологий ИИ в учебный процесс. Были проанализированы методики цифровизации иноязычного образования за последние 10 лет, включая период дистанционного обучения в пандемию. Зарекомендовавшие себя эффективными форматы заданий будут апробированы в автоматизированном режиме на онлайн тренажере по иностранному языку. Результаты работы опубликованы в журнале «Вестник Московского университета. Серия 19. Лингвистика и межкультурная коммуникация». Исследования проводились в рамках Междисциплинарной научно-образовательной школы МГУ «Сохранение мирового культурно-исторического наследия».
Сотрудники ФИЯР и ВМК МГУ проанализировали качественные и количественные результаты исследований цифровизации иноязычного образования, на основании чего была разработана матрица наиболее эффективных заданий по иностранному языку. Выбранные форматы заданий легли в основу онлайн-тренажера для вуза с коррективным курсом по иностранному языку. Тренажер будет апробирован на ФИЯР со студентами первого курса бакалавриата и позволит в индивидуализированном режиме преодолеть неизбежные лакуны в тех или иных аспектах языка и речи у каждого студента. Отличительной особенностью тренажера является его ориентация на достижение студентами уровня владения языком, необходимого для дальнейшего успешного освоения программ языка для специальных целей.
Подробнее читайте на сайте.
#наука_мгу #днт
Ученые Московского университета выделили ограничения и перспективные направления для интеграции технологий ИИ в учебный процесс. Были проанализированы методики цифровизации иноязычного образования за последние 10 лет, включая период дистанционного обучения в пандемию. Зарекомендовавшие себя эффективными форматы заданий будут апробированы в автоматизированном режиме на онлайн тренажере по иностранному языку. Результаты работы опубликованы в журнале «Вестник Московского университета. Серия 19. Лингвистика и межкультурная коммуникация». Исследования проводились в рамках Междисциплинарной научно-образовательной школы МГУ «Сохранение мирового культурно-исторического наследия».
Сотрудники ФИЯР и ВМК МГУ проанализировали качественные и количественные результаты исследований цифровизации иноязычного образования, на основании чего была разработана матрица наиболее эффективных заданий по иностранному языку. Выбранные форматы заданий легли в основу онлайн-тренажера для вуза с коррективным курсом по иностранному языку. Тренажер будет апробирован на ФИЯР со студентами первого курса бакалавриата и позволит в индивидуализированном режиме преодолеть неизбежные лакуны в тех или иных аспектах языка и речи у каждого студента. Отличительной особенностью тренажера является его ориентация на достижение студентами уровня владения языком, необходимого для дальнейшего успешного освоения программ языка для специальных целей.
Подробнее читайте на сайте.
🔥4❤1
Forwarded from Сноб
Люди спутали поэзию, созданную искусственным интеллектом, со стихами классиков и оценили лирику от ИИ выше.
Специалисты из Питтсбургского университета провели два эксперимента. В рамках первого 1634 участникам показывали стихи, пять из которых были написаны английскими и американскими поэтами (Джеффри Чосер, Уильям Шекспир, Сэмюэл Батлер, Сильвия Плат и Доротея Ласки). Другие пять стихов были созданы ChatGPT, который имитировал стиль поэтов.
Участники должны были угадать, где лирика от настоящего стихотворца, а где постарался искусственный интеллект. Люди оценивали свою уверенность в ответе по шкале от 0 до 100 и аргументировали свое мнение.
Во втором эксперименте 696 участников были разделены на три группы: первым говорили, что все тексты написал человек, второй — что все показанные стихи сгенерировал ChatGPT, а третьей группе не говорили ничего. Участники исследования должны были поставить стихотворениям оценку по шкале от «крайне плохо» до «чрезвычайно хорошо».
В итоге люди окончательно запутались. Отличить настоящую поэзию от машинно сгенерированной оказалось очень сложной задачей. Любопытно, что самые высокие оценки по форме, содержанию и другим критериям получали в основном ИИ-произведения.
По словам участников экспериментов, сложность реальных стихов они принимали за бессвязность искусственного интеллекта, а лаконичность языка от ИИ — за отличительную особенность языка поэтов.
@snobru
Специалисты из Питтсбургского университета провели два эксперимента. В рамках первого 1634 участникам показывали стихи, пять из которых были написаны английскими и американскими поэтами (Джеффри Чосер, Уильям Шекспир, Сэмюэл Батлер, Сильвия Плат и Доротея Ласки). Другие пять стихов были созданы ChatGPT, который имитировал стиль поэтов.
Участники должны были угадать, где лирика от настоящего стихотворца, а где постарался искусственный интеллект. Люди оценивали свою уверенность в ответе по шкале от 0 до 100 и аргументировали свое мнение.
Во втором эксперименте 696 участников были разделены на три группы: первым говорили, что все тексты написал человек, второй — что все показанные стихи сгенерировал ChatGPT, а третьей группе не говорили ничего. Участники исследования должны были поставить стихотворениям оценку по шкале от «крайне плохо» до «чрезвычайно хорошо».
В итоге люди окончательно запутались. Отличить настоящую поэзию от машинно сгенерированной оказалось очень сложной задачей. Любопытно, что самые высокие оценки по форме, содержанию и другим критериям получали в основном ИИ-произведения.
По словам участников экспериментов, сложность реальных стихов они принимали за бессвязность искусственного интеллекта, а лаконичность языка от ИИ — за отличительную особенность языка поэтов.
@snobru
❤2
Forwarded from Бескромный
12 советов по ChatGPT для студентов
Я не устаю повторять, что ни одна нейросеть не является «волшебной таблеткой», а всего лишь мощный и доступный 24/7 ассистент для ускорения, который при правильном подходе может стать вашим вторым пилотом в бытовых делах, работе и учёбе.
OpenAI выпустили официальный гид для студентов с 12 советами по эффективной работе с ChatGPT:
1. Ссылки и цитаты. При написании курсовых или эссе оформление списка литературы может занимать кучу времени. Просто попросите ChatGPT отформатировать список литературы в нужном стиле и оптимизируйте лишнюю рутину.
2. Быстрое погружение в тему. Не знаете, с чего начать? ИИ даст базовое понимание нового материала и предложит ключевые источники. Пример запроса: «Объясни кратко, что такое когнитивная теория обучения».
3. План исследования. ИИ может помочь на старте больших проектов, предложив ключевые области для изучения. ChatGPT подскажет ключевые термины и имена важных исследователей, чтобы ваше погружение в тему стало осмысленным.
4. Ответы на сложные вопросы. Если вы не до конца понимаете концепцию, задайте конкретный вопрос, а нейросеть разъяснит всё просто и понятно. Например, вы можете попросить объяснить эффект Доплера на примере, понятном ребёнку.
5. Фидбек на черновик. Попросите ChatGPT оценить ваш план или черновик и подсветить неочевидные слепые пятна. Он подскажет, где стоит улучшить аргументацию или усилить логическую связку между смысловыми блоками.
6. Анализ логики текста. Метод реверсивного плана: попросите ИИ выделить главные мысли каждого абзаца и посмотрите, как всё выглядит со стороны. Это помогает увидеть конечный текст глазами преподавателя.
7. Брейншторм. Используйте ChatGPT как спарринг-партнёра для проработки любых идей, не привлекая других людей. ИИ поможет усилить или переосмыслить ваши идеи, задавая неожиданные вопросы.
8. Поиск контраргументов. Распишите нейросети свою гипотезу, а ИИ укажет на слабые места и предложит возможные контраргументы. Это отлично работает для подготовки к дебатам или для улучшения своего эссе.
9. Что бы сказали великие? Хотите узнать, как бы прокомментировал Кант или Сократ вашу тему? ChatGPT может смоделировать диалог с философами или учёными, и даже устроить дискурс между ними.
10. Итеративное улучшение текста Показывайте текст частями, вносите правки, учитывайте советы ИИ — это как личный редактор, корректор и сценарист одновременно.
11. Голосовой ассистент. Используйте голосовой режим, чтобы задавать вопросы в процессе чтения сложных текстов. Это ускоряет понимание контекста без отрыва от чтения.
12. Развитие любых навыков. ИИ прекрасно справляется с задачами по помощи в саморазвитии. Например, можно спросить ChatGPT, как можно улучшить критическое мышление или стиль письма, и он даст полезные рекомендации.
Уже два года я освобождаю до 30% своего времени каждый день с помощью ChatGPT, и это просто великолепно. Важно, что искусственный интеллект ускоряет многие процессы, но результат всегда требует вашего участия, фактчекинга и критического мышления.
Оригинальная версия гида доступна по ссылке.
Я не устаю повторять, что ни одна нейросеть не является «волшебной таблеткой», а всего лишь мощный и доступный 24/7 ассистент для ускорения, который при правильном подходе может стать вашим вторым пилотом в бытовых делах, работе и учёбе.
OpenAI выпустили официальный гид для студентов с 12 советами по эффективной работе с ChatGPT:
1. Ссылки и цитаты. При написании курсовых или эссе оформление списка литературы может занимать кучу времени. Просто попросите ChatGPT отформатировать список литературы в нужном стиле и оптимизируйте лишнюю рутину.
2. Быстрое погружение в тему. Не знаете, с чего начать? ИИ даст базовое понимание нового материала и предложит ключевые источники. Пример запроса: «Объясни кратко, что такое когнитивная теория обучения».
3. План исследования. ИИ может помочь на старте больших проектов, предложив ключевые области для изучения. ChatGPT подскажет ключевые термины и имена важных исследователей, чтобы ваше погружение в тему стало осмысленным.
4. Ответы на сложные вопросы. Если вы не до конца понимаете концепцию, задайте конкретный вопрос, а нейросеть разъяснит всё просто и понятно. Например, вы можете попросить объяснить эффект Доплера на примере, понятном ребёнку.
5. Фидбек на черновик. Попросите ChatGPT оценить ваш план или черновик и подсветить неочевидные слепые пятна. Он подскажет, где стоит улучшить аргументацию или усилить логическую связку между смысловыми блоками.
6. Анализ логики текста. Метод реверсивного плана: попросите ИИ выделить главные мысли каждого абзаца и посмотрите, как всё выглядит со стороны. Это помогает увидеть конечный текст глазами преподавателя.
7. Брейншторм. Используйте ChatGPT как спарринг-партнёра для проработки любых идей, не привлекая других людей. ИИ поможет усилить или переосмыслить ваши идеи, задавая неожиданные вопросы.
8. Поиск контраргументов. Распишите нейросети свою гипотезу, а ИИ укажет на слабые места и предложит возможные контраргументы. Это отлично работает для подготовки к дебатам или для улучшения своего эссе.
9. Что бы сказали великие? Хотите узнать, как бы прокомментировал Кант или Сократ вашу тему? ChatGPT может смоделировать диалог с философами или учёными, и даже устроить дискурс между ними.
10. Итеративное улучшение текста Показывайте текст частями, вносите правки, учитывайте советы ИИ — это как личный редактор, корректор и сценарист одновременно.
11. Голосовой ассистент. Используйте голосовой режим, чтобы задавать вопросы в процессе чтения сложных текстов. Это ускоряет понимание контекста без отрыва от чтения.
12. Развитие любых навыков. ИИ прекрасно справляется с задачами по помощи в саморазвитии. Например, можно спросить ChatGPT, как можно улучшить критическое мышление или стиль письма, и он даст полезные рекомендации.
Уже два года я освобождаю до 30% своего времени каждый день с помощью ChatGPT, и это просто великолепно. Важно, что искусственный интеллект ускоряет многие процессы, но результат всегда требует вашего участия, фактчекинга и критического мышления.
Оригинальная версия гида доступна по ссылке.
❤4👍1
Дорогие коллеги, в дополнение к инструкциям для студентов более подробный хендбук по промтингу от Яндекса. Приятных выходных❄️☕️
education.yandex.ru
Гайд по промтингу — Хендбук от Яндекс Образования
Гайд по промтингу — Хендбук от Яндекс Образования. Откройте для себя передовые подходы, практические советы и вдохновляющие идеи от наших экспертов.
Дорогие коллеги, хочу поделиться парой обзоров за 2024 год и перспектив GPT на 2025 от экспертов: