Сиолошная
Neuralink поделились обновлением касательно их первого пациента. С момента вживления чипа почти полностью парализованному человеку прошло 100 дней, и с ним всё в порядке. Через пару недель после операции видел разные обсуждения в ТГ и на реддите, мол, на…
Картинка 1 — как выглядит задача по кликанию по сетке. Я так понимаю квадратики бывают двух цветов, синие и оранжевые, и вероятно это кодирует кнопку мыши, которой нужно на них нажимать (левая и правая)
Картинка 2 — кол-во часов ежедневного использования нейроинтерфейса с момента операции. Оранжевое — использование в свободное время, синее — в «рабочее», во время сессий с исследователями/инженерами.
Картинка 2 — кол-во часов ежедневного использования нейроинтерфейса с момента операции. Оранжевое — использование в свободное время, синее — в «рабочее», во время сессий с исследователями/инженерами.
DeepMind представили AlphaFold 3. В отличии от прошлой модели, эта предсказывает не только 3Д-структуру свёрнутого белка, но и ДНК, РНК, лиганд, и, что не менее важно, того, как они взаимодействуют. Кроме того, система может моделировать химические модификации этих молекул, которые контролируют здоровое функционирование клеток, разрушение которых может привести к заболеванию.
Я в биологии ничего не понимаю, и мне сложно судить, насколько полезной была предыдущая модель, и какие новые возможности приносит эта. Будем ждать какого-нибудь грамотного разбора от экспертов, почему это big thing. Сами DeepMind считают, что инструмент пригодится в разработке биовозобновляемых материалов, более устойчивых сельскохозяйственных культур, ускорит разработку лекарств и исследования в области геномики. Нейронка как бы позволяет нам провести эксперимент без самого эксперимента, и если результаты кажутся нам обещающими — то только в этом случае начинать что-то делать.
С точки зрения архитектуры модели самым крупным изменением кажется добавление диффузии при генерации 3Д-структуры — прямо как для изображений! Процесс генерации диффузией начинается с облака атомов и в течение нескольких последовательных итераций приводит к окончательной, наиболее точной молекулярной структуре. Для интересующихся есть статья в Nature с чуть большим количеством подробностей.
Модели пока не будет в окрытом доступе — из-за потенциальных биологических рисков. DeepMind отдельно опубликовали документ на 7 страниц, который поясняет их суждения и план — было привлечено больше 50 экспертов для того, чтобы лучше понять потенциальные применения модели, в том числе и недоброжелателями. Однако для исследователей будет открыта бесплатная платформа, куда можно загрузить свои данные и на выходе получить предсказания, с визуализацией.
Я в биологии ничего не понимаю, и мне сложно судить, насколько полезной была предыдущая модель, и какие новые возможности приносит эта. Будем ждать какого-нибудь грамотного разбора от экспертов, почему это big thing. Сами DeepMind считают, что инструмент пригодится в разработке биовозобновляемых материалов, более устойчивых сельскохозяйственных культур, ускорит разработку лекарств и исследования в области геномики. Нейронка как бы позволяет нам провести эксперимент без самого эксперимента, и если результаты кажутся нам обещающими — то только в этом случае начинать что-то делать.
С точки зрения архитектуры модели самым крупным изменением кажется добавление диффузии при генерации 3Д-структуры — прямо как для изображений! Процесс генерации диффузией начинается с облака атомов и в течение нескольких последовательных итераций приводит к окончательной, наиболее точной молекулярной структуре. Для интересующихся есть статья в Nature с чуть большим количеством подробностей.
Модели пока не будет в окрытом доступе — из-за потенциальных биологических рисков. DeepMind отдельно опубликовали документ на 7 страниц, который поясняет их суждения и план — было привлечено больше 50 экспертов для того, чтобы лучше понять потенциальные применения модели, в том числе и недоброжелателями. Однако для исследователей будет открыта бесплатная платформа, куда можно загрузить свои данные и на выходе получить предсказания, с визуализацией.
This media is not supported in your browser
VIEW IN TELEGRAM
Вот наглядная визуализация того, что предсказывает модель.
На гифке мы видим 8AW3, РНК-модифицирующий белок. Сам белок тут выделен сине-голубым, фиолетовым — РНК, желтые шарики — ионы, а серым обозначено реальное расположение, выявленное во время экспериментов.
Как вы понимаете, сама сцена тут очень сложная — мы пытаемся понять, как белок меняет саму РНК, как на неё влияет, какими свойствами она начинает обладать и как выглядит после взаимодействия. AI инструмент в некотором смысле позволяет нам симулировать то, что делает природа. И в отличии от реальных экспериментов, делается это гораздо быстрее, да и масштабируется без участия человека. Можно проводить сотни и тысячи виртуальных экспериментов, определяя перспективные направления исследований.
AlphaFold 2 работала только с белком — то есть на демонстрации присутствовала бы только сине-голубая часть, а остальное не существовало. И тем более не шло речи о каких-то взаимодействиях между разными молекулами.
AlphaFold 7, видимо, будет по начальному состоянию Вселенной симулировать развитие человечества😂 и всех белковых организмов
На гифке мы видим 8AW3, РНК-модифицирующий белок. Сам белок тут выделен сине-голубым, фиолетовым — РНК, желтые шарики — ионы, а серым обозначено реальное расположение, выявленное во время экспериментов.
Как вы понимаете, сама сцена тут очень сложная — мы пытаемся понять, как белок меняет саму РНК, как на неё влияет, какими свойствами она начинает обладать и как выглядит после взаимодействия. AI инструмент в некотором смысле позволяет нам симулировать то, что делает природа. И в отличии от реальных экспериментов, делается это гораздо быстрее, да и масштабируется без участия человека. Можно проводить сотни и тысячи виртуальных экспериментов, определяя перспективные направления исследований.
AlphaFold 2 работала только с белком — то есть на демонстрации присутствовала бы только сине-голубая часть, а остальное не существовало. И тем более не шло речи о каких-то взаимодействиях между разными молекулами.
AlphaFold 7, видимо, будет по начальному состоянию Вселенной симулировать развитие человечества
Please open Telegram to view this post
VIEW IN TELEGRAM
По слухам, сегодня, 9-го мая, должна была состояться презентация новых продуктов OpenAI, но её было решено перенести на понедельник — прямо за день до Google I/O, где техногигант традиционно показывает новые технологии, включая AI.
Эти же слухи указывают на то, что продукт(-ы) OpenAI будут связаны с ... поиском, исторической вотчиной Google. При этом Sam Altman в недавних интервью говорил, что просто взять и сделать поиск — это не так круто, их технология гораздо обширнее, и способна на более революционные вещи.
===
В ЛЕВОМ УГЛУ РИНГАААА Sleepy Pinche Pichai, проспавший начало AI гонки и занятой доработкой woke-фильтров для генерации картинок.
В ПРАВОМ УГЛУУУУ беспощадный уничтожитель и манипулятор Sam Altman, компания которого в последние два дня активизировалась и выпустила аж три блогпоста про политику разработки и запуска новых моделей:
— Understanding the source of what we see and hear online
— Our approach to data and AI
— Introducing the Model Spec
Кто будет на коне, а кому придётся глотать пыль??
Узнаем уже совсем скоро! Не забудьте купить попкорн при поездке в магазин на выходных!
Эти же слухи указывают на то, что продукт(-ы) OpenAI будут связаны с ... поиском, исторической вотчиной Google. При этом Sam Altman в недавних интервью говорил, что просто взять и сделать поиск — это не так круто, их технология гораздо обширнее, и способна на более революционные вещи.
===
В ЛЕВОМ УГЛУ РИНГАААА Sleepy Pinche Pichai, проспавший начало AI гонки и занятой доработкой woke-фильтров для генерации картинок.
В ПРАВОМ УГЛУУУУ беспощадный уничтожитель и манипулятор Sam Altman, компания которого в последние два дня активизировалась и выпустила аж три блогпоста про политику разработки и запуска новых моделей:
— Understanding the source of what we see and hear online
— Our approach to data and AI
— Introducing the Model Spec
Кто будет на коне, а кому придётся глотать пыль??
Узнаем уже совсем скоро! Не забудьте купить попкорн при поездке в магазин на выходных!
Не знаю, зачем вам эта информация, но вот два графика и подпись (из твиттера):
— [самый] печальный и позорный график нашей эпохи
Оказывается, за всё время было построено примерно 700 реакторов, сейчас активно чуть более 400. На 2019 год это позволило обеспечить 10 % от производства электро- и 2.5 % от всей потребляемой человечеством энергии [не вся энергия, производимая нами— электрическая, и не вся потребляется]
За ITER и термояд страшно...👀
— [самый] печальный и позорный график нашей эпохи
Оказывается, за всё время было построено примерно 700 реакторов, сейчас активно чуть более 400. На 2019 год это позволило обеспечить 10 % от производства электро- и 2.5 % от всей потребляемой человечеством энергии [не вся энергия, производимая нами— электрическая, и не вся потребляется]
За ITER и термояд страшно...
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents
Статья, очень похожая на одну из трёх моих любимых статей 2023-го. Авторы создают виртуальную больницу, населяют её агентами, основанными на LLM, прогоняют несколько тысяч «больных» через докторов. Последние, в свою очередь, накапливают багаж знаний, опыта, и затем используют его для обработки новых случаев. Затем финальная система тестируется на общепринятых бенчмарках, и показывает результаты лучше, чем другие подходы.
Звучит умопомрачительно? (вообще — да) На самом деле с точки зрения прироста качества большого прорыва не произошло, на условном датасете MedQA система с агентами на основе GPT-4 выбивает 93.06%, в то время Medprompt (подробно разбирали тут) давал 90.28%. По сути, и тот подход, и этот — это про способы устройства некоторого хранилища, к которому модель имеет доступ, и примеры из которого подаются в промпт для того, чтобы давать контекстные подсказки модели. Просто один метод чуть более эффективен — и эффектен, блин, делается целая симуляция с больными, их диагнозами, возможными значениями показателей в анализах.
В этом как раз и ограничение работы — на полученных данных пока что нельзя взять и дообучить GPT-4, и получается, что качество ограничено метриками исходной модели, и итерироваться не получится. При этом сама симуляция проигрывается на модели 3.5 (так как это дешевле и быстрее), что влияет на качество данных — но даже с опорой на них более умная четверка выдаёт высокое качество.
Интересно, что кроме простого прогона диагностики и лечения в симуляции, авторы параллельно дают агентам-докторам возможность «начитаться» — кроме получения опыта из симулируемых случаев, в «свободное время» агенты читают миллионы страниц текста, генерируют по ним вопросы и ответы, разбирают, почему ответы именно такие (это всё — автономно, без разметки). Эти знания также попадают в буффер памяти, к которому у агентов есть доступ при решении новых задач. Как я написал, по сути это построения хранилища знаний, где данные получаются не просто методом «вот мы положили описание кейсов и диагнозы».
Но вообще концепция клёвая — через игру с самой собой модель генерит синтетические данные, которые улучшают качество. Повторить с дообучением несколько десятков раз — и может получиться что-то интересное.
Статья, очень похожая на одну из трёх моих любимых статей 2023-го. Авторы создают виртуальную больницу, населяют её агентами, основанными на LLM, прогоняют несколько тысяч «больных» через докторов. Последние, в свою очередь, накапливают багаж знаний, опыта, и затем используют его для обработки новых случаев. Затем финальная система тестируется на общепринятых бенчмарках, и показывает результаты лучше, чем другие подходы.
Звучит умопомрачительно? (вообще — да) На самом деле с точки зрения прироста качества большого прорыва не произошло, на условном датасете MedQA система с агентами на основе GPT-4 выбивает 93.06%, в то время Medprompt (подробно разбирали тут) давал 90.28%. По сути, и тот подход, и этот — это про способы устройства некоторого хранилища, к которому модель имеет доступ, и примеры из которого подаются в промпт для того, чтобы давать контекстные подсказки модели. Просто один метод чуть более эффективен — и эффектен, блин, делается целая симуляция с больными, их диагнозами, возможными значениями показателей в анализах.
В этом как раз и ограничение работы — на полученных данных пока что нельзя взять и дообучить GPT-4, и получается, что качество ограничено метриками исходной модели, и итерироваться не получится. При этом сама симуляция проигрывается на модели 3.5 (так как это дешевле и быстрее), что влияет на качество данных — но даже с опорой на них более умная четверка выдаёт высокое качество.
Интересно, что кроме простого прогона диагностики и лечения в симуляции, авторы параллельно дают агентам-докторам возможность «начитаться» — кроме получения опыта из симулируемых случаев, в «свободное время» агенты читают миллионы страниц текста, генерируют по ним вопросы и ответы, разбирают, почему ответы именно такие (это всё — автономно, без разметки). Эти знания также попадают в буффер памяти, к которому у агентов есть доступ при решении новых задач. Как я написал, по сути это построения хранилища знаний, где данные получаются не просто методом «вот мы положили описание кейсов и диагнозы».
Но вообще концепция клёвая — через игру с самой собой модель генерит синтетические данные, которые улучшают качество. Повторить с дообучением несколько десятков раз — и может получиться что-то интересное.
1) Вот так выглядит виртуальный госпиталь, в нём есть 16 разных помещений с разными функциями
2) Общий вид пайплайна: к запросу пациента добавляются релевантные записи из буффера памяти, агенты-доктора ставят диагноз/отвечают на другие вопросы, затем это перевалидируется, и если оказывается правильным, то попадает в память навсегда.
2) Общий вид пайплайна: к запросу пациента добавляются релевантные записи из буффера памяти, агенты-доктора ставят диагноз/отвечают на другие вопросы, затем это перевалидируется, и если оказывается правильным, то попадает в память навсегда.
Ставим будильники
Понедельник, 10 AM PT = 17 UTC = 20 MSK = 00 BKK
...demo some ChatGPT and GPT-4 updates.
UPD: ходили слухи (в целом, непроверенные), что ещё OpenAI работали над голосовым вводом и выводом (не как сейчас, через отдельные модели перевода речи в текст и генерации озвучки по тексту, а от начала и до конца), и якобы те, кому показывали демки, говорили ВАУ, эмоции передаёт супер. Может быть, покажут ето.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Кажется, название функции или ассистента будет
1. Твит Sama
2. Твит разработчика OpenAI
3. Известный ликер Jimmy Apples, который первым сказал, что будет презентация.
4. Утёкшие иконки функций для странно названных новых моделей, включая gpt-4l (light?)
Достаточно роскошный алиас для <простого> релиза, если честно.
🪄 🪄 💫 ✨ 🪄
Magic
— уж слишком много на это указывает.1. Твит Sama
2. Твит разработчика OpenAI
3. Известный ликер Jimmy Apples, который первым сказал, что будет презентация.
4. Утёкшие иконки функций для странно названных новых моделей, включая gpt-4l (light?)
Достаточно роскошный алиас для <простого> релиза, если честно.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Вместе с Данилом с канала @persecond300k подготовили для себя и для вас Бинго-карточку для предстоящей трансляции OpenAI, чтоб было интереснее наблюдать!
Некоторые факты субъективные (например, что такое «существенные улучшения»?), но мы постараемся судить объективно!👍
Правила такие:
1. Когда случается то, что написано — вычёркиваем или обводим
2. Когда выбиваем линию — выпиваем (алкоголь, содовую или сок)
3. Если закрыто 3 линии — то приговариваем «Ну Сама, ну даёт!»
Заполненные карточки по ходу трансляции можно скидывать в чат или в комментарии к этому посту!
(файл в оригинальном разрешении скину в комментарии)
Некоторые факты субъективные (например, что такое «существенные улучшения»?), но мы постараемся судить объективно!
Правила такие:
1. Когда случается то, что написано — вычёркиваем или обводим
2. Когда выбиваем линию — выпиваем (алкоголь, содовую или сок)
3. Если закрыто 3 линии — то приговариваем «Ну Сама, ну даёт!»
Заполненные карточки по ходу трансляции можно скидывать в чат или в комментарии к этому посту!
(файл в оригинальном разрешении скину в комментарии)
Please open Telegram to view this post
VIEW IN TELEGRAM
Bloomberg пишет, что Apple заключила соглашение с OpenAI об использовании их моделей для реализации будущих AI-фичей в iPhone. По словам источников, функции ChatGPT появятся в iOS 18, которую планируют представить на WWDC 2024 в июне. Но кроме текстовых моделей планируется также использовать и Voice Engine для генерации голосовых ответов.
Новость интересна по трём причинам:
1) в мире полтора миллиарда активных iPhone (!), это невероятно крупный рынок. Да, не все девайсы относятся к последним линейкам, для которых обычно выкатывают обновление, но это всё равно огромные цифры. С учётом того, что OpenAI ещё год назад не хватало мощностей для обслуживания желающих попробовать ChatGPT, интересно, как случится тут: будут ли Apple запускать что-то на своих серверах, и как будет выглядеть дележка моделей?
2) Apple также вела переговоры с Google, и они всё ещё идут. В теории, соглашение с OpenAI может быть рычагом давления на поискового гиганта, мол, поторапливайтесь, и давайте условия получше. С другой стороны, я не думаю, что Sama заключал бы невыгодный договор, который бы подразумевал, что Apple может просто взять и передумать в любой момент. Но сам прецедент интересен.
3) Сами Apple не смогли реализовать какие-то фичи, и им пришлось заключать соглашения. Да, оказывается разработка передовых моделей с заточкой под пользователя — это не рутинная задача, которую можно легко завалить деньгами и быстренько получить результат. Apple совсем недавно выпустили LLM OpenELM, которая...тут же потерялась. Совсем блекло смотрится на фоне разных опенсурсрынх аналогов. А ведь уже прошло полтора года с релиза ChatGPT, не выпускать в этом году свои AI-приколюхи уже просто не получится, это будет явным отставанием от тренда даже по меркам Apple.
Я не сомневаюсь, что купертиновцы могут сделать модель для перевода между 3-4 языками и суммаризации текста имейлов, но к сожалению этими фичами всё не ограничивается — и пользователям хочется большего (особенно тем, кто будет покупать самые новые iPhone, этим вообще только и хочется пофлексить).
Комментарий из Twitter:
Sama making moves in the shadows, 6D chess grandmaster keeps winning👍
Новость интересна по трём причинам:
1) в мире полтора миллиарда активных iPhone (!), это невероятно крупный рынок. Да, не все девайсы относятся к последним линейкам, для которых обычно выкатывают обновление, но это всё равно огромные цифры. С учётом того, что OpenAI ещё год назад не хватало мощностей для обслуживания желающих попробовать ChatGPT, интересно, как случится тут: будут ли Apple запускать что-то на своих серверах, и как будет выглядеть дележка моделей?
2) Apple также вела переговоры с Google, и они всё ещё идут. В теории, соглашение с OpenAI может быть рычагом давления на поискового гиганта, мол, поторапливайтесь, и давайте условия получше. С другой стороны, я не думаю, что Sama заключал бы невыгодный договор, который бы подразумевал, что Apple может просто взять и передумать в любой момент. Но сам прецедент интересен.
3) Сами Apple не смогли реализовать какие-то фичи, и им пришлось заключать соглашения. Да, оказывается разработка передовых моделей с заточкой под пользователя — это не рутинная задача, которую можно легко завалить деньгами и быстренько получить результат. Apple совсем недавно выпустили LLM OpenELM, которая...тут же потерялась. Совсем блекло смотрится на фоне разных опенсурсрынх аналогов. А ведь уже прошло полтора года с релиза ChatGPT, не выпускать в этом году свои AI-приколюхи уже просто не получится, это будет явным отставанием от тренда даже по меркам Apple.
Я не сомневаюсь, что купертиновцы могут сделать модель для перевода между 3-4 языками и суммаризации текста имейлов, но к сожалению этими фичами всё не ограничивается — и пользователям хочется большего (особенно тем, кто будет покупать самые новые iPhone, этим вообще только и хочется пофлексить).
Комментарий из Twitter:
Sama making moves in the shadows, 6D chess grandmaster keeps winning
Please open Telegram to view this post
VIEW IN TELEGRAM
Bloomberg.com
Apple Nears Deal With OpenAI to Put ChatGPT on iPhone
Apple Inc. has closed in on an agreement with OpenAI to use the startup’s technology on the iPhone, part of a broader push to bring artificial intelligence features to its devices, according to people familiar with the matter.
Forwarded from Starship News Live (Artem Nikitin)
⚡️Маск заявил, что следующий запуск Starship ожидается через 3-5 недель
Цель состоит в том, чтобы шип прошёл максимальную степень нагрева при входе в атмосферу или хотя-бы продержался дольше чем в прошлый раз
Цель состоит в том, чтобы шип прошёл максимальную степень нагрева при входе в атмосферу или хотя-бы продержался дольше чем в прошлый раз
Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?
В тренировке больших языковых моделей есть 2 или 3 (или больше!) этапов. На первом и самом длинном и ресурсоёмком происходит предобучение, когда модель получает 99% всех своих знаний. А дальше происходит дообучение, которое, можно сказать, корректирует поведение модели.
Вопрос на засыпку: предположим, что модель предобучали на данных до 2022-го года. А теперь дообучают на данных до весны 24-го. Какое нежелаемое поведение выучит модель?
Правильно — это может научить модель галлюцинировать (выдавать фактически неправильные ответы), поскольку она как бы обучается генерировать факты, которые не основаны на ее ранее существовавших знаниях или контексте. Буквально говоря «лепит что попало, что похоже на правду».
Про это я рассказывал в одной из своих лекций. OpenAI про это знали ещё давно, и конечно же внесли исправления в процесс сбора данных, и вот теперь и у Google Research дошли руки потестировать.
Тезисно:
— чем больше новых знаний во время дообучения, тем больше галлюцинаций, даже несмотря на то, что новые знания потихоньку тоже прорастают в модели, рано или поздно
— поэтому авторы предлагают метод оценки «новизны» перед дообучением (чтобы такие примеры можно было выкинуть)
— выкидывание таких примеров не ведёт к ухудшению качества. Как говорилось много раз - лучше меньше данных для дообучения, но супер-качественных, отборных
— авторы выделяют несколько групп фактов, среди прочих — «модель 100% знает» и «модель почти наверняка знает». Оказывается, если делать дообучение только на первой группе — это не приводит к лучшим результатам: важно включать и слегка неуверенные примеры, чтобы откалибровать модель.
Делается много под-исследований и промежуточных выводов, технарям рекомендую прочитать. А ниже расскажу, как вообще можно определить до дообучения, что модель знает, а что — нет.
Для каждой частички информации мы можем придумать один вопрос, для ответа на который эта информация пригодится, и сделать 5-10 разных формулировок. Затем мы кормим эти вопросы в модель и генерируем ответы. По стабильности и уверенности предсказаний (насколько большая вероятность токенов, составляющих ответ) можно судить о том, насколько хорошо модель шарит — если она ответила 10/10 раз правильно, то это категория «модель 100% знает», а если ни разу даже в топ-10 вероятных слов не попало — знание полностью новое.
Кстати, именно поэтому опенсурсные дообученные модели имеют частоту галлюцинаций выше — потому что сообщество тренирует на всём подряд, без фильтрации, и модель учится фантазировать.
В тренировке больших языковых моделей есть 2 или 3 (или больше!) этапов. На первом и самом длинном и ресурсоёмком происходит предобучение, когда модель получает 99% всех своих знаний. А дальше происходит дообучение, которое, можно сказать, корректирует поведение модели.
Вопрос на засыпку: предположим, что модель предобучали на данных до 2022-го года. А теперь дообучают на данных до весны 24-го. Какое нежелаемое поведение выучит модель?
Правильно — это может научить модель галлюцинировать (выдавать фактически неправильные ответы), поскольку она как бы обучается генерировать факты, которые не основаны на ее ранее существовавших знаниях или контексте. Буквально говоря «лепит что попало, что похоже на правду».
Про это я рассказывал в одной из своих лекций. OpenAI про это знали ещё давно, и конечно же внесли исправления в процесс сбора данных, и вот теперь и у Google Research дошли руки потестировать.
Тезисно:
— чем больше новых знаний во время дообучения, тем больше галлюцинаций, даже несмотря на то, что новые знания потихоньку тоже прорастают в модели, рано или поздно
— поэтому авторы предлагают метод оценки «новизны» перед дообучением (чтобы такие примеры можно было выкинуть)
— выкидывание таких примеров не ведёт к ухудшению качества. Как говорилось много раз - лучше меньше данных для дообучения, но супер-качественных, отборных
— авторы выделяют несколько групп фактов, среди прочих — «модель 100% знает» и «модель почти наверняка знает». Оказывается, если делать дообучение только на первой группе — это не приводит к лучшим результатам: важно включать и слегка неуверенные примеры, чтобы откалибровать модель.
Делается много под-исследований и промежуточных выводов, технарям рекомендую прочитать. А ниже расскажу, как вообще можно определить до дообучения, что модель знает, а что — нет.
Для каждой частички информации мы можем придумать один вопрос, для ответа на который эта информация пригодится, и сделать 5-10 разных формулировок. Затем мы кормим эти вопросы в модель и генерируем ответы. По стабильности и уверенности предсказаний (насколько большая вероятность токенов, составляющих ответ) можно судить о том, насколько хорошо модель шарит — если она ответила 10/10 раз правильно, то это категория «модель 100% знает», а если ни разу даже в топ-10 вероятных слов не попало — знание полностью новое.
Кстати, именно поэтому опенсурсные дообученные модели имеют частоту галлюцинаций выше — потому что сообщество тренирует на всём подряд, без фильтрации, и модель учится фантазировать.