Интересное что-то
517 subscribers
2.72K photos
253 videos
138 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
#llm

Ух, интересное
Generative Agent Simulations of 1,000 People
Joon Sung Park, Carolyn Q. Zou, Aaron Shaw, Benjamin Mako Hill, Carrie Cai, Meredith Ringel Morris, Robb Willer, Percy Liang, Michael S. Bernstein
Статья: https://arxiv.org/abs/2411.10109
Пост: https://hai.stanford.edu/news/ai-agents-simulate-1052-individuals-personalities-impressive-accuracy

Мы в прошлом году не разобрали эту статью, а она интересное практическое продолжение темы из 2023-го про Generative Agents (https://t.me/gonzo_ML/1481) от Стэнфорда и ко. Теперь авторы взяли и симулировали 1,052 реальных человека, а потом на последующих опросах сумели добиться 85% точности репликации их собственных ответов и действий в экспериментах через две недели. Кроме того собрали полезного агента-помощника для проведения интервью.

Процедура создания агента выглядит так:

🎤 Интервью

Были проведены глубинные интервью, включавшие в себя заранее заданные вопросы и адаптивные последующие, зависящие от ответов респондента.

Через стратифицированную выборку набрали 1052 участника, чтобы получить репрезентативную выборку US популяции по возрасту, полу, расе, региону, образованию и политической идеологии. Все участники прошли голосовое интервью со средней длиной транскрипта 6,491 слов (stddev 2,541). Также собрали ответы на серию опросников (General Social Survey (GSS), Big Five Inventory из 44 пунктов(BFI-44)) и результаты поведенческих экспериментов (пять экономических игр и пять поведенческих экспериментов). Интервью потом будет использоваться для прайминга агентов, а опросы/эксперименты для оценки точности полученных агентов. Также было ещё и self-consistency интервью через две недели после перечисленного.

Изначально через компанию Bovitz рекрутировали 1300 человек (хотели в итоге получить 1000 для достаточной статистической мощности пяти поведенческих экспериментов). Участникам платили: $60 за первый опрос, $30 за self-consistency через две недели, и ещё был бонус в диапазоне 0-10$ по результатам экономических игр. Не все дошли до второй фазы и выполнили self-consistency опрос, так что осталось 1052 (но ожидали ещё больший отсев).

Для этого прям заморочились и собрали свою платформу, где респондент может зарегаться, создать аватара, дать consent, пройти интервью, опросы и эксперименты, в заданном порядке и в нужное время. Для скейлинга интервью использовался ИИ-интервьюер, проводивший его по полуструктурированному протоколу. Хотели именно интервью, а не опрос, потому что надеялись получить более полную информацию с ценными нюансами. За основу взяли протокол, разработанный американскими социологами в рамках American Voices Project. В скрипте были темы от истории жизни до взглядов на текущие социальные темы. Оригинальный протокол был рассчитан на трёхчасовое интервью, здесь его немного урезали, чтобы всё умещалось в два часа.

ИИ-Интервьюер сам динамически генерировал последующие вопросы, соответствующие ответам участников. Архитектура агента была вариацией на тему оригинального Generative Agent (https://t.me/gonzo_ML/1486). Агент принимал на вход свежие предыдущие ответы респондента и скрипт интервью, и генерил follow-up вопросы или переходил к следующему вопросу в скрипте. Вопросы структурированы в блоки, для каждого вопроса прописано поле с указанием, сколько времени дано на вопрос. Первый вопрос блока агент задаёт не меняя, а затем ориентируясь на оставшийся бюджет времени и ответы респондента принимает решения в динамике, что именно спросить. Модель для этого должна делать некоторый ризонинг и учитывать весь контекст, но при росте контекста текущие (на тот момент, да наверное и на этот) модели обычно деградируют, так что в агента ввели модуль рефлексии, который суммаризирует беседу и записывает выводы, которые можно сделать про респондента.

Так, если до этого агент спрашивал, где респондент родился, а тот упомянул природу этого места, агент мог задать вопрос про походы и записать в итоге после рефлексии что-то вроде:

{
“place of birth”: “New Hampshire”
“outdoorsy vs. indoorsy”: “outdoorsy with potentially a lot of time spent outdoors”
}
Такие заметки потом и подаются в агента вместо полного транскрипта интервью + последние 5000 символов транскрипта.

Агента собрали в виде веб-приложения с голосовым общением, реализованным через комбинацию OpenAI TTS + Whisper. Тут не до конца понятно, упоминают также их Audio модель, а это gpt-4o-audio (но тогда непонятно, зачем whisper).

🤖 Симулякр

Архитектура агента-симулякра тоже наследует предыдущей работе. У агента есть память, "memory stream" в текстовой форме. Есть модуль рефлексии, синтезирующий элементы памяти в рефлексию (аналогично https://t.me/gonzo_ML/1481).

Промптинг LLM-ки транскриптом интервью для предсказания реакции респондента в режиме одиночного chain-of-thought (CoT) может пропустить латентную информацию не выраженную явно в тексте. Чтобы явно вытащить эту информацию из транскрипта был введён специальный модуль “expert reflection”, которого промптят чтобы он действовал в роли доменного эксперта. Если точнее, то генерятся четыре набора рефлексий от лица четырёх различных экспертов: психолог, поведенческий экономист, политолог и демограф. Используется GPT-4o, которую для каждого респондента и эксперта просят сгенерить до 20 наблюдений или рефлексий. Эти рефлексии генерятся единожды и сохраняются в памяти агента.

Когда симулякр должен предсказать ответ респондента на заданный вопрос, сначала происходит классификация (через промптинг), какой из четырёх экспертов лучше бы на это ответил. Затем подтягиваются рефлексии выбранного эксперта, и вместе с транскриптом интервью используются для промптинга генерации ответа (тоже через GPT-4o). Все вопросы с множественным выбором или численным ответом, модель промптят использовать CoT. Интересно, что бы изменил переход на reasoning модель типа o1/o3/R1?

Если для поведенческого эксперимента важно поддержание контекста, то полученные агентом стимулы и его ответы дописывают текстом к транскрипту и рефлексиям.

🏋️‍♀️ Эксперимент

Далее полученным агентам дают ту же самую батарею тестов и экспериментов (GSS, BFI-44, пять экономических игр, пять поведенческих экспериментов), сравнивают с настоящими ответами респондента.

В качестве бейзлайнов сравнивают с двумя: 1) агент с демографическими атрибутами (вытянули из ответов GSS) и 2) параграф текста, суммаризирующий конкретную персону (респондентов просили написать о себе бриф).

На GSS, BFI-44 и пяти играх считали normalized accuracy как отношение точности предсказания агента к internal consistency, точности репликации человеком своих ответов через две недели. Для категориальных задач использовалась accuracy, для числовых mean absolute error (MAE).

Для GSS средняя normalized accuracy равна 0.85 с std = 0.11, получена как 68.85% точность агента делённая на 81.25% точность репликации ответа самим человеком. Агент на основе интервью заметно лучше бейзлайнов (и сильно выше рандома). На BFI тоже лучше. В экономических играх значимой разницы с бейзлайнами нет.

Провели ещё сколько-то разных экспериментов, включая собирание композитного агента с компиляцией всех ответов респондента на GSS, BFF, игры, но без интервью. С интервью лучше, даже если оттуда вырезать рандомно до 80% транскрипта или сгенерировать короткое саммари из буллет пойнтов.

На пяти поведенческих экспериментах (например, про “allocator’s illusion” https://www.pnas.org/doi/10.1073/pnas.1606574113) и люди, и агенты реплицировали 4 из 5 экспериментов. То есть агенты действуют аналогично и на них можно проверяться.

Ещё проверили, есть ли баесы по полу, расе или идеологии, оценивали разницу между группами, перформящими лучшу и хуже всех. Агенты на основе интервью лучше агентов на основе демографии или персон. Интервью рулят короче.

———
📣 Open-call: Курс по основам AI Safety

ИИ меняет мир с безумной скоростью, но вместе с этим несет в себе серьезные риски. Задача AI Safety – позаботиться, чтобы эти изменения были положительными

Цель курса – дать базу для начала карьеры в AI Safety. Программа знакомит с основными концепциями, ландшафтом исследований и работами Anthropic, Redwood Research, MIRI

📖 Программа из двух треков:
Учебный (4 недели): Знакомство с материалами в фасилитируемых группах
Проектный (7 недель): Работа с ментором нацеленная на публикацию

👥 Для кого?
Будущие рисечеры: ml'щики, физики, математики, программисты
Будущие фаундреры: предприниматели интересующиеся AI Safety

🎓 Сертификат по окончанию курса
👏 Карьерная консультация и менторское сопровождение для лучших студентов

🔫 Экспертиза менторов включает: evals, agent foundations, adversarial attacks, representation engineering, safety field building, mechanistic interpetability

💼 Этим курсом мы готовим людей себе в команды и в команды наших друзей по сейфти. Поэтому курс бесплатный. По этой же причине мы серьезно подходим к отбору кандидатов

🔢 Детали:
Очно в Москве или онлайн
Регистрация открыта до 21 февраля
Даты: 2 марта – 20 апреля
Нагрузка: 10-15 часов в неделю

💬 По вопросам пишите @anton_zheltoukhov

➡️➡️ Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from whargarbl
Инсайды по претрейну

0. Начните с первоисточника, я попробую подсветить только неочевидные места и грабли на кот наступил

https://karpathy.github.io/2019/04/25/recipe/

1. Самое главное. Можно биться головой об клавиатуру - запустить и будет работать. Потому что всем насрать. Здесь нет нерабочего кода. Это просто матрицы, они просто перемножаются. Можно написать вообще всё неправильно - и будет работать. И даже будет трениться, но очень хреново. Но вы даже не узнаете насколько хреново - тк сравнить не с чем

2. Следствие первого. Пишем трейн на мнист и гоняем гоняем гоняем. Добавляем строчку - прогоняем трейн - добавляем строчку - прогоняем трейн - сравниваем результат. Я начинал с МНИСТ зиферки различимы через 30 эпох - и пришел к мнист тренится за 4 эпохи (ну, уже видно что это цифра три).

3. Неочевидная хрень - велости предикшен дал нехилое ускорение, сложно сказать в штуках это надо смотреть глазами, я реально прифигел

4. Легенда про импортнуть веса думаю хрень. Вначале модель тренится очень быстро и при этом она очень нестабильна. Стабилизировать модель можно:
- стартовав с каких то весов написав конверТор
- включив клипинг по градиентам
- тупо пробить нестабильность протренив буквально минут 10 - пройти яму где модель колбасит как не в себя

Эффект примерно одинаковый. Те можно не танцевать с бубном а тупо пробить нестабильный старт и продолжить уже с претрейна или посмотреть где и как градинты взрываются и подобрать обрезку. Дальше все идет как по маслу в случае юнета. На Сана Взрыв/Кишки/Расчлененка были непрерывно на всех этапах - видимо от кривизны архитектуры сильно зависит насколько стабильно модель учится

5. Лернинг рейт. Я остановился на стратегии трейна на диапазоне, например
- начинаем трейн на 1e-4 и плавно снижаем его до 1e-5 в течение 20 эпох
- продолжаем трейн с 5e-5 и плавно снижаем его до 5e-6 в течение 20 эпох
- финальный файнтюн по обстоятельствам - но еще ниже и видимо плавнее. Это для Адам - для например Адафактора надо подбирать. Для другой модели - подбирать. Все через эксперименты. Например сперва я на втором этапе долбил с 1e-5 до 1e-6 - очень крутой спуск - модели очень тяжело

6. Есть две точки. Первая трейн уже не работает и где еще не работает. В моей модели верхняя точка примерно 1.5-e4 - выше сразу взрыв/кишки/расчлененка. Нижнюю я пока не нащупал. Мнист тренится где угодно сколько угодно и не видно переобучения. Но думаю низ будет в районе 7e-7 (по опыту сдхл)

Нет публикаций с каким ЛР тренили sd1.5 - но есть упоминание что начинали с 1e-4 и что снижали (вроде гдето в коде мелькало 5e-5) - видимо также игрались.

7. Градиент аккумулейшен степ дает огромный буст к размеру батчсайза (следовательно ускорению трейна) засчет снижения памяти - особенно при трейне на 1 ГПУ - я пока пробовал 4 и 2 - остановился на 2 - страшно

8. Переобучение не страшно. Всегда сможете поднять ЛР и "стереть" часть обучения. Страшно недообучение.

ТЛДР: это минное поле - обосраться можно запросто местах в пяти одновременно. Там вае не шифтнул, тут градин аккум в акселератор не прокинул, здесь град норм дважды применил или не в той последовательности. Самое удивительное - все работает. Но хреново. Очень странно.
Forwarded from Data Blog
Привет, друзья!

Немного заболела (не люблю эту необходимость не работать) и в часы просветления занималась и продолжаю заниматься модулем про оценку объяснений для курса. Поэтому туториал (и даже ролик на ютуб) будут, когда я оживу, а пока немного про метрики.

В XAI нет стандартного подхода к оценке объяснений (пока что) и, вместо изучения десятков формул удобнее рассматривать общие категории. Одна из них — классификация Co-12:

Correctness — насколько точно объяснение соответствует модели.
Completeness — насколько полно объяснение отражает логику модели.
Consistency — дают ли похожие данные похожие объяснения?
Continuity — небольшие изменения входных данных не должны сильно менять объяснение.
Contrastivity — объясняет ли метод, почему предсказан X, а не Y?
Covariate complexity — как объяснение учитывает сложные взаимодействия признаков?
Compactness — «чем меньше, тем лучше» (разреженность объяснения).
Composition — как представлена информация в объяснении?
Confidence — насколько метод учитывает неопределенность?
Context — насколько объяснение полезно для конкретного пользователя?
Coherence — согласуется ли объяснение с известными знаниями?
Controllability — может ли пользователь влиять на объяснение?

Важно понимать: не нужно заучивать все эти критерии (и даже знать 🎅🏻). Классификацию привожу просто для того, чтобы вы понимали, насколько широк взгляд на оценку. Ну и вдовесок — в библиотеках XAI реализована лишь часть из метрик [можно почитать тут].

Для понимания метрики иногда полезно лезть в код библиотеки. Например, я выше писала про xai_evals, там в статье Faithfullness имеет одну математическую постановку, для табличек, а на практике — вычисляется как корреляция. Прикреплю картинки.

Ну, и суммируя, всё вот так:

❄️Как и в ситуации оценки ML/DL моделей, бинарная оценка "окей", "не окей" не подходит.
❄️В сообществе XAI не существует стандартизированного набора метрик.
❄️Основная сложность — нужно сравнивать методы по скорости, устойчивости, надежности и применимости в разных доменах (наборы данных, модели).
❄️Одна и та же метрика может по-разному реализовываться в разных библиотеках.

✔️ Практически важно — сравнивать методы в рамках одной библиотеки.

Такие дела! Не болейте, друзья!

Пойду восстанавливаться и делать видос,
Ваш Дата-автор!
Forwarded from ML Advertising
Про управление в командах

Хочу разобрать понятие недирективного управления и порассуждать, насколько оно применимо в работе с командами разработчиков.

Начнем от противного и сперва разберем понятие директивного управления. Оно подразумевает раздачу прямых указаний сотрудникам, что и как им делать. Решения принимаются лидом или менеджером, и контроль их выполнения лежит на нем же. В итоге менеджер становится узким горлышком, т.е. если он уйдет в отпуск или уволится, то все посыпется, а подчиненные сами не разберутся.

Но с другой стороны директивный стиль лучшего всего показывает себя в ситуациях:
- горящих дедлайнов, когда нет времени мусолить альтернативные идеи, надо делать 🔥
- на заводе, когда есть четкий тех. процесс и меры техники безопасности 🏭
- в работе с junior-коллегами и стажерами. Чтобы неопределенность в сложных задачах их не демотивировала, мы даем точные понятные инструкции и такой же фидбек
- в случае инцидентов/ критических ситуациях, когда на кону стоят миллионы денег, и нужно принимать решения быстро

Зачем тогда нужно недирективное управления?
Оно нужно, когда мы хотим построить более автономную команду, способную действовать в условиях неопределенности и принимать собственные решения. Здесь вместо того, чтобы давать инструкции сотрудника, мы поощряем инициативу и личную ответственность и даем свободу в принятии решений на его уровне (например выбор фреймворков, design паттернов, оценку сроков задач, взаимодействие со смежниками etc.)

Вроде бы все просто. Что может пойти не так? 🤔
- Отсутствие мотивации у сотрудника: сколько волка не корми, он все равно в лес смотрит. Здесь особо ничего не сделаешь 🤷‍♂️
- Наличие/ отсутствие безопасной среды: инициатива должна правильно восприниматься менеджерами без херни и токсичности. С другой стороны есть инициативы, а есть приоритеты команды на квартал, и поскольку ресурсы команды ограничены, ими нужно распоряжаться разумно
- Фокус на сотруднике: менеджер должен понимать, как сотрудник видит свое личное развитие, и задавая правильные вопросы, направлять его на благо команды
- Обоюдная готовность к переменам: изменения состава/ направления работы команды требуют сил и времени, и не все к этому могут быть готовы
Forwarded from Kogut Ivan Tutoring
Нейросети в спортпроге. Детали
#MLВброс #MLСтатья

Давно не было длинных постов да еще и про ML - исправляюсь

OpenAI чуть рассказали про то, за счет чего их модели решают олимпиадные задачи по программированию

В статье затронуты модели o1, o1-ioi и o3 (которую еще не релизнули). Я уже писал про результаты o1 и o1-ioi тут и o3 здесь. Но в этом посте обсуждаем как они этого добились и что модели могут. Читайте до конца, их возможности меня поразили. Начнем по порядку

o1

🔄 Уже давно известно, что эта модель сначала "рассуждает" (генерирует цепочку рассуждений или же chain of thought) и потом уже дает ответ. Так у нее получается исправлять ошибки, продумывать другие варианты, если не получилось
🔄 Также, ее тренировали использовать внешние инструменты, например, запускать свой код и анализировать результаты для принятия решений.

📊 Рейтинг на кф: 1673

o1-ioi

🔄 Взяли o1 и еще обучили через RL конкретно на решение спортпрог задач. За счет такого фокуса модель лучше стала писать и запускать свои программы во время генерации ответа
🔄 Эвристики для спортпрога во время инференса:
🔄 Если у задачи подзадачи, то решаем каждую из подзадач отдельно - подаем их отдельно в модель как другую задачу
🔄 Кластеризация решений. Сначала модель промптят, что б сгенерировала несколько генераторов тестов (это тоже программа). Далее промптят, что б сгенерировала несколько валидаторов тестов (тоже программа!). Оставляют тесты, которые прошли часть валидаторов. Прогоняют решения на этих тестах и кластеризируют по одинаковым выходам на них.
🔄 Переранжирование решений.
* "Умная" посылка решений. Например, не посылать код на подзадачу, если он не проходит тесты уже решенной подзадачи, которая полностью входит в первую (так как точно зафейлится)

📊 Рейтинг на кф: 2214
📊 IOI 2024: 213 баллов

o3

🔴 Отказались от людских эвристик во время инференса
🔴 Вместо этого больше обучения RLем, что б модель сама придумывала и использовала свои стратегии
🔴 Благодаря этому модель САМА, если ей сложно, пишет СТРЕСС-ТЕСТ🤯 (пример на скрине, а почитать как это делать самому можно здесь) То есть модель сама создает простое, но неэффективное решение, генератор тестов и проверяет основное решение на соответствие

📊 Рейтинг на кф: 2724
📊 IOI 2024: 395 баллов


Выводы:
⚡️ Если модели действительно хорошо могут делать генераторы и валидаторы тестов просто по условию, то когда-то это точно добавят в Polygon (система для разработки задач) и новые контесты будут появляться еще быстрее и олимпиад будет больше!
⚡️ Что модель сама догадывается генерить стресс-тест - это очень меня удивило. Но мне кажется, что во время RL все-таки ей это подкидывали, но все равно мощно!

💬 А вы что думаете на этот счет? Пишите в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya
🌸Опенсорс от HuggingFace: рекап за год🌸
#nlp #про_nlp  #nlp_papers

HuggingFace подвели итоги всех открытых проектов, которые научная команда стартапа нициировала за прошедший год. Давайте вместе посмотрим, как много на самом деле значит сила открытого сообщества и организованного труда!

Январь 2025
🐳Open-R1  – открытая инициатива по воспроизведению результатов DeepSeek R1, включа методы пост-тренинга и датасеты. Результаты воспроизводятся! Apache 2.0
🛠️SmolAgents  – фреймворк с полезным абстракциями для построения LLM-агентов, с типичной логикой и классами. Из коробки предлагается использовать поиск DuckDuckGo
и открытые LLM. Apache 2.0

Декабрь 2024
📈Scaling Test Time Compute – подробный разбор стратегий test-time compute методов на примере моделей Llama
📐FineMath – подкорпус на 54 млрд токенов из FineWeb, содержащий математический контент, в том числе пошаговые решения. Есть еще его корпус-побратим FineWeb-edu с образовательными текстами. Лицензия ODC-by

Ноябрь 2024
🤓SmolVLM  – visual-версия SmolLM, принимает на вход картинки и текст. Apache 2.0
Октябрь 2024
🔎LLM Evaluation Guidebook  – подробный материал с лучшими практиками по оценке языковых моделей, включая составление тестов, инструкции аннотаторам, использование LLM-as-a-judge
🗺️FineTasks – бечнмарк для оценки качества претрейна LLM на множестве языков. Лицензия ODC-by

Сентябрь 2024
🎥FineVideo  – датасет на 43 тысячи видео для обучения SORA-like моделей видео-генерации, своя лицензия License CC-By

Лето 2024
📣Speech-to-Speech, Speech-to-Speech Multilingual  – попытка создания модульной GPT4-o. Модули вклают в себя открытые LLM, а также модели STT и TTS, и даже voice activity detection от Silero
🥇Win AIMO – AI Mathemathical Olympiad соревнование выиграно на основе открытых моделей
🤗SmolLM – семейство открытых моделей мини-размера:  135M, 360M, and 1.7B параметров. Пригодно для on-device и real-time задач, при этом сами модели получены не путем дистиллирования, а просто обучены на очень качественных данных: курируемых датасетах с кодом, образовательным контентом и фактологией.  Apache 2.0
🤖LeRobot,LeRobot Tutorial  – курируемый набор моделей, фреймворков, датасетов и туториалов для робототехнического прототипирования. Apache 2.0

Весна 2024
🍷FineWeb – огромный очищенный интернет-корпус для предобучения больших языковых моделей на 15 триллионов токенов. Есть мультиязычная версия, я теперь еще и бенчмарк, доказывающий, что корпус лучше остальных для сходимости моделей. Лицензия ODC-by
🏆Zephyr Mixtral , Zephyr Gemma  – быстрые повторения моделей Gemma и Mixtral на основе синтетических датасетов, обе под своими собственными лицензиями.
Lighteval Release – открытый фреймворк для эффективной и полной оценки LLM (теперь еще и многоязычный). MIT License
⭐️The Stack v2 – очищенный (и лицензионно чистый) датасет для обучения кодовых LLM. Своя собственная лицензия
⭐️StarCoder2 – улучшенная версия модели для генерации кода StarCoder. OpenRAIL license
🌌Cosmopedia – синтетически сгенерированный корпус с фактологически верной информацией, основанной на лицензионно чистых источниках. Apache 2.0

В целом, исключительно постоянная организационная работа  с сообществом и позволяет нагнать закрытые модели, потому что постоянно создаются строящиеся кирпичики, на которых создается дальнейшая воспроизводимость – инфраструктура, модели, датасеты, подходы. 

🟣Блог-пост с проектами
https://huggingface.co/science
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Dealer.AI
Ну CAG таг? Это ж и ни RETRO и ни RAG и не кагдилаг...


Тут ребята упоролись, и как в сказке: "родила царица в ночь не то сына, не то дочь". И перед нами предстает CAG (дилаг простите 🤣) - Cache augmented generation. CAG это мутант между RETRO и RAG, порождение зла и KV-cached подхода.

CAG работает на основе контекста LLM и использует ее же логику kv-кеширования (схема будет ниже) для создания "индекса" и самого запроса, хотя, буквально, это ретривал индексом назвать нельзя, все сразу на этапе инициализации грузится в контекст модели в kv-кэш. Отсюда же и ограничения на использование такой схемы, ввиду длины контекста (привет Titans и прочие жирноконтекстные момзели). Также такая схема работы нас роднит с моделями типа RETRO, тк для вычисления ответа нам нужно получить векторные представления подсказок. Но тут у нас нет cross-attention схемы и отдельного блока кодирования подсказок, модель сама их себе эмбеддит через kv-cache механизм.

Авторы выделяют плюсы: скорость работы, независимость от внешней базы и ретривера, ну и высокое качество по сравнению с классической RAG архитектурой на базе bm25 или dense retriever. Но смотрят всего две задачи HotPotQA и SquadQA.

Из минусов: мы во всю зависим от длины контекста модели для кеширования, и поэтому же не можем динамически менять индекс и в принципе иметь большой индекс как в RAG тк тут "индекс" подсказок грузится в контекст и модель сама решает какую часть этого кеша ей использовать. Нет возможности юзать мультимодалку. Хотя последнее спорно – можно эмбедить в kv-кеш и вектора картинок и аудио и видео.

Дяде, с одной стороны, конечно, такая схема не нравится,хотя он и rag и retro уважает,с другой стороны, если идти в развитие бесконечных контекстов LLM, почему бы и нет? А что думаете вы? Пишите мнение в комментариях.
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Разбор собеседования по машинному обучению в Озон 2025

https://uproger.com/razbor-sobesedovaniya-po-mashinnomu-obucheniyu-v-ozon-2025/

@machinelearning_interview
Forwarded from Machinelearning
📌 Практическое руководство по "подводным камням" больших языковых моделей с примерами.

Открытый препринт книги Тарсиса Соуза (Tharsis Souza), PhD Лондонсого университета, в которой представлен критический анализ проблем и ограничений, возникающих у инженеров и руководителей технических проектов при разработке приложений на основе LLM.

Цель книги, по заявлению автора – помочь создавать надежные и безопасные системы на основе LLM, избегая распространенных ошибок.

Она ориентирована на разработчиков, технических менеджеров проектов и технических руководителей, стремящихся к углубленному пониманию и преодолению практических трудностей, связанных с внедрением LLM.

В отличие от преобладающего дискурса, акцентирующего возможности LLM, книга сосредоточена на практических сложностях и потенциальных ошибках реализации, предлагая подробное руководство по их преодолению.

В книге рассматриваются проблемы: структурной ненадежности, управления входными данными, тестирования, аспектов безопасности и элайнмента, зависимости от поставщиков и оптимизации затрат.

Книга сопровождается репозиторием с практическими примерами на Python, анализом реальных сценариев и решений.

▶️ Содержание:

🟢Предисловие
🟢О книге
🟢Глава 1: Пробелы в оценках
🟢Глава 2: Структурированный вывод
🟢Глава 3: Управление входными данными
🟢Глава 4: Безопасность
🟢Глава 5: Элайнмент на основе предпочтений
🟢Глава 6: Локальные модели на практике
🟠Глава 7: Парадокс снижения стоимости (не опубликовано)
🟠Глава 8: Границы (не опубликовано)
🟠Приложение: Инструменты и ресурсы (не опубликовано)

🟡Страница проекта
🖥Github.com


@ai_machinelearning_big_data

#AI #ML #LLM #Book #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM