mrtnv | prism

Классификация LLM: как подобрать модель под задачу

Каждый месяц появляются новые языковые модели, обновляются существующие, меняются возможности и ограничения. Как разобраться в этом многообразии и выбрать оптимальное решение?

Погнали разбираться!

TL;DR

➡️Лицензия – proprietary / open-weight / open-source: бюджет, возможность модификации и юридические риски
➡️Размер – 1 B-400 B+ параметров: компромисс качества и скорости инференса
➡️Контекстное окно – считайте не токены «на бумаге», а реальную эффективность
➡️Модальность – text / vision / audio / video: подбирайте под сценарий
➡️Специализация – универсальная или доменная модель: точность vs универсальность

🔐 Уровень открытости
Proprietary (GPT-4o, Claude, Gemini)
– Доступ только через API
– Высокое качество «из коробки»
– Веса закрыты. Ограниченный файнтюн

Open-weight (Llama 3, Mistral 8×22B)
– Веса доступны для скачивания, можно запускать локально
– Лицензия запрещает Llama 3 для сервисов ≥ 700 млн MAU
– Частичный контроль: архитектура закрыта, но инференс у себя

Open-source (Falcon, BLOOM, Mistral 7B)
– Полная свобода: изменения, коммерциализация, аудит кода
– Сильное комьюнити, быстрые патчи и расширения

Многие называют Llama «

open-source

», но формально это

open-weight:

права на модификацию и масштабное коммерческое использование ограничены лицензией

💪 Размер модели
Малые (1–7 B) – можно запускать на ноутбуке; задержка < 100 мс, идеальны для edge и real-time-сценариев.
Средние (13–70 B) – баланс «качество / стоимость»; требуют одного-двух GPU A100/H100; покрывают 80 % production-кейсов.
Гиганты (175 B+) – state-of-the-art; нужны под задачи, где ошибка дороже инфраструктуры (медицина, финансы, R&D).

Аритектурный патерн

Mixture-of-Experts (MoE)

позволяют модели в 8 B параметров вести себя, как классическая 70 B, потому что при каждом запросе включается лишь часть «экспертов». Это резко сокращает требования к памяти и повышает скорость.

🔁 Контекстное окно: заявленное ≠ эффективное
– GPT-4o: заявлено 128 K токенов → эффективно ≈ 64 K
– Claude 3.5: 200 K → ≈ 150 K
– Llama 3: 128 K → ≈ 32 K
Эффективность измеряестя тестами Needle-in-a-Haystack и RULER (2024), где проверяют, находит ли модель «иголку» – факт, спрятанный в длинном документе.

В реальных экспериментах accuracy падает на 30–40 % после ~ 60 % от заявленного окна. Для RAG лучше закладывать запас. Важно: это все эмпирика на опыте :)

🎭 Модальность
Text – классика 90 % задач.
Vision + Text (GPT-4V/o, Claude 3.5 Sonnet, Gemini Pro) – анализ изображений, схем, таблиц; в финтехе заменяют связку «OCR → LLM».
Audio (Whisper-v3, AudioLM) — надёжная транскрипция и генерация речи.
Video (Sora, Lumiere, Google Veo )– уже больше чем R&D. Массового коммерческого внедрения пока нет, но ожидается рост интереса и запуск первых коммерческих сервисов.

🎯 Специализация
Языковая: модели под конкретный язык (Saiga-70B-RU) обычно превосходят универсальные на локальных задачах.
Доменная: Med-PaLM 2, BloombergGPT, CodeLlama-70B обучены на отраслевых корпусах и дают более точные ответы в своей нише.

Например,

для ru-юридических и медицинских кейсов

связка «специализированная модель + RAG» часто дешевле и точнее, чем GPT-4-o без дообучения.

📌 Рекомендации
Стартап / MVP – open-weight 7–13 B; быстрые эксперименты, локальный деплой, квантование до 8-бит.
Enterprise с жёстким compliance – проприетарная модель с SLA или 100 % open-source в своём кластере для контроля данных.
Продукт с миллионами DAU – MoE-архитектура + квантование; оптимизируйте latency и «живое» контекстное окно.

🔮 Взгляд на 2025-2026 гг.
– Контекст >1M токенов станет стандартом к 2026
– Генерация видео выходит в коммерцию уже сейчас
– Ультрамалые модели (<1B) on-device-LLM откроют рынок персональных ассистентов и edge-аналитики без облака

🟢

Рынок LLM растёт экспоненциально: то, что вчера требовало дата-центра, завтра запустится на смартфоне. Не существует «лучшeй» модели в абсолюте – есть задача, бюджет и ограничения.

Выбирайте модель под конкретную задачу и TCO

😉

#LLM #AI #MachineLearning #DataScience
@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

16❤20👍20👏14🎉13🤩13🥰884

2.51K viewsedited 12:45

mrtnv | prism

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

Гонка Героев, дубль два

Ливень? Конечно! Грязь? Куда ж без неё. А мы? Дошли до финиша с улыбкой

😎

Бежали с коллегами, помогали друг другу, орали, смеялись и тащили до финиша!
Командный дух, немного экстрима и море эмоций 🥚

#TrueTech #Teamwork

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

32🥰24❤23🎉17🤩16👍159👏7

360 views19:00

mrtnv | prism

Open source ≠ “бесплатно и без ограничений”

В прошлых постах обсуждали уровни открытости LLM: proprietary, open-weight и open source. Часто вижу, как путаются в этой теме, поэтому сегодня копнем глубже: что такое open source (глобально), какие бывают лицензии и почему это важно всем нам 🙂

TL;DR

➡️Open source – это не про "бесплатно", а про свободу: запускать, изучать, модифицировать
➡️Есть разница между открытым кодом и настоящим open source
➡️Лицензия решает многое: MIT и Apache дают больше свободы, GPL – больше контроля
➡️Все чаще встречаются гибридные форматы: open-core, source-available, open-weight
➡️Понимайте риски: от supply-chain атак до юридических обязательств

🔐 Что считается настоящим open source?
Если коротко: open source – это когда лицензия разрешает не только читать код, но и
✔️свободно использовать
✔️менять под себя
✔️делиться с другими
✔️даже продавать (при соблюдении условий)

Open Source Initiative (OSI) одобряет лицензии как совместимые с этим определением. Если лицензия не признана OSI – это может быть "source-available", но не open source.

📜 Популярные лицензии и их особенности

MIT / Apache 2.0 – максимально гибкие. Можно использовать даже в закрытых продуктах
GPL – требует, чтобы любые изменения тоже распространялись открыто
AGPL – расширяет GPL на SaaS: если запускаете сервис на базе AGPL-кода, должны открыть все изменения
BSD, MPL, LGPL – промежуточные варианты с разной степенью обязательств

Классический пример путаницы

: Llama 3 – вроде бы «открытая», но лицензионные ограничения не позволяют её использовать в сервисах с аудиторией > 700 млн MAU. Это уже не совсем open source, а open-weight – веса есть, а свободы нет.

⚖️ Зачем бизнесу open source?
Плюсы:
– Прозрачность (можно делать аудит)
– Кастомизация (можно доработать под свои задачи)
– Снижение стоимости владения
– Независимость от вендора
Минусы:
– Нужна своя экспертиза – поддержку придётся выстраивать
– Есть юридические тонкости – нужен review лицензии
– Иногда нет SLA – особенно важно в продакшене

🐧 Linux как пример настоящего open source

Linux начинался как студенческий проект Линуса Торвальдса в 1991 году. "Just a hobby, won't be big and professional" – писал он тогда. Спустя 30+ лет Linux работает на 100% топ-500 суперкомпьютеров мира, большинстве серверов интернета, в каждом Android-смартфоне.
Почему Linux победил? GPL-лицензия создала уникальную экосистему. Компании-конкуренты (IBM, Intel, Google) вкладываются в общий проект, потому что никто не может его "украсть" – все улучшения возвращаются в сообщество. Это win-win: каждый получает надёжную ОС, никто не может монополизировать.
Бизнес-модель вокруг Linux доказала жизнеспособность open source. Red Hat продаёт не Linux, а поддержку и гарантии – и стоит $34 млрд. Canonical, SUSE, множество других компаний зарабатывают на экспертизе, а не на коде.

🟢

Open source

перестал быть "движением энтузиастов".

Это инструмент контроля над технологическим будущим

. Google контролирует мобильный рынок через Android. Microsoft купила GitHub за $7.5 млрд не из любви к опенсорсу.

🟢

Понимать разницу между MIT и GPL, между open source и source-available — это важно.

Даже если вы не пишете код, эти решения влияют на то, какие продукты вы сможете использовать и как

.

📚 Полезное:

➡️

Choosealicense – выбор лицензии за 5 минут

➡️

Open Source Guides – гайды от GitHub

➡️

Software Licenses in Plain English – лицензии простым языком

#OpenSource #TechStrategy #DevTools

@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

Open Source Initiative

About

About the Open Source Initiative As steward of the Open Source Definition, we set the foundation for the open source software ecosystem. The Open Source Initiative (OSI) is a California…

18❤46👍43👏33🥰30🎉30🤩19🔥105🙏1

4.57K viewsedited 13:46

mrtnv | prism

GigaConf 2025

Снова побывал на GigaConf от 🏦– это одно из самых интересных AI-событий года.

🟢Главный вектор: переход от AI-assisted к AI-driven процессам

Сейчас мы на уровне code creation – человек работает, AI помогает и дополняет.
Но дальше этапы, где AI берёт инициативу, а человек лишь валидирует.
А потом и вовсе не участвует.

Уже сегодня строятся агентные системы, где LLM = не просто модель, а полноценный runtime. Они выполняют задачи, управляют пайплайнами и принимают решения.

Вижу, как через 2–3 года это станет стандартом: не просто «AI-помощник в IDE», а автономный контур в продуктах и бизнесе.

Готовлю серию постов: от архитектуры до внедрения и анализа метрик эффективности

😉

#GigaConf2025 #AI #AgentSystems

@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

15🤩38❤37🥰25👍24🎉21👏17🔥87

3.8K views15:20

mrtnv | prism

Снова ухожу в горы!

Будет интересно – и, скорее всего, непросто…

Постараюсь делиться маршрутом, погодой, бытом и тем, как идется.
Связь не всегда будет, но истории точно.

AI и технологии временно оффлайн, включаюсь в режим high altitude runtime 🔥

#ПикЛенина #expeditionlog

Please open Telegram to view this post

VIEW IN TELEGRAM

16👍45❤34👏26🎉23🤩20🥰16🔥8🤝3🦄2

3.71K views19:44

mrtnv | prism

📍Базовый лагерь пика Ленина –3600 м.

Сегодня прибыли в базу после дня в Оше (963 м). Встретился с командой, проверили снаряжение, немного адаптировались к местному климату и ритму. Ош – типичный южный город: шумный, тёплый, колоритный.

БЛ приятно удивил: комфортные условия, аккуратная территория, отличная кухня и очень доброжелательная атмосфера. Вид на снежные склоны уже мотивирует 💫

С завтрашнего дня начинаем акклиматизационные выходы – цель на ближайшие дни: плавно набрать высоту, прислушиваясь к организму.

Дальше – выше

#ПикЛенина #expeditionlog

27❤47👍31🥰30👏20🤩17🎉147🔥6🦄3🌭1🍾1

3.69K viewsedited 11:31

mrtnv | prism

Первый акклиматизационный радиальный выход!

Сегодня сходили из базового лагеря (3600 м) на перевал Петровского (~4300 м). Набрали около 700 м – погода порадовала. Виды – открытка, темп – в удовольствие.

Отличный старт для акклиматизации: важно не просто пройтись, а дать организму время начать перестраиваться: поднялся → поработал на высоте → спустился → восстановился

Базовый лагерь расположен в долине Ачик-Таш – просторной, светлой, с зелёными склонами и ледниковыми озерами неподалеку. Место открытое, продуваемое, но удивительно спокойное ☺️

Завтра переход в Лагерь 1 (4400 м)

#ПикЛенина #expeditionlog

16❤62👍56🎉48👏46🔥36🤩3063🦄2🌭1💅1

5.14K views15:33

mrtnv | prism

Лагерь 1 (4400 м) – адаптируемся

Провели здесь два дня. Сегодня сходили на Пик Юхина (5130 м), классический акклиматизационный выход: набор приличный, техника простая, прекрасные виды. Дышится уже по-высотному, но общее состояние отличное, команда держит ровный темп.

Сам лагерь чуть ощутимо суровее, но в целом все круто. Даже интернет есть 😍

Сегодня поздно ночью выходим через Сковородку – снежное плато с трещинами, поэтому стартуем в темноте, пока все хорошо подморожено.

#ПикЛенина #expeditionlog

18❤74🔥68👍49🎉39🥰32👏27🤩22🦄32💅1

4.8K views11:27

Вернулись в Лагерь 1 из Лагеря 2 (~5300 м)

Провели там ночь. Переход Л1–Л2 – жесткий. Стартовали ночью, шли через Сковородку: ветер, снег, лавиноопасные участки, трещины, почти полная белая мгла. Местами дюльферяли на сбросах, жумарили по перилам. Я четыре раза проваливался в трещины – благо, что шли в связках и отрабатывали быстро 😊

Самое неприятное – лавины. Следы свежих сходов рядом, напряжение не отпускало почти весь маршрут.

В Лагере 2 – палатки по пояс в снегу, ветер гнет дуги. Настоящий хардкор!
Просто сели с напарником и молча переваривали дорогу.

Один участник группы (очень сильный!) принял решение и ушел вниз, в базу.
У меня – минус нос: сгорел, SPF нужно обновлять каждые 30 минут!

Сейчас отдых и восстановление в Л1. Теперь аккуратно сходить на Пик Раздельная для продолжения акклиматизации.
А дальше будем смотреть по состоянию, прогнозу и ощущениям.

#ПикЛенина #expeditionlog

24👍63❤62🔥59🎉41👏25🥰19🤩187😱4😨2❤‍🔥1

388 views04:43

mrtnv | prism

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

🏔 Пик Раздельная, 6148 м

Дошли! Не вершина Ленина, но важная точка для акклиматизации и проверки себя на этой высоте.
Ночевали в верхнем лагере, около 6100 м. Было сурово: холод, ветер, палатка обледеневшая, готовка – отдельный квест. Просто растопить снег и вскипятить воду требует усилий, когда все внутри работает в режиме энергосбережения.

Ночью спалось относительно нормально, но снились довольно странные сны. Утро далось тяжелее, чем обычно. Простые действия – вялые и медленные. Вылезти из спальника, застегнуть куртку, надеть кошки – все занимало непривычно много времени. Организм будто сопротивлялся каждому шагу.

На спуске оказались в реальной спасательной операции. Встретили девушку совсем без сил, с подозрением на отек мозга. Спасы скоординировал наш главный гид Валера Шамало, быстро, четко, без паники. Помогали с эвакуацией. Такие моменты напоминают, что в горах важно не только следить за собой, но и быть внимательным к тем, кто рядом – вовремя заметить, поддержать, не пройти мимо.

А Валера, к слову, координировал все это в свой день рождения – ему 60. Вот такой юбилей на высоте 😎

#ПикЛенина #expeditionlog

22🔥74🎉64👍61❤60🤩27👏26🥰25

341 views15:30

mrtnv | prism

🤖 Turbo ML Conf 2025: агентные системы в проде, "Афанасий" и T-One

Высоту я сбросил – зато теперь снова на волне AI

В субботу был на Turbo MLConf от Т-Банка и особенно зацепил блок LLM Applications & Copilots.
Делюсь ключевыми трендами, которые уже формируют будущее разработки! 🚀

Индустрия переживает настоящую революцию в подходах к созданию продуктов. Если раньше мы писали каждую строчку кода вручную, то сейчас аккуратно входим в эру vibe coding.

Про качество, безопасность и тестирование сгенерированного кода поговорим отдельно – будет не только полезно, но и весело! 😁

Три главных тренда, которые меняют всё:
🔥 Vibe Coding – пользователь описывает итог и ограничения, а ИИ анализирует контекст, подбирает стек, генерирует тестируемый код и сразу предлагает pull‑request.
🧠 Agentic AI – автономные интеллектуальные агенты, способные выполнять комплексные задачи без постоянного контроля со стороны человека. Это уже не вспомогательные инструменты, а полноформатные цифровые коллеги.
⚙️ Context Engineering – искусство создания правильного контекста для LLM. То, как мы формулируем задачу, напрямую определяет глубину и качество получаемого ответа.

Реальные кейсы из продакшена:
– Круто выглядел агент "Афанасий" от Т-Банка – Computer-use агент для саппорта, который уже работает в проде! Он может самостоятельно взаимодействовать с интерфейсами и решать пользовательские проблемы.
– Ребята из Авито рассказали про свою мультиагентскую систему – показали всю кухню от архитектуры до внедрения. Хотя они только начали, уже есть отличные результаты: разобрали, как не перегрузить MCP-сервера, какие модели выбрать и зачем дообучать компактные решения под конкретные задачи.

Безопасность превыше всего:
Отдельный фокус был на защите агентных систем.
Два ключевых направления:
– mTLS для безопасной коммуникации между сервисами
– GuardRails – системы безопасности, которые не дают агентам "сойти с ума" и делать то, что не должны

Релизы от T-Банк:
🚀 T-Pro 2.0 презентовали и выложили прямо в день мероприятия! Новая версия с гибридным reasoning и спекулятивным декодингом. Особенно круто, что делятся не только моделью, но и SFT датасетами для обучения.
📢 T-One – открытая потоковая модель для телефонных каналов. Презентовали на конференции, сегодня выложили в открытый доступ! Заточена под "прелести" телефонии: 8 кГц, помехи, эхо. Всего 70M параметров, но в 2-3 раза лучший WER чем у whisper-large-v3 на телефонных каналах.

🟢

Мы стоим на пороге эры, когда разница между человеком и AI в решении бизнес-задач стирается

.
Главное – научиться правильно проектировать архитектуру и обеспечивать безопасность.

#AI #LLM #AgenticAI #TurboMLConf

Please open Telegram to view this post

VIEW IN TELEGRAM

Turbo ML Conf

Делимся опытом, разбираемся в трендах и погружаемся в кейсы

64🔥63🎉57👍52❤49🤩37👏31🥰27

5.55K views18:27

mrtnv | prism

🧩 AI Design Patterns: GoF для эры ИИ

Ух, давно не писал – был в режиме deep work 🔥
Сейчас погрузился в Patterns for Modern AI Systems – есть чем поделиться. Поэтому сегодня пост про то, как в AI складывается свой "дизайн-паттернс".

Помните GoF (Gang of Four) и их легендарные Design Patterns 1994 года? 23 шаблона дали разработчикам общий язык и избавили от изобретения велосипеда. Сейчас похожий словарь складывается в AI-разработке.

TL;DR:

➡️

В AI уже сформировались

повторяемые паттерны

– готовые решения для типовых задач

➡️

Пять слоев

: Prompting & Context, Responsible AI, UX-паттерны, AI-Ops, Optimization

➡️

Как GoF для ИИ

: общий словарь, меньше ошибок, быстрее в продакшн

➡️

Думайте об этом как о

"микросервисах для искусственного интеллекта"

О чем этот пост (и о чем не говорим)

Фокус на пользовательских приложениях поверх готовых моделей через API.
Не затрагиваем: тренинг моделей, хостинг, квантование, (мульти)агентные системы – это отдельные большие темы.

Зачем вообще паттерны в AI?

Как когда-то GoF и облачные паттерны (pub/sub, event-driven, serverless) ускорили разработку, так и в ИИ появляются стандартные приёмы.

Разница в том, что AI решает задачи, которых раньше просто не было: как направлять модель на нужный результат, как объяснять её ответы пользователю, как удерживать стоимость в разумных пределах.

Пять слоев AI-паттернов

➡️

Слой 1 – Prompting & Context
"Направь модель и дай ей знать больше"

– Шаблоны промптов с явной ролью, задачей и критериями качества
– Контекст-инжиниринг: RAG, knowledge snippets прямо в запрос
– Ограничения: формат ответа, шаги верификации, примеры

➡️

Слой 2 – Responsible AI
"Меньше галлюцинаций, больше доверия"

– Фильтры до/после, факт-чекинг, цитирование источников
– Политики контента и детект запрещённого контента
– Снижение bias и прозрачность: логи решений, объяснимость

➡️

Слой 3 – UX-паттерны
"Новые интерфейсы для новых диалогов"

– AI предлагает → человек правит: история изменений, версионность
– Метки неопределённости: источники, уровень уверенности
– Умные кнопки: "уточнить", "расширить", "сжать", "проверить факты"

➡️

Слой 4 – AI-Ops
"Как управлять ИИ на масштабе"

– Версионирование промптов и конфигов, A/B тесты, канареечные релизы
– Наблюдаемость: метрики качества, латентности, отказов; алерты
– Отказоустойчивость: фолбэки, ретраи, квоты, умный роутинг

➡️

Слой 5 – Optimization
"Баланс качества и цены"

– Умный роутинг на подходящую модель (не все через "самую большую" – GPT5 привет)
– Производительность: кэш, батчинг, стриминг
– Специализированные (под домен) модели там, где это окупается

Почему это важно прямо сейчас

Общий словарь слоев экономит время команд, снижает риски и синхронизирует разработку. С этого фундамента удобно расти в агентные системы и доменные решения.

🟢

Индустрия AI переживает тот же процесс стандартизации, что и веб-разработка 20 лет назад

. Кто освоит паттерны раньше и будет их правильно использовать – получит конкурентное преимущество.

😀

😃

😄

😁

😅

😂

🤣

😊

😇

🙂

🙃

😉

😌

😍

🥰

😘

😗

😙

😚

😋

😛

😝

😜

🤪

🤨🧐🤓😎🤩🥳😏😒

🔗

Полезное чтиво на тему: Beyond the Gang of Four: Practical Design Patterns for Modern AI Systems

#AI #DesignPatterns #TechStrategy #Development

Please open Telegram to view this post

VIEW IN TELEGRAM

36❤93👍88🎉81🔥70🥰39🤩30👏25💯11❤‍🔥8😍7

6.54K views00:19

mrtnv | prism

🧠

Почему ИИ уверенно фантазирует и что с этим делать

Меня часто спрашивают: «Зачем нам эти LLM, если они периодически несут чушь и все придумывают?».
Вопрос справедливый! Да, модели иногда уверенно фантазируют – и на это есть нормальные причины в данных и в том, как мы их оцениваем

В этом посте разберем, откуда берутся «уверенные промахи» и как простыми инженерными приемами (пороги уверенности, RAG-правила, калибровка, UX/Ops) сделать так, чтобы ошибочных ответов стало заметно меньше, а пользы – больше 🙃

TL;DR

➡️

Модели часто угадывают, когда не уверены — как студент на экзамене с оценкой «правильно/неправильно». А бенчмарки это поощряют...

➡️

Есть класс вопросов, где нет закономерности (типа «дата рождения X»). Если факт встречался в данных 1 раз, ниже которого модель падает трудно – это singleton rate

➡️

Формально: ошибки генерации связаны с ошибками бинарной классификации (Is-It-Valid). Если путаем «валидно/невалидно», галлюцинации неизбежны

➡️

Решение – менять стимулы: не штрафовать “не знаю”, вшивать пороги уверенности и проверять поведенческую калибровку

Где ломается логика

Представим экзамен: за правильный ответ – 1, за пустой – 0. Угадывать выгоднее, чем промолчать. Так же и с LLM: большинство оценок – бинарные, то есть модель отвечает либо «правильно», либо «неправильно». А вариант IDK (I don't know / «я не знаю») не учитывается. Результат: модель учится всегда что-то говорить.

Техническая сторона

- Редукция к классификации. Генерацию можно представить как простую проверку «валидно/невалидно» (Is-It-Valid). И чем чаще система ошибается в такой проверке, тем выше шанс, что в тексте появятся галлюцинации
- Singleton rate (Good–Turing-интуиция). Если заметная доля фактов в корпусе встретилась один раз, то по таким запросам ожидаем сопоставимую долю промахов – база просто не успела «выучить» закономерность
- Пост-тренинг не спасает, если метрика против «IDK». Пока лидерборды награждают «смелые догадки», система будет учиться блефовать.
- RAG ≠ серебряная пуля. Поиск снижает часть ошибок, но как только поиск не дал уверенного сигнала, бинарная оценка снова толкает к «уверенной догадке»

Что с этим делать?

1️⃣

Разрешить «не знаю»
В проде и на внутренних тестах вводим порог уверенности: «Отвечай только если ≥t, иначе — краткое “не знаю/нужен поиск”». И перестаем штрафовать за воздержание. Это резко снижает соблазн «уверенно фантазировать»

2️⃣

Показывать основания
По умолчанию – ссылки/цитаты из RAG. Нет надежных источников, то следуем по правилу – «не знаю». Поиск и рассуждение помогают, но не отменяют стимул угадывать, если оценка настроена неправильно

3️⃣

Мерить правильные метрики
Имеет смысл добавлять поведенческую калибровку: для набора порогов t сравнивать точность среди ответов и долю воздержаний – модель должна последовательно «молчать» ниже порога.

4️⃣

UX-паттерны для честности
Кнопки «проверить факты», «уточнить», бейджи уверенности и явные «источники». Если уверенность низкая – просим подтверждение пользователя (human-in-the-loop)

5️⃣

Ops-практики
Фолбэки на более «надежную» модель/человека при низкой уверенности, ретраи, алерты. Это про процессы, а не только про модель

Немного тонкостей

- Плохая модель vs плохие данные. Ошибки бывают из-за «формы» модели (например, токенизация мешает посчитать буквы) и из-за GIGO (мусор в корпусе)
- Комплексность задач. Есть классы запросов, где «лучше не отвечать» – вычислительно тяжелые/инвертирование шифрования и т. д. и т. п. Это теоретически обосновывается там, что там тоже будет тянуть на ложные догадки
- Калибровка: база vs после RL. Базовые модели обычно честнее в своей уверенности, а пост-тренинг под бинарные метрики уводит в «гиперуверенность» — то самое ощущение «говорит уверенно, но мимо»

Короткая мысль напоследок:

🟢

Галлюцинации – не «прихоть модели», а следствие статистики и наших же метрик.

Перестанем наказывать «не знаю» – модели станут реже «уверенно врать» и чаще вести себя как полезные ассистенты.

🔗Рекомендую почитать: исследование OpenAI –Why language models hallucinate, меня оч вдохновило :)

#AI #LLM #AITrust #TechStrategy

Please open Telegram to view this post

VIEW IN TELEGRAM

Openai

Why language models hallucinate

OpenAI’s new research explains why language models hallucinate. The findings show how improved evaluations can enhance AI reliability, honesty, and safety.

37🔥48👍46❤41🎉38🥰27🤩25❤‍🔥11👏6😍4

5.42K views21:30

mrtnv | prism

Forwarded from Data Secrets

Интернет тем временем заполнился мемами о новой сделке OpenAI с Nvidia

Ребята изобрели вечный генератор денег, завидуем молча

🤩30👍28💯28🥰25❤23😍21🔥19❤‍🔥18🎉17

259 views09:20

About

Blog

Apps

Platform