mrtnv | prism
3.55K subscribers
30 photos
4 videos
29 links
Заметки о жизни в эпоху AI: от рабочих проектов до личных открытий. Канал для тех, кто ищет вдохновение там, где сходятся цифровое и реальное

Для связи: tg@mrtnv.ai
Download Telegram
Классификация LLM: как подобрать модель под задачу

Каждый месяц появляются новые языковые модели, обновляются существующие, меняются возможности и ограничения. Как разобраться в этом многообразии и выбрать оптимальное решение?

Погнали разбираться!

TL;DR
➡️Лицензия – proprietary / open-weight / open-source: бюджет, возможность модификации и юридические риски
➡️Размер – 1 B-400 B+ параметров: компромисс качества и скорости инференса
➡️Контекстное окно – считайте не токены «на бумаге», а реальную эффективность
➡️Модальность – text / vision / audio / video: подбирайте под сценарий
➡️Специализация – универсальная или доменная модель: точность vs универсальность


🔐 Уровень открытости
Proprietary (GPT-4o, Claude, Gemini)
– Доступ только через API
– Высокое качество «из коробки»
– Веса закрыты. Ограниченный файнтюн

Open-weight (Llama 3, Mistral 8×22B)
– Веса доступны для скачивания, можно запускать локально
– Лицензия запрещает Llama 3 для сервисов ≥ 700 млн MAU
– Частичный контроль: архитектура закрыта, но инференс у себя

Open-source (Falcon, BLOOM, Mistral 7B)
– Полная свобода: изменения, коммерциализация, аудит кода
– Сильное комьюнити, быстрые патчи и расширения

Многие называют Llama «
open-source
», но формально это
open-weight:
права на модификацию и масштабное коммерческое использование ограничены лицензией


💪 Размер модели
Малые (1–7 B) – можно запускать на ноутбуке; задержка < 100 мс, идеальны для edge и real-time-сценариев.
Средние (13–70 B) – баланс «качество / стоимость»; требуют одного-двух GPU A100/H100; покрывают 80 % production-кейсов.
Гиганты (175 B+) – state-of-the-art; нужны под задачи, где ошибка дороже инфраструктуры (медицина, финансы, R&D).

Аритектурный патерн
Mixture-of-Experts (MoE)
позволяют модели в 8 B параметров вести себя, как классическая 70 B, потому что при каждом запросе включается лишь часть «экспертов». Это резко сокращает требования к памяти и повышает скорость.


🔁 Контекстное окно: заявленное ≠ эффективное
GPT-4o: заявлено 128 K токенов → эффективно ≈ 64 K
Claude 3.5: 200 K → ≈ 150 K
Llama 3: 128 K → ≈ 32 K
Эффективность измеряестя тестами Needle-in-a-Haystack и RULER (2024), где проверяют, находит ли модель «иголку» – факт, спрятанный в длинном документе.

В реальных экспериментах accuracy падает на 30–40 % после ~ 60 % от заявленного окна. Для RAG лучше закладывать запас. Важно: это все эмпирика на опыте :)


🎭 Модальность
Text – классика 90 % задач.
Vision + Text (GPT-4V/o, Claude 3.5 Sonnet, Gemini Pro) – анализ изображений, схем, таблиц; в финтехе заменяют связку «OCR → LLM».
Audio (Whisper-v3, AudioLM) — надёжная транскрипция и генерация речи.
Video (Sora, Lumiere, Google Veo )– уже больше чем R&D. Массового коммерческого внедрения пока нет, но ожидается рост интереса и запуск первых коммерческих сервисов.

🎯 Специализация
Языковая: модели под конкретный язык (Saiga-70B-RU) обычно превосходят универсальные на локальных задачах.
Доменная: Med-PaLM 2, BloombergGPT, CodeLlama-70B обучены на отраслевых корпусах и дают более точные ответы в своей нише.

Например,
для ru-юридических и медицинских кейсов
связка «специализированная модель + RAG» часто дешевле и точнее, чем GPT-4-o без дообучения.


📌 Рекомендации
Стартап / MVP – open-weight 7–13 B; быстрые эксперименты, локальный деплой, квантование до 8-бит.
Enterprise с жёстким compliance – проприетарная модель с SLA или 100 % open-source в своём кластере для контроля данных.
Продукт с миллионами DAU – MoE-архитектура + квантование; оптимизируйте latency и «живое» контекстное окно.

🔮 Взгляд на 2025-2026 гг.
Контекст >1M токенов станет стандартом к 2026
Генерация видео выходит в коммерцию уже сейчас
Ультрамалые модели (<1B) on-device-LLM откроют рынок персональных ассистентов и edge-аналитики без облака

🟢
Рынок LLM растёт экспоненциально: то, что вчера требовало дата-центра, завтра запустится на смартфоне. Не существует «лучшeй» модели в абсолюте – есть задача, бюджет и ограничения.
Выбирайте модель под конкретную задачу и TCO
😉


#LLM #AI #MachineLearning #DataScience
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
1620👍20👏14🎉13🤩13🥰884
Гонка Героев, дубль два

Ливень? Конечно! Грязь? Куда ж без неё. А мы? Дошли до финиша с улыбкой 😎

Бежали с коллегами, помогали друг другу, орали, смеялись и тащили до финиша!
Командный дух, немного экстрима и море эмоций 🥚

#TrueTech #Teamwork
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
32🥰2423🎉17🤩16👍159👏7
Open source ≠ “бесплатно и без ограничений”

В прошлых постах обсуждали уровни открытости LLM: proprietary, open-weight и open source. Часто вижу, как путаются в этой теме, поэтому сегодня копнем глубже: что такое open source (глобально), какие бывают лицензии и почему это важно всем нам 🙂

TL;DR
➡️Open source – это не про "бесплатно", а про свободу: запускать, изучать, модифицировать
➡️Есть разница между открытым кодом и настоящим open source
➡️Лицензия решает многое: MIT и Apache дают больше свободы, GPL – больше контроля
➡️Все чаще встречаются гибридные форматы: open-core, source-available, open-weight
➡️Понимайте риски: от supply-chain атак до юридических обязательств


🔐 Что считается настоящим open source?
Если коротко: open source – это когда лицензия разрешает не только читать код, но и
✔️свободно использовать
✔️менять под себя
✔️делиться с другими
✔️даже продавать (при соблюдении условий)

Open Source Initiative (OSI) одобряет лицензии как совместимые с этим определением. Если лицензия не признана OSI – это может быть "source-available", но не open source.

📜 Популярные лицензии и их особенности

MIT / Apache 2.0 – максимально гибкие. Можно использовать даже в закрытых продуктах
GPL – требует, чтобы любые изменения тоже распространялись открыто
AGPL – расширяет GPL на SaaS: если запускаете сервис на базе AGPL-кода, должны открыть все изменения
BSD, MPL, LGPL – промежуточные варианты с разной степенью обязательств

Классический пример путаницы
: Llama 3 – вроде бы «открытая», но лицензионные ограничения не позволяют её использовать в сервисах с аудиторией > 700 млн MAU. Это уже не совсем open source, а open-weight – веса есть, а свободы нет.


⚖️ Зачем бизнесу open source?
Плюсы:
– Прозрачность (можно делать аудит)
– Кастомизация (можно доработать под свои задачи)
– Снижение стоимости владения
– Независимость от вендора
Минусы:
– Нужна своя экспертиза – поддержку придётся выстраивать
– Есть юридические тонкости – нужен review лицензии
– Иногда нет SLA – особенно важно в продакшене

🐧 Linux как пример настоящего open source

Linux начинался как студенческий проект Линуса Торвальдса в 1991 году. "Just a hobby, won't be big and professional" – писал он тогда. Спустя 30+ лет Linux работает на 100% топ-500 суперкомпьютеров мира, большинстве серверов интернета, в каждом Android-смартфоне.
Почему Linux победил? GPL-лицензия создала уникальную экосистему. Компании-конкуренты (IBM, Intel, Google) вкладываются в общий проект, потому что никто не может его "украсть" – все улучшения возвращаются в сообщество. Это win-win: каждый получает надёжную ОС, никто не может монополизировать.
Бизнес-модель вокруг Linux доказала жизнеспособность open source. Red Hat продаёт не Linux, а поддержку и гарантии – и стоит $34 млрд. Canonical, SUSE, множество других компаний зарабатывают на экспертизе, а не на коде.

🟢
Open source
перестал быть "движением энтузиастов".
Это инструмент контроля над технологическим будущим
. Google контролирует мобильный рынок через Android. Microsoft купила GitHub за $7.5 млрд не из любви к опенсорсу.
🟢
Понимать разницу между MIT и GPL, между open source и source-available — это важно.
Даже если вы не пишете код, эти решения влияют на то, какие продукты вы сможете использовать и как
.


📚 Полезное:
➡️ Choosealicense – выбор лицензии за 5 минут
➡️ Open Source Guides – гайды от GitHub
➡️ Software Licenses in Plain English – лицензии простым языком

#OpenSource #TechStrategy #DevTools

@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
1846👍43👏33🥰30🎉30🤩19🔥105🙏1
GigaConf 2025

Снова побывал на GigaConf от 🏦– это одно из самых интересных AI-событий года.

🟢Главный вектор: переход от AI-assisted к AI-driven процессам


Сейчас мы на уровне code creation – человек работает, AI помогает и дополняет.
Но дальше этапы, где AI берёт инициативу, а человек лишь валидирует.
А потом и вовсе не участвует.

Уже сегодня строятся агентные системы, где LLM = не просто модель, а полноценный runtime. Они выполняют задачи, управляют пайплайнами и принимают решения.

Вижу, как через 2–3 года это станет стандартом: не просто «AI-помощник в IDE», а автономный контур в продуктах и бизнесе.

Готовлю серию постов: от архитектуры до внедрения и анализа метрик эффективности 😉

#GigaConf2025 #AI #AgentSystems

@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
15🤩3837🥰25👍24🎉21👏17🔥87
Снова ухожу в горы!

Будет интересно – и, скорее всего, непросто…

Постараюсь делиться маршрутом, погодой, бытом и тем, как идется.
Связь не всегда будет, но истории точно.

AI и технологии временно оффлайн, включаюсь в режим high altitude runtime 🔥


#ПикЛенина #expeditionlog
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍4534👏26🎉23🤩20🥰16🔥8🤝3🦄2
📍Базовый лагерь пика Ленина –3600 м.

Сегодня прибыли в базу после дня в Оше (963 м). Встретился с командой, проверили снаряжение, немного адаптировались к местному климату и ритму. Ош – типичный южный город: шумный, тёплый, колоритный.

БЛ приятно удивил: комфортные условия, аккуратная территория, отличная кухня и очень доброжелательная атмосфера. Вид на снежные склоны уже мотивирует 💫

С завтрашнего дня начинаем акклиматизационные выходы – цель на ближайшие дни: плавно набрать высоту, прислушиваясь к организму.

Дальше – выше

#ПикЛенина #expeditionlog
2747👍31🥰30👏20🤩17🎉147🔥6🦄3🌭1🍾1
Первый акклиматизационный радиальный выход!

Сегодня сходили из базового лагеря (3600 м) на перевал Петровского (~4300 м). Набрали около 700 м – погода порадовала. Виды – открытка, темп – в удовольствие.

Отличный старт для акклиматизации: важно не просто пройтись, а дать организму время начать перестраиваться: поднялся → поработал на высоте → спустился → восстановился

Базовый лагерь расположен в долине Ачик-Таш – просторной, светлой, с зелёными склонами и ледниковыми озерами неподалеку. Место открытое, продуваемое, но удивительно спокойное ☺️

Завтра переход в Лагерь 1 (4400 м)

#ПикЛенина #expeditionlog
1662👍56🎉48👏46🔥36🤩3063🦄2🌭1💅1
Лагерь 1 (4400 м) – адаптируемся

Провели здесь два дня. Сегодня сходили на Пик Юхина (5130 м), классический акклиматизационный выход: набор приличный, техника простая, прекрасные виды. Дышится уже по-высотному, но общее состояние отличное, команда держит ровный темп.

Сам лагерь чуть ощутимо суровее, но в целом все круто. Даже интернет есть 😍

Сегодня поздно ночью выходим через Сковородку – снежное плато с трещинами, поэтому стартуем в темноте, пока все хорошо подморожено.

#ПикЛенина #expeditionlog
1874🔥68👍49🎉39🥰32👏27🤩22🦄32💅1
Вернулись в Лагерь 1 из Лагеря 2 (~5300 м)

Провели там ночь. Переход Л1–Л2 – жесткий. Стартовали ночью, шли через Сковородку: ветер, снег, лавиноопасные участки, трещины, почти полная белая мгла. Местами дюльферяли на сбросах, жумарили по перилам. Я четыре раза проваливался в трещины – благо, что шли в связках и отрабатывали быстро 😊

Самое неприятное – лавины. Следы свежих сходов рядом, напряжение не отпускало почти весь маршрут.

В Лагере 2 – палатки по пояс в снегу, ветер гнет дуги. Настоящий хардкор!
Просто сели с напарником и молча переваривали дорогу.

Один участник группы (очень сильный!) принял решение и ушел вниз, в базу.
У меня – минус нос: сгорел, SPF нужно обновлять каждые 30 минут!

Сейчас отдых и восстановление в Л1. Теперь аккуратно сходить на Пик Раздельная для продолжения акклиматизации.
А дальше будем смотреть по состоянию, прогнозу и ощущениям.

#ПикЛенина #expeditionlog
24👍6362🔥59🎉41👏25🥰19🤩187😱4😨2❤‍🔥1
🏔 Пик Раздельная, 6148 м

Дошли! Не вершина Ленина, но важная точка для акклиматизации и проверки себя на этой высоте.
Ночевали в верхнем лагере, около 6100 м. Было сурово: холод, ветер, палатка обледеневшая, готовка – отдельный квест. Просто растопить снег и вскипятить воду требует усилий, когда все внутри работает в режиме энергосбережения.

Ночью спалось относительно нормально, но снились довольно странные сны. Утро далось тяжелее, чем обычно. Простые действия – вялые и медленные. Вылезти из спальника, застегнуть куртку, надеть кошки – все занимало непривычно много времени. Организм будто сопротивлялся каждому шагу.

На спуске оказались в реальной спасательной операции. Встретили девушку совсем без сил, с подозрением на отек мозга. Спасы скоординировал наш главный гид Валера Шамало, быстро, четко, без паники. Помогали с эвакуацией. Такие моменты напоминают, что в горах важно не только следить за собой, но и быть внимательным к тем, кто рядом – вовремя заметить, поддержать, не пройти мимо.

А Валера, к слову, координировал все это в свой день рождения – ему 60. Вот такой юбилей на высоте 😎

#ПикЛенина #expeditionlog
22🔥74🎉64👍6160🤩27👏26🥰25
🤖 Turbo ML Conf 2025: агентные системы в проде, "Афанасий" и T-One

Высоту я сбросил – зато теперь снова на волне AI

В субботу был на Turbo MLConf от Т-Банка и особенно зацепил блок LLM Applications & Copilots.
Делюсь ключевыми трендами, которые уже формируют будущее разработки! 🚀

Индустрия переживает настоящую революцию в подходах к созданию продуктов. Если раньше мы писали каждую строчку кода вручную, то сейчас аккуратно входим в эру vibe coding.

Про качество, безопасность и тестирование сгенерированного кода поговорим отдельно – будет не только полезно, но и весело! 😁


Три главных тренда, которые меняют всё:
🔥 Vibe Coding – пользователь описывает итог и ограничения, а ИИ анализирует контекст, подбирает стек, генерирует тестируемый код и сразу предлагает pull‑request.
🧠 Agentic AI – автономные интеллектуальные агенты, способные выполнять комплексные задачи без постоянного контроля со стороны человека. Это уже не вспомогательные инструменты, а полноформатные цифровые коллеги.
⚙️ Context Engineering – искусство создания правильного контекста для LLM. То, как мы формулируем задачу, напрямую определяет глубину и качество получаемого ответа.

Реальные кейсы из продакшена:
– Круто выглядел агент "Афанасий" от Т-Банка – Computer-use агент для саппорта, который уже работает в проде! Он может самостоятельно взаимодействовать с интерфейсами и решать пользовательские проблемы.
– Ребята из Авито рассказали про свою мультиагентскую систему – показали всю кухню от архитектуры до внедрения. Хотя они только начали, уже есть отличные результаты: разобрали, как не перегрузить MCP-сервера, какие модели выбрать и зачем дообучать компактные решения под конкретные задачи.

Безопасность превыше всего:
Отдельный фокус был на защите агентных систем.
Два ключевых направления:
mTLS для безопасной коммуникации между сервисами
GuardRails – системы безопасности, которые не дают агентам "сойти с ума" и делать то, что не должны

Релизы от T-Банк:
🚀 T-Pro 2.0 презентовали и выложили прямо в день мероприятия! Новая версия с гибридным reasoning и спекулятивным декодингом. Особенно круто, что делятся не только моделью, но и SFT датасетами для обучения.
📢 T-One – открытая потоковая модель для телефонных каналов. Презентовали на конференции, сегодня выложили в открытый доступ! Заточена под "прелести" телефонии: 8 кГц, помехи, эхо. Всего 70M параметров, но в 2-3 раза лучший WER чем у whisper-large-v3 на телефонных каналах.

🟢
Мы стоим на пороге эры, когда разница между человеком и AI в решении бизнес-задач стирается
.
Главное – научиться правильно проектировать архитектуру и обеспечивать безопасность.


#AI #LLM #AgenticAI #TurboMLConf
Please open Telegram to view this post
VIEW IN TELEGRAM
64🔥63🎉57👍5249🤩37👏31🥰27
🧩 AI Design Patterns: GoF для эры ИИ

Ух, давно не писал – был в режиме deep work 🔥
Сейчас погрузился в Patterns for Modern AI Systems – есть чем поделиться. Поэтому сегодня пост про то, как в AI складывается свой "дизайн-паттернс".

Помните GoF (Gang of Four) и их легендарные Design Patterns 1994 года? 23 шаблона дали разработчикам общий язык и избавили от изобретения велосипеда. Сейчас похожий словарь складывается в AI-разработке.


TL;DR:
➡️
В AI уже сформировались
повторяемые паттерны
– готовые решения для типовых задач
➡️
Пять слоев
: Prompting & Context, Responsible AI, UX-паттерны, AI-Ops, Optimization
➡️
Как GoF для ИИ
: общий словарь, меньше ошибок, быстрее в продакшн
➡️
Думайте об этом как о
"микросервисах для искусственного интеллекта"


О чем этот пост (и о чем не говорим)


Фокус на пользовательских приложениях поверх готовых моделей через API.
Не затрагиваем: тренинг моделей, хостинг, квантование, (мульти)агентные системы – это отдельные большие темы.

Зачем вообще паттерны в AI?

Как когда-то GoF и облачные паттерны (pub/sub, event-driven, serverless) ускорили разработку, так и в ИИ появляются стандартные приёмы.

Разница в том, что AI решает задачи, которых раньше просто не было: как направлять модель на нужный результат, как объяснять её ответы пользователю, как удерживать стоимость в разумных пределах.

Пять слоев AI-паттернов

➡️Слой 1 – Prompting & Context
"Направь модель и дай ей знать больше"

– Шаблоны промптов с явной ролью, задачей и критериями качества
– Контекст-инжиниринг: RAG, knowledge snippets прямо в запрос
– Ограничения: формат ответа, шаги верификации, примеры

➡️Слой 2 Responsible AI
"Меньше галлюцинаций, больше доверия"

– Фильтры до/после, факт-чекинг, цитирование источников
– Политики контента и детект запрещённого контента
– Снижение bias и прозрачность: логи решений, объяснимость

➡️Слой 3 – UX-паттерны
"Новые интерфейсы для новых диалогов"

– AI предлагает → человек правит: история изменений, версионность
– Метки неопределённости: источники, уровень уверенности
– Умные кнопки: "уточнить", "расширить", "сжать", "проверить факты"

➡️Слой 4 – AI-Ops
"Как управлять ИИ на масштабе"

– Версионирование промптов и конфигов, A/B тесты, канареечные релизы
– Наблюдаемость: метрики качества, латентности, отказов; алерты
– Отказоустойчивость: фолбэки, ретраи, квоты, умный роутинг

➡️Слой 5 – Optimization
"Баланс качества и цены"

– Умный роутинг на подходящую модель (не все через "самую большую" – GPT5 привет)
– Производительность: кэш, батчинг, стриминг
– Специализированные (под домен) модели там, где это окупается

Почему это важно прямо сейчас

Общий словарь слоев экономит время команд, снижает риски и синхронизирует разработку. С этого фундамента удобно расти в агентные системы и доменные решения.

🟢
Индустрия AI переживает тот же процесс стандартизации, что и веб-разработка 20 лет назад
. Кто освоит паттерны раньше и будет их правильно использовать – получит конкурентное преимущество.


😀😃😄😁😅😂🤣😊
😇🙂🙃😉😌😍🥰😘
😗😙😚😋😛😝😜🤪
🤨🧐🤓😎🤩🥳😏😒

🔗Полезное чтиво на тему: Beyond the Gang of Four: Practical Design Patterns for Modern AI Systems

#AI #DesignPatterns #TechStrategy #Development
Please open Telegram to view this post
VIEW IN TELEGRAM
3693👍88🎉81🔥70🥰39🤩30👏25💯11❤‍🔥8😍7
🧠 Почему ИИ уверенно фантазирует и что с этим делать

Меня часто спрашивают: «Зачем нам эти LLM, если они периодически несут чушь и все придумывают?».
Вопрос справедливый! Да, модели иногда уверенно фантазируют – и на это есть нормальные причины в данных и в том, как мы их оцениваем


В этом посте разберем, откуда берутся «уверенные промахи» и как простыми инженерными приемами (пороги уверенности, RAG-правила, калибровка, UX/Ops) сделать так, чтобы ошибочных ответов стало заметно меньше, а пользы – больше 🙃

TL;DR
➡️
Модели часто угадывают, когда не уверены — как студент на экзамене с оценкой «правильно/неправильно». А бенчмарки это поощряют...
➡️
Есть класс вопросов, где нет закономерности (типа «дата рождения X»). Если факт встречался в данных 1 раз, ниже которого модель падает трудно – это singleton rate
➡️
Формально: ошибки генерации связаны с ошибками бинарной классификации (Is-It-Valid). Если путаем «валидно/невалидно», галлюцинации неизбежны
➡️
Решение – менять стимулы: не штрафовать “не знаю”, вшивать пороги уверенности и проверять поведенческую калибровку


Где ломается логика

Представим экзамен: за правильный ответ – 1, за пустой – 0. Угадывать выгоднее, чем промолчать. Так же и с LLM: большинство оценок – бинарные, то есть модель отвечает либо «правильно», либо «неправильно». А вариант IDK (I don't know / «я не знаю») не учитывается. Результат: модель учится всегда что-то говорить.

Техническая сторона

- Редукция к классификации. Генерацию можно представить как простую проверку «валидно/невалидно» (Is-It-Valid). И чем чаще система ошибается в такой проверке, тем выше шанс, что в тексте появятся галлюцинации
- Singleton rate (Good–Turing-интуиция). Если заметная доля фактов в корпусе встретилась один раз, то по таким запросам ожидаем сопоставимую долю промахов – база просто не успела «выучить» закономерность
- Пост-тренинг не спасает, если метрика против «IDK». Пока лидерборды награждают «смелые догадки», система будет учиться блефовать.
- RAG ≠ серебряная пуля. Поиск снижает часть ошибок, но как только поиск не дал уверенного сигнала, бинарная оценка снова толкает к «уверенной догадке»

Что с этим делать?

1️⃣ Разрешить «не знаю»
В проде и на внутренних тестах вводим порог уверенности: «Отвечай только если ≥t, иначе — краткое “не знаю/нужен поиск”». И перестаем штрафовать за воздержание. Это резко снижает соблазн «уверенно фантазировать»
2️⃣ Показывать основания
По умолчанию – ссылки/цитаты из RAG. Нет надежных источников, то следуем по правилу – «не знаю». Поиск и рассуждение помогают, но не отменяют стимул угадывать, если оценка настроена неправильно
3️⃣ Мерить правильные метрики
Имеет смысл добавлять поведенческую калибровку: для набора порогов t сравнивать точность среди ответов и долю воздержаний – модель должна последовательно «молчать» ниже порога.
4️⃣ UX-паттерны для честности
Кнопки «проверить факты», «уточнить», бейджи уверенности и явные «источники». Если уверенность низкая – просим подтверждение пользователя (human-in-the-loop)
5️⃣ Ops-практики
Фолбэки на более «надежную» модель/человека при низкой уверенности, ретраи, алерты. Это про процессы, а не только про модель

Немного тонкостей

- Плохая модель vs плохие данные. Ошибки бывают из-за «формы» модели (например, токенизация мешает посчитать буквы) и из-за GIGO (мусор в корпусе)
- Комплексность задач. Есть классы запросов, где «лучше не отвечать» – вычислительно тяжелые/инвертирование шифрования и т. д. и т. п. Это теоретически обосновывается там, что там тоже будет тянуть на ложные догадки
- Калибровка: база vs после RL. Базовые модели обычно честнее в своей уверенности, а пост-тренинг под бинарные метрики уводит в «гиперуверенность» — то самое ощущение «говорит уверенно, но мимо»

Короткая мысль напоследок:

🟢
Галлюцинации – не «прихоть модели», а следствие статистики и наших же метрик.
Перестанем наказывать «не знаю» – модели станут реже «уверенно врать» и чаще вести себя как полезные ассистенты.


🔗Рекомендую почитать: исследование OpenAI –Why language models hallucinate, меня оч вдохновило :)

#AI #LLM #AITrust #TechStrategy
Please open Telegram to view this post
VIEW IN TELEGRAM
37🔥48👍4641🎉38🥰27🤩25❤‍🔥11👏6😍4
Forwarded from Data Secrets
Интернет тем временем заполнился мемами о новой сделке OpenAI с Nvidia

Ребята изобрели вечный генератор денег, завидуем молча
🤩30👍28💯28🥰2523😍21🔥19❤‍🔥18🎉17