🎨 MIDJOURNEY V7: НОВЫЙ УРОВЕНЬ ГЕНЕРАЦИИ ИЗОБРАЖЕНИЙ
Седьмая версия популярного генератора изображений Midjourney официально вышла в релиз! Несмотря на конкуренцию с мультимодальными моделями вроде GPT-4o и Gemini, Midjourney продолжает удерживать лидерство в сфере эстетичных визуализаций.
Ключевые нововведения:
✨ Персонализация по умолчанию
Теперь каждый пользователь может создать собственную персонализированную модель. Достаточно оценить 200 пар изображений, и вы получите что-то вроде персональной LoRA внутри самого Midjourney. Для энтузиастов есть возможность расширить настройку до 10 000 картинок, за что команда даже выдает бесплатные часы генерации — отличный способ одновременно улучшить пользовательский опыт и собрать данные для дальнейшего обучения модели.
🌟 Улучшенная эстетика
Перед релизом разработчики провели три раунда публичного голосования за лучшие изображения, так что новая версия явно тяготеет к ретро-эстетике и приглушенным тонам. По сравнению с v6, седьмая версия выглядит немного более реалистичной, хотя разница не революционная.
⚡️ Мощный Draft-режим
Draft-режим получил серьезное обновление и теперь работает в 10 раз быстрее, практически в реальном времени. Похоже, что это дистиллированная версия основной модели, оптимизированная для скорости. Благодаря такой производительности появилась возможность использовать...
🎤 Голосовой интерфейс
Да, теперь Midjourney можно управлять голосом! Внутренняя языковая модель интерпретирует голосовые команды и превращает их в промпты — точно как в ChatGPT.
📝 Улучшенные промпты
Система работы с текстовыми запросами также стала лучше. Теперь не нужно писать длинные параграфы, как в случае с Flux — модель лучше понимает короткие и емкие описания.
Что в перспективе?
⭐️ Полный набор функций будет раскрываться постепенно в течение ближайших двух месяцев. Особенно интересными обещают быть новые style и object references. Если Midjourney сможет точно передавать детали референсных объектов на уровне Flux с LoRA или хотя бы GPT-4o, это действительно может стать революционным шагом.
⭐️ В целом, хотя v7 и не производит такого вау-эффекта, как некоторые предыдущие версии, она явно закрепляет позиции Midjourney как лидера в сфере эстетически привлекательной генерации изображений. Главное, чего сейчас не хватает сервису – консистентности, и похоже, что команда активно работает над этим аспектом.
#LLM@mrtnv_prism
Седьмая версия популярного генератора изображений Midjourney официально вышла в релиз! Несмотря на конкуренцию с мультимодальными моделями вроде GPT-4o и Gemini, Midjourney продолжает удерживать лидерство в сфере эстетичных визуализаций.
Ключевые нововведения:
✨ Персонализация по умолчанию
Теперь каждый пользователь может создать собственную персонализированную модель. Достаточно оценить 200 пар изображений, и вы получите что-то вроде персональной LoRA внутри самого Midjourney. Для энтузиастов есть возможность расширить настройку до 10 000 картинок, за что команда даже выдает бесплатные часы генерации — отличный способ одновременно улучшить пользовательский опыт и собрать данные для дальнейшего обучения модели.
🌟 Улучшенная эстетика
Перед релизом разработчики провели три раунда публичного голосования за лучшие изображения, так что новая версия явно тяготеет к ретро-эстетике и приглушенным тонам. По сравнению с v6, седьмая версия выглядит немного более реалистичной, хотя разница не революционная.
⚡️ Мощный Draft-режим
Draft-режим получил серьезное обновление и теперь работает в 10 раз быстрее, практически в реальном времени. Похоже, что это дистиллированная версия основной модели, оптимизированная для скорости. Благодаря такой производительности появилась возможность использовать...
🎤 Голосовой интерфейс
Да, теперь Midjourney можно управлять голосом! Внутренняя языковая модель интерпретирует голосовые команды и превращает их в промпты — точно как в ChatGPT.
📝 Улучшенные промпты
Система работы с текстовыми запросами также стала лучше. Теперь не нужно писать длинные параграфы, как в случае с Flux — модель лучше понимает короткие и емкие описания.
Что в перспективе?
#LLM@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤10🔥8 4
Продвинутые методы инжиниринга промптов для LLM
Работая с языковыми моделями, важно понимать, что качество ответа напрямую зависит от формулировки запроса. Поделюсь несколькими эффективными техниками, которые использую в профессиональной практике:
📌 Техника структурированных ограничений
Задавая количественные параметры, вы получаете более сфокусированные ответы.
Запрос:
Ответ:
Модель вынуждена выделить именно ключевые аспекты, вместо абстрактных рассуждений.
📌 Метод контрастных перспектив
Формулируя запросы с разных профессиональных точек зрения, вы получаете многослойный анализ проблемы.
Запрос:
Ответ:
Такой подход дает многогранный анализ проблемы с учетом различных профессиональных контекстов
📌 Техника гипотетических сценариев
Предложите модели рассмотреть альтернативную реальность или футуристический сценарий. Это заставляет LLM выйти за рамки текущего контекста и создать прогностический анализ, основанный на заданных параметрах.
Запрос:
Ответ:
Эта техника позволяет исследовать потенциальные бизнес-возможности и риски.
📌 Метод последовательных уточнений
Начиная с базового запроса, постепенно добавляйте уточняющие параметры:
Запрос:
Первичный ответ:
Уточненный ответ:
Это позволяет постепенно наращивать сложность и глубину анализа.
#PromptEngineering@mrtnv_prism
Работая с языковыми моделями, важно понимать, что качество ответа напрямую зависит от формулировки запроса. Поделюсь несколькими эффективными техниками, которые использую в профессиональной практике:
Задавая количественные параметры, вы получаете более сфокусированные ответы.
Запрос:
Опиши 5 главных проблем в кибербезопасности финтех-компаний
Ответ:
1. Атаки на API и микросервисы — уязвимость интерфейсов между множеством сервисов
2. Утечка данных клиентов — риск компрометации персональных и финансовых данных
3. Мошенничество с идентификацией — подделка личности при онбординге клиентов
Модель вынуждена выделить именно ключевые аспекты, вместо абстрактных рассуждений.
Формулируя запросы с разных профессиональных точек зрения, вы получаете многослойный анализ проблемы.
Запрос:
Проанализируй внедрение блокчейна в логистику с точки зрения:
- Технического директора
- Финансового директора
- Директора по безопасности
Ответ:
Внедрение блокчейна потребует интеграции с существующими системами ERP и TMS.
Потребуется обучение персонала и переработка внутренних процессов обмена данными.
С точки зрения финансового директора:
Первоначальные инвестиции составят 15-20% от IT-бюджета компании.
ROI ожидается через 18-24 месяца за счет сокращения расходов на аудит.
С точки зрения директора по безопасности:
Блокчейн снизит риски подделки документации и несанкционированного изменения данных
Такой подход дает многогранный анализ проблемы с учетом различных профессиональных контекстов
Предложите модели рассмотреть альтернативную реальность или футуристический сценарий. Это заставляет LLM выйти за рамки текущего контекста и создать прогностический анализ, основанный на заданных параметрах.
Запрос:
Представь сценарий, где квантовые компьютеры стали доступны малому бизнесу. Как изменится рынок шифрования в ближайшие 5 лет?
Ответ:
Год 1-2: Массовый переход на постквантовые алгоритмы шифрования.
Компании, предлагающие решения на основе решетчатых криптосистем, увидят рост капитализации.
Год 2-3: Появление новых нишевых игроков, специализирующихся на квантовой
криптографии для малого бизнеса.
Год 3-5: Полная трансформация индустрии сертификации. Традиционные центры
сертификации будут вытеснены децентрализованными системами.
Эта техника позволяет исследовать потенциальные бизнес-возможности и риски.
Начиная с базового запроса, постепенно добавляйте уточняющие параметры:
Запрос:
Составь план интеграции API платежной системы" → "Дополни план разделом по обработке ошибок и отказоустойчивости
Первичный ответ:
1. Анализ документации API платежной системы
2. Разработка архитектуры интеграции
3. Настройка аутентификации и авторизации
Уточненный ответ:
Раздел по обработке ошибок:
1. Классификация возможных ошибок:
- Сетевые сбои (таймауты, обрывы соединения)
- Ошибки авторизации (истекший токен)
2. Стратегии обработки:
- Механизм повторных попыток с экспоненциальной задержкой
- Паттерн Circuit Breaker для предотвращения каскадных отказов
Это позволяет постепенно наращивать сложность и глубину анализа.
Правильно сформулированные запросы к языковым моделям – это отдельное искусство, которое существенно повышает продуктивность при работе с ИИ-инструментами
#PromptEngineering@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
11❤11🔥9🦄5🤔1
📱 Эволюция компьютерного зрения: от пикселей к пониманию мира
Вчера был на T-Meetup: CV & Speech и решил запустить серию постов об удивительной эволюции компьютерного зрения.
Держите первую часть! 🚀
История мультимодальных моделей CV:
1️⃣ Семейство CLIP (Contrastive Language-Image Pre-training) – настоящий прорыв! Эти модели обучаются на миллионах пар изображение-текст из интернета и создают общее пространство признаков для обеих модальностей.
Что делает CLIP особенным:
– Может определять объекты, которых не видел при обучении
– Понимает абстрактные концепции и шутки на изображениях
– Служит фундаментом для многих современных систем генерации изображений
2️⃣ CoCa/BLIP/BLIP-2 – следующий шаг эволюции. Если CLIP умеет связывать изображения и текст, то эти модели могут генерировать текстовые описания по изображениям:
– Создают развёрнутые описания того, что видят
– Способны отвечать на вопросы по содержанию изображения
– BLIP-2 использует "замороженные" визуальные и текстовые энкодеры, но добавляет Q-former для связи между ними
Но есть и минусы: BLIP-2 иногда путается в пространственных отношениях («правее/левее», «выше/ниже»).
3️⃣ GLIP (Grounded Language-Image Pre-training) – объединяет распознавание объектов с текстовой модальностью:
– Превращает задачу обнаружения объектов в задачу поиска по тексту
– Может находить объекты по текстовому запросу без дополнительного обучения
– Использует "заземление" (grounding) между словами и регионами изображения
Следите за продолжением серии! Скоро расскажу о прикладном применении этих технологий и новейших моделях, преодолевающих ограничения своих предшественников.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
Вчера был на T-Meetup: CV & Speech и решил запустить серию постов об удивительной эволюции компьютерного зрения.
Держите первую часть! 🚀
Компьютерное зрение (CV) прошло огромный путь от простого распознавания краёв и форм до почти человеческого понимания изображений. Изначально CV работало только с визуальными данными: модели учились находить объекты, классифицировать их, определять позиции. Но мир не делится на отдельные модальности – и здесь на сцену выходит мультимодальность.
Мультимодальность
– это способность AI работать одновременно с разными типами данных (
изображения + текст + аудио
). Это позволяет моделям воспринимать информацию целостно, как это делаем мы с вами.
История мультимодальных моделей CV:
Что делает CLIP особенным:
– Может определять объекты, которых не видел при обучении
– Понимает абстрактные концепции и шутки на изображениях
– Служит фундаментом для многих современных систем генерации изображений
– Создают развёрнутые описания того, что видят
– Способны отвечать на вопросы по содержанию изображения
– BLIP-2 использует "замороженные" визуальные и текстовые энкодеры, но добавляет Q-former для связи между ними
Но есть и минусы: BLIP-2 иногда путается в пространственных отношениях («правее/левее», «выше/ниже»).
– Превращает задачу обнаружения объектов в задачу поиска по тексту
– Может находить объекты по текстовому запросу без дополнительного обучения
– Использует "заземление" (grounding) между словами и регионами изображения
Следите за продолжением серии! Скоро расскажу о прикладном применении этих технологий и новейших моделях, преодолевающих ограничения своих предшественников.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
Тинькофф Банк
T-Meetup: CV & Speech
Обсудим компьютерное зрение и речевые технологии
50❤201👍178🥰176🤩176👏173🎉154❤🔥8🦄6
📱 Эволюция мультимодальных моделей: от CLIP к PALI, LLaVA и Kosmos
В прошлом посте мы рассматривали базовые концепции мультимодальности и первые архитектуры, такие как CLIP, BLIP, GLIP.
Теперь следующий шаг: более продвинутые модели, в которых языковые и визуальные компоненты взаимодействуют на уровне смыслов, контекста и намерений.
1️⃣ (m)T5 + ViT = PALI
PALI (Pathways Language and Image model) — мощная модель от Google, объединяющая Vision Transformer (ViT) для обработки изображений с языковой моделью T5.
Ключевые особенности PALI:
– Объединение моделей двух модальностей, каждая из которых предобучена только на своих доменах
– Относительно простая архитектура, но очень эффективная
– Основной задачей была Visual Question Answering (VQA) – ответы на вопросы по изображениям
2️⃣ LLaMa + CLIP = LLaVA
LLaVA соединяет мощь языковой модели LLaMA с визуальными способностями CLIP, что даёт интересные результаты:
– Появляется возможность обращать внимание именно на те свойства изображения, которые описаны в тексте инструкции
– Возможность инструктивного поведения
–Обучение на большом датасете пар текст-картинка (100K+) даёт модели больше свободы в генерации текстов
3️⃣ Kosmos-1(2): LLM + GLIP
Kosmos продвинул мультимодальность ещё дальше, используя:
– Language Model для анализа текста
– GLIP для анализа изображений и grounding объектов
4️⃣ Grounding DINO = CLIP + DINO
Эта модель специализируется на точной локализации объектов по текстовому запросу:
– Комбинирует подходы CLIP и DINO
– Создаёт мощную архитектуру для детекции объектов с открытым словарём
– Позволяет находить объекты по текстовому описанию, даже если они не входили в тренировочный набор
Не пропусти следующий пост!
Мы проанализируем ключевые мультимодальные модели 2024 года – переломного периода в развитии Vision + LLM технологий. Вы узнаете о достижениях QWEN-VL, INTERN-VL, LLaMA-vision, MMLMO, FLORENCE/KOSMOS и проприетарных решениях от крупнейших технологических компаний.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
В прошлом посте мы рассматривали базовые концепции мультимодальности и первые архитектуры, такие как CLIP, BLIP, GLIP.
Теперь следующий шаг: более продвинутые модели, в которых языковые и визуальные компоненты взаимодействуют на уровне смыслов, контекста и намерений.
PALI (Pathways Language and Image model) — мощная модель от Google, объединяющая Vision Transformer (ViT) для обработки изображений с языковой моделью T5.
Ключевые особенности PALI:
– Объединение моделей двух модальностей, каждая из которых предобучена только на своих доменах
– Относительно простая архитектура, но очень эффективная
– Основной задачей была Visual Question Answering (VQA) – ответы на вопросы по изображениям
LLaVA соединяет мощь языковой модели LLaMA с визуальными способностями CLIP, что даёт интересные результаты:
– Появляется возможность обращать внимание именно на те свойства изображения, которые описаны в тексте инструкции
– Возможность инструктивного поведения
–Обучение на большом датасете пар текст-картинка (100K+) даёт модели больше свободы в генерации текстов
Kosmos продвинул мультимодальность ещё дальше, используя:
– Language Model для анализа текста
– GLIP для анализа изображений и grounding объектов
Эта модель специализируется на точной локализации объектов по текстовому запросу:
– Комбинирует подходы CLIP и DINO
– Создаёт мощную архитектуру для детекции объектов с открытым словарём
– Позволяет находить объекты по текстовому описанию, даже если они не входили в тренировочный набор
Важный тренд, который прослеживается: мы видим последовательное объединение лучших языковых моделей (T5, LLaMA, LLM) с лучшими визуальными моделями (ViT, CLIP, GLIP, DINO). Каждое такое объединение даёт новые возможности и преодолевает ограничения предыдущих подходов.
Не пропусти следующий пост!
Мы проанализируем ключевые мультимодальные модели 2024 года – переломного периода в развитии Vision + LLM технологий. Вы узнаете о достижениях QWEN-VL, INTERN-VL, LLaMA-vision, MMLMO, FLORENCE/KOSMOS и проприетарных решениях от крупнейших технологических компаний.
Я расскажу, как изменился подход к интеграции визуальных и языковых моделей и какое влияние это оказало на современные ИИ-системы.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
66❤17👏13🤩10👍8 8🎉7🥰4🤓4
📱2024 в обзоре: мультимодальные модели Vision + LLM
2024 год стал поворотным в развитии мультимодальных ИИ-систем. Это был период активного экспериментирования, масштабирования и перехода от архитектурных прототипов к прикладным решениям.
1️⃣ QWEN-VL
Серия моделей от Alibaba. Главные преимущества:
– Добавление к текстовым возможностям мультимодальности
– Легкая и быстрая архитектура
– Обрабатывает изображения и видео
– Поддерживает русский язык
2️⃣ INTERN-VL
Серия моделей от OpenGVLab:
– Оптимальная работа с корпоративными фреймворками
– Уникальный подход к кодированию визуальной информации, признанный в академическом сообществе
– Высокая точность распознавания визуального контекста
3️⃣ LLaMA-vision / NVLM / Pixtral
– LLaMA-vision: открытая архитектура (база на LLaMA) + визуальный энкодер; гибкая настройка под конкретные задачи.
– NVLM: акцент на скорость обучения и анализ видео; подходит для корпоративных платформ.
– Pixtral: креативное решение для интерактивных презентаций и художественных проектов.
Все три инструмента способствуют тесной интеграции компьютерного зрения и языковых моделей, формируя фундамент для будущих агентных систем и новых мультимодальных сервисов.
4️⃣ MMLMO
Разработка Allen Institute:
– Инновационная методика обработки мультимодальных данных
– Выдающиеся способности к визуальному заземлению (grounding) – точному связыванию языковых концепций с визуальными элементами
– Улучшенная точность при работе с визуальными элементами и их описанием
5️⃣ FLORENCE / KOSMOS
Две серии мультимодальных моделей от Microsoft:
– Florence: продвинутый механизм grounding и мультиформатная генерация; работает на нескольких языках, но пока без поддержки русского.
– KOSMOS: масштабирует возможности GPT-подобных архитектур, обеспечивая универсальную работу с текстом и изображениями
6️⃣ Проприетарные модели
GPT, Claude, Gemini и другие:
– Почти все имеют мультимодальные возможности
– Закрытая архитектура
– Наиболее доступны через API
– Отличаются уровнем интеграции: Claude 3 и GPT-4V особенно сильны в понимании сложных визуальных сцен, Gemini — в работе с многоязычным контентом
🧭 Итоговое наблюдение:
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
2024 год стал поворотным в развитии мультимодальных ИИ-систем. Это был период активного экспериментирования, масштабирования и перехода от архитектурных прототипов к прикладным решениям.
Ниже – обзор ключевых моделей и подходов, определивших технологическую повестку прошлого года.
Серия моделей от Alibaba. Главные преимущества:
– Добавление к текстовым возможностям мультимодальности
– Легкая и быстрая архитектура
– Обрабатывает изображения и видео
– Поддерживает русский язык
Серия моделей от OpenGVLab:
– Оптимальная работа с корпоративными фреймворками
– Уникальный подход к кодированию визуальной информации, признанный в академическом сообществе
– Высокая точность распознавания визуального контекста
– LLaMA-vision: открытая архитектура (база на LLaMA) + визуальный энкодер; гибкая настройка под конкретные задачи.
– NVLM: акцент на скорость обучения и анализ видео; подходит для корпоративных платформ.
– Pixtral: креативное решение для интерактивных презентаций и художественных проектов.
Все три инструмента способствуют тесной интеграции компьютерного зрения и языковых моделей, формируя фундамент для будущих агентных систем и новых мультимодальных сервисов.
Разработка Allen Institute:
– Инновационная методика обработки мультимодальных данных
– Выдающиеся способности к визуальному заземлению (grounding) – точному связыванию языковых концепций с визуальными элементами
– Улучшенная точность при работе с визуальными элементами и их описанием
Две серии мультимодальных моделей от Microsoft:
– Florence: продвинутый механизм grounding и мультиформатная генерация; работает на нескольких языках, но пока без поддержки русского.
– KOSMOS: масштабирует возможности GPT-подобных архитектур, обеспечивая универсальную работу с текстом и изображениями
GPT, Claude, Gemini и другие:
– Почти все имеют мультимодальные возможности
– Закрытая архитектура
– Наиболее доступны через API
– Отличаются уровнем интеграции: Claude 3 и GPT-4V особенно сильны в понимании сложных визуальных сцен, Gemini — в работе с многоязычным контентом
🧭 Итоговое наблюдение:
2024 год стал годом системной интеграции: языковые и визуальные модели больше не развивались параллельно, а начали функционировать как единое целое. Это заложило основу для появления агентных систем и мультимодальных интерфейсов, которые мы наблюдаем уже в 2025 году.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
28❤14🤩13👍11🎉8🦄6 4🥰3👏3
Вы можете не знать, что это такое – но если пользуетесь смартфоном, вебом или банком, Git работал на вас уже тысячи раз. Это система, с помощью которой разработчики всего мира хранят и координируют код.
Git создал Линус Торвальдс – тот самый, что стоит за ядром Linux. По случаю юбилея GitHub взял у него короткое, но очень живое интервью.
Там про все:
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
The GitHub Blog
Git turns 20: A Q&A with Linus Torvalds
To celebrate two decades of Git, we sat down with Linus Torvalds—the creator of Git and Linux—to discuss how it forever changed software development.
22❤14👏12👍11🤩8🎉6🥰5🤓5
В продолжение темы Git👇
Git не только изменил индустрию, но и продолжает путать даже тех, кто с ним работает каждый день.
Вот шпаргалка, которая реально помогает, а не пугает:
➡️ git init – если начинаешь с чистого листа
➡️ git add . – когда всё вроде бы готово
➡️ git commit -m "починил всё" – когда веришь, что починил
➡️ git push – когда отпускаешь в прод и держишь кулачки
Шпаргалка по Git на одной странице
Понятно, наглядно и без занудства. Полезно и тем, кто только осваивает Git, и тем, кто уже с ним давно, но всё ещё время от времени гуглит, как откатить последний коммит.
Сохраняйте себе, на случай, если Git снова начнёт сопротивляться🙃
#DigitalBasics@mrtnv_prism
@mrtnv_prism
Git не только изменил индустрию, но и продолжает путать даже тех, кто с ним работает каждый день.
Вот шпаргалка, которая реально помогает, а не пугает:
Шпаргалка по Git на одной странице
Понятно, наглядно и без занудства. Полезно и тем, кто только осваивает Git, и тем, кто уже с ним давно, но всё ещё время от времени гуглит, как откатить последний коммит.
Сохраняйте себе, на случай, если Git снова начнёт сопротивляться
💡 И да – это не только для разработчиков
Git сегодня важен НЕ только разработчикам. Всё больше ролей: аналитики, тимлиды, архитекторы, продакты и не только – постепенно входят в культуру работы с кодом.
Всё планомерно движется к architecture as code, everything as code, all the code, и это не просто модные слова.
Об этом – отдельно, скоро расскажу🔜
#DigitalBasics@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
67❤18🎉13🤩11✍7👍6🥰5👏5 5
📱Будущее CV: модели 2025 года и ключевые тренды
Завершаем серию постов об эволюции компьютерного зрения и мультимодальных технологий, охватывающей горизонты релизов конца 2024 и 2025 годов
Новые модели и их ключевые особенности:
1️⃣ Qwen 2.5-VL + OMNI
– Усиление агентного поведения: управление интерфейсами, работа с командами
– Поддержка видео и звука на вход/выход – переход от bimodal к trimodal
– Подходит для использования в цифровых аватарах и мультимодальных ассистентах
2️⃣ INTERN-VL 2.5
– Увеличенный vision-энкодер
– Поддержка Chain-of-Thought reasoning в визуальных задачах
– Повышенная точность интерпретации сложных изображений
3️⃣ Phi-3 Vision (Microsoft)
– Компактная, быстрая VLM
– Оптимизирована под edge-устройства и мобильные платформы
– Хороший баланс между скоростью и качеством анализа
4️⃣ SigLIP2 + Gemma-3 (Google)
– Эволюция CLIP-подобных моделей с интеграцией в LLM
– Расширенные генеративные возможности
– Улучшение точности в open-ended визуальных задачах
5️⃣ DeepSeek-VL 2
– Модель в духе LLaVA с использованием SigLIP в качестве визуального энкодера
– Фокус на zero-shot reasoning и интерпретации, конкурентоспособная в open-source экосистеме
6️⃣ Проприетарные решения
– Claude 3.7: уже с возможностью управления операционными системами
– GPT-4.5: представлена с улучшенной агентностью и адаптивностью
➡️ Эти модели становятся ядром мультимодальных интерфейсов будущего
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
@mrtnv_prism
Завершаем серию постов об эволюции компьютерного зрения и мультимодальных технологий, охватывающей горизонты релизов конца 2024 и 2025 годов
Расскажу о том, что уже появляется на горизонте: какие модели и технологии формируют облик ближайшего будущего
Новые модели и их ключевые особенности:
– Усиление агентного поведения: управление интерфейсами, работа с командами
– Поддержка видео и звука на вход/выход – переход от bimodal к trimodal
– Подходит для использования в цифровых аватарах и мультимодальных ассистентах
– Увеличенный vision-энкодер
– Поддержка Chain-of-Thought reasoning в визуальных задачах
– Повышенная точность интерпретации сложных изображений
– Компактная, быстрая VLM
– Оптимизирована под edge-устройства и мобильные платформы
– Хороший баланс между скоростью и качеством анализа
– Эволюция CLIP-подобных моделей с интеграцией в LLM
– Расширенные генеративные возможности
– Улучшение точности в open-ended визуальных задачах
– Модель в духе LLaVA с использованием SigLIP в качестве визуального энкодера
– Фокус на zero-shot reasoning и интерпретации, конкурентоспособная в open-source экосистеме
– Claude 3.7: уже с возможностью управления операционными системами
– GPT-4.5: представлена с улучшенной агентностью и адаптивностью
Мы прошли путь от первых мультимодальных моделей (CLIP, BLIP) через ключевые этапы развития (LLaVA, PALI, Kosmos), к появлению новых систем, способных не только "
видеть
" и "
читать
", но и "
слышать
", "п
онимать контекст
" и "
действовать
".
Сегодня
мультимодальность выходит за рамки задач компьютерного зрения
– она становится архитектурной основой универсального цифрового интеллекта в реальном времени.
Это не просто следующая итерация CV, а
переход к системам, воспринимающим мир целостно – на уровне, близком к человеческому
.
#AI@mrtnv_prism #ComputerVision@mrtnv_prism #MachineLearning@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
29❤17🥰12👏10🎉6🤩6🤓6👍5 5
Google выпустил крутое обновление, которое превращает и так очень удобные таблицы в чуть более умного помощника.
Фича работает на Gemini и доступна в Google Workspace Alpha.
Новая функция =AI() позволяет делать прикольные штуки с данными:
Например:
=AI("Написать ответ клиенту по его отзыву", B5)=AI("Классифицировать отзывы как положительные, нейтральные или негативные", F2)=AI("Превратить технические характеристики в маркетинговый текст", C3)=AI("Придумать 3 названия для нового продукта", E7)=AI("Создать слоган для мероприятия до 10 слов", A2)#AI@mrtnv_prism
#DigitalTools@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
25🤩17❤12👏12🥰7👍6🎉5 5🤓4
В Третьяковке с 23 апреля открывается любопытная выставка на стыке AI и искусства.
Можно заглянуть до 25 мая
11 художников не просто экспериментировали с нейросетями, а реально сидели с разработчиками Яндекса, копались в алгоритмах и создали необычные проекты.
На выставке вы увидите жаккардовые полотна, звуковые эксперименты, интерактивные инсталляции и новые прочтения классики. Получилась настоящая творческая синергия – когда художник и нейросеть вместе создают то, что было бы невозможно по отдельности. Искусство становится технологичнее, а технологии – человечнее.
Планирую сходить в ближайшие дни после открытия, потом поделюсь впечатлениями
#Events@mrtnv_prism
#AI@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
Выставка «Человек и нейросети: кто кого создаёт?» — Яндекс и Третьяковская галерея
Современные художники о нейросетях — выставка в Новой Третьяковке на Крымском Валу. С 23 апреля по 25 мая 2025. Совместный проект Яндекса и Третьяковской галереи.
27👍15❤10🎉9 7 7🤩6🥰4👏4❤🔥3
CPU устал, GPU тащит. А кто такие TPU и ASIC?
Меня часто спрашивают:
Ловите TL;DR:
А теперь по порядку⬇️
⚙️ GPU (Graphics Processing Unit) – стандарт для машинного обучения
Изначально создавались для графики, но благодаря архитектуре с тысячами ядер идеально подошли для глубокого обучения. Они массово обрабатывают тензоры и стали индустриальным стандартом для тренировки нейросетей. Даже топовые CPU заметно уступают видеокартам, а такие решения, как NVIDIA A100, – основа для запуска LLM, генерации изображений и обучения моделей.
⚙️ TPU (Tensor Processing Unit) – специализированное решение от Google
Аппаратная платформа от Google, разработанная специально для машинного обучения. Она оптимизирована под фреймворк TensorFlow и используется внутри продуктов Google: от рекомендательных систем YouTube до Bard и Translate. TPU эффективнее GPU в узкоспециализированных сценариях, особенно по энергоэффективности и скорости обучения.
⚙️ ASIC (Application-Specific Integrated Circuit) – максимум производительности в одной задаче
Чип, созданный для выполнения одной конкретной функции. Он даёт максимальную производительность и минимальное энергопотребление, но не универсален. ASIC применяются в криптомайнинге, автопилотах, мобильных устройствах (например, чип распознавания лиц в iPhone) и других узконаправленных задачах.
По мере специализации растёт эффективность, но падает гибкость:
➡️ CPU – делает всё, но медленно для AI
➡️ GPU – отлично для обучения большинства нейросетей
➡️ TPU – ещё лучше, но только для определённых фреймворков
➡️ ASIC – сверхбыстрый, но только для одной конкретной модели
Надеюсь, теперь стало яснее😉
#AI@mrtnv_prism
#MachineLearning@mrtnv_prism
#TLDR@mrtnv_prism
@mrtnv_prism
Меня часто спрашивают:
Что не так с CPU, и почему для ИИ все гонятся за GPU?
Ловите TL;DR:
Когда вы тренируете нейросеть, вы умножаете
тензоры – огромные матрицы чисел
.
А это
массовые параллельные вычисления
. Такие операции требуют тысяч параллельных вычислений.
CPU с этим не справляется
: у него немного ядер, и он рассчитан на последовательные задачи – принятие решений, управление логикой, обработку инструкций.
А теперь по порядку
Изначально создавались для графики, но благодаря архитектуре с тысячами ядер идеально подошли для глубокого обучения. Они массово обрабатывают тензоры и стали индустриальным стандартом для тренировки нейросетей. Даже топовые CPU заметно уступают видеокартам, а такие решения, как NVIDIA A100, – основа для запуска LLM, генерации изображений и обучения моделей.
Аппаратная платформа от Google, разработанная специально для машинного обучения. Она оптимизирована под фреймворк TensorFlow и используется внутри продуктов Google: от рекомендательных систем YouTube до Bard и Translate. TPU эффективнее GPU в узкоспециализированных сценариях, особенно по энергоэффективности и скорости обучения.
Чип, созданный для выполнения одной конкретной функции. Он даёт максимальную производительность и минимальное энергопотребление, но не универсален. ASIC применяются в криптомайнинге, автопилотах, мобильных устройствах (например, чип распознавания лиц в iPhone) и других узконаправленных задачах.
По мере специализации растёт эффективность, но падает гибкость:
Надеюсь, теперь стало яснее
#AI@mrtnv_prism
#MachineLearning@mrtnv_prism
#TLDR@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
23❤16🥰12👍11🤩9👏6🎉6 6🤓4 3
Google представил Agent-to-Agent (A2A) – новый открытый протокол, позволяющий ИИ-агентам взаимодействовать между разными платформами, фреймворками и вендорами.
Что это меняет?
Представьте рабочий процесс:
И всё это происходит автоматически, без участия человека в процессе
Техническая основа A2A:
Кто уже на борту?
Впечатляющий список технологических лидеров: Atlassian, MongoDB, Salesforce, SAP, ServiceNow, Cohere, Langchain, McKinsey и много других
A2A – это не просто новый протокол, а фундаментальный шаг к единому языку искусственного интеллекта. Агенты смогут не только выполнять изолированные задачи, но и координировать усилия, договариваться и совместно решать сложные задачи.
Бета-версия уже доступна, а сам протокол будет полностью открытым.
#AI@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
9 15 8🦄6❤🔥3👍3 1
Почему big tech массово переходит на малые инженерные команды? Как Product Engineer меняет скорость разработки в 2 раза?
Это автономная кросс-функциональная команда из 3-7 специалистов, контролирующая процесс от идеи до эксплуатации. Важный компонент – Product Engineer (PE), объединяющий навыки разработчика и продакт-менеджера.
Классический инженер формулирует задачи через техническую постановку, Product Engineer – через исследование пользователей.
PE принимает продуктовые решения самостоятельно на основе данных и способствует более частым деплоям
В индустрии поговаривают, что такой подход может ускорять вывод фич на рынок примерно на 40%
– Коммуникация: в команде из 6 человек – 15 каналов связи; из 8 – уже 28 (n × (n-1)/2).
– Контекст: члены МИК видят полную картину проекта, что влияет на качество и согласованность работы.
– Архитектура: МИК обычно отвечает за определённый сервис или модуль.
Telegram работает с командой около 30 инженеров и примерно 30 специалистов в core-team. Дуров фактически выполняет функцию главного Product Engineer.
Такая модель позволяет регулярно выпускать обновления,
🟢 МИК с Product Engineer – подход, объединяющий техническую экспертизу с продуктовым мышлением при минимуме лишних коммуникаций.
А вот тут и тут подробнее
#Product@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
11❤23🎉12👍8🤩8👏7 7 6 5🥰1
mrtnv | prism pinned «👋 mrtnv | prism: init() Здесь будет всё, что впечатлило, вдохновило и стоит внимания: 🤖 AI и технологии, с которыми работаю ✈️ Места и впечатления из путешествий 💼 Рабочие проекты и инсайты 🧠 Мысли и наблюдения из жизни Личные находки и открытия – делюсь…»
mrtnv | prism
Теперь есть удобный способ связаться со мной 🤗
Задавайте вопросы, делитесь идеями или просто кликайте для души)) скоро добавлю ещё пару классных фич!
Задавайте вопросы, делитесь идеями или просто кликайте для души)) скоро добавлю ещё пару классных фич!
Please open Telegram to view this post
VIEW IN TELEGRAM
27❤21🤝13🥰10👏9 8👍7🎉6🤩5
Метрики не всегда отражают реальное качество LLM
Компании часто заявляют: «Наша модель на 15% лучше по MMLU» или «Мы выросли на 30% в GSM8K». Но действительно ли эти цифры отражают реальное качество модели?
А теперь детали⤵️
🔍Проблемы стандартных метрик
Оценка LLM по одной метрике – как судить о человеке по одному экзамену
Например, модель может показывать высокие результаты в математике (GSM8K), но слабо справляться с задачами на рассуждение (ARC)
➡️ MMLU: охватывает 57 предметов, но содержит неточности в вопросах и ответах.
➡️ GSM8K: фокусируется на математических рассуждениях, но задачи имеют узкий формат.
➡️ HumanEval/MBPP: оценивают программирование, но ограничены простыми задачами.
➡️ TruthfulQA: проверяет способность модели давать правдивые ответы, но не учитывает контекст и нюансы.
➡️ HELM: более комплексный бенчмарк, но все равно ограничен фиксированным набором задач и не оценивает адаптивность модели.
➡️ Needle in a Haystack: проверяет способность находить конкретную информацию, но не оценивает понимание контекста.
🔍Проблема переобучения на бенчмарках
Модели могут запоминать ответы из тренировочных данных, что приводит к переобучению и завышенным результатам на тестах, но не гарантирует улучшения в реальных задачах.
🔍Почему side-by-side сравнение эффективнее
Сравнение моделей напрямую на одних и тех же задачах позволяет выявить реальные различия в качестве ответов, а не полагаться на абстрактные проценты.
Цифры в статьях и пресс-релизах – не показатель реальной производительности.
Для более-менее объективной оценки:
Так получится лучше понять, какая модель действительно лучше для ваших задач😉
Лидерборд от Vellum
LLM арена на русском
#AI@mrtnv_prism #AI #LLM
@mrtnv_prism
Компании часто заявляют: «Наша модель на 15% лучше по MMLU» или «Мы выросли на 30% в GSM8K». Но действительно ли эти цифры отражают реальное качество модели?
💡 TL;DR: выбирать модель только по оценкам в бенчмарках – не лучшая идея. Как минимум протестируйте её на своих реальных запросах и сравните напрямую с другими моделями. Часто 30% прогресса на тестах = 0% улучшения в реальных задачах
А теперь детали
🔍Проблемы стандартных метрик
Оценка LLM по одной метрике – как судить о человеке по одному экзамену
Например, модель может показывать высокие результаты в математике (GSM8K), но слабо справляться с задачами на рассуждение (ARC)
🔍Проблема переобучения на бенчмарках
Модели могут запоминать ответы из тренировочных данных, что приводит к переобучению и завышенным результатам на тестах, но не гарантирует улучшения в реальных задачах.
🔍Почему side-by-side сравнение эффективнее
Сравнение моделей напрямую на одних и тех же задачах позволяет выявить реальные различия в качестве ответов, а не полагаться на абстрактные проценты.
Цифры в статьях и пресс-релизах – не показатель реальной производительности.
Для более-менее объективной оценки:
– Тестируйте модельки на своих реальных задачах
– Сравнивайте несколько моделей напрямую на одних и тех же задачах
– Оценивайте практическую пользу ответов, а не только формальную точность
– Привлекайте людей к оценке качества (human-in-the-loop)
Так получится лучше понять, какая модель действительно лучше для ваших задач
Лидерборд от Vellum
LLM арена на русском
#AI@mrtnv_prism #AI #LLM
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
Vellum
LLM Leaderboard - Vellum
Compare large language models side by side. Updated rankings based on benchmarks, pricing, and real-world performance.
24👍25❤13👏10🥰7🎉7🤩5 5🦄3 2
Восстание AI-сотрудников отменяется
Результаты? Провальные…😁
Каждому AI-сотруднику давали реальные задачи из повседневной работы настоящей компании:
➡️ Навигация по файловым директориям
➡️ Типовые офисные задачи
➡️ Написание фидбека на производительность коллег
➡️ Разработка софта
➡️ Работа с финансовыми отчетами
➡️ Координация проектов между отделами
Лучшим "работником" оказался Claude 3.5 Sonnet от Anthropic, но даже он справился лишь с 24% заданий! При этом на каждую задачу уходило около 30 шагов и более $6 – прям дорого для такой эффективности. Google Gemini 2.0 Flash занял второе место с результатом всего 11.4% выполненных задач.
Главные проблемы AI-сотрудников исследователи обозначили так:
❌ Отсутствие здравого смысла
❌ Слабые социальные навыки
❌ Плохое понимание того, как ориентироваться в интернете
❌ Самообман – создание "ярлыков", ведущих к провалу
Что это значит для нас?
Так что можно выдохнуть – пока что работа в безопасности!🙃
#AI@mrtnv_prism
Исследователи из Университета Карнеги-Меллон (один из топовых исследовательских центров в области Computer Science и AI) запустили эксперимент TheAgentCompany – фейковую софтверную компанию, где все сотрудники были AI-агентами.
От финансовых аналитиков до разработчиков – компания полностью укомплектована нейросетями.
Результаты? Провальные…
Каждому AI-сотруднику давали реальные задачи из повседневной работы настоящей компании:
Лучшим "работником" оказался Claude 3.5 Sonnet от Anthropic, но даже он справился лишь с 24% заданий! При этом на каждую задачу уходило около 30 шагов и более $6 – прям дорого для такой эффективности. Google Gemini 2.0 Flash занял второе место с результатом всего 11.4% выполненных задач.
Главные проблемы AI-сотрудников исследователи обозначили так:
Что это значит для нас?
Несмотря на громкие заявления технологических гигантов,
роботы пока не готовы забрать наши рабочие места
.
Современные алгоритмы –
потрясающие инструменты, но ужасные самостоятельные исполнители
. Им не хватает интуиции, гибкости мышления и элементарной надежности.
Так что
реальное будущее рынка труда – это симбиоз
: человеческий интеллект направляет и контролирует, а искусственный усиливает возможности и берет на себя монотонные задачи
Так что можно выдохнуть – пока что работа в безопасности!
#AI@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
Futurism
Professors Staffed a Fake Company Entirely With AI Agents, and You'll Never Guess What Happened
An experiment by researchers at Carnegie Melon University staffed a fake software company with AI Agents, and the results were dismal.
9❤26🎉13👍10🥰8🤩8👏5🤓4👾2
ChatGPT – это не одна модель. Их много, и это круто
📌 GPT-4o
Универсальный помощник для повседневных задач. Отлично справляется с письмами, краткими сводками, идеями и лёгкой аналитикой. Понимает текст, картинки, таблицы, документы и даже видео
💬 Примеры:
– Сделать саммари после встречи
– Написать письмо клиенту после запуска проекта
– Придумать идеи презентации по наброскам и скриншотам
📌 GPT-4.5
Лучше всего подходит для текстов, где важен EQ, креативность и убедительность.
💬 Примеры:
– Яркий пост для LinkedIn про тренды ИИ
– Чёткое описание нового продукта
– Письмо а-ля «мы облажались, но вот как мы это исправим»
📌 OpenAI o4-mini
Самая быстрая и экономичная модель для технических вопросов, STEM-задач, программирования и визуальных рассуждений.
💬 Примеры:
– Быстро исправить ошибку в коде
– Извлечь данные из CSV-файла
– Кратко объяснить научную статью
📌 OpenAI o4-mini-height
Модель с дополнительной точностью и глубиной для более-менее сложного программирования, математики и технических объяснений.
💬 Примеры:
– Решить сложное уравнение и объяснить по шагам
– Написать и потестить SQL-запросы
– Подробно объяснить сложную научную тему простыми словами
📌 OpenAI o3
Мощная модель для стратегических задач, глубокого анализа данных, продвинутого программирования и аналитики.
💬 Примеры:
– Проанализировать рынок и предложить стратегию
– Построить многоступенчатый прогноз на основе большого CSV
– Разработать бизнес-стратегию с визуализациями и цифрами
📌 OpenAI o1-pro
Медленная, но максимально точная модель для комплексных аналитических задач, требующих высокого уровня точности.
💬 Примеры:
– Подробный анализ рисков перед запуском продукта
– Многостраничное резюме исследовательских данных
– Алгоритмы и расчёты для финансового прогноза с обоснованием
#AI@mrtnv_prism
OpenAI подробно рассказали, как выбирать модели под разные задачи, чтобы работать максимально эффективно и экономично
Универсальный помощник для повседневных задач. Отлично справляется с письмами, краткими сводками, идеями и лёгкой аналитикой. Понимает текст, картинки, таблицы, документы и даже видео
💬 Примеры:
– Сделать саммари после встречи
– Написать письмо клиенту после запуска проекта
– Придумать идеи презентации по наброскам и скриншотам
Лучше всего подходит для текстов, где важен EQ, креативность и убедительность.
💬 Примеры:
– Яркий пост для LinkedIn про тренды ИИ
– Чёткое описание нового продукта
– Письмо а-ля «мы облажались, но вот как мы это исправим»
Самая быстрая и экономичная модель для технических вопросов, STEM-задач, программирования и визуальных рассуждений.
💬 Примеры:
– Быстро исправить ошибку в коде
– Извлечь данные из CSV-файла
– Кратко объяснить научную статью
Модель с дополнительной точностью и глубиной для более-менее сложного программирования, математики и технических объяснений.
💬 Примеры:
– Решить сложное уравнение и объяснить по шагам
– Написать и потестить SQL-запросы
– Подробно объяснить сложную научную тему простыми словами
Мощная модель для стратегических задач, глубокого анализа данных, продвинутого программирования и аналитики.
💬 Примеры:
– Проанализировать рынок и предложить стратегию
– Построить многоступенчатый прогноз на основе большого CSV
– Разработать бизнес-стратегию с визуализациями и цифрами
Медленная, но максимально точная модель для комплексных аналитических задач, требующих высокого уровня точности.
💬 Примеры:
– Подробный анализ рисков перед запуском продукта
– Многостраничное резюме исследовательских данных
– Алгоритмы и расчёты для финансового прогноза с обоснованием
💡
Чем мощнее моделька, тем выше цена или жестче лимиты
. Поэтому логично подбирать ее под задачу: где-то нужна глубина, а где-то хватит скорости и простоты. Такой подход экономит и время, и деньги – без потери качества.
#AI@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
15❤24🤩14👍12🥰11🎉7 6👏3🦄3 3😁1
AI Tooling ≠ Function Calling
– в чём разница и зачем это знать
Многие путают AI tooling и function calling, используя эти термины как синонимы. Но это разные уровни взаимодействия LLM с внешним миром.
Разберемся, в чём разница и почему это важно.
Сразу ловите TL;DR:
🔍 В чём разница?
AI tooling – широкое понятие:
➡️ Включает любые способы расширения возможностей LLM
➡️ RAG – поиск и подключение внешних документов к контексту
➡️ Плагины и расширения
➡️ Интеграции с внешними сервисами
➡️ Агентные системы
Function Calling – конкретный механизм:
➡️ Структурированный способ вызова функций
➡️ Часть AI Tooling, но не весь туллинг
➡️ Формализованный протокол взаимодействия
➡️ Поддерживается нативно многими моделями
🛠️ Pydantic: мост между LLM и кодом
Pydantic решает ключевую проблему function calling – валидацию и структурирование данных:
Преимущества Pydantic:
➡️ Типизация: чёткие схемы данных
➡️ Валидация: автоматическая проверка параметров
➡️ Документация: описания полей помогают LLM
➡️ Конвертации: автоматическое преобразование типов
Наглядный пример:
❗️ Тренды и будущее
Стандартизация: унификация подходов между провайдерами
Нативная поддержка: встроенные Pydantic-схемы в API
Композиция функций: сложные цепочки вызовов
Автодискавери: LLM сама находит нужные инструменты
#AI@mrtnv_prism
#AITools@mrtnv_prism
@mrtnv_prism
– в чём разница и зачем это знать
Многие путают AI tooling и function calling, используя эти термины как синонимы. Но это разные уровни взаимодействия LLM с внешним миром.
Разберемся, в чём разница и почему это важно.
Сразу ловите TL;DR:
🟢 AI tooling – это общий подход к интеграции моделей с инструментами. Function calling – конкретный механизм вызова функций. А Pydantic помогает структурировать данные для надёжной работы.
🔍 В чём разница?
AI tooling – широкое понятие:
Function Calling – конкретный механизм:
🛠️ Pydantic: мост между LLM и кодом
Pydantic решает ключевую проблему function calling – валидацию и структурирование данных:
from pydantic import BaseModel, Field
class WeatherQuery(BaseModel):
city: str = Field(description="Название города")
units: str = Field(default="celsius", pattern="^(celsius|fahrenheit)$")
# Модель генерирует JSON, Pydantic валидирует
Преимущества Pydantic:
Наглядный пример:
# AI Tooling: общий подход
class AIAssistant:
def __init__(self):
self.tools = {
"search": SearchTool(),
"calculator": CalculatorTool(),
"database": DatabaseTool()
}
# Function calling: конкретная реализация
def execute_function(self, function_call):
# Pydantic для валидации
validated_params = FunctionParams(function_call.params)
return self.tools[function_call.name].execute(validated_params)
Стандартизация: унификация подходов между провайдерами
Нативная поддержка: встроенные Pydantic-схемы в API
Композиция функций: сложные цепочки вызовов
Автодискавери: LLM сама находит нужные инструменты
🟢
Главное понимать
: AI tooling – это множество подходов, function calling – конкретный инструмент, а Pydantic – обеспечивает надёжную валидацию данных.
🟢
Правильный инструмент → правильное решение → меньше проблем → генерим value
#AI@mrtnv_prism
#AITools@mrtnv_prism
@mrtnv_prism
Please open Telegram to view this post
VIEW IN TELEGRAM
10❤10✍9 5 5 4👍1