Технозаметки Малышева

🚀 GigaChat 2 стал мультимодальным и уже доступен в боте и на сайте

Обновление серьёзное: модель научилась понимать не только текст, но и голос, изображения, ссылки и документы.

Что прокачали:

🔊 Аудио
Теперь GigaChat нативно понимает голос: на вход в модель поступает не просто распознанная речь, а вся аудиозапись целиком. Это позволяет взаимодействовать с моделью не только на русском, но и на английском, точнее понимать запросы с узко-специализированными терминами.

📎 Ссылки и документы
Файлы больше не грузятся в контекст целиком. Вместо этого — метаинформация и function call по требованию. Можно кидать сразу несколько документов и ссылок, и модель будет работать с ними осмысленно.

📽 Видео по ссылке
С YouTube, VK, RuTube — вытаскивается аудио, подаётся в модель целиком. GigaChat понимает, о чём речь, и умеет выдать краткое содержание или ответить на вопрос.

🖼 Зрение
Поддержка OCR, локализация объектов, понимание структуры изображений, обработка сканов документов, математических выражений, графиков.

⚙️ Function calling
Под капотом — гибкая система вызова внешних функций: работа с файлами, парсинг ссылок, интернет-поиск. Всё вызывается по необходимости в зависимости от запроса.

🧠 Контекст вырос, галлюцинаций меньше, лучше следование инструкциям и понимание длинных запросов.

Попробуем. Вот бы ещё все это локально можно было бы запустить, конечно :)

#Gigachat #Сбербанк
------
@tsingular

🔥14⚡4🆒3👍2

1.34K viewsedited 12:41

Технозаметки Малышева

"Будущее наступило, просто оно неравномерно распределено"

Если бы Гибсон получал % за каждое упоминание своей фразы, за эти 2 дня на Конгрессе он бы неплохо заработал.

Фраза повторяется настолько часто, что иногда её слышно по 3-4 раза за секцию 😀

Можно ставить девизом Конгресса :)

#4CIO #PV2025
------
@tsingular

✍12👍7⚡5😁4

1.14K viewsedited 12:45

Технозаметки Малышева

Forwarded from Machinelearning