Технозаметки Малышева
8.27K subscribers
3.67K photos
1.37K videos
40 files
3.87K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🔬 NVIDIA прокачивает материаловедение

На конференции в Сент-Луисе показали две платформы, которые превращают месяцы лабораторных экспериментов в дни.

Holoscan — обработка изображений материалов в реальном времени
Brookhaven National Laboratory получает рентгеновские снимки материалов с разрешением <10 нм.

Раньше: делаешь скан → ждёшь обработки → смотришь результат.

Сейчас: видишь результат прямо во время сканирования.

Практический эффект:
- Мгновенная корректировка эксперимента
- Больше экспериментов на том же оборудовании = меньше стоимость исследования
- Потенциал для автономных экспериментов с AI

ALCHEMI — поиск новых материалов ускоренный GPU.

Набор микросервисов для симуляции молекул.
Вместо синтеза тысяч образцов в лаборатории — виртуальный скрининг миллионов вариантов.

Реальные кейсы:
ENEOS (энергетика):
- 10 млн кандидатов для жидкостного охлаждения ЦОДов
- 100 млн вариантов катализаторов для водородного топлива
Срок проверки: несколько недель
Ускорение: 10× против старых методов

Universal Display Corporation (OLED-дисплеи):
- Из 10^100 возможных молекул находят оптимальные для экранов
- Ускорение поиска в сравнении с CPU - до x10,000
- Молекулярная динамика: с дней до секунд через параллельные GPU
- Фокус: синие фосфоресцентные OLED = меньше энергопотребление

Суть технологии:
GPU пропускают через себя миллиарды комбинаций атомов, отсеивая неподходящие варианты до реальных тестов.
Только лучшие кандидаты попадают в лабораторию.
Результат: от химической интуиции к массовому вычислительному поиску.

ALCHEMI — одна из 150+ библиотек CUDA-X для научных расчётов.

Забрутфорсили химию.

#NVIDIA #материаловедение #ALCHEMI #SC25 #наука
———
@tsingular
🔥9👍541
GigaAM-v3: новый уровень качества, пунктуация, нормализация

➡️ GitHub | HuggingFace | GitVerse

В прошлом году мы открыли семейство моделей GigaAM, после чего значительно улучшили качество благодаря подходу HuBERT-CTC во второй версии. Основными запросами сообщества оставались поддержка пунктуации в наших моделях, а также улучшение на сложных срезах данных. Сегодня мы рады представить следующий большой релиз — GigaAM-v3.

Что публикуем
🔘GigaAM-v3 — foundation audio encoder (база для дообучения).
🔘GigaAM-v3-CTC — улучшенная CTC модель распознавания, быстрый инференс
🔘GigaAM-v3-RNNT — улучшенная RNNT модель распознавания, лучшее качество
🔘GigaAM-v3-e2e-CTC — распознавание с пунктуацией и нормализацией, быстрый инференс
🔘GigaAM-v3-e2e-RNNT — распознавание с пунктуацией и нормализацией, максимальное качество

Пример e2e-вывода: В твоём каталоге есть первая серия сезона 14 «Где логика»?

Что нового в v3
🔘Масштаб предобучения: 50k → 700k часов аудио на русском языке.
🔘Новые домены в обучении ASR: колл-центр, музыкальные запросы, речь с особенностями, разговорная речь (суммарно 2k часов).
🔘Для всего корпуса обучающих данных восстановлены пунктуация и нормализация при помощи GigaChat Max Audio.
🔘Линейка CTC/RNNT + e2e — выбирайте скорость или максимум качества под свой сценарий.

Метрики
🔘 Открытые датасеты (Golos, OpenSTT, Common Voice, LibriSpeech): паритет с GigaAM-v2.
🔘 Новые домены (WER, v2-RNNT → v3-RNNT):
• речь с особенностями 27% → 19%
• колл-центр 13% → 10%
• спонтанная речь 10.3% → 7%
🔘 Пунктуация: v3-e2e-RNNT vs reference + Whisper Forced Decoding — F1-score по запятой 84% vs 62%, остальные знаки ~паритет.
🔘 Side-by-Side (Gemini 2.5 Pro as a judge): v3-e2e-RNNT vs Whisper-large-v3 — 70:30 (колл-центр), 64:36 (Common Voice).


Более качественные модели распознавания того же класса эксклюзивно доступны в наших умных устройствах, а также могут быть бесплатно использованы на повседневной основе с помощью бота @smartspeech_sber_bot.

Совсем скоро выйдет пост на Хабр, где мы поделимся подробностями обучения и оценки качества. Не пропустите!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍5
Forwarded from GigaChat
🔥МЫ ПРЕДСТАВЛЯЕМ КРУПНЕЙШИЙ OPEN-SOURCE AI В ЕВРОПЕ 🔥

Мы стремимся не замыкаться в «закрытой» технологии, а строить открытую платформу для всей страны, поэтому мы публикуем веса наших моделей.

Что появилось в открытом доступе ↓

🔷 GigaChat Ultra Preview
Самая мощная модель Сбера. Лучше DeepSeek V3.1 и GigaChat Max 2 в русскоязычных задачах. Подходит для бизнеса, аналитики, разработки и дообучения на своих данных
GitHub | HuggingFace |GitVerse

GigaAM-v3
5 моделей, которые превращают голос в текст с пунктуацией, понимают акценты, спонтанную речь и даже музыкальные запросы. Подойдут для голосовых ассистентов, контакт-центров, аналитики звонков
GitHub | HuggingFace | GitVerse

🔷 GigaChat Lightning
Лёгкая, компактная и быстрая. Конкурирует с Qwen3-4B, по скорости сравнима с Qwen3-1.7B, но намного умнее и больше по параметрам
GitHub | HuggingFace |GitVerse

🔷 Kandinsky 5.0
Создание фото и видео по тексту. Внутри:
• Image Lite — делает изображения в HD, отлично понимает русский язык и культурный контекст
• Video Pro — создаёт до 10 секунд реалистичного HD-видео. Конкурирует с топовыми мировыми моделями
• Video Lite — облегчённая версия для домашней видеокарты (от 12 ГБ)
➡️ GitHub | GitVerse | Hugging Face | Технический репорт

🔷 K-VAE 1.0
Ускорение генеративного AI. Это технологии, которые «упаковывают» картинки и видео в скрытое пространство, чтобы модели работали быстрее и требовали меньше ресурсов. Лучшие среди открытых аналогов
➡️ GitHub|Hugging Face


Код и веса этих всех моделей теперь доступны всем пользователям по лицензии MIT, в том числе для использования в коммерческих целях.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍32
LangChain запустил песочницы для DeepAgents

LangChain интегрировал удалённые песочницы для безопасного выполнения кода агентами.
Поддерживаются три провайдера: Runloop, Daytona и Modal.

Агент работает локально, но код выполняется удалённо — создаёт файлы, запускает команды, видит результаты.
Настройка через CLI одной командой: токены API и setup-скрипт.

Но есть нюанс:
Прямая цитата: "мы рекомендуем проверять дашборд провайдера, чтобы убедиться, что агент или песочница случайно не остались запущенными".

То есть автоматическая очистка ненадёжна.
Мониторинг вручную через три разных интерфейса.

Идея здравая, - отдельностоящая песочница дла кодовых агентов, но реализация на уровне беты пока.

#DeepAgents #Sandboxes #LangChain
------
@tsingular
3👍31
Cloud.ru AI Factory представили свой редактор nocode для ИИ полностью совместимый с n8n

Просто копируешь workflow и вставляешь его в рабочее поле редактора и все работает.

Не n8n, все полностью своё, но стандартный формат JSON n8n процесса импортируется простым копированием

#Cloud #n8n
———
@tsingular
🔥8🤣321🏆1🗿1
Нанобанана Про вышла.

Точность, - космос!

пробуем тут
https://gemini.google.com/app

UPD: появилась в aistudio тоже

#nanobanana #Google
———
@tsingular
🔥82🤣2🏆21
Как обещал, пробуем Нану2 с теми же картинками для сравнения и тем же промптом.

Что сказать. По мне точность выше, но первая была прикольнее что ли :)

Там правда была возможность температуру повысить в aistudio до 0.7, может в этом дело.

#Нанобанана #Google
———
@tsingular
3👍3🔥21
Forwarded from СберСтартап
This media is not supported in your browser
VIEW IN TELEGRAM
AI вышел за пределы цифрового мира 🚀

Представляем первого российского антропоморфного робота от Сбера — Грин! Вчера он познакомился с президентом, а сегодня — с вами.

Что нужно о нём знать:

➡️ Всё разработано командой Сбера — начиная от уникальной конструкции и электроники, заканчивая мощным искусственным интеллектом на базе GigaChat.

➡️ От сбора команды инженеров и первого прототипа до презентации прошло 2,5 года. Робот уже конкурирует с зарубежными аналогами!

➡️ Умеет самостоятельно перемещаться и взаимодействовать с объектами в реальном пространстве.

Ставьте ⚡️— если от видео тоже побежали мурашки
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣25👍108🔥3👾32
This media is not supported in your browser
VIEW IN TELEGRAM
Gramax: opensource редактор документации с визуальным интерфейсом и Git под капотом

Gramax - российская бесплатная опенсорс-альтернатива GitBook и Mintlify для создания технической документации.

Всё хранится локально в Markdown, работает офлайн, интегрируется с любым Git-провайдером.

Есть десктоп-версия и онлайн (бесплатная и корпоративная - платная).

Визуальный редактор упрощает работу с разметкой — таблицы, вкладки, диаграммы Mermaid, Excalidraw, даже Swagger-описания API.

17 языков интерфейса, кастомизация стилей, поддержка мультимедиа.

установка или через докер или через npm

Но самое главное, - легко интегрируется с ЭЯЙ :)
Там даже встроенный режим есть "поговорить с документами".
И список заказчиков солидный уже, - смотрите сами:
https://gram.ax/ru

В коллекцию годных российских opensource проектов.

#Gramax #Markdown #DocsAsCode
———
@tsingular
👍122🔥2
NocoBase: no-code платформа по сборке мультиагентных систем с ИИ

NocoBase — opensource платформа для сборки бизнес-приложений без кода, построенная на микроядерной архитектуре с плагинами на основе схемы данных.

Такой прокаченный вариант BI с плагинами и возможностью создать толпу ИИ агентов и привязать их к данным.

Страница проекта:
https://www.nocobase.com/

Онлайн Демо:
https://demo.nocobase.com/new

Документация:
https://docs.nocobase.com/

Форум:
https://forum.nocobase.com/

Сценарии использования:
https://www.nocobase.com/en/blog/tags/customer-stories

Сносим PowerBI и MS Access, ставим Nocobase :)

#NocoBase #NoCode #Microkernel
———
@tsingular
👍83🔥1
AWS Labs выпустили Document Loader для MCP

AWS Labs добавили в свой репозиторий MCP новый компонент document-loader-mcp-server.

Document Loader устанавливается локально и позволяет работать с pdf, docx, doc, xlsx, xls, pptx, ppt

Возможности:
- Извлечение текста из PDF: извлечение текстового содержимого из PDF-файлов с помощью pdfplumber
- Обработка документов Word: конвертация файлов DOCX/DOC в формат Markdown с помощью Markitdown
- Чтение электронных таблиц Excel: анализ файлов XLSX/XLS и конвертация в формат Markdown
- Обработка презентаций PowerPoint: извлечение содержимого из файлов PPTX/PPT
- Загрузка изображений: загрузка и отображение различных форматов изображений (PNG, JPG, GIF, BMP, TIFF, WEBP)

Подгружает свою модель для распознавания изображений.
Результаты хранятся в маркдауне.
Кредов и оплаты не требует.

Добавляем в коллекцию

#AWS #MCP #DocumentLoader
———
@tsingular
5🔥4👍1