📄 Vectorless PDF Chatbot — новый подход к работе с документами
Интересный проект, который предлагает альтернативу традиционным чат-ботам с векторными базами данных. Вместо преобразования документов в эмбеддинги, система использует LLM для интеллектуального анализа PDF-файлов прямо в браузере пользователя.
Решение полностью статично и ориентируется на приватность. Документы не покидают браузер, не требуют предварительной обработки и не хранятся на серверах. При этом бот сохраняет контекст и может анализировать до 100 PDF-файлов одновременно.
🤖 GitHub
@bigdatai
Интересный проект, который предлагает альтернативу традиционным чат-ботам с векторными базами данных. Вместо преобразования документов в эмбеддинги, система использует LLM для интеллектуального анализа PDF-файлов прямо в браузере пользователя.
Решение полностью статично и ориентируется на приватность. Документы не покидают браузер, не требуют предварительной обработки и не хранятся на серверах. При этом бот сохраняет контекст и может анализировать до 100 PDF-файлов одновременно.
🤖 GitHub
@bigdatai
❤5🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
💬 Сооснователь Anthropic Том Браун о том, почему их модели лучше в кодинге:
> «Бенчмарки слишком легко накрутить.
> У всех больших AI-лабораторий есть отдельные команды, которые занимаются только тем, что подтягивают результаты на тестах.
У нас такой команды нет. Это и есть главный фактор».
#AI #coding #Anthropic #benchmarks
> «Бенчмарки слишком легко накрутить.
> У всех больших AI-лабораторий есть отдельные команды, которые занимаются только тем, что подтягивают результаты на тестах.
У нас такой команды нет. Это и есть главный фактор».
#AI #coding #Anthropic #benchmarks
❤12👍5🔥5👎2
GPU Memory Calculator.
Полезный калькулятор GPU, который подскажет, сможете ли вы запустить локальную LLM и насколько эффективно она будет работать
https://calculator.inference.ai/
Полезный калькулятор GPU, который подскажет, сможете ли вы запустить локальную LLM и насколько эффективно она будет работать
https://calculator.inference.ai/
❤3👍1
Forwarded from Machinelearning
Автономные агенты, способные управлять рабочим столом - это Грааль современного HCI. Но их обучение сопряжено с трудностями: GUI созданы для людей, а не для машин, а масштабирование RL упирается в неэффективность и нестабильность сред.
В Z.ai сделали фреймворк COMPUTERRL, который лег в основу агента AutoGLM-OS. Результат - state-of-the-art на бенчмарке OSWorld: 48.1% успешных выполнений и это лучше, чем у OpenAI CUA 03 (42.9%), UI-TARS-1.5 (42.5%) и Claude 4.0 Sonnet (30.7%).
OSWorld — это крупный бенчмарк из 369 заданий для проверки многомодальных ИИ-агентов в реальных условиях. Он работает в Ubuntu, Windows и macOS.
В нем ИИ выполняет открытые задачи: работает с веб- и десктопными приложениями, управляет файлами, запускает процессы. Каждое задание имеет четкие начальные условия и скрипты для оценки, чтобы результаты можно было воспроизвести.
Такие высокие показатели - результат комбинации 3-х инноваций.
Фреймворк объединяет GUI-взаимодействия с быстрыми и точными API-вызовами образуя систему, которая через LLM автоматически анализирует примеры задач, генерирует необходимый API-код для стандартных приложений Ubuntu и даже создает для него базовые тесты.
Таким образом, агент использует быстрые API там, где это возможно, и переключается на GUI для общих задач, что повышает и скорость, и надежность. Абляция показала, что переход от GUI-only к API-GUI поднимает средний показатель успеха с 11.2% до 26.2%.
OSWorld крайне ресурсоемок, и запуск множества его экземпляров на одном узле это тот еще квест. Z.ai полностью переработали эту среду, используя qemu-in-docker для легковесного развертывания VM, gRPC для связи между узлами и полностью асинхронный фреймворк AgentRL. Это позволило создать кластер из тысяч параллельных виртуальных сред, к котором онлайн-обучение RL-агентов стало максимально эффективным.
Entropulse решает проблему коллапса энтропии, чередуя фазы RL с периодическими сессиями SFT. Во время RL-фазы собираются все успешные траектории, и на их основе формируется новый SFT-датасет. Затем модель дообучается на этом датасете, что позволяет восстановить её исследовательскую способность без потери производительности. После этого запускается вторая, более эффективная фаза RL.
Эта стратегия позволила AutoGLM-OS, построенному на базе 9B GLM-4, достичь финального результата в 48.1%, в то время как после первой RL-фазы показатель был 42.0%.
@ai_machinelearning_big_data
#AI #ML #Agents #AutoGLM #Zai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Библиотека GeoAI.js теперь поддерживает Image Feature Extraction — поиск похожих объектов на спутниковых снимках.
Работает полностью локально в браузере благодаря Transformers.js.
👉 https://docs.geobase.app/geoai-live/tasks/image-feature-extraction
#gischat #javascript #geoai #transformersjs
Работает полностью локально в браузере благодаря Transformers.js.
👉 https://docs.geobase.app/geoai-live/tasks/image-feature-extraction
#gischat #javascript #geoai #transformersjs
👍4❤1🔥1
🚀 🌌MCP Universe🌌 — новый сложный бенчмарк для AI-агентов в реальных условиях.
🏆 Результаты:
🥇 GPT-5 — 43.7%
🥈 Grok-4 — 33.3%
🥉 Claude-4.0-Sonnet — 29.4%
Что это значит?
- 11 реальных MCP-серверов в 6 областях
- 133 доступных инструмента
- 231 задача, созданная вручную и проверенная экспертами
- Оценка по реальному выполнению действий, а не только по тексту
🌐 Сайт проекта: https://github.com/SalesforceAIResearch/MCP-Universe) |
📄 Статья: https://arxiv.org/abs/2508.14704
🏆 Результаты:
🥇 GPT-5 — 43.7%
🥈 Grok-4 — 33.3%
🥉 Claude-4.0-Sonnet — 29.4%
Что это значит?
- 11 реальных MCP-серверов в 6 областях
- 133 доступных инструмента
- 231 задача, созданная вручную и проверенная экспертами
- Оценка по реальному выполнению действий, а не только по тексту
🌐 Сайт проекта: https://github.com/SalesforceAIResearch/MCP-Universe) |
📄 Статья: https://arxiv.org/abs/2508.14704
Forwarded from Анализ данных (Data analysis)
🚀 NVIDIA ускорила LLM в 53 раза 🤯
Представь: твой бюджет на инференс снижается на 98%, а точность остаётся на уровне лучших моделей.
📌 Как это работает:
Метод называется Post Neural Architecture Search (PostNAS) — революционный подход к «апгрейду» уже обученных моделей.
Freeze the Knowledge — берём мощную модель (например, Qwen2.5) и «замораживаем» её MLP-слои, сохраняя интеллект.
Surgical Replacement — заменяем большую часть медленных O(n²) attention-слоёв на новый супер-эффективный дизайн JetBlock с линейным вниманием.
Hybrid Power — оставляем несколько full-attention слоёв в критичных точках, чтобы не потерять способность к сложным рассуждениям.
⚡ Результат - Jet-Nemotron:
- 2 885 токенов/с ⚡
- 47× меньше KV-кеша (всего 154 MB)
- Топовая точность при космической скорости
🔑 Почему это важно:
Для бизнеса: 53× ускорение = 98% экономии на масштабном развёртывании. ROI проектов с ИИ меняется радикально.
Для инженеров: теперь SOTA-уровень доступен даже на устройствах с ограниченной памятью.
Для исследователей: вместо миллионов на пре-трейнинг — можно создавать новые эффективные модели через архитектурные модификации.
🟠 Github
🟠 Статья
@data_analysis_ml
Представь: твой бюджет на инференс снижается на 98%, а точность остаётся на уровне лучших моделей.
📌 Как это работает:
Метод называется Post Neural Architecture Search (PostNAS) — революционный подход к «апгрейду» уже обученных моделей.
Freeze the Knowledge — берём мощную модель (например, Qwen2.5) и «замораживаем» её MLP-слои, сохраняя интеллект.
Surgical Replacement — заменяем большую часть медленных O(n²) attention-слоёв на новый супер-эффективный дизайн JetBlock с линейным вниманием.
Hybrid Power — оставляем несколько full-attention слоёв в критичных точках, чтобы не потерять способность к сложным рассуждениям.
⚡ Результат - Jet-Nemotron:
- 2 885 токенов/с ⚡
- 47× меньше KV-кеша (всего 154 MB)
- Топовая точность при космической скорости
🔑 Почему это важно:
Для бизнеса: 53× ускорение = 98% экономии на масштабном развёртывании. ROI проектов с ИИ меняется радикально.
Для инженеров: теперь SOTA-уровень доступен даже на устройствах с ограниченной памятью.
Для исследователей: вместо миллионов на пре-трейнинг — можно создавать новые эффективные модели через архитектурные модификации.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥3👍2
🎙 Ученые из Сбера предложили способ, как даже при небольшом объеме обучающих данных локальными моделями добиться высокой точности обнаружения галлюцинаций LLM — это прорыв в выявлении галлюцинаций искусственного интеллекта
Что важно:
– Точность выявления ошибок выше на ~30% по сравнению с аналогами.
– Для обучения хватает всего 250 примеров.
– Основан на анализе внутренних состояний LLM.
– Работает на классических алгоритмах и трансформере TabPFNv2.
– Снижает затраты на разметку и повышает надёжность ответов ИИ.
Что важно:
– Точность выявления ошибок выше на ~30% по сравнению с аналогами.
– Для обучения хватает всего 250 примеров.
– Основан на анализе внутренних состояний LLM.
– Работает на классических алгоритмах и трансформере TabPFNv2.
– Снижает затраты на разметку и повышает надёжность ответов ИИ.
👍5❤4😁2🔥1