Технозаметки Малышева
8.25K subscribers
3.72K photos
1.39K videos
40 files
3.91K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Forwarded from Machinelearning
📌DeepConf: фильтрация мусорных СoT c высокой точностью.

Deep Think with Confidence (DeepConf) - способ улучшить рассуждения LLM, который в отличие от стандартного голосования по большинству, предлагает фильтровать варианты на лету, используя внутренние сигналы уверенности самой модели.

Идея в том, чтобы не ждать генерации полной цепочки рассуждений, а отслеживать её качество в реальном времени. Для этого придумали метрику "групповой уверенности" (group confidence) — усредненную уверенность модели на небольшом скользящем окне токенов.

Если эта метрика падает ниже определенного порога, генерация траектории рассуждения просто останавливается. Это позволяет отсекать низкокачественные цепочки на ранней стадии, экономя огромное количество токенов. При этом сам метод не требует дополнительного обучения или тюнинга гиперпараметров.

🟡DeepConf работает в 2 режимах.

В офлайн-режиме, когда все варианты уже сгенерированы, он позволяет применять взвешенное голосование или фильтрацию. Вместо простого подсчета голосов, каждый ответ взвешивается по уверенности породившей его цепочки рассуждений.

Результаты на бенчмарке AIME 2025: для GPT-OSS-120B стандартное голосование по 512 вариантам (cons@512) даёт точность 97.0%. Взвешивание с фильтрацией по уверенности (DeepConf@512) поднимает эту планку до 99.9%, практически решая бенчмарк.

🟡Но самый большой выигрыш даёт онлайн-режим.

Здесь происходит та самая ранняя остановка генерации. Для GPT-OSS-120B на том же AIME 2025 DeepConf в агрессивной конфигурации DeepConf-low сокращает количество сгенерированных токенов на 84.7% по сравнению с полной генерацией 512 вариантов. При этом точность не только не падает, а даже немного растeт — с 97.1% до 97.9%.

В более консервативном режиме, DeepConf-high, экономия токенов составляет 56.0%, а точность остается на уровне 97.0%. Схожие результаты наблюдаются и на моделях DeepSeek-8B и Qwen3-32B, где экономия токенов достигает 77.9% и 66.8% соответственно.

Для оценки уверенности прогнали несколько метрик, но наиболее эффективными оказались те, что фокусируются на слабых местах в рассуждениях. Например, метрика Bottom 10% Group Confidence (средняя уверенность по 10% наименее уверенных групп токенов) и Tail Confidence (уверенность на последних токенах цепочки) оказались лучше, чем простое усреднение по всему трейсу.

Порог для ранней остановки определяется на лету для каждого нового промпта. Сначала генерируется небольшое количество "разогревочных" трасс, на основе которых вычисляется порог уверенности. Затем запускается основная генерация, и любой вариант, чья групповая уверенность падает ниже этого порога, немедленно останавливается.

▶️Попробовать DeepConf на практике можно пока только в vLLM, есть примеры для онлайн и оффлайн режима. Отдельного репозитория проекта пока нет.


🟡Страница проекта
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #CoT #DEEPCONF
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍642🔥1
Forwarded from Neural Kovalskii
SGR Deep Research

А почему бы не взять все лучшие идеи из демо и идей ребят из чата
Собрать свои идеи по Deep Research
И сделать самый простой инструмент поиска инфы в интернете через Tavlily API?

А сделать, вот он https://github.com/vakovalskii/sgr-deep-research (звездочки приветствуются)

gpt-4o-mini
Tavily API (1000 реквестов в месяц фри)
SGR-concept

Из интересного что заметил такая модель сама определяет что например чипов M6 у applе не существует и на ходу меняет план рисерча потому что нашла это в данных из инета
Или что термин SGR ей не понятен и просит его расшифровать

Что я закинул туда "навайбкодил"

1. 🤔 Clarification (ВЫСШИЙ ПРИОРИТЕТ)
- При любой неопределенности в запросе
- Неизвестные термины, акронимы, аббревиатуры
- Неоднозначные запросы с множественными интерпретациями
- Отсутствие контекста для специализированных областей

2. 📋 GeneratePlan
- Когда план не существует и запрос ясен
- После получения уточнений от пользователя

3. 🔄 AdaptPlan
- Когда требуется адаптация исследовательского подхода
- При обнаружении неточностей в первоначальных предположениях

4. 🔍 WebSearch
- Когда нужна дополнительная информация И searches_done < 3
- МАКСИМУМ 3-4 поиска на исследование

5. 📄 CreateReport
- При searches_done >= 2 ИЛИ enough_data = True
- Когда собрана информация для полного анализа

6. ReportCompletion
- После создания отчета
- Финализация исследования


Соответствие концепту SGR верифицировало Ринатом 😂

Предлагайте ваши эксперименты! Вон даже ребята из Cбера подключились!
🔥43👍1
This media is not supported in your browser
VIEW IN TELEGRAM
HeyGen выпустил обновление к системе цифровых двойников.

HeyGen Digital Twin теперь работает на основе Avatar IV и умеет:
Зеркалировать жесты, выражения и манеры
Подстраиваться под ваш сценарий, произнося каждую строку так, как это бы сделали именно вы
Двигаться естественно, копируя ваш стиль движения и разговора.

#HeyGen #двойники #нейрорендер
———
@tsingular
3🔥3🤯32
Вайб-куркурируем, не отвлекаемся :)

#юмор
------
@tsingular
😁162🤣1
Forwarded from Machinelearning
🌟 NVIDIA Jet-Nemotron: гибридная архитектура, которая быстрее SOTA-моделей в 53 раза.

Jet-Nemotron - новая архитектура языковых моделей, которая, по заявлениям NVIDIA, превосходит по эффективности топовые опенсорс-модели.

На H100 обещают ускорение пропускной способности при генерации до 53.6 раз, если работать с контекстом в 256 тыс. токенов и максимальным размером батча. Такой скачок производительности стал возможен благодаря двум ключевым инновациям: пайплайну PostNAS и новому блоку линейного внимания JetBlock.

🟡PostNAS (Post Neural Architecture Search).

Суть PostNAS состоит в отказе от дорогостоящего обучения новых архитектур с нуля. Вместо этого берут уже предварительно обученную модель и запускают процесс постобработки. Пайплайн сначала анализирует модель и определяет, какие слои внимания вносят наибольший вклад в её работу, а какие - не так уж и важны. Дальше он ищет оптимальное расположение для слоёв полного внимания и подбирает улучшенный дизайн для остальных блоков.

🟡JetBlock - модуль линейного внимания.

Его фишка - динамические сверточные ядра, генерируемые на лету в зависимости от входных данных и применяемые к value-токенам.

Прямое сравнение с Mamba2 Block, проведенное на идентичных данных и с одинаковыми параметрами обучения, показало существенный прирост в точности при сохранении той же пропускной способности во время обучения и инференса.

🟡Третий элемент успеха - аппаратно-ориентированный поиск архитектуры.

Вместо того чтобы использовать количество параметров в качестве прокси-метрики для эффективности, авторы напрямую оптимизируют архитектуру под целевое железо (H100), используя в качестве цели именно пропускную способность генерации.

Ключевое открытие тут в том, что размер KV-кэша, а не количество параметров, является критическим фактором, ограничивающим скорость генерации на длинных контекстах, поскольку декодирование упирается в пропускную способность памяти.

Фиксируя размер кэша, они провели поиск по размерности ключей/значений и числу голов внимания, обнаружив конфигурации, которые при том же объеме кэша и схожей пропускной способности используют больше параметров для достижения более высокой точности.

Итоговый дизайн Jet-Nemotron, построенный на базе Qwen 2.5, включает всего 2 full-attention слоя (для retrieval) и 2 слоя со скользящим вниманием (SWA, для MMLU), остальные — JetBlock.

Что касается конкретных моделей, то уже есть Jet-Nemotron-2B и Jet-Nemotron-4B. По результатам тестов, они как минимум не уступают по точности ведущим эффективным моделям, например, Qwen3, на целом ряде бенчмарков. При этом младшая модель Jet-Nemotron-2B работает в 21 раз быстрее, чем Qwen3-1.7B-Base, а старшая, Jet-Nemotron-4B, обгоняет её уже в 47 раз.

▶️ Код и веса моделей обещают опубликовать сразу после завершения юридической проверки.


🟡Страница проекта
🟡Arxiv
🖥GitHub (Coming Soon)


@ai_machinelearning_big_data

#AI #ML #LLM #NVIDIA #JetNemotron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Forwarded from Дмитрий Тихонов
Промпт: A man is standing in a modern electronic store analyzing a digital camera. He is wearing a watch. On the table in front of him are sunglasses, headphones on a stand, a shoe, a helmet and a sneaker, a white sneaker and a black sneaker. ЛОООЛ. 10 рефов, КАРЛ
Автор Travis Davids
@MrDavids
🔥52👀1
😈 Первый ИИ-вымогатель в истории — как PromptLock генерирует вредоносный код в реальном времени

— Специалисты ESET сообщили о первой зафиксированной вымогательской программе, в работе которой ключевую роль играет искусственный интеллект

Новый образец получил название PromptLock — написан на Go и использует локальную модель gpt-oss:20b от OpenAI через интерфейс Ollama для генерации вредоносных Lua-скриптов в реальном времени

❗️ Скрипты запускаются прямо на устройстве и позволяют программе перечислять файлы на диске, анализировать содержимое, выгружать выбранные данные, зашифровывать и полностью их уничтожать

🧑‍💻 Этичный хакер
Please open Telegram to view this post
VIEW IN TELEGRAM
4😈311
Wan 2.2 получил версию S2V - картинка+голос = video

Идеально для оживления фотографий.
Берете нанобанану ( иначе ее уже не назвать :) ) переделываете фото в нужный формат, - дальше в elevenlabs или Suno голосовой/музыкальный ряд и собираете все это на бесплатном Wan 2.2, - любой формат, новости, музыка, реклама, - на выбор.

В общем китайцы потихоньку захватывают медиа продакшен сферу. Все в оупенсорсе.
И у Вана уже есть варианты:
- текст в видео,
- картинка в видео и теперь вот голос в видео
Если у вас достаточно железа, - все можно запустить локально.
Реально наступило время цифровых аватаров.
Пора каждому делать своего.

Github
Wan2.2 Project

Hugging Face Demo
Modelscope Demo

Hugging Face Weights

#Wan #Китай #нейрорендер
———
@tsingular
🔥15🤯21
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Tencent выпустила HunyuanVideo-Foley — открытую систему, которая умеет автоматически превращать видео и текст в качественный звук (Text-Video-to-Audio, TV2A).

🔊 Модель может автоматически генерировать профессиональный звук, который точно совпадает с картинкой и смыслом происходящего.

Главное:
- Универсальность — обучена на 100 000+ часов данных, создаёт звук для любых сцен: от природы до мультфильмов.
- Согласованность текста и видео — новая архитектура *MMDiT* учитывает одновременно изображение и описание, создавая многослойные эффекты: и главный звук, и фоновое окружение.
- Качество студийного уровня — благодаря функции потерь *REPA* и *Audio VAE* звук получается чистым и стабильным, без шумов и артефактов.

📈 На тестах HunyuanVideo-Foley показала лучшие результаты среди открытых моделей: более качественный звук, точная синхронизация с картинкой и учёт контекста сцены.

👉 Попробовать: https://hunyuan.tencent.com/video/zh?tabIndex=0
🌐 Project Page: https://szczesnys.github.io/hunyuanvideo-foley/
🔗 Code: https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
📄 Report: https://arxiv.org/abs/2508.16930
🤗 Hugging Face: https://huggingface.co/tencent/HunyuanVideo-Foley

@data_analysis_ml
🔥7
Forwarded from e/acc
Очень рекомендую parallel.ai для Deep Research

- работает лучше GPT и Gemini
- дает $20 бесплатных кредитов
- API-first, очень удобно интегрировать
- результат куда точнее, глубже и детальнее

На скрине рисерч, который я запустил на 15 минут, он отсмотрел 11 тысяч ссылок и включил 2258 страниц в репорт. При этом, не выдал мне 40 страниц текста, а сделал компактную табличку.
6🆒53
Salesforce CRMArena-Pro: LLM-агенты в корпоративной среде — ожидания vs реальность

Salesforce AI Research создали бенчмарк CRMArena-Pro — первую комплексную систему оценки LLM-агентов в реальных корпоративных сценариях.

19 задач, провалидированных экспертами, покрывают продажи, сервис и CPQ (Configure, Price, Quote) для B2B и B2C.
Датасеты синтетические, но проверенные людьми (отдельно забавно, конечно, что только 66% экспертов подтвердили, что датасеты релевантные)

Масштаб симуляции:
- 25 взаимосвязанных Salesforce-объектов
- 29,101 записей для B2B / 54,569 для B2C
- 4,280 тестовых запросов!!!
- сравнение с результатами работы профессионалов, работающих в CRM

Результаты:
1. Навык "Workflow Execution" — единственный работающий

При этом только gemini-2.5-pro показывает 83%+ успеха на задачах следования бизнес-процессам, остальные модели показали себя хуже.

Другие навыки (работа с текстом, политики компании, SQL-запросы) дают 20-40% успеха даже с сильной моделью.

2. Конфиденциальность - провал
Все модели имеют ~0% осознанности конфиденциальности. Даже с промптингом о защите данных — максимум 62% отказов на запрос о выдаче конфиденциалки (gpt-4o-mini), это убивает выполнение основных задач.
Еще раз возвращает нас к мысли о RBAC и запрета на дообучение на кофиденциальных данных. Только RAG с жестким контролем доступа.

3. Reasoning-модели радикально лучше
- o1 и gemini-2.5-pro опережают обычные версии на 12-20%.
- открытые модели (llama) отстают от проприетарных reasoning-моделей катастрофически. Выкидываем :)

4. Многоходовые диалоги — провал
Падение производительности с 58% до 35% при переходе к multi-turn. Агенты не умеют эффективно запрашивать уточнения — в 45% случаев не собирают нужную информацию.

Симуляция пользователей в рамках исследования:
LLM персонажи с разными характерными стилями офисных сотрудников заставляют агента отвечать на уточняющие вопросы.

Кто выигрывает по цене/качеству:
gemini-2.5-flash — оптимальный баланс
gemini-2.5-pro — максимальная производительность в разумной цене
o1 — слишком дорого для относительного повышения качества ответов

Что работает уже сейчас:
- Автоматизация рутинных рабочих процессов (маршрутизация кейсов, назначение лидов)
- Простые односложные запросы к CRM

Что пока невозможно:
- Сложный анализ продаж с множественными источниками
- Работа с конфиденциальными данными без рисков утечек
- Многоэтапные взаимодействия с клиентами

🤖💼 Цифровые сотрудники всё лучше и лучше. Скоро в каждом офисе.

Людей бы так потестировали в понедельник или после отпуска, - сюрприз был бы :)

pdf с исследованием в комментариях

#Salesforce #CRM #Benchmark
———
@tsingular
👍832
😁13🤣7👏2😐21
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Генерация видео в реальном времени от Krea.ai

Креа открыла запись в wait-list на реалтайм-генерацию видео.

12+ fps. На входе промпт, картинка, копия экрана или даже вебка.

Вы помните, что Креа была первым стартапом, который сделал реалтайм-рисовалку - генерацию картинок в реальном времени (был ещё Vizcom).

Теперь они взяли "модель мира" (непонятно чью/какую) и сделали вот такой "подрендер" этого мира.

Выглядит убойно.

https://www.krea.ai/blog/announcing-realtime-video

@cgevent
🔥6👀51