Технозаметки Малышева
8.25K subscribers
3.71K photos
1.39K videos
40 files
3.91K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Forwarded from Дмитрий Тихонов
Промпт: A man is standing in a modern electronic store analyzing a digital camera. He is wearing a watch. On the table in front of him are sunglasses, headphones on a stand, a shoe, a helmet and a sneaker, a white sneaker and a black sneaker. ЛОООЛ. 10 рефов, КАРЛ
Автор Travis Davids
@MrDavids
🔥52👀1
😈 Первый ИИ-вымогатель в истории — как PromptLock генерирует вредоносный код в реальном времени

— Специалисты ESET сообщили о первой зафиксированной вымогательской программе, в работе которой ключевую роль играет искусственный интеллект

Новый образец получил название PromptLock — написан на Go и использует локальную модель gpt-oss:20b от OpenAI через интерфейс Ollama для генерации вредоносных Lua-скриптов в реальном времени

❗️ Скрипты запускаются прямо на устройстве и позволяют программе перечислять файлы на диске, анализировать содержимое, выгружать выбранные данные, зашифровывать и полностью их уничтожать

🧑‍💻 Этичный хакер
Please open Telegram to view this post
VIEW IN TELEGRAM
4😈311
Wan 2.2 получил версию S2V - картинка+голос = video

Идеально для оживления фотографий.
Берете нанобанану ( иначе ее уже не назвать :) ) переделываете фото в нужный формат, - дальше в elevenlabs или Suno голосовой/музыкальный ряд и собираете все это на бесплатном Wan 2.2, - любой формат, новости, музыка, реклама, - на выбор.

В общем китайцы потихоньку захватывают медиа продакшен сферу. Все в оупенсорсе.
И у Вана уже есть варианты:
- текст в видео,
- картинка в видео и теперь вот голос в видео
Если у вас достаточно железа, - все можно запустить локально.
Реально наступило время цифровых аватаров.
Пора каждому делать своего.

Github
Wan2.2 Project

Hugging Face Demo
Modelscope Demo

Hugging Face Weights

#Wan #Китай #нейрорендер
———
@tsingular
🔥15🤯21
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Tencent выпустила HunyuanVideo-Foley — открытую систему, которая умеет автоматически превращать видео и текст в качественный звук (Text-Video-to-Audio, TV2A).

🔊 Модель может автоматически генерировать профессиональный звук, который точно совпадает с картинкой и смыслом происходящего.

Главное:
- Универсальность — обучена на 100 000+ часов данных, создаёт звук для любых сцен: от природы до мультфильмов.
- Согласованность текста и видео — новая архитектура *MMDiT* учитывает одновременно изображение и описание, создавая многослойные эффекты: и главный звук, и фоновое окружение.
- Качество студийного уровня — благодаря функции потерь *REPA* и *Audio VAE* звук получается чистым и стабильным, без шумов и артефактов.

📈 На тестах HunyuanVideo-Foley показала лучшие результаты среди открытых моделей: более качественный звук, точная синхронизация с картинкой и учёт контекста сцены.

👉 Попробовать: https://hunyuan.tencent.com/video/zh?tabIndex=0
🌐 Project Page: https://szczesnys.github.io/hunyuanvideo-foley/
🔗 Code: https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
📄 Report: https://arxiv.org/abs/2508.16930
🤗 Hugging Face: https://huggingface.co/tencent/HunyuanVideo-Foley

@data_analysis_ml
🔥7
Forwarded from e/acc
Очень рекомендую parallel.ai для Deep Research

- работает лучше GPT и Gemini
- дает $20 бесплатных кредитов
- API-first, очень удобно интегрировать
- результат куда точнее, глубже и детальнее

На скрине рисерч, который я запустил на 15 минут, он отсмотрел 11 тысяч ссылок и включил 2258 страниц в репорт. При этом, не выдал мне 40 страниц текста, а сделал компактную табличку.
6🆒53
Salesforce CRMArena-Pro: LLM-агенты в корпоративной среде — ожидания vs реальность

Salesforce AI Research создали бенчмарк CRMArena-Pro — первую комплексную систему оценки LLM-агентов в реальных корпоративных сценариях.

19 задач, провалидированных экспертами, покрывают продажи, сервис и CPQ (Configure, Price, Quote) для B2B и B2C.
Датасеты синтетические, но проверенные людьми (отдельно забавно, конечно, что только 66% экспертов подтвердили, что датасеты релевантные)

Масштаб симуляции:
- 25 взаимосвязанных Salesforce-объектов
- 29,101 записей для B2B / 54,569 для B2C
- 4,280 тестовых запросов!!!
- сравнение с результатами работы профессионалов, работающих в CRM

Результаты:
1. Навык "Workflow Execution" — единственный работающий

При этом только gemini-2.5-pro показывает 83%+ успеха на задачах следования бизнес-процессам, остальные модели показали себя хуже.

Другие навыки (работа с текстом, политики компании, SQL-запросы) дают 20-40% успеха даже с сильной моделью.

2. Конфиденциальность - провал
Все модели имеют ~0% осознанности конфиденциальности. Даже с промптингом о защите данных — максимум 62% отказов на запрос о выдаче конфиденциалки (gpt-4o-mini), это убивает выполнение основных задач.
Еще раз возвращает нас к мысли о RBAC и запрета на дообучение на кофиденциальных данных. Только RAG с жестким контролем доступа.

3. Reasoning-модели радикально лучше
- o1 и gemini-2.5-pro опережают обычные версии на 12-20%.
- открытые модели (llama) отстают от проприетарных reasoning-моделей катастрофически. Выкидываем :)

4. Многоходовые диалоги — провал
Падение производительности с 58% до 35% при переходе к multi-turn. Агенты не умеют эффективно запрашивать уточнения — в 45% случаев не собирают нужную информацию.

Симуляция пользователей в рамках исследования:
LLM персонажи с разными характерными стилями офисных сотрудников заставляют агента отвечать на уточняющие вопросы.

Кто выигрывает по цене/качеству:
gemini-2.5-flash — оптимальный баланс
gemini-2.5-pro — максимальная производительность в разумной цене
o1 — слишком дорого для относительного повышения качества ответов

Что работает уже сейчас:
- Автоматизация рутинных рабочих процессов (маршрутизация кейсов, назначение лидов)
- Простые односложные запросы к CRM

Что пока невозможно:
- Сложный анализ продаж с множественными источниками
- Работа с конфиденциальными данными без рисков утечек
- Многоэтапные взаимодействия с клиентами

🤖💼 Цифровые сотрудники всё лучше и лучше. Скоро в каждом офисе.

Людей бы так потестировали в понедельник или после отпуска, - сюрприз был бы :)

pdf с исследованием в комментариях

#Salesforce #CRM #Benchmark
———
@tsingular
👍832
😁13🤣7👏2😐21
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Генерация видео в реальном времени от Krea.ai

Креа открыла запись в wait-list на реалтайм-генерацию видео.

12+ fps. На входе промпт, картинка, копия экрана или даже вебка.

Вы помните, что Креа была первым стартапом, который сделал реалтайм-рисовалку - генерацию картинок в реальном времени (был ещё Vizcom).

Теперь они взяли "модель мира" (непонятно чью/какую) и сделали вот такой "подрендер" этого мира.

Выглядит убойно.

https://www.krea.ai/blog/announcing-realtime-video

@cgevent
🔥6👀51
Postman добавил создание MCP серверов

Postman теперь позволяет создавать MCP серверы из любого публичного API в их сети.

Достаточно взять готовый API и сконвертировать его в MCP-совместимый сервер для интеграции с Claude, VS Code или Cursor.

Поддерживает SSE/HTTP и STDIO конфигурации, TypeScript-архитектуру и Docker развёртывание.

Платформа превращается из инструмента тестирования API в полноценную среду разработки AI-агентов.

Теперь можно автоматизировать сложные API-процессы через ИИ гораздо быстрее.

#Postman #MCP #API
------
@tsingular
19👍52🤔2
Я знаю пару таких людей)))
😁122😐1🍓1
Forwarded from Neural Kovalskii
This media is not supported in your browser
VIEW IN TELEGRAM
SGR + Tool, Hybrid Deep Research

И так мы продолжаем рубрику эксперименты!

1) Спасибо Диме что предоставил новую ветку где перевел SGR внутрь tool

2) Дальше я уже с легкой руки добавил около ~6 навыков, проработал управление контекстом всего теперь 12 навыков есть у системы и она помнит все предыдущие события

Детально с решением можно ознакомиться в ридми в ветке hybrid_reasoner_sgr_with_tools

Что имеем?
Без фреймворков с сохранением SGR который обернут в tool, более автономную систему которая понимает предыдущий контекст может работать с файловой системой и может искать в интернете

Что дальше?
3) Я приведу обе ветки к единому кол-ву навыком и мы попробуем собрать небольшой датасет дабы проверить надежность таких систем в разных сценариях рисерча

P.S система все еще работает на gpt-4o-mini но для лучшего экспириенса советую поменять на 4o так же хорошо проработан подход работы с кешом и система стала в 2-3 раза быстрее
👍321🔥1
Прикольная задумка:

Переделать любую карту из вида сверху в 3Д Street View.

Пробовать тут

#нанобанана #Google
———
@tsingular
1🔥6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
#КриповаяСуббота

RL-фитнес для роботов... немного страшненько.. Не верится..

Ссылка на полное видео

Сергей Булаев AI 🤖 - об AI и не только
👍4