Forwarded from Дмитрий Тихонов
Промпт: A man is standing in a modern electronic store analyzing a digital camera. He is wearing a watch. On the table in front of him are sunglasses, headphones on a stand, a shoe, a helmet and a sneaker, a white sneaker and a black sneaker. ЛОООЛ. 10 рефов, КАРЛ
Автор Travis Davids
@MrDavids
Автор Travis Davids
@MrDavids
🔥5⚡2👀1
Forwarded from Этичный Хакер
— Специалисты ESET сообщили о первой зафиксированной вымогательской программе, в работе которой ключевую роль играет искусственный интеллект
Новый образец получил название PromptLock — написан на Go и использует локальную модель gpt-oss:20b от OpenAI через интерфейс Ollama для генерации вредоносных Lua-скриптов в реальном времени
Please open Telegram to view this post
VIEW IN TELEGRAM
✍4😈3❤1⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Wan 2.2 получил версию S2V - картинка+голос = video
Идеально для оживления фотографий.
Берете нанобанану ( иначе ее уже не назвать :) ) переделываете фото в нужный формат, - дальше в elevenlabs или Suno голосовой/музыкальный ряд и собираете все это на бесплатном Wan 2.2, - любой формат, новости, музыка, реклама, - на выбор.
В общем китайцы потихоньку захватывают медиа продакшен сферу. Все в оупенсорсе.
И у Вана уже есть варианты:
- текст в видео,
- картинка в видео и теперь вот голос в видео
Если у вас достаточно железа, - все можно запустить локально.
Реально наступило время цифровых аватаров.
Пора каждому делать своего.
Github
Wan2.2 Project
Hugging Face Demo
Modelscope Demo
Hugging Face Weights
#Wan #Китай #нейрорендер
———
@tsingular
Идеально для оживления фотографий.
Берете нанобанану ( иначе ее уже не назвать :) ) переделываете фото в нужный формат, - дальше в elevenlabs или Suno голосовой/музыкальный ряд и собираете все это на бесплатном Wan 2.2, - любой формат, новости, музыка, реклама, - на выбор.
В общем китайцы потихоньку захватывают медиа продакшен сферу. Все в оупенсорсе.
И у Вана уже есть варианты:
- текст в видео,
- картинка в видео и теперь вот голос в видео
Если у вас достаточно железа, - все можно запустить локально.
Реально наступило время цифровых аватаров.
Пора каждому делать своего.
Github
Wan2.2 Project
Hugging Face Demo
Modelscope Demo
Hugging Face Weights
#Wan #Китай #нейрорендер
———
@tsingular
🔥15🤯2⚡1
Forwarded from Анализ данных (Data analysis)
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Tencent выпустила HunyuanVideo-Foley — открытую систему, которая умеет автоматически превращать видео и текст в качественный звук (Text-Video-to-Audio, TV2A).
🔊 Модель может автоматически генерировать профессиональный звук, который точно совпадает с картинкой и смыслом происходящего.
✨ Главное:
- Универсальность — обучена на 100 000+ часов данных, создаёт звук для любых сцен: от природы до мультфильмов.
- Согласованность текста и видео — новая архитектура *MMDiT* учитывает одновременно изображение и описание, создавая многослойные эффекты: и главный звук, и фоновое окружение.
- Качество студийного уровня — благодаря функции потерь *REPA* и *Audio VAE* звук получается чистым и стабильным, без шумов и артефактов.
📈 На тестах HunyuanVideo-Foley показала лучшие результаты среди открытых моделей: более качественный звук, точная синхронизация с картинкой и учёт контекста сцены.
👉 Попробовать: https://hunyuan.tencent.com/video/zh?tabIndex=0
🌐 Project Page: https://szczesnys.github.io/hunyuanvideo-foley/
🔗 Code: https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
📄 Report: https://arxiv.org/abs/2508.16930
🤗 Hugging Face: https://huggingface.co/tencent/HunyuanVideo-Foley
@data_analysis_ml
🔊 Модель может автоматически генерировать профессиональный звук, который точно совпадает с картинкой и смыслом происходящего.
✨ Главное:
- Универсальность — обучена на 100 000+ часов данных, создаёт звук для любых сцен: от природы до мультфильмов.
- Согласованность текста и видео — новая архитектура *MMDiT* учитывает одновременно изображение и описание, создавая многослойные эффекты: и главный звук, и фоновое окружение.
- Качество студийного уровня — благодаря функции потерь *REPA* и *Audio VAE* звук получается чистым и стабильным, без шумов и артефактов.
📈 На тестах HunyuanVideo-Foley показала лучшие результаты среди открытых моделей: более качественный звук, точная синхронизация с картинкой и учёт контекста сцены.
👉 Попробовать: https://hunyuan.tencent.com/video/zh?tabIndex=0
🌐 Project Page: https://szczesnys.github.io/hunyuanvideo-foley/
🔗 Code: https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
📄 Report: https://arxiv.org/abs/2508.16930
🤗 Hugging Face: https://huggingface.co/tencent/HunyuanVideo-Foley
@data_analysis_ml
🔥7
Forwarded from e/acc
Очень рекомендую parallel.ai для Deep Research
- работает лучше GPT и Gemini
- дает $20 бесплатных кредитов
- API-first, очень удобно интегрировать
- результат куда точнее, глубже и детальнее
На скрине рисерч, который я запустил на 15 минут, он отсмотрел 11 тысяч ссылок и включил 2258 страниц в репорт. При этом, не выдал мне 40 страниц текста, а сделал компактную табличку.
- работает лучше GPT и Gemini
- дает $20 бесплатных кредитов
- API-first, очень удобно интегрировать
- результат куда точнее, глубже и детальнее
На скрине рисерч, который я запустил на 15 минут, он отсмотрел 11 тысяч ссылок и включил 2258 страниц в репорт. При этом, не выдал мне 40 страниц текста, а сделал компактную табличку.
✍6🆒5⚡3
Salesforce CRMArena-Pro: LLM-агенты в корпоративной среде — ожидания vs реальность
Salesforce AI Research создали бенчмарк CRMArena-Pro — первую комплексную систему оценки LLM-агентов в реальных корпоративных сценариях.
19 задач, провалидированных экспертами, покрывают продажи, сервис и CPQ (Configure, Price, Quote) для B2B и B2C.
Датасеты синтетические, но проверенные людьми (отдельно забавно, конечно, что только 66% экспертов подтвердили, что датасеты релевантные)
Масштаб симуляции:
- 25 взаимосвязанных Salesforce-объектов
- 29,101 записей для B2B / 54,569 для B2C
- 4,280 тестовых запросов!!!
- сравнение с результатами работы профессионалов, работающих в CRM
Результаты:
1. Навык "Workflow Execution" — единственный работающий
При этом только gemini-2.5-pro показывает 83%+ успеха на задачах следования бизнес-процессам, остальные модели показали себя хуже.
Другие навыки (работа с текстом, политики компании, SQL-запросы) дают 20-40% успеха даже с сильной моделью.
2. Конфиденциальность - провал
Все модели имеют ~0% осознанности конфиденциальности. Даже с промптингом о защите данных — максимум 62% отказов на запрос о выдаче конфиденциалки (gpt-4o-mini), это убивает выполнение основных задач.
Еще раз возвращает нас к мысли о RBAC и запрета на дообучение на кофиденциальных данных. Только RAG с жестким контролем доступа.
3. Reasoning-модели радикально лучше
- o1 и gemini-2.5-pro опережают обычные версии на 12-20%.
- открытые модели (llama) отстают от проприетарных reasoning-моделей катастрофически. Выкидываем :)
4. Многоходовые диалоги — провал
Падение производительности с 58% до 35% при переходе к multi-turn. Агенты не умеют эффективно запрашивать уточнения — в 45% случаев не собирают нужную информацию.
Симуляция пользователей в рамках исследования:
LLM персонажи с разными характерными стилями офисных сотрудников заставляют агента отвечать на уточняющие вопросы.
Кто выигрывает по цене/качеству:
gemini-2.5-flash — оптимальный баланс
gemini-2.5-pro — максимальная производительность в разумной цене
o1 — слишком дорого для относительного повышения качества ответов
Что работает уже сейчас:
- Автоматизация рутинных рабочих процессов (маршрутизация кейсов, назначение лидов)
- Простые односложные запросы к CRM
Что пока невозможно:
- Сложный анализ продаж с множественными источниками
- Работа с конфиденциальными данными без рисков утечек
- Многоэтапные взаимодействия с клиентами
🤖💼 Цифровые сотрудники всё лучше и лучше. Скоро в каждом офисе.
Людей бы так потестировали в понедельник или после отпуска, - сюрприз был бы :)
pdf с исследованием в комментариях
#Salesforce #CRM #Benchmark
———
@tsingular
Salesforce AI Research создали бенчмарк CRMArena-Pro — первую комплексную систему оценки LLM-агентов в реальных корпоративных сценариях.
19 задач, провалидированных экспертами, покрывают продажи, сервис и CPQ (Configure, Price, Quote) для B2B и B2C.
Датасеты синтетические, но проверенные людьми (отдельно забавно, конечно, что только 66% экспертов подтвердили, что датасеты релевантные)
Масштаб симуляции:
- 25 взаимосвязанных Salesforce-объектов
- 29,101 записей для B2B / 54,569 для B2C
- 4,280 тестовых запросов!!!
- сравнение с результатами работы профессионалов, работающих в CRM
Результаты:
1. Навык "Workflow Execution" — единственный работающий
При этом только gemini-2.5-pro показывает 83%+ успеха на задачах следования бизнес-процессам, остальные модели показали себя хуже.
Другие навыки (работа с текстом, политики компании, SQL-запросы) дают 20-40% успеха даже с сильной моделью.
2. Конфиденциальность - провал
Все модели имеют ~0% осознанности конфиденциальности. Даже с промптингом о защите данных — максимум 62% отказов на запрос о выдаче конфиденциалки (gpt-4o-mini), это убивает выполнение основных задач.
Еще раз возвращает нас к мысли о RBAC и запрета на дообучение на кофиденциальных данных. Только RAG с жестким контролем доступа.
3. Reasoning-модели радикально лучше
- o1 и gemini-2.5-pro опережают обычные версии на 12-20%.
- открытые модели (llama) отстают от проприетарных reasoning-моделей катастрофически. Выкидываем :)
4. Многоходовые диалоги — провал
Падение производительности с 58% до 35% при переходе к multi-turn. Агенты не умеют эффективно запрашивать уточнения — в 45% случаев не собирают нужную информацию.
Симуляция пользователей в рамках исследования:
LLM персонажи с разными характерными стилями офисных сотрудников заставляют агента отвечать на уточняющие вопросы.
Кто выигрывает по цене/качеству:
gemini-2.5-flash — оптимальный баланс
gemini-2.5-pro — максимальная производительность в разумной цене
o1 — слишком дорого для относительного повышения качества ответов
Что работает уже сейчас:
- Автоматизация рутинных рабочих процессов (маршрутизация кейсов, назначение лидов)
- Простые односложные запросы к CRM
Что пока невозможно:
- Сложный анализ продаж с множественными источниками
- Работа с конфиденциальными данными без рисков утечек
- Многоэтапные взаимодействия с клиентами
🤖💼 Цифровые сотрудники всё лучше и лучше. Скоро в каждом офисе.
Людей бы так потестировали в понедельник или после отпуска, - сюрприз был бы :)
pdf с исследованием в комментариях
#Salesforce #CRM #Benchmark
———
@tsingular
👍8✍3⚡2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Генерация видео в реальном времени от Krea.ai
Креа открыла запись в wait-list на реалтайм-генерацию видео.
12+ fps. На входе промпт, картинка, копия экрана или даже вебка.
Вы помните, что Креа была первым стартапом, который сделал реалтайм-рисовалку - генерацию картинок в реальном времени (был ещё Vizcom).
Теперь они взяли "модель мира" (непонятно чью/какую) и сделали вот такой "подрендер" этого мира.
Выглядит убойно.
https://www.krea.ai/blog/announcing-realtime-video
@cgevent
Креа открыла запись в wait-list на реалтайм-генерацию видео.
12+ fps. На входе промпт, картинка, копия экрана или даже вебка.
Вы помните, что Креа была первым стартапом, который сделал реалтайм-рисовалку - генерацию картинок в реальном времени (был ещё Vizcom).
Теперь они взяли "модель мира" (непонятно чью/какую) и сделали вот такой "подрендер" этого мира.
Выглядит убойно.
https://www.krea.ai/blog/announcing-realtime-video
@cgevent
🔥6👀5⚡1
Postman добавил создание MCP серверов
Postman теперь позволяет создавать MCP серверы из любого публичного API в их сети.
Достаточно взять готовый API и сконвертировать его в MCP-совместимый сервер для интеграции с Claude, VS Code или Cursor.
Поддерживает SSE/HTTP и STDIO конфигурации, TypeScript-архитектуру и Docker развёртывание.
Платформа превращается из инструмента тестирования API в полноценную среду разработки AI-агентов.
Теперь можно автоматизировать сложные API-процессы через ИИ гораздо быстрее.
#Postman #MCP #API
------
@tsingular
Postman теперь позволяет создавать MCP серверы из любого публичного API в их сети.
Достаточно взять готовый API и сконвертировать его в MCP-совместимый сервер для интеграции с Claude, VS Code или Cursor.
Поддерживает SSE/HTTP и STDIO конфигурации, TypeScript-архитектуру и Docker развёртывание.
Платформа превращается из инструмента тестирования API в полноценную среду разработки AI-агентов.
Теперь можно автоматизировать сложные API-процессы через ИИ гораздо быстрее.
#Postman #MCP #API
------
@tsingular
1✍9👍5⚡2🤔2
Forwarded from Neural Kovalskii
This media is not supported in your browser
VIEW IN TELEGRAM
SGR + Tool, Hybrid Deep Research
И так мы продолжаем рубрику эксперименты!
1) Спасибо Диме что предоставил новую ветку где перевел SGR внутрь tool
2) Дальше я уже с легкой руки добавил около ~6 навыков, проработал управление контекстом всего теперь 12 навыков есть у системы и она помнит все предыдущие события
Детально с решением можно ознакомиться в ридми в ветке
Что имеем?
Без фреймворков с сохранением SGR который обернут в tool, более автономную систему которая понимает предыдущий контекст может работать с файловой системой и может искать в интернете
Что дальше?
3) Я приведу обе ветки к единому кол-ву навыком и мы попробуем собрать небольшой датасет дабы проверить надежность таких систем в разных сценариях рисерча
P.S система все еще работает на gpt-4o-mini но для лучшего экспириенса советую поменять на 4o так же хорошо проработан подход работы с кешом и система стала в 2-3 раза быстрее
И так мы продолжаем рубрику эксперименты!
1) Спасибо Диме что предоставил новую ветку где перевел SGR внутрь tool
2) Дальше я уже с легкой руки добавил около ~6 навыков, проработал управление контекстом всего теперь 12 навыков есть у системы и она помнит все предыдущие события
Детально с решением можно ознакомиться в ридми в ветке
hybrid_reasoner_sgr_with_tools Что имеем?
Без фреймворков с сохранением SGR который обернут в tool, более автономную систему которая понимает предыдущий контекст может работать с файловой системой и может искать в интернете
Что дальше?
3) Я приведу обе ветки к единому кол-ву навыком и мы попробуем собрать небольшой датасет дабы проверить надежность таких систем в разных сценариях рисерча
P.S система все еще работает на gpt-4o-mini но для лучшего экспириенса советую поменять на 4o так же хорошо проработан подход работы с кешом и система стала в 2-3 раза быстрее
👍3❤2⚡1🔥1
Прикольная задумка:
Переделать любую карту из вида сверху в 3Д Street View.
Пробовать тут
#нанобанана #Google
———
@tsingular
Переделать любую карту из вида сверху в 3Д Street View.
Пробовать тут
#нанобанана #Google
———
@tsingular
1🔥6👍2
Forwarded from Сергей Булаев AI 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
#КриповаяСуббота
RL-фитнес для роботов... немного страшненько.. Не верится..
Ссылка на полное видео
Сергей Булаев AI 🤖 - об AI и не только
RL-фитнес для роботов... немного страшненько.. Не верится..
Ссылка на полное видео
Сергей Булаев AI 🤖 - об AI и не только
👍4