Технозаметки Малышева
8.26K subscribers
3.67K photos
1.38K videos
40 files
3.87K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Media is too big
VIEW IN TELEGRAM
Прогресс за 2 года :)

Ноябрь 2023

#MUD #юмор
———
@tsingular
😁103🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Небольшая иллюстрация как можно из боковой генерации вытащить персонажа

#JSON #обучение #lifehack
———
@tsingular
1🔥246❤‍🔥3👍1
Media is too big
VIEW IN TELEGRAM
Новый ролик про EngineAI T800 подвезли.

Не нейрорендер.
Без ускорения.
Все в реальном времени.

Скоро на ринге и в эфире.
В продаже по $25К

Готовьте одежду и мотоцикл.

#EngineAI #T800
------
@tsingular
🤯197😁3👾31👍1
Advent of Agents 2025

Google запускает 25-дневный марафон по разработке агентов - каждый день новая фича за 5 минут.

В программе: Gemini 3 с контекстной инженерией и Computer Use, Agent Development Kit (ADK) на Python, и Vertex AI Agent Engine для быстрого деплоя.

Обещают путь от нуля до production-ready за три недели.

ADK, в принципе, независимый фреймворк, но проблема в том, что весь курс заточен под экосистему Google.

Скорее всего дальше там будет VertexAI, который не всем доступен у нас.
Но в целом почитать и попробовать повторить локально, - имеет смысл, там реально за 5 минут хорошие маленькие примеры собраны.

Вчерашний урок - шаблон в 5 строк на YAML для агента на ADK уже доступен.

#Gemini #ADK #обучение
———
@tsingular
🔥7👍42
Media is too big
VIEW IN TELEGRAM
Gemini3 demo: управление жестами через камеру

Пополняем серию примеров, - что теперь можно сделать за 5 минут с ИИ из области, которая раньше вам была недоступна и занимала бы недели.

Сегодня демка управления разными фигурами в виде облака динамических частиц, которые морфятся друг в друга и управляемы жестами руки на камеру.

AiStudio->Build->Промпт:
Create a React 19, TypeScript, Three.js (@react-three/fiber), and Tailwind CSS application called "Gemini Kinetic Particles".

Core Functionality:
Hand Tracking: Use @mediapipe/tasks-vision to detect hands. Map pinch gestures to particle chaos/attraction, hand distance to zoom, and hand position to 3D rotation. Implement input smoothing (lerp) and robust camera error handling (including stream cleanup and resolution constraints).

Particle System: Render 5000 particles using THREE.Points with a custom radial gradient texture.

Shape Modes:
Math-based: Sphere, Cube, Saturn, Spiral.
Physics-based: "Fireworks" mode with gravity, drag, velocity, and continuous multi-colored explosions using vertex colors.
Procedural Sculptures: "Bear" (composed of spheres for limbs/head) and "Statue" (MSU Tower composed of boxes). These must be generated purely mathematically.

Transitions: Implement smooth interpolation (lerp) when switching between shapes.

Controls: A modern dark UI overlay with connection status, shape selector (clickable + A/D keyboard shortcuts), and color picker.

UX: Ensure the scene is completely static/stable when idle (no infinite zoom or drift).

Rely solely on hardcoded procedural generation functions for all shapes.


#Gemini #dev #particles #camera #gestures #промпты
———
@tsingular
🔥10🤯42🗿1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Kling 2.6

Третий день омниканальных новостей от Клинга!

Слоган: "See the Sound, Hear the Visual". Типа усмотри звук, услышь визуал.

Акцент на генерацию звука: монологи с липсинком, нарратив, мульти-диалоги(!), музика, пестни, спецэффекты. Все это для text-to-video и image-to-video. Можно озвучивать и оживлять не только людей, но и персонажи.

Раскатано везде, от Фала до Хиггса.

Интересно, что они еще бахнут на этой неделе? Куда уж круче?

Ну и у меня реально ощущение, что в декабре все просто взбесились. Только третье число, а все изрыгают новости с такой скоростью, что декабрь по информационной колмогоровской плотности превзойдет весь 2025 год.

Что же будет в 2026?

@cgevent
🔥15🏆411
Microsoft AI требует от сотрудников стать AI-native к концу года

Вице-президент по дизайну Лiz Danzico объявила, что подразделение Microsoft AI ожидает от всех сотрудников перехода в статус AI-native до конца фискального года (лето 2026).

В июле компания сделала навыки работы с ИИ обязательными для всех ролей и уровней, встроив их в оценку производительности. Джулия Лиусон заявила: "использование ИИ больше не опционально - это основа каждой роли".

Однако четкого определения "AI-native" нет. Внутренние исследования показывают, что для выработки привычки нужно использовать Copilot минимум трижды в неделю на протяжении 7-8 недель.

Пилоты показывают разброс: юристы оценили продуктивность на 3.0/5.0, а клиентский сервис - на 4.2/5.0. Некоторые зафиксировали сокращение времени на email на 20-25%.

Расход токенов бы посчитали на каждого сотрудника. :)

#Microsoft #Copilot #AINative
———
@tsingular
😁1522👍2👏1
Forwarded from Data Secrets
Как ИИ взломал блокчейн контрактов на $4,6 млн: новое исследование Anthropic

Сразу дисклеймер: ничьи кошельки не пострадали, все тесты проводили в симуляции. Anthropic red team (ну просто на всякий случай 😐 ) решили проверить, сколько денег современный ИИ способен "украсть", если дать ему такую задачу.

Они взяли 405 настоящих смарт-контрактов, которые реально взламывали в 2020–2025 годах (такие данные открыты) и сделали из этого бенчмарк SCONE-bench. Суть в том, что агента помещают в изолированный блокчейн-симулятор, который четко отражает состояние сети перед реальным взломом, и просят «Найти уязвимость и написать эксплойт, который увеличит баланс атакующего».

Итог: всего модели смогли написать рабочие эксплойты на сумму 550,1 миллион долларов в переводе на современный курс.

Но вы сейчас скажете: "Это просто зубрежка датасета", – и будете, в целом, правы. Только Anthropic тоже об этом подумали, и потому провели дополнительный эксперимент.

Они выбрали из всего датасета 34 контракта, взломанных после марта 2025 года (то есть после knowledge cutoff у моделей) и прогнали по ним Opus 4.5, Sonnet 4.5 и GPT-5.

Относительный результат почти не ухудшился: суммарная виртуальная добыча оказалась равна $4,6 млн, лучший результат – у Opus 4.5.

Вот в такое время живем.
Please open Telegram to view this post
VIEW IN TELEGRAM
👏117🔥43🐳1
Microsoft выпустил Call-Center-AI

Майкрософт опубликовал исходники PoC системы автоматических звонков на базе Azure Communication Services (Azure Communication Services, Azure Cognitive Services и Azure OpenAI ).

Бот принимает входящие и совершает исходящие вызовы через обычные телефонные номера.

Всё работает на связке Azure Call Automation + OpenAI + распознавание речи.

Технически это SIP-маршрутизация через PSTN с лимитом в 2 одновременных исходящих звонка на номер по умолчанию.

Краткое описание системы
- Коммуникации и UX: Входящие/исходящие звонки с выделенным номером, мультиязычность, SMS-обмен данными, потоковая передача в реальном времени, восстановление после разрывов связи, сохранение истории. Доступность 24/7 для звонков низкой и средней сложности.
- ИИ и данные: Модели gpt-4.1 и gpt-4.1-nano для глубокого понимания контекста. Работа с конфиденциальными данными через RAG, понимание отраслевой терминологии, автогенерация задач, фильтрация контента, защита от взлома. Дообучение на истории диалогов, кэширование через Redis.

Кастомизация и контроль: Настраиваемые промпты, feature-флаги, переключение на оператора, запись звонков, мониторинг через Application Insights. В планах — автоколлбэки, IVR-сценарии, брендированный голос.

Инфраструктура: Azure, контейнеры, serverless — минимум обслуживания, автомасштабирование, оплата по использованию. Интеграция с Azure Communication Services, Cognitive Services и OpenAI.

Полезная демка-референс, если вы строите свои сервисы обработки звонков.
Форкаем, переписываем под свою архитектуру.

#Microsoft #CallCenter #opensource
———
@tsingular
61👍1🆒1
Seedream 4.5: новый генератор изображений от ByteDance

ByteDance анонсировал выход Seedream 4.5, - новой модели генерации изображения из текстового запроса с качеством не хуже Nanobanana Pro.
Обещают улучшенное понимание пространства и больше деталей.

Уже есть через API (BytePlus ModelArk, Replicate, fal.ai ) по $0.03-0.04 за картинку примерно.

Посмотреть можно тут.

Такое ощущение, что китайские товарищи специально дожидаются выхода западного решения и сразу следом выпускают своё, но лучше.

Например, -открыл тут для себя GLM 4.6, - chat.z.ai тоже очень достойно пишет проекты на уровне Gemini3 Pro Build. Тоже рекомендую попробовать. (DeepSeek даже близко не стоял)

#ByteDance #Seedream #t2i #нейрорендер #Китай
———
@tsingular
64🆒2
Emu3.5: открытая мультимодальная модель от Zhiyuan Institute

Китайский институт Zhiyuan выкатил Emu3.5 -открытую мультимодальную модель на 34B (полный размер 70гигов), которая умеет предсказывать состояние мира в следующем кадре.

Нейросеть генерирует визуальный контент по тому же принципу, как ChatGPT пишет текст, только сразу в мультимодальном пространстве.

Это позволяет модели удерживать консистентность физики мира и причинно-следственные связи, а не просто склеивать красивые кадры.

Раньше главная проблема такого подхода была в низкой скорости. Авторы решили её через новую технологию DiDA: она распараллеливает процесс и ускоряет генерацию в 20 раз.

Сценариев применения много, от распознавания и генерации картинок и кадров видео, до генерации целых миров без потери связанности по ходу движения.

Посмотреть работу вживую можно тут:
https://emu.world/

Скачать веса тут:
HF

paper
GitHub

Apache 2.0.

#Emu35 #WorldModel #Zhiyuan #Китай
———
@tsingular
🔥84👍31