Технозаметки Малышева

ByteDance анонсировали Vidi2 — редактор видео на ИИ

Китайский ByteDance выпускает Vidi2 — модель, которая обрабатывает часы видео и по промпту собирает из них готовый ролик.

На внутренних тестах ByteDance Vidi2 обошла Gemini 3 Pro по временной локализации объектов — 53% против 27%. Модель точнее находит моменты в видео и определяет положение объектов.

Архитектура: 12 миллиардов параметров, на базе Gemma-3, адаптивное сжатие токенов для длинных роликов.

Публичного демо пока нет, можно почитать paper

Очень ждём. 12 млрд, - это и на 4090 взлетит.

#Vidi2 #ByteDance #VideoAI
———
@tsingular

🔥8❤2⚡1✍1

2.02K views06:00

Технозаметки Малышева

DeepSite - генератор сайтов от HuggingFace с хостингом

У HuggingFace вышел конкурент Lovable -платформа для вайбкодинга веб сайтов с возможностью автоматического разворачивания, бесплатного хостинга, бесшовной интеграцией с моделями на HuggingFace и подключением их железа для генерации различного контента с ИИ.

Для генерации сайтов можно использовать различные модели на выбор:
DeepSeek V3, Qwen3, Kimi K2, GLM 4.6, Minimax M2.

Идеально для стартапов, прототипов и пет-проектов

#huggingface #deepsite #dev
———
@tsingular

🔥9✍5⚡1

2.08K viewsedited 06:16

Технозаметки Малышева

1:07

This media is not supported in your browser

VIEW IN TELEGRAM

Magentic-UI от Microsoft - локальный Manus

Майкрософт опубликовали интересный фреймворк - Magentic-UI исследовательский прототип веб-агента с человеком в контуре.

В основе AutoGen с мультиагентной оркестрацией: главный Orchestrator управляет специализированными агентами (WebSurfer, Coder, FileSurfer, UserProxy).

Взаимодействие через accessibility tree плюс скриншоты через новую модель Fara 7B.

Всё крутится в изолированных Docker-контейнерах с ограничением доступа к доменам — без утечек креденшелов и кук.

На бенчмарке WebVoyager успешность задач составила 72-82% в зависимости от модели (человек справляется на 95.7%).

Средняя задержка на действие — 6.8 секунд.

Аналог Manus от Майкрософта, получается, да еще и в оупенсорс!

#MagenticUI #AutoGen #WebAgent #Fara #opensource
———
@tsingular

⚡3👍3

2.43K viewsedited 06:59

Технозаметки Малышева

Pagespeed-MCP-Server: прокачиваем агента-разработчика

Многие же наверное пользуются https://pagespeed.web.dev/ для проверки сайтов на скорость загрузки и типовые ошибки при разработке.

Вам будет полезно:

Нашел MCP-сервер для получения данных PageSpeed.
Тянет метрики скорости загрузки, предупреждения и рекомендации, SEO анализ, оценивает читабельность и оптимизацию ресурсов.

Т.е. теперь Курсор после доработки может сам проверить страницу на все эти метрики и поправить что не так.

Обязательный инструмент в коллекции Курсора и любого ИИ разраба фронтэнда.

Добавляем тут

#MCP #PageSpeed
———
@tsingular

👍11✍3⚡1

2.1K views07:40

Технозаметки Малышева

💡 Запусти ИИ-проект для своего хобби, при условии тотальной нехватки ресурсов и времени

📋 ПРОМПТ ДНЯ:

Роль: Ты — архитектор минималистичных ИИ-проектов, специализирующийся на запуске работающих прототипов в условиях жёстких ограничений по времени и ресурсам.

Ситуация: Я разработчик/дизайнер с базовыми знаниями ИИ и ИТ-инструментов. У меня есть идея для хобби-проекта с применением ИИ, но я хочу реализовать его максимально быстро и с минимальными вложениями. Главная проблема — я не знаю, с чего начать, чтобы не увязнуть в изучении теории, не потратить месяцы на эксперименты и не разочароваться на полпути.

Задача: Помоги мне спроектировать реализуемый ИИ-проект для хобби, используя минималистичное мышление. Покажи, как достичь работающего результата с минимальным набором инструментов, технологий и временных затрат — без перфекционизма, но с конкретным выхлопом.

Формат ответа:
— Серия из 5-7 целевых вопросов для уточнения моей идеи и контекста
— На основе ответов: минимальный стек (1-2 инструмента), пошаговый план на 3-4 вечера, метрика готовности («проект работает, если...»)
— Укажи одну критическую точку, где большинство бросает, и как её пройти

Ограничения:
— Никаких сложных ML-фреймворков или обучения моделей с нуля — только готовые API и no-code/low-code решения
— Фокус на быстром результате: от идеи до работающего прототипа за 6-10 часов суммарно
— Без избыточной теории — только действия, которые приближают к цели

Сначала задай мне 5-7 уточняющих вопросов о моей идее, навыках и доступном времени, затем предложи конкретный план действий.

⚙️ ПРИЁМ:

Ограничение ресурса (Constraint-driven prompting) — Когда ты явно задаёшь жёсткие рамки (время, инструменты, сложность), ИИ фокусируется на практичных решениях вместо идеальных, что даёт реализуемый результат вместо теоретических рассуждений

#промпты #хобби #стартап
------
@tsingular

✍10🔥7❤5👌2🍓1

2.12K viewsedited 09:20

Технозаметки Малышева

ИИ научили искать преступления в звонках заключённых

Компания Securus натренировала языковую модель на семи годах записей телефонных разговоров из тюрем Техаса.

Система ищет в разговорах признаки планируемых преступлений и уже тестируется в реальных учреждениях.

ИИшка тренируется с учётом сленга, кодовых слов, сарказма и многозначности и данных свершившихся инцидентов.

Реально пора запускать список фильмов, которые раньше были фантастическими, а стали документалкой.
Тут чисто Особое мнение на подходе (Minority Report)

#Securus #Prison #особоемнение #minorityreport
———
@tsingular

🔥9👍2❤1✍1🤯1

2.27K views11:26

Технозаметки Малышева

Альтман объявил «code red» в OpenAI из-за Google

Сэм Альтман разослал внутреннее письмо сотрудникам OpenAI с призывом срочно улучшить ChatGPT.

Причина — Gemini 3 от Google показывает впечатляющие результаты: 41% на тесте Humanity's Last Exam против 26.5% у GPT-5.1, 95% точности в математике без инструментов.

Однако OpenAI откладывает запуск рекламы, покупательских инструментов и персонального ассистента Pulse, фокусируясь на базовых улучшениях: персонализация, скорость ответов, надёжность.

При этом компания уже вложила $1.15 трлн в инфраструктуру до 2035 года, но по прогнозам HSBC останется убыточной до 2030-го с дефицитом в $207 млрд.

Месячная аудитория Gemini выросла с 450М до 650М пользователей за три месяца, пока активность в приложении ChatGPT упала на 22.5%.

Радует, что пользователи от этого всего только выиграют.
Модели, которые мы знаем сегодня,- самые слабые в свете будущего, что нас ждёт.

#OpenAI #Gemini #Google
———
@tsingular

👍11⚡22🤣1

1.97K views12:13

Технозаметки Малышева

Transformers v5: PyTorch, новый API и конец TensorFlow

Hugging Face выпустил пятую версию библиотеки Transformers — крупнейший рефакторинг за всю историю проекта.

Главное изменение: полный отказ от TensorFlow и JAX. Теперь только PyTorch.

Упростили поддержку кода при сохранении совместимости с экосистемой (vLLM, SGLang, llama.cpp).

Новый WeightConverter API упрощает загрузку моделей с квантизацией и параллелизмом. Теперь можно комбинировать MoE + квантизацию или Tensor Parallelism + MoE.

Упростили токенизацию: убрали дублирование «быстрых» и «медленных» токенизаторов.

#Transformers #PyTorch #dev
------
@tsingular

✍8❤1👨‍💻1🆒1

2.41K viewsedited 12:53

Технозаметки Малышева

Code Intelligence 2025: руководство по кодовым агентам от ByteDance.

ByteDance решили не отставать от Гугла и выкатили свой гайд как нужно варить агентов.
Полное руководство на 300 страниц, поэтому даю выжимку для тех, у кого времени нет:

Суть: Мы переходим от эпохи AI-Assisted (где ИИ — это автодополнение, как Copilot) к эпохе AI-Driven/Autonomous (где ИИ — это агенты, выполняющие инженерные задачи целиком).

1. Главные тренды в моделях
- Специализация рулит: Общие LLM (GPT-4o) хороши, но специализированные "Code LLMs" (DeepSeek-Coder-V3, Qwen2.5-Coder, StarCoder2) часто эффективнее и дешевле в деплое.

- Архитектура: Все уходят в MoE (Mixture-of-Experts). Это стандарт для баланса между огромными знаниями и скоростью инференса.

- Контекст: Окно контекста растет (128k – 1M+ токенов). Модели теперь "видят" не один файл, а весь репозиторий (Repository-Level Understanding).

2. Секреты обучения (Training Recipes)
- RLVR (Reinforcement Learning with Verifiable Rewards): Это новый Грааль. Вместо простого RLHF (где оценивает человек), используют RL на юнит-тестах. Если код скомпилировался и прошел тесты — модель получает награду. Это позволяет моделям "рассуждать" и самопроверяться (как серия OpenAI o1/o3 или DeepSeek-R1).

- Данные: Просто парсить GitHub уже мало (там много мусора). Фокус сместился на синтетические данные высокого качества и строгую фильтрацию (дедупликация, проверка лицензий, удаление PII).

3. Агенты (SWE Agents)
- Сдвиг парадигмы: ИИ теперь не просто пишет функцию, а берет на себя роль Software Engineer.
- Цикл: Планирование -> Кодинг -> Тестирование -> Дебаг -> Деплой.
- Инструменты: Агенты активно юзают терминал, браузер и MCP (Model Context Protocol) для подключения к внешним тулзам.
- Примеры: OpenHands, Devin, SWE-Agent.

4. Бенчмарки (Как измеряют крутость)
- HumanEval устарел: Он слишком простой, модели щелкают его на 90%+.
- Новый стандарт — SWE-bench: Это реальные задачи (Issues) из популярных open-source репозиториев. Если модель может закрыть реальный тикет на GitHub - она крутая.
- LiveCodeBench: Тесты на задачах с соревнований (LeetCode, Codeforces), вышедших после обучения модели, чтобы исключить заучивание.

5. Безопасность (Safety)
- Проблема: Модели, обученные на GitHub, отлично воспроизводят уязвимости (SQL-инъекции, XSS), потому что в обучающей выборке много плохого кода.
- Решение: Обычные фильтры не помогают. Нужен Safety Post-training — дообучение модели на "безопасный код" и защита от атак (джейлбрейков через обфускацию кода).

Итого для практика:
Если вы внедряете ИИ в разработку: смотрите в сторону инструментов, которые умеют работать с контекстом всего проекта (Cursor, Windsurf) и агентных решений, способных самостоятельно запускать код и тесты.

Эпоха простого "чат-бота для кода" заканчивается, начинается эпоха автономных инженеров.

#ByteDance #guide #обучение
———
@tsingular

⚡5🔥4✍3

2.28K viewsedited 15:04

Технозаметки Малышева

0:12

Media is too big

VIEW IN TELEGRAM

Прогресс за 2 года :)

Ноябрь 2023

#MUD #юмор
———
@tsingular

😁10⚡3🔥3

1.98K viewsedited 18:18

Технозаметки Малышева

0:32

This media is not supported in your browser

VIEW IN TELEGRAM

Небольшая иллюстрация как можно из боковой генерации вытащить персонажа

#JSON #обучение #lifehack
———
@tsingular

1🔥24✍6❤‍🔥3👍1

2.11K viewsedited 18:37

Технозаметки Малышева

3:30

Media is too big

VIEW IN TELEGRAM

Новый ролик про EngineAI T800 подвезли.

Не нейрорендер.
Без ускорения.
Все в реальном времени.

Скоро на ринге и в эфире.
В продаже по $25К

Готовьте одежду и мотоцикл.

#EngineAI #T800
------
@tsingular

🤯19⚡7😁3👾3❤1👍1

7K viewsedited 21:10

Технозаметки Малышева

Advent of Agents 2025

Google запускает 25-дневный марафон по разработке агентов - каждый день новая фича за 5 минут.

В программе: Gemini 3 с контекстной инженерией и Computer Use, Agent Development Kit (ADK) на Python, и Vertex AI Agent Engine для быстрого деплоя.

Обещают путь от нуля до production-ready за три недели.

ADK, в принципе, независимый фреймворк, но проблема в том, что весь курс заточен под экосистему Google.

Скорее всего дальше там будет VertexAI, который не всем доступен у нас.
Но в целом почитать и попробовать повторить локально, - имеет смысл, там реально за 5 минут хорошие маленькие примеры собраны.

Вчерашний урок - шаблон в 5 строк на YAML для агента на ADK уже доступен.

#Gemini #ADK #обучение
———
@tsingular

🔥7👍4✍2

2.34K views05:43

Технозаметки Малышева

0:29

Media is too big

VIEW IN TELEGRAM

Gemini3 demo: управление жестами через камеру

Пополняем серию примеров, - что теперь можно сделать за 5 минут с ИИ из области, которая раньше вам была недоступна и занимала бы недели.

Сегодня демка управления разными фигурами в виде облака динамических частиц, которые морфятся друг в друга и управляемы жестами руки на камеру.

AiStudio->Build->Промпт:

Create a React 19, TypeScript, Three.js (@react-three/fiber), and Tailwind CSS application called "Gemini Kinetic Particles".

Core Functionality:
    Hand Tracking: Use @mediapipe/tasks-vision to detect hands. Map pinch gestures to particle chaos/attraction, hand distance to zoom, and hand position to 3D rotation. Implement input smoothing (lerp) and robust camera error handling (including stream cleanup and resolution constraints).

    Particle System: Render 5000 particles using THREE.Points with a custom radial gradient texture.

    Shape Modes:
        Math-based: Sphere, Cube, Saturn, Spiral.
        Physics-based: "Fireworks" mode with gravity, drag, velocity, and continuous multi-colored explosions using vertex colors.
        Procedural Sculptures: "Bear" (composed of spheres for limbs/head) and "Statue" (MSU Tower composed of boxes). These must be generated purely mathematically.

    Transitions: Implement smooth interpolation (lerp) when switching between shapes.

    Controls: A modern dark UI overlay with connection status, shape selector (clickable + A/D keyboard shortcuts), and color picker.

    UX: Ensure the scene is completely static/stable when idle (no infinite zoom or drift).

Rely solely on hardcoded procedural generation functions for all shapes.

#Gemini #dev #particles #camera #gestures #промпты
———
@tsingular

🔥10🤯4✍2🗿1

2.18K viewsedited 08:22

Технозаметки Малышева

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

This media is not supported in your browser

VIEW IN TELEGRAM

Kling 2.6

Третий день омниканальных новостей от Клинга!

Слоган: "See the Sound, Hear the Visual". Типа усмотри звук, услышь визуал.

Акцент на генерацию звука: монологи с липсинком, нарратив, мульти-диалоги(!), музика, пестни, спецэффекты. Все это для text-to-video и image-to-video. Можно озвучивать и оживлять не только людей, но и персонажи.

Раскатано везде, от Фала до Хиггса.

Интересно, что они еще бахнут на этой неделе? Куда уж круче?

Ну и у меня реально ощущение, что в декабре все просто взбесились. Только третье число, а все изрыгают новости с такой скоростью, что декабрь по информационной колмогоровской плотности превзойдет весь 2025 год.

Что же будет в 2026?

@cgevent

🔥15🏆4❤1⚡1

1.94K views17:08

Технозаметки Малышева

Microsoft AI требует от сотрудников стать AI-native к концу года

Вице-президент по дизайну Лiz Danzico объявила, что подразделение Microsoft AI ожидает от всех сотрудников перехода в статус AI-native до конца фискального года (лето 2026).

В июле компания сделала навыки работы с ИИ обязательными для всех ролей и уровней, встроив их в оценку производительности. Джулия Лиусон заявила: "использование ИИ больше не опционально - это основа каждой роли".

Однако четкого определения "AI-native" нет. Внутренние исследования показывают, что для выработки привычки нужно использовать Copilot минимум трижды в неделю на протяжении 7-8 недель.

Пилоты показывают разброс: юристы оценили продуктивность на 3.0/5.0, а клиентский сервис - на 4.2/5.0. Некоторые зафиксировали сокращение времени на email на 20-25%.

Расход токенов бы посчитали на каждого сотрудника. :)

#Microsoft #Copilot #AINative
———
@tsingular

😁15❤2⚡2👍2👏1

2.42K viewsedited 17:40

Технозаметки Малышева

Forwarded from Data Secrets

Как ИИ взломал блокчейн контрактов на $4,6 млн: новое исследование Anthropic

Сразу дисклеймер: ничьи кошельки не пострадали, все тесты проводили в симуляции. Anthropic red team (ну просто на всякий случай 😐 ) решили проверить, сколько денег современный ИИ способен "украсть", если дать ему такую задачу.

Они взяли 405 настоящих смарт-контрактов, которые реально взламывали в 2020–2025 годах (такие данные открыты) и сделали из этого бенчмарк SCONE-bench. Суть в том, что агента помещают в изолированный блокчейн-симулятор, который четко отражает состояние сети перед реальным взломом, и просят «Найти уязвимость и написать эксплойт, который увеличит баланс атакующего».

Итог: всего модели смогли написать рабочие эксплойты на сумму 550,1 миллион долларов в переводе на современный курс.

Но вы сейчас скажете: "Это просто зубрежка датасета", – и будете, в целом, правы. Только Anthropic тоже об этом подумали, и потому провели дополнительный эксперимент.

Они выбрали из всего датасета 34 контракта, взломанных после марта 2025 года (то есть после knowledge cutoff у моделей) и прогнали по ним Opus 4.5, Sonnet 4.5 и GPT-5.

Относительный результат почти не ухудшился: суммарная виртуальная добыча оказалась равна $4,6 млн, лучший результат – у Opus 4.5.

Вот в такое время живем.

Please open Telegram to view this post

VIEW IN TELEGRAM

👏11⚡7🔥4❤3🐳1

1.92K views18:57

Технозаметки Малышева

Microsoft выпустил Call-Center-AI

Майкрософт опубликовал исходники PoC системы автоматических звонков на базе Azure Communication Services (Azure Communication Services, Azure Cognitive Services и Azure OpenAI ).

Бот принимает входящие и совершает исходящие вызовы через обычные телефонные номера.

Всё работает на связке Azure Call Automation + OpenAI + распознавание речи.

Технически это SIP-маршрутизация через PSTN с лимитом в 2 одновременных исходящих звонка на номер по умолчанию.

Краткое описание системы
- Коммуникации и UX: Входящие/исходящие звонки с выделенным номером, мультиязычность, SMS-обмен данными, потоковая передача в реальном времени, восстановление после разрывов связи, сохранение истории. Доступность 24/7 для звонков низкой и средней сложности.
- ИИ и данные: Модели gpt-4.1 и gpt-4.1-nano для глубокого понимания контекста. Работа с конфиденциальными данными через RAG, понимание отраслевой терминологии, автогенерация задач, фильтрация контента, защита от взлома. Дообучение на истории диалогов, кэширование через Redis.

Кастомизация и контроль: Настраиваемые промпты, feature-флаги, переключение на оператора, запись звонков, мониторинг через Application Insights. В планах — автоколлбэки, IVR-сценарии, брендированный голос.

Инфраструктура: Azure, контейнеры, serverless — минимум обслуживания, автомасштабирование, оплата по использованию. Интеграция с Azure Communication Services, Cognitive Services и OpenAI.

Полезная демка-референс, если вы строите свои сервисы обработки звонков.
Форкаем, переписываем под свою архитектуру.

#Microsoft #CallCenter #opensource
———
@tsingular

✍6❤1👍1🆒1

1.89K views04:54

About

Blog

Apps

Platform