Технозаметки Малышева

Forwarded from Psy Eyes

This media is not supported in your browser

Kling: добавили генерацию видео с контролем голоса в модель Video 2.6.

Можно выбрать голос из списка с указанием тембра, или загрузить своё аудио до 30 сек, из которого будет вытащен голос и его можно будет применять в разных сценариях с автоматической адаптацией под контекст сцены.

Чтобы прицепить голос к определённому персонажу в сцене указываем в промте Персонаж@НазваниеГолоса. Работает на английском и китайском. Причём голос на английском сможет говорить на китайском и наоборот.

Генерация доступна только в профессиональном режиме. Кредиты за контроль голоса списываются помимо цены за видео по цене 2 кредита/секунда.

PS: ангельский голос на китайском это эпик. Прикинь ты попадаешь в рай, ходишь по облакам, а вокруг тебя ангелочки говорящие тебе что-то на китайском. И ты как Марти такой: "Наверное не тот Рай".

Сайт
Анонс
Гайд

👍10🔥4⚡1

2.01K views10:46

Технозаметки Малышева

Forwarded from эйай ньюз

Вышла Gemini 3 Flash

Выносит по бенчам 2.5 Pro в одни ворота, при этом будучи значительно дешевле. На паре бенчмарков обгоняет даже Gemini 3 Pro. Поддерживает тот же миллион токенов контекста что и большая модель. На вход принимает текст, аудио и картинки, но на выход идёт только текст (по крайней мере пока что). При этом Gemini 3 Flash это гибридный ризонер — можно отключить рассуждения, как и с 2.5 Flash.

Цену за токен по сравнению с 2.5 Flash повысили. Заявляют что вместе с этим повысили и эффективность использования токенов. Это в теории должно было компенсировать повышение цены, но тесты говорят об обратном, по крайней мере с включённым ризонингом.

Модель уже доступна в ai.studio, Antigravity, чате и API. AI режим Google тоже переводят Gemini 3 Flash уже сегодня (наконец-то там будете нормальная модель).

Блогпост

@ai_newz

🔥19⚡4🎉3❤2

2.34K views18:46

Технозаметки Малышева

Еще немного деталей из анонса

Модель самая оптимальная в своем классе по соотношению стоимости на производительность. см график.

Производительность и бенчмарки:

В задачах на кодинг (SWE-bench Verified) набирает 78%, превосходя даже "старшую" Gemini 3 Pro.
При этом цена в 5 раз дешевле GPT 5.2.

В ПЯТЬ РАЗ!!!

Просто отменили OpenAI из Курсора и пр. кодовых агентов

Набрала 90.4% на тесте GPQA Diamond (уровень PhD).

В 3 раза быстрее, чем Gemini 2.5 Pro.

Использует на 30% меньше токенов для выполнения тех же задач.

Стоимость API: $0.50 за 1 млн входных токенов и $3 за 1 млн выходных.

Адаптивное мышление: Модель умеет «модулировать» процесс мышления — тратить больше времени на сложные задачи и моментально отвечать на простые.

Мультимодальность: Высокая скорость обработки видео и аудио (например, для анализа действий в играх или видео в реальном времени).

С сегодняшнего дня становится бесплатной моделью по умолчанию в приложении Gemini и в AI-режиме Google Поиска!!!

Наконец-то поиск в Гугле перестанет тупить в ИИ режиме :)
Ну и скорость и ценник просто огонь!
Осталось все это на практике подтвердить.

#Google #Gemini #Flash
———
@tsingular

🔥15❤5⚡4🏆3🤯1

5.17K views19:06

Технозаметки Малышева

OpenAI добавили на платформу публикацию MCP приложений

OpenAI открыла витрину приложений внутри ChatGPT.
Теперь приложение можно будет предзагрузить и оно появится как инструмент в интерфейсе чата.

Это превращает ChatGPT из чатбота в платформу.
Пользователь запускает сторонние сервисы не выходя из разговора — от бронирования билетов до анализа данных.

По сути это копия Skills от Anthropic.

Вся коммуникация между ИИ и приложением происходит по MCP протоколу, просто он тянется не куда-то далеко, а вызывает код вашего приложения сразу на платформе в iframe и так же обновляется.

Безопасники в восторге будут, думаю.
Там конечно обещают премодерацию и все такое, но :)

#OpenAI #ChatGPT #AppStore
------
@tsingular

✍12🤔22

9.26K viewsedited 02:11

Технозаметки Малышева

Китай тестирует прототип EUV-литографа

Китайский прототип установки для экстремальной ультрафиолетовой литографии проходит испытания.

Это критическая технология для производства чипов с нормами ниже 7 нм, которую сейчас монополизирует голландская ASML.

Если прототип докажет работоспособность, Китай обеспечит себе независимость в производстве полупроводникового оборудования.

Huawei, кстати, полную цепочку поставок создает местную под микроэлектронику.

Для ИИ-индустрии это означает потенциальное удешевление производства акселераторов и снятие узких мест в цепочках поставок.

Однако путь от прототипа до серийного производства может занимать годы - ASML потратила десятилетия на доводку своих машин до промышленных стандартов.

#EUV #Китай #semiconductors #Huawei
———
@tsingular

✍67🔥63❤13🏆5❤‍🔥1

11.2K viewsedited 02:43

Технозаметки Малышева

🏰 DisneyGPT — корпоративный AI-ассистент Disney

Если вы сотрудник Дисней, - чатГПТ теперь есть у вас дома. :)

Disney внедряет собственные AI-инструменты после миллиардной сделки с OpenAI.

Что умеет DisneyGPT:
- IT-тикеты и запросы в поддержку
- Поиск по корпоративному справочнику сотрудников
- Анализ финансов проектов
- Работа с Excel и PowerPoint (добавили в декабре)

Интерфейс в фирменном стиле: "готовы к волшебному приключению?" Fiction Horizon + коллекция цитат Уолта Диснея по темам — воображение, настойчивость, лидерство.

Что дальше: В разработке агентный AI под кодовым именем Jarvis (да, как у Железного Человека). Будет выполнять задачи от имени сотрудников DNYUZ, но пока "не полностью готов".

Доступ ограничен — бета только для штатных сотрудников.
Почасовики, профсоюзы, Pixar, круизные команды и ряд международных парков пока без доступа.

Любопытно: Трое из восьми опрошенных сотрудников признались, что неодобренные инструменты вроде Claude от Anthropic эффективнее корпоративных DNYUZ.
/это они ещё Gemini 3 Flash не пробовали :)/

Некоторые используют личные аккаунты для работы. (общая тенденция)

Параллельно Disney отправил Google cease-and-desist за несанкционированное использование контента для обучения AI Slate.

Не угадали они, конечно с провайдером :)
Но вот что интересно на заметку, - они хостят у себя ИИ площадку для внештатных сотрудников и контрагентов.
Вот это сервис.

#Disney #DisneyGPT #EnterpriseAI #Jarvis
———
@tsingular

❤4✍4🆒2⚡1

8.69K views02:57

Технозаметки Малышева

Гомеопатический ИИ, - когда ИИ в каждом проекте, даже если по чуть чуть. :)

#юмор
———
@tsingular

😁14👍3🎉3✍2

4.04K views05:48

Технозаметки Малышева

0:59

This media is not supported in your browser

VIEW IN TELEGRAM

ResembleAI выкатили Chatterbox Turbo

Resemble выпустили Chatterbox Turbo,- речевую модель на 1.2B параметров, которая генерит аудио со скоростью 180 токенов/сек на одной H100.

Работает на диффузной архитектуре практически в реальном времени даже на средних серверах.

Поддерживает клонирование голоса, управление интонацией и эмоциями через текстовые промпты.

Поддержка языков:
Arabic (ar) • Danish (da) • German (de) • Greek (el) • English (en) • Spanish (es) • Finnish (fi) • French (fr) • Hebrew (he) • Hindi (hi) • Italian (it) • Japanese (ja) • Korean (ko) • Malay (ms) • Dutch (nl) • Norwegian (no) • Polish (pl) • Portuguese (pt) • Russian (ru) • Swedish (sv) • Swahili (sw) • Turkish (tr) • Chinese (zh)

Turbo только английский поддерживает, к сожалению. Для других языков там multilingual, который только по api (русский он ужасно генерирует)

Лицензия MIT — качай, крути на своём железе, интегрируй куда хочешь.

HuggingFace

GitHub

Отменяем подписку на ElevenLabs :)
Добавляем в коллекцию opensource.

#ResembleAI #TTS #Chatterbox
———
@tsingular

✍6🔥4⚡2

3.9K viewsedited 06:16

Технозаметки Малышева

Forwarded from Machinelearning

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

TurboDiffusion: ускорение генерации видео в 100+ раз.

Суровая реальность нашего времени: вы хотите сгенерировать 5-секундное видео на большой SOTA-модели. Вы запускаете промпт, идете пить кофе, возвращаетесь, а процесс все еще идет. И зачастую генерация может занимать больше часа.

Главные виновники - чудовищная вычислительная сложность механизма внимания в трансформерах, необходимость сотен шагов денойзинга и огромный объем памяти для весов в полной точности.

Авторы проекта TurboDiffusion из Цинхуа и Беркли решили собрать все эффективные методы сжатия и ускорения в один пайплайн. Их идея заключалась в том, что разреженность и квантование — это техники, которые не мешают друг другу.

🟡

Архитектура держится на 3-х китах оптимизации:

🟢Заменили стандартное внимание на гибрид из SageAttention2++ и Sparse-Linear Attention (SLA), который превратил квадратичную сложность в линейную. чтобы модель фокусировалась только на важных токенах.

🟢Дистиллировали сэмплинг через rCM - вместо стандартных 50–100 шагов модель приходит к результату всего за 3-4 шага без потери сути изображения.

🟢Перевели и веса и активации линейных слоев в INT8 используя блочное квантование, чтобы не потерять точность.

В довершении ко всему смогли объединить после файнтюнинга под SLA и дистилляции rCM веса в единую модель, избежав конфликтов.

🟡

Результаты бенчмарков выглядят как опечатка, но это не она.

На RTX 5090 время генерации для тяжелой модели Wan2.2-I2V 14B упало с 69 минут до 35.4 секунд. А для более легкой Wan 2.1-1.3B - с почти 3-х минут до 1.8 секунды.

Это ускорение больше чем в 100 раз.

При этом, судя по примерам, визуальное качество осталось практически неотличимым от оригинала.

📌Лицензирование: Apache 2.0 License.

🟡

Набор моделей

🟡

Техотчет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #I2V #T2V #TurboDiffusion

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡18🤯7🔥6❤2👀2

2.57K views13:45

Технозаметки Малышева

Mistral выпустил OCR-модель третьего поколения

Mistral выкатил третье поколение OCR. Главный фокус — универсальность: одна модель для всех типов документов вместо зоопарка специализированных решений.

Ключевые цифры:
- 74% win rate над предыдущей версией
- $2 за 1000 страниц ($1 через Batch API - в 10+ раз дешевле конкурентов)
- 95-98% точность по языкам (китайский, восточноазиатские, европейские)
- Модель: mistral-ocr-2512

Где рвёт конкурентов (см. графики):
- Формы: 95.9% vs Azure 86.2%
- Рукописный текст: 88.9% vs Textract 72.4%
- Сложные таблицы: 96.6% vs Google DocAI 75.9%
- Исторические сканы: 96.7% — лидер

AWS Textract, Azure, Google DocAI, DeepSeek OCR — все позади, причём с заметным отрывом.

Техническая начинка:
- Markdown на выходе с HTML-таблицами (colspan/rowspan сохраняются)
- Извлечение встроенных изображений
- Устойчивость к артефактам сжатия, перекосам, низкому DPI

Один минус, - не оупенсорс.
Доступно через API и Document AI Playground (drag-and-drop интерфейс в Mistral AI Studio).
Т.е. конфиденциалку не пораспознаешь.

#Mistral #OCR #документы
———
@tsingular

🔥7⚡2❤1🤨11

2.17K views17:27

Технозаметки Малышева

🤖 Самые маленькие автономные роботы в мире — меньше крупинки соли

Команды Penn и UMich создали микророботов размером 200×300×50 микрометров, которые умеют думать, чувствовать и действовать самостоятельно.
Цена — 1 цент за штуку.

Почему это прорыв:
40 лет робототехника не могла преодолеть барьер в 1 мм.
На микромасштабе вода ощущается как смола — обычные "руки и ноги" не работают.

Как решили:
Вместо движения конечностями роботы создают электрическое поле, которое двигает ионы в растворе. Ионы толкают воду → робот плывёт. Никаких подвижных частей = месяцы работы без поломок.

Техническая начинка:
- Процессор + память + сенсоры на чипе меньше миллиметра
- Питание от света (LED) — 75 нановатт (в 100 000 раз меньше смарт-часов)
- Датчик температуры с точностью 0.3°C
- Уникальный адрес у каждого робота — можно загружать разные программы

Фишка: роботы "танцуют", чтобы передать данные — как пчёлы. Камера под микроскопом декодирует движения например в показания температуры.

Применение:
- Медицина: мониторинг здоровья отдельных клеток
- Производство: сборка микроустройств
- Координированные группы роботов для сложных задач

Платформа модульная — можно добавлять новые сенсоры и функции.

Не сразу понял где тут робот на фото.

#микророботы #нанотех #Penn #UMich
———
@tsingular

👀24🔥197❤3🤯2👾1

3.16K views17:43

Технозаметки Малышева

FunctionGemma - открытая 270M модель для работы с API

Google представил FunctionGemma — специализированную модель для вызова функций через структурированный вывод.

Основана на Gemma 2, обучена определять когда нужно использовать внешние инструменты и как правильно передавать параметры.

Открытые веса, Apache 2.0 лицензия.

HuggingFace

Бенчмарки показывают конкурентные результаты с GPT-4 на задачах function calling при значительно меньшем размере.

Google позиционирует это как шаг к надёжным агентам, которые умеют взаимодействовать с реальным миром через инструменты.

#FunctionGemma #Gemma #Google
———
@tsingular

✍5👍3❤1🆒1

1.98K viewsedited 17:37

Технозаметки Малышева

NVIDIA RTX Pro 5000: 72GB памяти на Blackwell

NVIDIA выпустила RTX Pro 5000 с архитектурой Blackwell - профессиональную карту с 72GB памяти.

Это удвоение против предыдущего поколения Ada, что критично для больших языковых моделей и сложных визуальных сцен.

Предназначена для офисных рабочих станций для ИИ-разработки, 3D-рендеринга и научных симуляций.

Blackwell принёс не только объём, но и производительность: пятое поколение тензорных ядер ускоряет инференс трансформеров в разы.

Теперь локальный запуск 70B моделей становится реальностью для обычных офисов, а не только для дата-центров.

Интересно что по цене будет, когда до нас доедет.
И будут ли их отключать по геолокации, как H200, например.

#NVIDIA #Blackwell #RTX5000
———
@tsingular

👍8⚡6👨‍💻3😐1

1.96K views17:43

Технозаметки Малышева

OpenAI представила GPT-5.2-Codex — новую модель для программирования и кибербезопасности

Модель является развитием линейки GPT-5.2 с дополнительной оптимизацией для работы в среде Codex.

Ключевые улучшения включают сжатие контекста для длительных сессий, более надёжную обработку крупных задач по рефакторингу и миграции кода, улучшенную поддержку Windows, а также значительно усиленные возможности в кибербезопасности.

При этом OpenAI признаёт риски двойного назначения: те же возможности могут использовать и злоумышленники.

Модель демонстрирует лучшие результаты на бенчмарках SWE-Bench Pro (56,4%) и Terminal-Bench 2.0 (64%), опережая предыдущие версии.

Улучшенное визуальное восприятие позволяет точнее работать со скриншотами, схемами и макетами интерфейсов.

GPT-5.2-Codex уже доступен платным пользователям ChatGPT через Codex, доступ через API планируется в ближайшие недели.

#OpenAI #Codex #cybersecurity
———
@tsingular

👍4❤3✍2

2.14K views18:03

About

Blog

Apps

Platform