Технозаметки Малышева

0:54

Media is too big

Google Gemini Omni: новый уровень творчества

Google собрал весь мультимодальный стек в одну модель: текст, изображение, аудио, видео на вход - видео на выход.
Первая модель семейства, Gemini Omni Flash, уже доступна подписчикам.

🤖 Что под капотом: Omni принимает любую комбинацию входов (текст + фото + звук + видео) и генерирует видео за один проход модели, а не через цепочку специализированных систем. Каждая инструкция наслаивается на предыдущую: «замени скульптуру на мыльные пузыри», «когда рука касается зеркала - зеркало плывёт» - модель помнит контекст и сохраняет персонажей сквозь правки. Физика улучшена: гравитация, кинетика, динамика жидкости.

💰 Доступ и цены: AI Plus от $20/мес, AI Ultra от $100/мес с приоритетом. Пока только потребительский продукт. Vertex AI API - «в ближайшие недели». Для продакшена пока рано - нет API, нет SLA.

🛡 Безопасность: Каждый ролик маркируется невидимым цифровым водяным знаком SynthID. Google расширяет C2PA Content Credentials и запускает AI Content Detection API для распознавания сгенерированного контента.

Omni - программируемый видеодвигатель по генерации новой реальности кинематографического качества, а не просто игрушка для нейрорендера.
Вариантная реклама, обучающие ролики, визуализация продуктов, фильмы - все можно создавать без студии и привычных рендер инструментов.

#Gemini #Omni #Google #нейрорендер
------
@tsingular

🔥12❤4⚡2🤯2

5.28K views07:14

Forwarded from в IT и выйти

Накопление уникальных данных будет главным условием для прорыва в отечественной робототехнике. Роботы до сих пор отстают от текстовых моделей — всё из-за отсутствия базы для обучения, заявил старший вице-президент Сбера, руководитель блока «Технологическое развитие» Андрей Белевцев на ЦИПР-2026.

Главное из выступления про физический ИИ:

• Прорыв в LLM случился благодаря огромному объему текстов, которые человечество писало веками.

• С роботами это не сработало, так как собирать данные об их движениях в пространстве слишком дорого.

• Сейчас индустрия делает ставку на модели VLA (vision, language, action).

• В моделях VLA текст — связующее звено между «зрением» машины и ее физическим действием.

Сейчас Сбер собирает собственные системы, которые видят происходящее и логично реагируют на него, так что физический киберпанк можно ждать совсем скоро.

@techmedia

👀18👻5❤2😁1💯1

1.51K views08:13

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

0:10

Gemini Omni. Редактирование

Еще три примера редактирования от fofr.

1. исходник
2. сделай её невидимой, надень на неё перчатки
3. пока она говорит, подходят двое мужчин и уносят фотографию в рамке
4. поменяй ее одежду

Ну то есть можно рассматривать Gemini Omni как Нанобанану только для видео. Понимание происходящего в кадре потрясающее, возможности редактирования тоже.

За сим вырисовывается такой пайплайн: генерация в Сиденс, редактирование в Омни.

Да, дороговато получается.

@cgevent

🤯7👍6🔥32❤1❤‍🔥1

1.43K views10:36

Forwarded from Machinelearning

2:06

🌟

Nous Research придумала метод предобучения LLM с заявленным ускорением в 2–3 раза

Исследовательская группа опубликовала описание метода Token Superposition Training, который, по утверждению авторов, ускоряет предобучение больших языковых моделей в 2–3 раза по реальному времени при неизменном объёме вычислений.

🟡

Суть метода авторы описывают так

На первые 20–40% обучения модель обрабатывает не отдельные токены, а батчи из нескольких идущих подряд токенов, их векторные представления усредняются на входе, а на выходе применяется модифицированная функция потерь.

Никакого отбора по смыслу, частоте или содержанию нет - деление чисто механическое, по позиции в тексте.

Внутри бвтча порядок токенов отбрасывается. Модель не учится предсказывать, какой токен стоит на какой конкретной позиции в ближайшем будущем, - только то, какие токены вообще там встречаются.

Размер батча - один из двух ключевых параметров метода. Оптимальное значение растёт вместе с размером модели: для 270 млн параметров оно лежало в диапазоне от 3 до 8 токенов, а для 10 млрд равнялось 16

Оставшуюся часть обучения модель переводят на обычный режим предсказания следующего токена. По словам Nous Research, готовая модель на инференсе ничем не отличается от обученной стандартным способом - архитектура, оптимизатор, токенизатор или набор данных не изменяются.

Метод протестили на моделях 4-х размеров: 270 млн, 600 млн и 3 млрд параметров, а также на 10 миллиардной MoE.

В самом крупном эксперименте модель с TST достигла более низкого значения лосса, чем сопоставимая по вычислениям базовая модель, примерно за 40% времени и показала лучшие результаты на тестах HellaSwag, ARC и MMLU.

🟡

Ограничения

TST расходует обучающие данные быстрее обычного, поскольку модель переваривает больше текста. Если обучающих данных мало, метод становится контрпродуктивным.

🟡

Статья

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #LLM #Pertrain #TST #NousResearch

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥8⚡4❤2🤩1

1.42K views11:34

OCR без настройки: распознаём документы через HF облако

Допустим, вам нужно распознать тысячу сканов древних книг к вечеру.
Или свежую подборку рассекреченных документов об НЛО :).
Вариантов два: несколько часов гонять их на своём GPU, разбираться с драйверами и пайплайном. Или сделать проще.

HuggingFace собрали готовый процесс: репозиторий uv-scripts/ocr - 20 моделей на выбор, запуск одной командой через Jobs.
Вы даёте датасет, указываете модель, всё остальное происходит в облаке.
Цена: от $0.60/час на T4.

🤖 Что можно выбрать:
Falcon-OCR (0.3B): копеечная оцифровка больших объёмов, хорошо справляется с таблицами
GLM-OCR (0.9B): лучший в категории до миллиарда, понимает русский
PaddleOCR-VL-1.5 (0.9B): шесть режимов - текст, таблицы, формулы, графики, spotting, печати
Qianfan-OCR (4.7B): первое место на OmniDocBench, 192 языка
DeepSeek-OCR (4B): пять режимов разрешения на выбор
NuMarkdown-8B (8B): показывает ход рассуждений перед ответом
DoTS.ocr (1.7B): сотня языков из коробки

⚙️ Как это работает:
Одна команда hf jobs uv run с флагом железа и ссылкой на скрипт. Модель запускается в облаке HF сама, батчи обрабатываются, результат складывается обратно на HF Hub. К исходным колонкам добавляется колонка с markdown.

💼 Когда пригодится:
Любой сценарий, где нужно оаспознать большое количетво сканов или PDF.
Не нужно покупать GPU или поднимать инфраструктуру. Кинули датасет, выбрали модель под задачу и бюджет, через час получили готовый текст.

#OCR #HuggingFace #VLM #документы #AI
------
@tsingular

❤8✍6⚡1🔥1

1.41K views04:20

Unsloth разогнали Qwen3.6 через MTP ускорив генерацию в 2 раза

Стандартная языковая модель предсказывает токены поочереди.
Unsloth прикрутили Multi Token Prediction механизм, предсказывающий несколько токенов вперёд, пока основная модель их проверяет.
В примере на сайте Unsloth Qwen3.6 угадывает сразу четыре.
Результат: Qwen3.6 35B-A3B летает на скорости 240 токенов в секунду на RTX 6000.

⚙️ Как работает MTP:
В отличие от обычного инференса MTP (Multi-Token Prediction) ставит поверх общего трансформера 4 независимые головы, каждая из которых заглядывает на 1-4 токена вперёд. Ключевое открытие Meta* FAIR: MTP усиливает «точки выбора», семантически важные развилки текста, а не механическое продолжение.
Это улучшает качество, особенно на коде: 13B-модель решает на 12% больше задач HumanEval и на 17% больше MBPP.

🚀 Что сделал Unsloth:
Unsloth прикрутил MTP-головы Qwen3.6 к GGUF-квантам и выпустил готовые сборки: Qwen3.6-27B-MTP выдаёт 160 tok/s, Qwen3.6-35B-A3B-MTP - 240 tok/s на RTX 6000.
Ускорение 1.4-2.2× без потери точности.
llama.cpp добавил поддержку MTP 16 мая, а Unsloth выпустил GGUF на следующий день.
Модели работают как в Unsloth Studio так и в llama.cpp, vLLM и SGLang.
В олламе MTP пока не замечен.

💼 Зачем бизнесу:
MTP - двойной выигрыш: качество и скорость в одной архитектуре. Для тех, кто гоняет LLM локально, Qwen3.6-MTP на 35B-A3B с 18GB RAM стала первым вариантом, где 240 tok/s достижимы без облака.
Такими темпами самоспекулятивное декодирование через MTP станет стандартом для всех открытых моделей, а не фишкой отдельных сборок.

Надо затестить на других карточках.
Интересно сколько выдаст.
Иметь локального агента с Qwen3.6 даже на 150 токенов в секунду, - это шикарно.
Правда MTP сжирает дополнительно 1 гиг VRAM, но это небольшая плата за скорость.

*Meta, - запрещённая в РФ организация, признанная террористической

#MTP #Qwen36 #Unsloth #LLM #Inference
------
@tsingular

🔥20⚡2❤1🤯1

1.22K viewsedited 06:54

Forwarded from CodeCamp

Россиянам стало сложнее купить подписку OpenAI 💀

Компания обрушила теневой бизнес по продаже доступов — пишет База. Цены на ChatGPT Plus и Team у селлеров взлетели в разы, а перепродажа аккаунтов стала почти невозможной.

Дело в том, что OpenAI изменила настройки совместного использования аккаунтов: алгоритмы тщательнее анализируют активность с разных устройств, отлавливают подозрительные сессии и банят аккаунты.

Не дают спокойно повайбкодить 😭

Please open Telegram to view this post

VIEW IN TELEGRAM

😢154❤1👍1👻1

1.13K views07:20

Forwarded from НейроProfit | Соня Pro Ai

Дизайн-инструкции для AI-агентов

Neuform - это не просто генератор лендингов по промпту, сервис делает HTML-страницы, remix-шаблоны и переиспользуемые дизайн-системы - DESIGN.md

🪼

Смысл простой: вы выбираете понравившееся визуальное направление, берете HTML-шаблон или DESIGN.md, а дальше отдаете его Claude Design, Cursor, Claude Code или другому агенту как понятную дизайн-инструкцию.

🪼 Что можно делать (нажмите, чтобы раскрыть):

• брать готовые визуальные направления для лендингов, app screens, секций, презентаций и анимаций
• использовать DESIGN.md как память о стиле проекта
• просить агента собрать интерфейс в выбранной эстетике
• дорабатывать цвета, типографику, сетку, компоненты и поведение
• уходить от типового AI-интерфейса, где все выглядит как одинаковый Tailwind-шаблон

Neuform помогает упаковать визуальное направление так, чтобы будущий AI-агент мог его повторить: цвета, шрифты, компоненты, настроение, правила интерфейса. То есть, условно, вместо промпта сделай красиво и современно вы даете агенту конкретный дизайн-ориентир.

@NeuralProfit

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7⚡1🤩1

1.15K views07:24

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

0:17

0:17

Text-to-CAD

Но теперь с помощью агентов.

Агент в цикле генерит модель, делает подрендер, оценивает качество, редактирует исходник и тд.

Набор скиллов для Codex, Claude Code и других агентов, позволяющий генерить замысловатые CAD-модели.
Есть экспорт в STEP, STL, 3MF, DXF, GLB.
Есть URDF/SRDF/SDF robot descriptions
Может работать локально.

Код открыт:
https://github.com/earthtojake/text-to-cad
Демо:
https://demo.cadskills.xyz/?file=fun%2Frobotic_hand_end_effector.step (без генерации)

Сайт с описанием: https://www.cadskills.xyz/

@cgevent

1🔥10❤7✍2⚡1👍1🤯1🆒1

1.14K views08:41

Vibecoding moment

#юмор
———
@tsingular

😁38🤣15💯5❤2🎃1

2.28K views09:08

Forwarded from Machinelearning

✔️

DeepSeek планирует создать собственного кодинг-агента

Китайская компания приступила к разработке инструмента, который будет конкурировать с Claude Code от Anthropic, Codex от OpenAI и редактором Cursor. Об этом сообщил в объявлении о найме сотрудник компании Дели Чэн в соцсети X.

Согласно вакансиям, в Пекине формируется новая команда под названием Harness, которая займётся разработкой продукта с рабочим названием DeepSeek Code.

DeepSeek ищет менеджера продукта и R&D инженера. От обоих кандидатов требуется опыт работы с Claude Code, Cursor, Codex или GitHub Copilot.

Менеджер продукта возьмёт на себя дорожную карту, анализ обратной связи и развитие сообщества пользователей.

В числе обязательных компетенций: понимание агентных циклов, протокола MCP, многоагентных систем и инженерии контекста, а также практический опыт вайб-кодинга.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11❤1🥰1

787 views14:48