Технозаметки Малышева
11.1K subscribers
4.6K photos
1.7K videos
41 files
4.66K links
Новости инноваций из мира Искусственного Интеллекта. 🤖 [РКН: 7021469833 ]

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸: https://pay.cloudtips.ru/p/c8960bb
Download Telegram
что то после всех этих историй когда ИИ удаляет данные, я вообще слово "удалить" стараюсь не использовать в запросах.

лучше пусть я потом сам руками почищу что там осталось лишнего, чем такое вот.
Поэтому конечно этого со мной никогда не случится ;)

#юмор
———
@tsingular
😁28👀6🔥3💯21
Media is too big
VIEW IN TELEGRAM
Google Gemini Omni: новый уровень творчества

Google собрал весь мультимодальный стек в одну модель: текст, изображение, аудио, видео на вход - видео на выход.
Первая модель семейства, Gemini Omni Flash, уже доступна подписчикам.

🤖 Что под капотом: Omni принимает любую комбинацию входов (текст + фото + звук + видео) и генерирует видео за один проход модели, а не через цепочку специализированных систем. Каждая инструкция наслаивается на предыдущую: «замени скульптуру на мыльные пузыри», «когда рука касается зеркала - зеркало плывёт» - модель помнит контекст и сохраняет персонажей сквозь правки. Физика улучшена: гравитация, кинетика, динамика жидкости.

💰 Доступ и цены: AI Plus от $20/мес, AI Ultra от $100/мес с приоритетом. Пока только потребительский продукт. Vertex AI API - «в ближайшие недели». Для продакшена пока рано - нет API, нет SLA.

🛡 Безопасность: Каждый ролик маркируется невидимым цифровым водяным знаком SynthID. Google расширяет C2PA Content Credentials и запускает AI Content Detection API для распознавания сгенерированного контента.

Omni - программируемый видеодвигатель по генерации новой реальности кинематографического качества, а не просто игрушка для нейрорендера.
Вариантная реклама, обучающие ролики, визуализация продуктов, фильмы - все можно создавать без студии и привычных рендер инструментов.

#Gemini #Omni #Google #нейрорендер
------
@tsingular
🔥1032🤯2
Forwarded from в IT и выйти
Накопление уникальных данных будет главным условием для прорыва в отечественной робототехнике. Роботы до сих пор отстают от текстовых моделей — всё из-за отсутствия базы для обучения, заявил старший вице-президент Сбера, руководитель блока «Технологическое развитие» Андрей Белевцев на ЦИПР-2026.

Главное из выступления про физический ИИ:
• Прорыв в LLM случился благодаря огромному объему текстов, которые человечество писало веками.

• С роботами это не сработало, так как собирать данные об их движениях в пространстве слишком дорого.

• Сейчас индустрия делает ставку на модели VLA (vision, language, action).

• В моделях VLA текст — связующее звено между «зрением» машины и ее физическим действием.


Сейчас Сбер собирает собственные системы, которые видят происходящее и логично реагируют на него, так что физический киберпанк можно ждать совсем скоро.

@techmedia
👀14👻52💯1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini Omni. Редактирование

Еще три примера редактирования от fofr.

1. исходник
2. сделай её невидимой, надень на неё перчатки
3. пока она говорит, подходят двое мужчин и уносят фотографию в рамке
4. поменяй ее одежду

Ну то есть можно рассматривать Gemini Omni как Нанобанану только для видео. Понимание происходящего в кадре потрясающее, возможности редактирования тоже.

За сим вырисовывается такой пайплайн: генерация в Сиденс, редактирование в Омни.

Да, дороговато получается.

@cgevent
🤯5👍3🔥21❤‍🔥11
Forwarded from Machinelearning
🌟 Nous Research придумала метод предобучения LLM с заявленным ускорением в 2–3 раза

Исследовательская группа опубликовала описание метода Token Superposition Training, который, по утверждению авторов, ускоряет предобучение больших языковых моделей в 2–3 раза по реальному времени при неизменном объёме вычислений.

🟡Суть метода авторы описывают так

На первые 20–40% обучения модель обрабатывает не отдельные токены, а батчи из нескольких идущих подряд токенов, их векторные представления усредняются на входе, а на выходе применяется модифицированная функция потерь.

Никакого отбора по смыслу, частоте или содержанию нет - деление чисто механическое, по позиции в тексте.

Внутри бвтча порядок токенов отбрасывается. Модель не учится предсказывать, какой токен стоит на какой конкретной позиции в ближайшем будущем, - только то, какие токены вообще там встречаются.

Размер батча - один из двух ключевых параметров метода. Оптимальное значение растёт вместе с размером модели: для 270 млн параметров оно лежало в диапазоне от 3 до 8 токенов, а для 10 млрд равнялось 16


Оставшуюся часть обучения модель переводят на обычный режим предсказания следующего токена. По словам Nous Research, готовая модель на инференсе ничем не отличается от обученной стандартным способом - архитектура, оптимизатор, токенизатор или набор данных не изменяются.

Метод протестили на моделях 4-х размеров: 270 млн, 600 млн и 3 млрд параметров, а также на 10 миллиардной MoE.

В самом крупном эксперименте модель с TST достигла более низкого значения лосса, чем сопоставимая по вычислениям базовая модель, примерно за 40% времени и показала лучшие результаты на тестах HellaSwag, ARC и MMLU.

🟡Ограничения

TST расходует обучающие данные быстрее обычного, поскольку модель переваривает больше текста. Если обучающих данных мало, метод становится контрпродуктивным.


🟡Статья
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #Pertrain #TST #NousResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥721🤩1