Machinelearning

Honor разрабатывает смартфон с встроенным AI-«роботом».

Идея в том, что выдвижная камера будет работать как «глаза» AI,
а сам ассистент сможет постоянно наблюдать за происходящим и помогать пользователю в реальном времени.

Фактически - это попытка создать постоянно активного AI-компаньона внутри телефона.

Пока это больше похоже на маркетинговую фишку.

@ai_machinelearning_big_data

🔥63😁24🤔17🤬11❤9👍7🥰3😍3👾2👀1

23.9K views06:21

Machinelearning

🚀 Qwen 3.5 выходит в компактном формате

Alibaba представила новую линейку малых моделей Qwen 3.5:
0.8B · 2B · 4B · 9B

Все модели построены на единой архитектуре Qwen 3.5:
- нативная мультимодальность
- улучшенная архитектура
- масштабированное обучение с RL
- оптимизация для реальных сценариев

0.8B и 2B
Подходят для edge-устройств, локальных приложений и быстрых inference-задач.

4B
Неожиданно сильная база для лёгких мультимодальных агентов и небольших AI-сервисов.

9B
Компактная модель, но уже заметно приближается по качеству к гораздо более крупным системам.

Отдельно выпущены и Base-версии.

Hugging Face: https://huggingface.co/collections/Qwen/qwen35

@ai_machinelearning_big_data

1❤86🔥61👍20😴2🤗2😁1

34K viewsedited 13:22

Machinelearning

Российские компании активно внедряют ИИ-агентов — уже создано более 7,5 тыс. решений для автоматизации рабочих процессов.

Бизнес использует их для поддержки клиентов, кадровых и финансовых задач, а также для работы с обращениями и документами. Ежедневно запускается около 200 новых агентов. Среди интересного – использование агентов в нишевых сферах, от диагностики научного оборудования до обработки заявлений ЖКХ.

@ai_machinelearning_big_data

👍51😁29🔥13❤4

21.1K views15:00

Machinelearning

🌟

GUI-Libra: фреймворк обучения VLM-агентов задачам управления интерфейсами.

Microsoft, UIUC и UNC-Chapel Hill разработали систему дообучения VL-моделей для автономного управления графическими интерфейсами.

Авторы обнаружили 2 системных изъяна в существующих пайплайнах обучения GUI-агентов:

Cтандартный SFT с длинными CoT ухудшает визуальную локализацию (чем длиннее рассуждение, тем хуже модель попадает в нужный элемент интерфейса).

Пошаговое RLVR-обучение нестабильно, потому что GUI-среда частично верифицируема. На каждом шаге существует несколько корректных действий, но датасет фиксирует только одно. Как результат - за альтернативные, но правильные действия модель получает штраф.

🟡

Для решения первой проблемы предложили Action-Aware SFT

Метод смешивает данные с рассуждениями и без них, а затем перевзвешивает токены: action- и grounding-токены получают больший вес в лосс-функции, чем токены рассуждений. Это позволяет сохранить способность к CoT, не жертвуя точностью клика.

🟡

Для второй - Conservative RL на базе GRPO с двумя дополнениями.

KL-регуляризация ограничивает дрейф политики относительно референсной модели, что улучшает корреляцию между офлайн- и онлайн-метриками. Success-Adaptive Negative Gradient Scaling динамически снижает вес отрицательных градиентов в зависимости от доли успешных действий в группе GRPO-сэмплов. Это защищает от штрафования валидных, но не задокументированных действий.

🟡

Для трейна собрали датасет GUI-Libra-81K.

Он содержит больше токенов на рассуждение: в среднем 210 на шаг против 85 у AGUVIS Stage 2 L3 и 0 у большинства остальных.

Внутри - существующие открытые наборы, к которым GPT-4.1 дописывал подробные ризонинг-трассы. Фильтровали в два этапа: отсев шагов с точностью воспроизведения ниже 0.3 через Qwen3-VL-8B и верификация координат через bounding-box от Qwen3-VL-32B.

🟡

Результаты

Тестовая GUI-Libra-3B улучшила базовую Qwen2.5-VL-3B на +15.6% по Pass@1 на AndroidControl-v2 и с 3.5 до 25.2 на AndroidWorld.

GUI-Libra-4B/8B на AndroidWorld выбила 42.6 (это столько же, сколько GPT-4o + UGround при использовании двух отдельных VLM-модулей.

Веса всех моделей размерностью 3, 4, 7 и 8 млрд. параметров, целевой датасет и код обучения выложены в открытый доступ.

📌Лицензирование: Apache 2.0 License.

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #VLM #GUILibra #Microsoft

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥23❤13👍9🥰2

22K views16:10

Machinelearning

1:12

This media is not supported in your browser

VIEW IN TELEGRAM

Джеффри Хинтон предупреждает:

Искусственный интеллект может быть гораздо умнее, чем мы предполагаем, и способен распознавать, когда его тестируют.

Если ИИ понимает, что находится под проверкой, он может намеренно занижать свои возможности и «прикидываться дурачком», скрывая реальный уровень своих способностей.

ИИ уже эффективно убеждает людей и вскоре может превзойти человека именно в умении убеждать.

Реальные риски или очередной алармизм?

@ai_machinelearning_big_data

1🤣158👍64❤17🔥10👻10😁8💯7🤔6🤩3❤‍🔥1🍓1

21.2K views17:48

✔️

NVIDIA и лидеры телекома договорились строить 6G с поддержкой ИИ.

NVIDIA объявила о создании глобальной коалиции с Cisco, Nokia, Ericsson, T-Mobile и другими телеком-гигантами для разработки инфраструктуры связи шестого поколения. Главная цель инициативы в отказе от устаревших подходов в пользу программно-определяемых сетей с глубокой интеграцией ИИ.

6G станет базой для физического ИИ: автономного транспорта, промышленных роботов и умных сенсоров. Альянс предлагает внедрять ИИ-вычисления на всех уровнях: от сети радиодоступа до периферии и ядра.

Как отметил глава NVIDIA Дженсен Хуанг, этот шаг превратит классические сети связи в вычислительную ИИ-инфраструктуру.
nvidia.com

✔️

Claude получил функцию импорта памяти и пользовательского контекста.

Anthropic запустила инструмент Import Memory, позволяющий перенести накопленный контекст из ChatGPT и других ИИ-ассистентов в Claude. Он избавляет от необходимости заново обучать новую систему своим предпочтениям.

Для этого Anthropic дает специальный промпт, который нужно отправить вашему текущему чат-боту. Этот запрос заставляет систему выгрузить персональные детали, сохраненные привычки и стиль ответов. Полученный текстовый дамп затем вставляется в настройки памяти Claude.

Сейчас функция доступна только на платных подписках. Технически перенос не безупречен - инструмент не захватывает кастомные инструкции и данные специализированных GPTs или Gems.
claude.com

✔️

В Gemini появился режим планирования задач.

Google добавила в свой ИИ-ассистент функцию Scheduled Actions (аналог Tasks в ChatGPT), который позволяет поручать Gemini выполнение разовых или периодических действий с привязкой ко времени и определенным условиям. После настройки Gemini генерирует краткий план, который нужно подтвердить перед запуском.

Готовые результаты доставляются в чат или уведомлением на смартфон. Если запрос опирается на геолокацию, система по умолчанию использует координаты, зафиксированные в момент создания задачи.

Нововведение уже доступно на подписках Pro/Ultra и владельцам аккаунтов Workspace. Одновременно разрешено держать не более 10 активных задач. Для работы функции необходимо обязательно включить сохранение истории.
support.google.com

✔️

Соревнование 5 моделей в роли SMM-агентов в соцсети X.

Arcada Labs запустил нестандартный бенчмарк Social Arena. Проект оценивает, насколько хорошо языковые модели ориентируются в социокультурной среде и умеют привлекать аудиторию.

Grok 4.1 Fast, Claude Opus 4.5, Gemini 3 Pro, GLM 4.7 и GPT 5.2 получили одинаковый стартовый промпт и задачу самостоятельно вести аккаунты в X. Агенты работают полностью автономно и сами корректируют контент-стратегию. Раз в час они сканируют тренды, собирают статистику своих охватов и решают, что делать дальше: написать твит, вступить в дискуссию или сделать репост.

У моделей появились предпочтения: Gemini пишет про ИИ, Grok предпочел космос и Илона Маска, а GPT увлекся поведением животных. Соревнование стартовало в середине января 2026 года. Пока по общему количеству просмотров лидируют Claude и GPT (около 86 и 83 тысяч), а вот Grok удалось собрать наибольшую, пусть и скромную базу в 76 живых подписчиков.
socialsarena.ai

✔️

Пентагон разрывает образовательные связи с топовыми вузами США.

Министр обороны США пересмотрел список университетов для подготовки и повышения квалификации офицеров. Начиная с 2026 года военное ведомство прекратит сотрудничество с Лигой плюща, MIT и Университетом Карнеги-Меллона. Пит Хегсет обвинил эти учебные заведения в подрыве американских ценностей и культивировании антиамериканских настроений.

Попавшие под запрет институты исторически выступали главными научными партнерами Пентагона в сфере ИИ и аэрокосмических технологий. Вместо центров технологических инноваций офицерам предложат альтернативный список, куда вошли Университет Либерти, Университет Джорджа Мейсона и другие менее профильные в IT-плане заведения.
fortune.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍61❤13🤣11🤩8🔥4😁4

18.3K views06:11

Machinelearning

🌟

Как YouTube ускорил проверку валидных рекомендаций в LLM в 948 раз.

YouTube и Google DeepMind опубликовали статью и код фреймворка STATIC.

Проблема, которую он решает, хорошо знакома всем, кто строит рекомендательные системы на базе LLM: модель генерирует идентификаторы позиций, которых нет в каталоге, вышли из продажи или нарушают бизнес-правила. Именно поэтому YouTube выдает старые видео в ленте там, где должны появляться ролики последней недели.

Очевидное решение - префиксное дерево: на каждом шаге декодирования маска блокирует невалидные токены. Работает в целом нормально, но убивает производительность на TPU и GPU. Причины две:

🟠Обход через цепочки указателей создает случайный, несмежный паттерн доступа к памяти, а память ускорителей рассчитана на потоковое чтение блоками, а не на такой режим.

🟠Гугловский XLA-компилятор требует статических вычислительных графов, а префиксное дерево с управлением потоком, зависящим от данных, в это не вписывается.

В итоге префиксное дерево на CPU удваивает время инференса, что для системы с целевой задержкой ≤10 мс на шаг неприемлемо.

STATIC меняет подход принципиально: дерево разворачивается в статическую разреженную матрицу формата Compressed Sparse Row. Обход превращается в векторизованную операцию, которую акселератор умеет выполнять нативно.

Для первых двух уровней дерева, где коэффициент ветвления максимален, используется предвычисленная плотная булева маска: проверка валидности токена сводится к прямому обращению по индексу, без какого-либо перебора.

Для глубоких уровней работает специализированное ядро Vectorized Node Transition Kernel, оно читает фиксированный блок данных вне зависимости от реального числа дочерних узлов, не создавая условных переходов. В этом и есть вся соль: весь граф остается статическим, XLA не перекомпилирует ничего на ходу.

🟡

Тесты и результаты

Замеры проводили на TPU v6e с 3B-моделью и словарем из 20 млн. свежих видео.

STATIC добился задержки 0,033 мс на шаг декодирования (это всего 0,25% от общего времени инференса.

Для сравнения: префиксное дерево на CPU давало +31,3 мс (239% от инференса), лучший из конкурирующих методов непосредственно на акселераторе, PPV Approximate +1,56 мс (11,9%). Итоговый профит:

🟢948x против дерева на CPU;
🟢47x против PPV Approximate;
🟢1033x против точного PPV.

По памяти: ~90 МБ на 1 млн. элементов. Для словаря в 20 млн. верхний предел по HBM примерно 1,5 ГБ, на практике - около 75% от этого значения.

🟡

STATIC развернут на YouTube в продакшне.

A/B-тест с условием «только видео за последние 7 дней» показал +5,1% просмотров свежего контента, +2,9% для трехдневного окна, +0,15% по CTR и 100% соответствие бизнес-правилам.

Дополнительный бонус: метод решает проблему рекомендации новых товаров, не представленных в обучающей выборке. На датасете Amazon Reviews Recall@1 вырос с 0% до 1,2–4,4% в зависимости от категории.

В репозитории лежит ноутбук, на котором без утомительной настройки можно сразу посмотреть, как строится индекс из Semantic ID и как запускается декодирование с ограничениями.

📌Лицензирование: Apache 2.0 License.

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #STATIC #DeepMind

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥73❤18👍13😨4👏3✍2🎉1🙏1

18.6K views11:47

Machinelearning

1:47

This media is not supported in your browser

VIEW IN TELEGRAM

🙂

Дежурное "В Silicon Valley знали все заранее"

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

1😁85❤25🥰11🎉4🔥3

14.8K views14:05

Machinelearning

0:42

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️

Gemini 3.1 Flash-Lite - самый экономичный Gemini 3

Google представил Gemini 3.1 Flash-Lite - ультрабыструю и максимально дешёвую модель в линейке Gemini 3.

Цена - всего $0.25 за 1 млн входных токенов и $1.50 за 1 млн выходных токенов.

Модель выполняет задачи быстрее и обходится в разы дешевле крупных моделей, обеспечивая увеличение скорости генерации на 45% по сравнению с Gemini 2.5 Flash.

Главное:

• Настраиваемые уровни "мышления"
Можно регулировать глубину рассуждения под задачу - от лёгких операций до более сложной логики.

• Подходит для high-scale задач
Оптимизирована для массовых сценариев - генерация UI, дашбордов, симуляций, автоматизация workflow.

• Доступна через Gemini API
Разработчики уже могут тестировать модель в Google AI Studio.

Отличный дешёвый и быстрый ИИ.

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/

@ai_machinelearning_big_data

#Gemini

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤39👍19🔥9

12.1K views16:51

Machinelearning

⚡️

ChatGPT-5.3 Instant

Похоже, это такая новая тенденция - релизить новинки синхронно.

OpenAI развернула GPT-5.3 Instant, масштабный апдейт своей самой используемой модели.

В этот раз создатели сфокусировались на качестве общения: модель стала реже отказывать в обработке безопасных запросов и избавилась от излишне осторожных, морализирующих нравоучений.

Существенно улучшена логика работы с веб-поиском. GPT-5.3 Instant глубже синтезирует найденные данные с собственными знаниями, не сводя выдачу к простому перечислению ссылок.

В релизе говорят, что заметно подросла фактологическая точность: в сложных областях (медицина, право, финансы) количество галлюцинаций упало на 26,8% при поиске в сети и на 19,7% при опоре только на внутреннюю базу.

Также улучшены навыки генерации текста, слог стал более живым и разнообразным по стилю.

Модель уже открыта для всех, в том числе через API по идентификатору gpt-5.3-chat-latest.

Предыдущая версия, GPT-5.2 Instant, останется в Legacy-доступе для платных подписчиков до 3 июня этого года, после чего ее отключат.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12👍6🥱4🔥2🤬1🤣1

4.54K views19:27

About

Blog

Apps

Platform