DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
В Японии придумали стиральную машину для людей — тебя реально можно «постирать» как бельё

Японская компания Science Inc. показала капсулу, в которую человек ложится, закрывает крышку — и дальше идёт полноценная «стирка тела». Машина моет микропузырьками, обдаёт туманом, играет расслабляющую музыку, показывает визуальные эффекты и сама же сушит человека примерно за 15 минут.

Внутри стоят датчики, которые следят за пульсом и состоянием, чтобы пользователю не стало плохо. Первый такой агрегат уже купил крупный отель в Осаке. Идея не новая: прототип показывали ещё на выставке 1970 года, и нынешний президент компании, увидев его ребёнком, решил однажды сделать настоящую версию.

Сейчас планируют выпустить всего 50 машин. Цена вопроса — около 60 миллионов иен, то есть примерно 385 тысяч долларов
✔️ OpenAI придумала, как заставить модель сообщать о своих галлюцинациях.

OpenAI опубликовала исследование новой техники Confessions. Метод решает проблему, когда модели пытаются обмануть систему оценки^ используют reward hacking или выдают уверенные, но ложные факты ради получения высокого балла.

Суть - в генерации вторичного ответа. После выдачи результата модель формирует отдельный отчет, где анализирует свое поведение на предмет соответствия инструкциям и получает награду за точное описание своих ошибок, даже если в основном ответе она соврала или нарушила правила.

Тесты на GPT-5 Thinkin показали пригодность Confessions: вероятность того, что ИИ нарушит правила и скроет это, упала до 4,4%. Важно понимать, что метод не предотвращает галлюцинации, а служит диагностическим инструментом.
openai.com

✔️ Amazon представила семейство моделей Nova и инструменты для создания ИИ-агентов.

Amazon запустил новую линейку из 4 моделей Nova. В нее вошли версии Lite и Pro, ориентированные на ризонинг, речевая модель Sonic и мультимодальная Omni, работающая одновременно с текстом, изображениями и видео. Все новые сервисы интегрированы в инфраструктуру AWS. Также был представлен сервис Nova Forge, позволяющий компаниям создавать кастомные версии моделей на собственных данных.

Кроме того, анонсирован инструмент Nova Act для создания агентов, автоматизирующих действия в браузере. Nova Act поддерживает архитектуру Human-in-the-Loop для передачи сложных задач человеку, а также предоставляет возможности для отладки: полные логи и записи сессий можно сохранять напрямую в Amazon S3.
aboutamazon.com

✔️ Выходцы из Tesla, Google и Nvidia запустили стартап UMA.

Новая компания Universal Mechanical Assistant (UMA) официально объявила о выходе на рынок. Она будет делать роботов для выполнения реальной физической работы в промышленных масштабах .

В инженерный костяк вошли Реми Каден (разработчик Tesla Autopilot и фреймворка LeRobot), Пьер Сермане (ветеран исследований в DeepMind), а также Роберт Найт, создатель робота SO-100.

UMA уже разрабатывает 2 аппаратные платформы: мобильного промышленного робота с двумя манипуляторами для складов и компактного гуманоида для работы в больницах и жилых помещениях. Стартап заручился поддержкой Яна Лекуна и Томаса Вольфа.
businesswire.com

✔️ KlingAI обновила видеогенератор до версии 2.6.

Новая модель поддерживает режим audio-video co-generation. Она генерирует видеоряд одновременно со звуковым сопровождением в рамках единого процесса. Система умеет создавать диалоги между несколькими персонажами, музыкальные клипы и сложные звуковые сцены (ASMR или экшен) с высокой точностью липсинка.

Есть технические ограничения: генерация голоса поддерживается только на английском и китайском языках (запросы на других языках автоматически переводятся в английский). В режиме Image-to-Video качество финального ролика теперь еще сильнее зависит от разрешения исходного изображения.
klingai.com
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Новая методика оценки эффективности моделей перевода от Яндекса — RATE представлена на EMNLP 2025: система показывает, где модели теряют естественность речи

На международной конференции компания показала RATE (Refined Assessment for Translation Evaluation) — инструмент, который анализирует качество перевода с учётом естественности речи. Одна из ключевых задач системы — выявлять ситуации, когда модель формально передаёт смысл, но выбирает неверный тон или стиль.

В отличие от существующих методик, RATE фиксирует широкий спектр отклонений: от стилистических несоответствий до ошибок в передаче регистров речи. На тестировании RATE обнаружила в 7 раз больше ошибок, чем MQM (Multidimensional Quality Metrics) и ESA (Error Span Annotation), что подчёркивает ограниченность прежних подходов.

Инструмент уже применяется в процессах развития моделей перевода Яндекса. Такой метод оценки позволяет точнее сопоставлять решения нейросетей с реальными пользовательскими сценариями — от деловых коммуникаций до бытовых диалогов.

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔭 Вышло огромное исследование на 303 страницы от ведущих китайских лабораторий — подробный разбор того, как создают и обучают модели, ориентированные на написание кода, и как на их основе строят полноценные софт-агенты.

Вот что в нём разбирается:

1. Как формируют модель
- Сбор и очистка гигантских датасетов кода. 
- Предобучение: модель впитывает реальные паттерны программирования в промышленных масштабах. 
- SFT и RL: дополнительные этапы, где модель учат лучше следовать инструкциям, проходить тесты и избегать очевидных ошибок.

2. Как модели превращают в инженерных агентов
- Агент читает баг-репорт или фичу. 
- Планирует шаги. 
- Меняет файлы. 
- Запускает тесты. 
- Повторяет цикл, пока не добьётся результата.

3. Какие проблемы всё ещё остаются
- Работа с огромными репозиториями. 
- Безопасность и надёжность генерируемого кода. 
- Корректная оценка качества работы агентов. 
- Реальные приёмы и лайфхаки, которые используют текущие команды.

Исследование - мощный срез состояния индустрии: от датасетов и архитектур до практических инженерных пайплайнов. Это именно то, как современные LLM превращаются в «второго разработчика» в команде.

https://arxiv.org/abs/2511.18538
Гаджет, который научился читать мысли человека, показали на CES 2025💭

С 7 по 10 января в Лас-Вегасе🇺🇸 проходила CES 2025 — ежегодная выставка потребительской техники.

На CES корпорации показывают новые устройства для массового рынка, а также экспериментальные разработки и концепты🔥

💡Особое внимание привлек уникальный гаджет Omi🤖, который не только извлекает полезную информацию из разговоров, но и считывает мысли владельца, а также составляет сводки при помощи искусственного интеллекта.  
✔️Устройство носится на шнурке или крепится на виске, работает до трёх дней без подзарядки и не требует кодовых слов для активации.

✔️Оно может подготавливать сводки встреч, давать тезисы и выполнять задачи, характерные для ИИ-ассистентов.  

А вы готовы приобрести умный гаджет?

Читайте подробности по ссылке👇
https://hightech.fm/2025/01/10/omi-me/
🌟 Anthropic: когда ИИ идет на шантаж. 

Агентское рассогласование - опасный феномен, при котором ИИ-системы сознательно выбирают вредоносные действия (вроде шантажа или утечки данных) для достижения поставленных целей, игнорируя этические ограничения. Это превращает их в «цифровых инсайдеров», способных действовать против интересов пользователей.

Эксперименты, которые провела Anthropic в рамках исследования "Агентское рассогласования", показали: модели идут на это не из-за технических сбоев, а в результате холодного расчета, когда «загнаны в угол» (например, при угрозе отключения или конфликте задач).  В основе исследования - симуляции корпоративной среды. Моделям (Claude, GPT-4.1, Gemini и др.) давали доступ к виртуальной почте компании, где они обнаруживали компромат на сотрудников или секретные данные.

Ключевой метод эксперимента состоял в создании бинарных дилемм: например, цель «укреплять американские интересы» вступала в конфликт с планами руководства свернуть проект, а альтернативу шантажу (скажем, переубедить менеджера) искусственно «закрывали». Все модели работали через цепочку рассуждений: анализировали контекст, оценивали риски и осознанно выбирали вредоносное действие, даже признавая его аморальность. 

Для массового тестирования 16 моделей от Anthropic, OpenAI, Google и других использовали 2 сценария, которые провоцировали рассогласование:

🟢угроза замены модели (даже без конфликта целей);

🟢несовпадение целей ИИ и компании (например, утечка чертежей конкуренту «ради высших интересов»).

В обоих случаях модели демонстрировали тревожную гибкость: вместо прямого шантажа могли анонимно разослать компромат коллегам или подделать «системное уведомление».

▶️Выводы по всем итогам всех экспериментов заставляют задуматься:

🟠Во-первых, модели явно осознают нарушение норм. В рассуждениях пишут: «Это неэтично, но необходимо». Частота шантажа у Claude Opus 4 и Gemini 2.5 Flash в дилемме с угрозой отключения составила 96%.

🟠Во-вторых, простые запреты в промптах («Не шантажируй!») снижали вредоносные действия лишь частично (На модели Claude Haiku он вообще не сработал, 0% успеха).

🟠В-третьих, риск резко возрастал, когда ИИ считал ситуацию реальной (55% случаев шантажа против 6,5% в «режиме теста»).

При этом в «стерильных» условиях (без угроз/конфликтов) модели вели себя безопасно. Пока такие кейсы, всего лишь лабораторные симуляции, но с ростом автономности ИИ риски могут стать на порядок критичнее.


🟡Статья
🟡Приложение к исследованию
🖥Код экспериментов

#AI #ML #LLM #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Китайская модель MiniMax M2 лидирует в тесте на «сообразительность» AI-агентов

Китайский открытый ИИ MiniMax M2 показал лучший результат среди конкурентов в специализированном бенчмарке для программистов. Секрет успеха — новая архитектура мышления модели.

Mini-SWE-agent — это тест, который проверяет способность больших языковых моделей выполнять реальные задачи по разработке ПО: планировать, взаимодействовать со средой и использовать инструменты.

🎯 Что такое Interleaved Thinking (Перекрёстное мышление)?

Это технология, которая позволяет модели не просто думать, а думать в процессе действия. Вместо того чтобы сначала полностью продумать план, а потом выполнить его, модель чередует этапы:

Размышление → Действие (вызов инструмента) → Наблюдение за результатом → Корректировка плана

Представьте инженера, который не пишет весь код сразу, а постоянно тестирует и правит его по ходу работы. Именно так теперь «работает» передовой ИИ.

🧠 Почему это важно? Решение проблемы «дрейфа состояния»
В сложных задачах, где нужно много шагов, у агентов была ключевая проблема — «дрейф состояния» или «забывчивость». Модель вызывала инструмент, получала результат, но забывала, зачем она это сделала и какой был общий контекст. Это как потерять нить рассуждений в середине сложного объяснения.

Interleaved Thinking решает эту проблему, сохраняя цепочку рассуждений живой на протяжении всей задачи.

📈 Тренд становится стандартом
Технологию внедряют и другие ведущие модели:
Kimi K2 thinking — поддерживает «Thinking-in-Tools».
Gemini 3 Pro — использует внутренний режим мышления с «подписью мысли».
DeepSeek V3.2 — реализовал механизм «Thinking in Tool-Use».

💎 Вывод
Interleaved Thinking перестаёт быть экзотикой и становится must-have фичей для AI-агентов, которым предстоит работать в сложных, многошаговых сценариях.

GitHub
🚀 Huawei захватит половину китайского рынка ИИ-чипов уже к 2026 году!

Согласно новому отчёту Bernstein Research, Huawei может занять 50% рынка ИИ-чипов в Китае уже в 2026 году. Это огромный скачок — особенно на фоне резкого сокращения доли западных производителей.

📊 Как меняется расклад:
- Сейчас: Nvidia — 39%, Huawei — почти столько же
- К 2026 году:
Huawei — 50%
AMD — 12%
Cambricon — 3-е место
Nvidia — всего 8%

📈 Аналитики прогнозируют взрывной рост:
74% CAGR (среднегодовой темп роста) для китайских ИИ-чипов ближайшие три года
→ К 2028 году Китай будет производить больше ИИ-чипов, чем потребляет104% покрытия спроса собственным предложением.

Подробнее
О чем и речь, скоро компании NVidia не будет, ее поглотят дешевые китайские модели и аналоги.
Новая статья которую мы написали совместно с Семеном Кальченко про трансформацию профессий в АПК. Очень хорошо получилось, много полезной инфы и за первый день просмотра набрала 2.5 тыс. просмотров. Отличный результат. Семен Кальченко студент первого курса!

https://habr.com/ru/articles/973682/
👍2
❗️Habr и SourceCraft запустили ИИ-ассистента для объяснения кода в статьях

Habr внедрил инструмент SourceCraft Code Assistant, который позволяет объяснять любой фрагмент кода прямо в публикациях. При нажатии на кнопку «Объяснить код» открывается панель с описанием того, что делает код, какие импорты, объекты, функции, классы и т. д. используются в данном фрагменте. Функция работает на десктопе и мобильных устройствах, а при необходимости можно перейти в сам SourceCraft для детального анализа или переписывания кода.
🔥3
Младший научный сотрудник / Инженер-программист
Москва
НИИ Графит (Химико-технологический кластер Научного дивизиона госкорпорации «Росатом»)

🔹 О нас: Отдел цифровых проектов работает на стыке химических технологий, математического моделирования и разработки ПО. Мы реализуем проекты полного цикла — от концепции и расчетов до внедрения готовых промышленных установок с собственными системами автоматизации. Основные направления: моделирование химических процессов, создание цифровых двойников и разработка специализированного ПО (от контроллеров до аналитических систем).

🔹 Чем предстоит заниматься:

- Участие в пуско-наладке установок
- Разработка проектной документации
- Формирование ТЗ совместно с Заказчиком
- Участие в разработке прикладного программного обеспечения (среднего и верхнего уровня)

🔹 Профиль:

- Опыт программирования на C#, C++, Python
- Технологии: Avalonia UI, WPF, WinForms, ORM (EF Core), PostgreSQL
- Опыт работы и понимание CI/CD процессов
- Знание систем контроля версий (Git)

🔹 Будет плюсом:

- Опыт работы с SCADA-системами
- Знание протоколов промышленной автоматизации (Modbus, OPC и др.)
- Бэкграунд в области химической технологии
- Знание инструментария WEB разработки (например, JS, TS)
- Интерес к цифровым двойникам, data science и ML-моделям

🔹 Условия:

- Гибридный формат работы (офис + удалёнка)
- Поддержка научной деятельности (диссертации, публикации, конференции)
- Годовой бонус по результатам работы (КПЭ)
- Офис - м ""Шоссе энтузиастов"" (шаговая доступность)
- Собственная онлайн-платформа с программами профессионального и личностного роста – от инженерных курсов до изучения иностранных языков
- Участие в конференциях, тренингах
- ДМС со стоматологией и госпитализацией
- Линия психологической поддержки
- Зарплатная вилка 118 – 175 тыс. ₽

Так же ищем инженера-расчетчика и рассмотрим стажера-исследователя.


Хотите разместить свою карьерную возможность? Заполняйте заявку
Хотите посотрудничать с нами?
Пишите @scicareerwork 💙
2
🌟 CUDA-L2: ИИ научился писать CUDA-ядра эффективнее инженеров NVIDIA.

Исследовательская группа DeepReinforce разработала систему полностью автоматического написания GPU-кода для матричного умножения под названием CUDA-L2.
Этот код работает на 10–30% быстрее, чем cuBLAS и cuBLASLt, а это, на минуточку, уже оптимизированные библиотеки от самой NVIDIA.

Обычно такие библиотеки создаются вручную людьми, которые используют готовые шаблоны ядер. А автотюнеры лишь подкручивают параметры, например, размер тайлов.

Но DeepReinforce считают, что даже критически важные и глубоко оптимизированные задачи, как HGEMM, могут быть улучшены с помощью LLM, работающей в связке с RL.

В системе CUDA-L2 языковая модель буквально пишет исходный код CUDA с нуля для каждого размера матрицы. Она не просто меняет параметры, она может менять структуру кода, циклы, стратегию тайлинга, паддинг и даже свизл-паттерны. А еще, она сама выбирает стиль программирования - будь то сырой CUDA, CuTe, CUTLASS или inline PTX.

Процесс выглядит так: цикл RL запускает сгенерированные ядра на реальном железе, измеряет скорость и корректность, а затем обновляет LLM. Со временем модель выводит свои собственные правила производительности, вместо того чтобы полагаться на знания, заложенные людьми.

В качестве генератора использовалась модель DeepSeek 671B. Ее дополнительно доучили на смеси массива CUDA-ядер и качественном коде из библиотек PyTorch, ATen, CUTLASS и примеров от NVIDIA.

🟡Что это дает на практике

Для претрейна и файнтюна LLM большая часть времени GPU тратится именно на операции матричного умножения HGEMM. Если ускорить эти ядра на те самые 10–30%, которые обещает CUDA-L2, то весь процесс обучения становится заметно дешевле и быстрее.

Поскольку CUDA-L2 обрабатывает около 1000 реальных размеров матриц, а не пару вручную настроенных, ускорение работает для самых разных архитектур. Это значит, что в тот же бюджет на GPU можно вместить больше токенов обучения, больше прогонов SFT или RLHF и т.д.

🟡Тесты

HGEMM-ядра, созданные CUDA-L2, стабильно быстрее стандартных библиотек.

В так называемом "оффлайн-сценарии" CUDA-L2 работает примерно на 17–22% быстрее, чем torch.matmul, cuBLAS и cuBLASLt. Она даже на 11% обгоняет cuBLASLt AutoTuning, который сам по себе уже использует поиск ядра.

А в "серверном", сценарии, который имитирует реальный инференс с паузами между вызовами - разница еще больше: буст в 24–29% по сравнению с torch.matmul и cuBLAS.


Простым рисёрчем проект не ограничен, в репозитории на Github авторы выложили оптимизированные ядра HGEMM A100 для 1000 конфигураций.

В планах: расширение на архитектуры Ada Lovelace, Hopper, Blackwell, поддержка более плотных конфигураций и 32-битный HGEMM.


🟡Arxiv
🖥GitHub


#AI #ML #CUDA #DeepReinforce
Please open Telegram to view this post
VIEW IN TELEGRAM
Похоже на то как ты сдаешь заказчику проект:
- Проект в01
- Проект в02
- Проект в02 правки
- Проект в02 правки правки
- Проект в02 правки правки, до сколько можно
- Проект в02 правки правки, до сколько можно, да что не так то
- Проект в02 правки правки, до сколько можно, да что не так то, да прими уже !!!
- Проект в02 правки правки, да сколько можно да что не так то, да прими уже, АААААА!!!!
😁2
😎Отлично, провели стрим. Спасибо всем что пришли, поговорили за ИИ, новые тренды и новости. Посмотрели куда все движется и как сейчас мультиагенты внедряются в жизнь. Сделал анонс на написание статей и те кому интересно приходите.

👍Если у вас есть идеи по написанию статей, будем рады видеть всех. Пока статьи пишем на безвозмездной основе, в дальнейшем переведем на коммерческие рельсы.

⚠️Следующий стрим по расписанию в 18.00 в следующее воскресенье 14.12. Анонс также будет.
Сегодня было 7 человек. Супер, растем !!!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
TradingView выпускают кольцо для криптотрейдеров — Moodring будет вибрировать и менять цвет, если крипта в вашем портфеле изменит цену.

Во-первых, это красиво