DenoiseLAB
485 subscribers
1.33K photos
160 videos
3 files
1.58K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
🚀 Китайский ИИ нового уровня: Alibaba представляет революционную архитектуру Qwen3-Next

Китайская компания Alibaba представила новое поколение своей языковой модели — Qwen3-Next. Новая архитектура обещает резкий скачок в эффективности: модель с 80 миллиардами параметров активирует для ответа лишь 3 миллиарда, сохраняя высочайшее качество и обгоняя конкурентов вроде Gemini-2.5-Flash.

🚀 Рекордная эффективность
Обучение: Потребовалось менее 10% вычислительных ресурсов (GPU Hours) от предшественника Qwen3-32B при сопоставимом качестве.
Инференс: Скорость обработки длинных контекстов (свыше 32k токенов) выросла более чем в 10 раз.

🧠 Ключевые инновации:
Гибридное внимание: Сочетает линейное (быстрое) и стандартное (точное) внимание для баланса скорости и качества.
Сверхразреженная MoE-структура: Из 512 «экспертов» для каждого запроса выбирается всего 10 + 1 общий. Это экономит ресурсы.
Предсказание нескольких токенов(MTP): Модель предугадывает несколько слов вперед, что ускоряет генерацию.
Повышенная стабильность обучения: Новые методы нормирования и инициализации сделали процесс надежнее.

⚙️ Технические детали
Архитектура представляет собой смесь Gated DeltaNet (75% слоев) для эффективного моделирования длинных последовательностей и стандартного Gated Attention (25% слоев) для высокой точности. Это позволило превзойти по качеству Mamba2 и sliding window attention. Для стабилизации тренировки внедрены Zero-Centered RMSNorm и нормализация весов маршрутизатора в MoE.

📊 Выпущены три версии модели
Base: Для дальнейшего дообучения и исследований.
Instruct: По производительности сравнима с гигантской флагманской Qwen3-235B, но значительно эффективнее в работе с длинными контекстами (до 256K).
Thinking: Специализированная модель для сложных рассуждений, которая обгоняет закрытый Gemini-2.5-Flash-Thinking и приближается к топовой Qwen3-235B.

Вывод
Qwen3-Next — это не просто эволюционное обновление, а стратегический шаг, переопределяющий баланс между размером модели, стоимостью обучения и скоростью работы. Архитектура открыта, что позволяет всему сообществу строить на её основе ещё более мощные приложения.

Сайт | HuggingFace

#КитайскийИИ #КитайAI #Qwen3Next #AlibabaAI #MoE #ИИархитектура #LLM
Китайские военные исследователи разработали систему искусственного интеллекта, которая может революционизировать противолодочную войну, потенциально снизив уровень выживаемости подводных лодок до всего 5 процентов в будущих морских конфликтах.

Прорывные исследования, опубликованные в августе в рецензируемом журнале Electronics Optics & Control, знаменуют возможный конец эпохи «невидимых» подводных лодок, которые долгое время служили основой стратегий морского сдерживания. Система  интегрирует данные из множества источников, включая гидроакустические буи, выпускаемые вертолетами, подводные датчики, радиолокационные системы и даже океанографические данные, такие как температура и уровень солености воды. 

По данным The Defense News, компьютерные симуляции показали, что система поддерживает уровень обнаружения и отслеживания порядка 95 процентов, даже когда подводные лодки используют передовые методы скрытности. Это означает значительное улучшение по сравнению с существующими противолодочными возможностями и может фундаментально изменить стратегический баланс военно-морской войны.
ИИ-модели становятся энергоэффективнее.
Новое исследование Google показывает, что её Gemini LLM потребляет около 0,24 Вт-ч на один текстовый запрос. Это столько же энергии, сколько потребляет микроволновая печь в течение одной секунды или шесть секунд работы холодильника.
По их оценкам, 12 месяцев назад энергопотребление на один запрос было в 33 раза выше. Это означает, что стандартная текстовая подсказка тогда потребляла 9 Вт-ч.
Извлечение гиперспектральной информации с полным спектральным разрешением из обычных фотографий

В статье (Kwon et al., 2025) представлен метод извлечения гиперспектральной информации на основе единственного фотоснимка в видимом диапазоне. Методу не нужны обучающие данные или предварительно обученные модели. Авторы предлагают использовать "спектральную цветовую таблицу" (spectral color chart), напечатанную сетку из 729 уникальных цветов, которую фотографируют вместе с объектом. Авторы назвали новый метод 📊 Computational photography spectrometry (CPS).

📖 Kwon, S., Mok Park, S., Ji, Y., Sakthivel, H., Woo Leem, J., & Kim, Y. L. (2025). Hyperspectral Information Extraction With Full Resolution From Arbitrary Photographs. IEEE Transactions on Image Processing, 34, 5429–5441. https://doi.org/10.1109/tip.2025.3597038

#гиперспектр
ChatGPT будет проверять пользователей по паспорту. OpenAI внедряет систему определения возраста: если нейросеть заподозрит, что пользователю меньше 18 лет, она автоматически переключит его на урезанную версию с родительским контролем. Подросткам запретят флирт и разговоры на чувствительные темы, а мамы смогут видеть их переписки.

Взрослым тоже придётся смириться: при сомнениях ChatGPT попросит загрузить документы. Сэм Альтман признал, что это нарушает приватность, но назвал меру «оправданным компромиссом». @bankoffo
Как собрать все паспорта мира ))) подробный роудмап
🔮  Магия маркетинга: одно слово про ИИ — и доля готовых купить продукт выше на 70%

Согласно опросу Битрикс24, формулировка «с функцией ИИ» повышает интерес к продукту у 70% клиентов. Но стоит заменить на «создан с использованием ИИ» — и больше половины потенциальных покупателей уходит.

Отношение бизнеса к нейросетям так же парадоксально: 85% компаний признают, что ИИ снижает издержки. При этом треть уверена, что ИИ-решения должны стоить даже дешевле обычных.

Александр Вартанян, директор по маркетингу Битрикс24, поясняет:

Бизнес тоже очень хорошо умеет считать деньги. Никто не хочет переплачивать за то, что не принесет ощутимой пользы.
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Оптимизация обновления весов моделей в LLM

Checkpoint Engine — это легковесное промежуточное ПО для обновления весов в LLM во время инференса, критически важное для обучения с подкреплением. Оно обеспечивает быстрые и эффективные методы обновления весов, позволяя обрабатывать модели с триллионом параметров за считанные секунды.

🚀 Основные моменты:
- Поддержка двух методов обновления: Broadcast и P2P.
- Эффективная передача данных с использованием CUDA IPC.
- Оптимизированный процесс передачи с учетом шардирования.
- Подходит для работы с большими моделями на множестве GPU.

📌 GitHub: https://github.com/MoonshotAI/checkpoint-engine
🔥2
Сегодня ушла в печать новая статья для Хабра. Там мы сделали аналитику по работе китайского сервиса Куайшоу (аналог тиктока). Мы исследовали скорость принятия решения по досмотру видео для коротких видео и скорость реакции нового поколения пользователей. Мы брали очень короткие диапазоны от 1 до 3 сек.

При этом, удалось поднять скор на модели с 0.76 до 0.79. Да немного, но в рамках таких больших моделей 3%, вернее мы получили 4.5%, на "длинной" дистанции это огромные деньги. Статью писали для Сбера. Скоро выйдет.
🔥4
Ну что, вот и первый компьютерный в мире вирус, который был создан ИИ. Его обнаружили специалисты ESET, а малварь получила название PromptLock.

Исследователи объясняют, что PromptLock использует модель gpt-oss-20b от OpenAI, которая является одной из двух бесплатных open-weight моделей, опубликованных компанией ранее в этом месяце. Она работает локально на зараженном устройстве через Ollama API и «на лету» генерирует вредоносные Lua-скрипты.

После малварь определяет, какие файлы искать, копировать, шифровать или даже уничтожать, основываясь на типе файла и его содержимом. По данным исследователей, отвечающая за уничтожение данных функциональность пока не реализована.

PromptLock использует 128-битный алгоритм SPECK для шифрования файлов, а сам вымогатель написан на Go.

Отмечено, что PromptLock является лишь концепцией и еще ни разу не был замечен в реальных условиях. Такие вот дела...

➡️ https://bsky.app/profile/esetresearch/PromptLock
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Новая работа по обучению моделей с ограниченным бюджетом разметки: Group Relative Policy Optimization (GRPO)

💡 Идея проста: самые большие улучшения достигаются, если обучать модель именно на самых сложных задачах.

Что показали эксперименты:
- 📈 +30–40 баллов на reasoning-задачах
- 🔥 +20% lift на out-of-distribution тестах
- Только hardest 10% данных даёт лучший результат, чем easy, middle или случайный выбор

Как это работает:
- Трудность задачи оценивается по *pass rate* — сколько ответов base-модели проходят из нескольких сэмплов
- Промпты ранжируются на easy / middle / hard
- GRPO обучается только на hard-срезе
- Обучение идёт за счёт нескольких rollout’ов: награда выдаётся только тем, кто превысил средний уровень группы
- На лёгких задачах сигнал быстро исчезает, на сложных остаётся вариативность и полезные градиенты

📊 Результаты:
- GSM8K, Tracking Shuffled Objects → hardest 10% всегда лучше остальных
- AIME-2025 → только hard-обученная модель превзошла base, с ~20% приростом

🔑 Практическое правило: покупайте задачи, которые базовая модель *редко* решает, но *иногда* угадывает правильно. Именно они приносят максимальную отдачу.

🟢Paper: https://arxiv.org/abs/2508.14094
🟢Github: https://github.com/Pikus16/grpo_difficulty

Ну наконец-то доказали !!!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
🔥 Новинка от S-Lab, Nanyang Technological University и SenseTime Research: Next Visual Granularity Generation (NVG)!

🖼 Новый фреймворк поэтапно улучшает изображение — от общего макета до мельчайших деталей, позволяя получить тонкий контроль над процессом генерации.

📊 Результаты впечатляют: NVG превзошёл серию VAR по метрикам FID!

huggingface.co/papers/2508.12811
Эра 1-битных LLM наступила 🫥

🔹 DeepSeek-V3.1, квантованный всего до 1-бита или 3-бит, обошёл Claude Opus 4 и GPT-4.5.

🔹 Unsloth GGUF смог сжать DeepSeek-V3.1 на 75%, при этом модель превзошла топовых конкурентов в бенчмарке Aider Polyglot.


🟠Подробности: https://docs.unsloth.ai/new/unsloth-dynamic-ggufs-on-aider-polyglot
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Meta (деятельность компании Meta Inc. и её продуктов признана в России экстремистской и запрещена) показала свои первые очки с дисплеем — и браслет в придачу

Главным анонсом Meta Connect стали Ray-Ban Display и браслет Neural Band. Через встроенный дисплей можно работать с ИИ, управлять интерфейсом очков, а также «печатать» — как раз-таки при помощи браслета, пишет портал Rozetked.
👍1
Золотую статую Трампа с биткоином установили возле Капитолия в США

Четырёхметровый памятник американскому президенту при жизни возвели криптоинвесторы. По их словам, скульптура про будущее цифровых валют и роль государства в финансовой политике.

Золотой Трамп простоит всего один день, что будет после демонтажа — неизвестно.

ахахахах
This media is not supported in your browser
VIEW IN TELEGRAM
Да что вы знаете о трагедии, такой актер пропадает ))) Настоящий интриган !!!
😁4
Готовы выбрать тех, кто достоин главной аналитической премии страны

Успейте зарегистрироваться до 19 сентября

Топовые эксперты из sell-side аналитических команд поборются за победу в объективном независимом рэнкинге.

Приглашаем институциональных инвесторов и представителей корпоративного сектора присоединиться к голосованию за номинантов премии «Лучший аналитик России».

Подробнее о премии 👉 на сайте.

📝 Форма регистрации для участия в голосовании для институциональных инвесторов

📝 Форма регистрации для участия в голосовании для представителей корпоративного сектора

Организаторы — Петербургская Биржа совместно с Ассоциацией финансовых аналитиков при поддержке профессиональной соцсети Perforum.
Стратегический партнёр — РБК Инвестиции.

👍 Не упустите возможность стать частью ведущей российской аналитической премии!
Please open Telegram to view this post
VIEW IN TELEGRAM
Китайский технологический гигант Huawei анонсировал выход самого мощного вычислительного кластера на основе собственных микрочипов, говорится в пресс-релизе производителя.

Он представил два продукта - Atlas 950 SuperPoD и Atlas 960 SuperPoD. Каждый из них представляет собой объединенный модуль из нескольких тысяч нейронных процессоров Ascend, которые работают как единое целое при обработке больших объемов данных.