https://habr.com/ru/articles/851526/ - о какая крутая статья, первая в своем роде, хотя в целом ожидаемо, раз идет дикая оптимизация моделей с пыльных полок достаются дедовские методы
Хабр
Метрологический дефицит в бигдате: что это такое и как с ним бороться
Добрый день. Сегодня я хотел бы поговорить о том, что вроде бы очевидно и должно быть везде, но когда я читаю статьи презентации, рекламные статьи, научные статьи, выступления на отраслевых...
https://xakep.ru/2025/09/12/1-5-bpps/ - а вот и чат-боты начали бомбить компании. Простые атаки уже никого не впечатляют, началась новая эра агентские DDOS атаки.
XAKEP
Компания, защищающая от DDoS-атак, пострадала от атаки мощностью 1,5 млрд пакетов в секунду
Неназванная европейская компания, специализирующаяся на защите от DDoS-атак, сама стала жертвой такой атаки, мощность которой достигла 1,5 млрд пакетов в секунду (PPS). Специалисты FastNetMon, которые занимались отражением DDoS, сообщили, что атака исходила…
В очень интересное время живем, в очень интересное. Ну что сеть начинает делиться еще сильнее.
Зумеры в Непале выбрали главу временного правительства с помощью ChatGPT. Нейросеть проанализировала кандидатов и предложила на роль 73-летнюю Сушилу Карки, бывшего главного судью. «Она сможет заслужить доверие разных групп и провести реформы», — объяснила школьникам нейросеть.
Новое направление для ветряных электростанций.
В Китае начинаются лётные испытания первого в мире дирижабля - «ветряной мельницы» S1500 с выработкой энергии в 1 МВт, что эквивалентно традиционной ветряной турбине диаметром 100 метров. Общий вес системы, наполненной гелием, составляет 1 тонну.
Система нацелена на использование высокоскоростных и устойчивых ветров, дующих на высоте 1500 метров над землёй. Поэтому их эффективность считается значительно выше, чем у традиционных ветряных турбин, которые обычно используют энергию ветра на высоте всего 200 метров над землёй. Энергия с дирижабля будет передаваться по кабелю. Фактически турбина-дирижабль будет выдавать энергию 95% времени, что решает проблему неиспользования традиционных ВЭС во время штилей.
Дунь Тяньжуй, основатель и генеральный директор SAWES, ранее заявлял, что их цель - поднять ветряную электростанцию на высоту 10.000 метров. Скорость ветра там до 200 раз выше, чем у земли, что может привести к значительному увеличению выработки.
Учёным остаётся заняться проблемой бесперебойной выработки энергии солнечными станциями, и тут пока лёгких решений не видно (пока направление мысли движется только в сторону накопителей энергии на СЭС).
Если эксперименты с ВЭС-дирижаблями окажутся удачными, то ветряные станции могут обогнать СЭС в новых установленных мощностях.
В Китае начинаются лётные испытания первого в мире дирижабля - «ветряной мельницы» S1500 с выработкой энергии в 1 МВт, что эквивалентно традиционной ветряной турбине диаметром 100 метров. Общий вес системы, наполненной гелием, составляет 1 тонну.
Система нацелена на использование высокоскоростных и устойчивых ветров, дующих на высоте 1500 метров над землёй. Поэтому их эффективность считается значительно выше, чем у традиционных ветряных турбин, которые обычно используют энергию ветра на высоте всего 200 метров над землёй. Энергия с дирижабля будет передаваться по кабелю. Фактически турбина-дирижабль будет выдавать энергию 95% времени, что решает проблему неиспользования традиционных ВЭС во время штилей.
Дунь Тяньжуй, основатель и генеральный директор SAWES, ранее заявлял, что их цель - поднять ветряную электростанцию на высоту 10.000 метров. Скорость ветра там до 200 раз выше, чем у земли, что может привести к значительному увеличению выработки.
Учёным остаётся заняться проблемой бесперебойной выработки энергии солнечными станциями, и тут пока лёгких решений не видно (пока направление мысли движется только в сторону накопителей энергии на СЭС).
Если эксперименты с ВЭС-дирижаблями окажутся удачными, то ветряные станции могут обогнать СЭС в новых установленных мощностях.
Interesting Engineering
China to flight-test world’s first megawatt-level 'windmill' airship
The airborne 'windmill' produces power equal to a traditional 328-foot wind turbine.
📌Дирижабли с искусственным интеллектом: индустрия 4.0 | Подкаст СВОИМИ СЛОВАМИ
Полезно знать про дирижабли.
Новый выпуск подкаста про дирижабли СВОИМИ СЛОВАМИ с Геннадием Бабаниным.
🗣Поговорим о том, как искусственный интеллект (ИИ) помогает развитию дирижаблестроения. Интеграция ИИ в системы управления позволяет существенно повысить автономность дирижаблей, оптимизировать маршруты и снизить потребность в ручном управлении. Алгоритмы машинного обучения анализируют погодные условия, корректируют курс и принимают решения в нештатных ситуациях, обеспечивая безопасность и эффективность полётов.
🔥Как тестировали автопилот на дирижабле NOVA-01? Смотрите в этом выпуске!
Выбирайте, где смотреть:
🖇VKontakte
🖇YouTube
🖇RuTube
🖇Дзен
#АЭРОНОВАподкаст
Полезно знать про дирижабли.
Новый выпуск подкаста про дирижабли СВОИМИ СЛОВАМИ с Геннадием Бабаниным.
🗣Поговорим о том, как искусственный интеллект (ИИ) помогает развитию дирижаблестроения. Интеграция ИИ в системы управления позволяет существенно повысить автономность дирижаблей, оптимизировать маршруты и снизить потребность в ручном управлении. Алгоритмы машинного обучения анализируют погодные условия, корректируют курс и принимают решения в нештатных ситуациях, обеспечивая безопасность и эффективность полётов.
🔥Как тестировали автопилот на дирижабле NOVA-01? Смотрите в этом выпуске!
Выбирайте, где смотреть:
🖇VKontakte
🖇YouTube
🖇RuTube
🖇Дзен
#АЭРОНОВАподкаст
reg.solargroup.pro
Дирижабли нового поколения
Станьте совладельцем инновационного бизнеса на лучших условиях
🔥1
Законопроект, ставящий под угрозу всю информацию про ИБ, удален.
Совместо с каналом
Heartov OSINT подготовили статью на нашумевшую тему:
https://vc.ru/id1311068/2213928-zakonoproekt-stavyashii-pod-ugrozu-vsyu-informaciyu-pro-ib-udalen
Совместо с каналом
Heartov OSINT подготовили статью на нашумевшую тему:
https://vc.ru/id1311068/2213928-zakonoproekt-stavyashii-pod-ugrozu-vsyu-informaciyu-pro-ib-udalen
vc.ru
Законопроект, ставящий под угрозу всю информацию про ИБ, удален — Digital-Разведка на vc.ru
Digital-Разведка сейчас
🚀 Китайский ИИ нового уровня: Alibaba представляет революционную архитектуру Qwen3-Next
Китайская компания Alibaba представила новое поколение своей языковой модели — Qwen3-Next. Новая архитектура обещает резкий скачок в эффективности: модель с 80 миллиардами параметров активирует для ответа лишь 3 миллиарда, сохраняя высочайшее качество и обгоняя конкурентов вроде Gemini-2.5-Flash.
🚀 Рекордная эффективность
• Обучение: Потребовалось менее 10% вычислительных ресурсов (GPU Hours) от предшественника Qwen3-32B при сопоставимом качестве.
• Инференс: Скорость обработки длинных контекстов (свыше 32k токенов) выросла более чем в 10 раз.
🧠 Ключевые инновации:
• Гибридное внимание: Сочетает линейное (быстрое) и стандартное (точное) внимание для баланса скорости и качества.
• Сверхразреженная MoE-структура: Из 512 «экспертов» для каждого запроса выбирается всего 10 + 1 общий. Это экономит ресурсы.
• Предсказание нескольких токенов(MTP): Модель предугадывает несколько слов вперед, что ускоряет генерацию.
• Повышенная стабильность обучения: Новые методы нормирования и инициализации сделали процесс надежнее.
⚙️ Технические детали
Архитектура представляет собой смесь
📊 Выпущены три версии модели
• Base: Для дальнейшего дообучения и исследований.
• Instruct: По производительности сравнима с гигантской флагманской Qwen3-235B, но значительно эффективнее в работе с длинными контекстами (до 256K).
• Thinking: Специализированная модель для сложных рассуждений, которая обгоняет закрытый Gemini-2.5-Flash-Thinking и приближается к топовой Qwen3-235B.
✅ Вывод
Qwen3-Next — это не просто эволюционное обновление, а стратегический шаг, переопределяющий баланс между размером модели, стоимостью обучения и скоростью работы. Архитектура открыта, что позволяет всему сообществу строить на её основе ещё более мощные приложения.
Сайт | HuggingFace
#КитайскийИИ #КитайAI #Qwen3Next #AlibabaAI #MoE #ИИархитектура #LLM
Китайская компания Alibaba представила новое поколение своей языковой модели — Qwen3-Next. Новая архитектура обещает резкий скачок в эффективности: модель с 80 миллиардами параметров активирует для ответа лишь 3 миллиарда, сохраняя высочайшее качество и обгоняя конкурентов вроде Gemini-2.5-Flash.
🚀 Рекордная эффективность
• Обучение: Потребовалось менее 10% вычислительных ресурсов (GPU Hours) от предшественника Qwen3-32B при сопоставимом качестве.
• Инференс: Скорость обработки длинных контекстов (свыше 32k токенов) выросла более чем в 10 раз.
🧠 Ключевые инновации:
• Гибридное внимание: Сочетает линейное (быстрое) и стандартное (точное) внимание для баланса скорости и качества.
• Сверхразреженная MoE-структура: Из 512 «экспертов» для каждого запроса выбирается всего 10 + 1 общий. Это экономит ресурсы.
• Предсказание нескольких токенов(MTP): Модель предугадывает несколько слов вперед, что ускоряет генерацию.
• Повышенная стабильность обучения: Новые методы нормирования и инициализации сделали процесс надежнее.
⚙️ Технические детали
Архитектура представляет собой смесь
Gated DeltaNet (75% слоев) для эффективного моделирования длинных последовательностей и стандартного Gated Attention (25% слоев) для высокой точности. Это позволило превзойти по качеству Mamba2 и sliding window attention. Для стабилизации тренировки внедрены Zero-Centered RMSNorm и нормализация весов маршрутизатора в MoE.📊 Выпущены три версии модели
• Base: Для дальнейшего дообучения и исследований.
• Instruct: По производительности сравнима с гигантской флагманской Qwen3-235B, но значительно эффективнее в работе с длинными контекстами (до 256K).
• Thinking: Специализированная модель для сложных рассуждений, которая обгоняет закрытый Gemini-2.5-Flash-Thinking и приближается к топовой Qwen3-235B.
✅ Вывод
Qwen3-Next — это не просто эволюционное обновление, а стратегический шаг, переопределяющий баланс между размером модели, стоимостью обучения и скоростью работы. Архитектура открыта, что позволяет всему сообществу строить на её основе ещё более мощные приложения.
Сайт | HuggingFace
#КитайскийИИ #КитайAI #Qwen3Next #AlibabaAI #MoE #ИИархитектура #LLM
chat.qwen.ai
Qwen Chat
Qwen Chat offers comprehensive functionality spanning chatbot, image and video understanding, image generation, document processing, web search integration, tool utilization, and artifacts.
Китайские военные исследователи разработали систему искусственного интеллекта, которая может революционизировать противолодочную войну, потенциально снизив уровень выживаемости подводных лодок до всего 5 процентов в будущих морских конфликтах.
Прорывные исследования, опубликованные в августе в рецензируемом журнале Electronics Optics & Control, знаменуют возможный конец эпохи «невидимых» подводных лодок, которые долгое время служили основой стратегий морского сдерживания. Система интегрирует данные из множества источников, включая гидроакустические буи, выпускаемые вертолетами, подводные датчики, радиолокационные системы и даже океанографические данные, такие как температура и уровень солености воды.
По данным The Defense News, компьютерные симуляции показали, что система поддерживает уровень обнаружения и отслеживания порядка 95 процентов, даже когда подводные лодки используют передовые методы скрытности. Это означает значительное улучшение по сравнению с существующими противолодочными возможностями и может фундаментально изменить стратегический баланс военно-морской войны.
Прорывные исследования, опубликованные в августе в рецензируемом журнале Electronics Optics & Control, знаменуют возможный конец эпохи «невидимых» подводных лодок, которые долгое время служили основой стратегий морского сдерживания. Система интегрирует данные из множества источников, включая гидроакустические буи, выпускаемые вертолетами, подводные датчики, радиолокационные системы и даже океанографические данные, такие как температура и уровень солености воды.
По данным The Defense News, компьютерные симуляции показали, что система поддерживает уровень обнаружения и отслеживания порядка 95 процентов, даже когда подводные лодки используют передовые методы скрытности. Это означает значительное улучшение по сравнению с существующими противолодочными возможностями и может фундаментально изменить стратегический баланс военно-морской войны.
ИИ-модели становятся энергоэффективнее.
Новое исследование Google показывает, что её Gemini LLM потребляет около 0,24 Вт-ч на один текстовый запрос. Это столько же энергии, сколько потребляет микроволновая печь в течение одной секунды или шесть секунд работы холодильника.
По их оценкам, 12 месяцев назад энергопотребление на один запрос было в 33 раза выше. Это означает, что стандартная текстовая подсказка тогда потребляла 9 Вт-ч.
Новое исследование Google показывает, что её Gemini LLM потребляет около 0,24 Вт-ч на один текстовый запрос. Это столько же энергии, сколько потребляет микроволновая печь в течение одной секунды или шесть секунд работы холодильника.
По их оценкам, 12 месяцев назад энергопотребление на один запрос было в 33 раза выше. Это означает, что стандартная текстовая подсказка тогда потребляла 9 Вт-ч.
Извлечение гиперспектральной информации с полным спектральным разрешением из обычных фотографий
В статье (Kwon et al., 2025) представлен метод извлечения гиперспектральной информации на основе единственного фотоснимка в видимом диапазоне. Методу не нужны обучающие данные или предварительно обученные модели. Авторы предлагают использовать "спектральную цветовую таблицу" (spectral color chart), напечатанную сетку из 729 уникальных цветов, которую фотографируют вместе с объектом. Авторы назвали новый метод 📊 Computational photography spectrometry (CPS).
📖 Kwon, S., Mok Park, S., Ji, Y., Sakthivel, H., Woo Leem, J., & Kim, Y. L. (2025). Hyperspectral Information Extraction With Full Resolution From Arbitrary Photographs. IEEE Transactions on Image Processing, 34, 5429–5441. https://doi.org/10.1109/tip.2025.3597038
#гиперспектр
В статье (Kwon et al., 2025) представлен метод извлечения гиперспектральной информации на основе единственного фотоснимка в видимом диапазоне. Методу не нужны обучающие данные или предварительно обученные модели. Авторы предлагают использовать "спектральную цветовую таблицу" (spectral color chart), напечатанную сетку из 729 уникальных цветов, которую фотографируют вместе с объектом. Авторы назвали новый метод 📊 Computational photography spectrometry (CPS).
📖 Kwon, S., Mok Park, S., Ji, Y., Sakthivel, H., Woo Leem, J., & Kim, Y. L. (2025). Hyperspectral Information Extraction With Full Resolution From Arbitrary Photographs. IEEE Transactions on Image Processing, 34, 5429–5441. https://doi.org/10.1109/tip.2025.3597038
#гиперспектр
ChatGPT будет проверять пользователей по паспорту. OpenAI внедряет систему определения возраста: если нейросеть заподозрит, что пользователю меньше 18 лет, она автоматически переключит его на урезанную версию с родительским контролем. Подросткам запретят флирт и разговоры на чувствительные темы, а мамы смогут видеть их переписки.
Взрослым тоже придётся смириться: при сомнениях ChatGPT попросит загрузить документы. Сэм Альтман признал, что это нарушает приватность, но назвал меру «оправданным компромиссом». @bankoffo
Взрослым тоже придётся смириться: при сомнениях ChatGPT попросит загрузить документы. Сэм Альтман признал, что это нарушает приватность, но назвал меру «оправданным компромиссом». @bankoffo
Согласно опросу Битрикс24, формулировка «с функцией ИИ» повышает интерес к продукту у 70% клиентов. Но стоит заменить на «создан с использованием ИИ» — и больше половины потенциальных покупателей уходит.
Отношение бизнеса к нейросетям так же парадоксально: 85% компаний признают, что ИИ снижает издержки. При этом треть уверена, что ИИ-решения должны стоить даже дешевле обычных.
Александр Вартанян, директор по маркетингу Битрикс24, поясняет:
Бизнес тоже очень хорошо умеет считать деньги. Никто не хочет переплачивать за то, что не принесет ощутимой пользы.
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Оптимизация обновления весов моделей в LLM
Checkpoint Engine — это легковесное промежуточное ПО для обновления весов в LLM во время инференса, критически важное для обучения с подкреплением. Оно обеспечивает быстрые и эффективные методы обновления весов, позволяя обрабатывать модели с триллионом параметров за считанные секунды.
🚀 Основные моменты:
- Поддержка двух методов обновления: Broadcast и P2P.
- Эффективная передача данных с использованием CUDA IPC.
- Оптимизированный процесс передачи с учетом шардирования.
- Подходит для работы с большими моделями на множестве GPU.
📌 GitHub: https://github.com/MoonshotAI/checkpoint-engine
Checkpoint Engine — это легковесное промежуточное ПО для обновления весов в LLM во время инференса, критически важное для обучения с подкреплением. Оно обеспечивает быстрые и эффективные методы обновления весов, позволяя обрабатывать модели с триллионом параметров за считанные секунды.
🚀 Основные моменты:
- Поддержка двух методов обновления: Broadcast и P2P.
- Эффективная передача данных с использованием CUDA IPC.
- Оптимизированный процесс передачи с учетом шардирования.
- Подходит для работы с большими моделями на множестве GPU.
📌 GitHub: https://github.com/MoonshotAI/checkpoint-engine
GitHub
GitHub - MoonshotAI/checkpoint-engine: Checkpoint-engine is a simple middleware to update model weights in LLM inference engines
Checkpoint-engine is a simple middleware to update model weights in LLM inference engines - MoonshotAI/checkpoint-engine
🔥2
Сегодня ушла в печать новая статья для Хабра. Там мы сделали аналитику по работе китайского сервиса Куайшоу (аналог тиктока). Мы исследовали скорость принятия решения по досмотру видео для коротких видео и скорость реакции нового поколения пользователей. Мы брали очень короткие диапазоны от 1 до 3 сек.
При этом, удалось поднять скор на модели с 0.76 до 0.79. Да немного, но в рамках таких больших моделей 3%, вернее мы получили 4.5%, на "длинной" дистанции это огромные деньги. Статью писали для Сбера. Скоро выйдет.
При этом, удалось поднять скор на модели с 0.76 до 0.79. Да немного, но в рамках таких больших моделей 3%, вернее мы получили 4.5%, на "длинной" дистанции это огромные деньги. Статью писали для Сбера. Скоро выйдет.
🔥4
https://habr.com/ru/companies/sberbank/articles/943610/ - моя новая статья для Сбера. Тут я рассуждаю на тему "шумных" данных. А че, получилось неплохо )))
Хабр
Сказ о том, как «беспокойные» данные набеспокоили нам скор
Привет, уважаемые Хаброжители ;-) Сегодня мы поговорим о данных, которые представляют собой весьма специфичный случай, а именно о «шумных» данных. Предлагаю вам поразмыслить на тему обратного...
🔥2
• Ну что, вот и первый компьютерный в мире вирус, который был создан ИИ. Его обнаружили специалисты ESET, а малварь получила название PromptLock.
• Исследователи объясняют, что PromptLock использует модель
• После малварь определяет, какие файлы искать, копировать, шифровать или даже уничтожать, основываясь на типе файла и его содержимом. По данным исследователей, отвечающая за уничтожение данных функциональность пока не реализована.
• PromptLock использует 128-битный алгоритм SPECK для шифрования файлов, а сам вымогатель написан на Go.
• Отмечено, что PromptLock является лишь концепцией и еще ни разу не был замечен в реальных условиях. Такие вот дела...
➡️ https://bsky.app/profile/esetresearch/PromptLock
• Исследователи объясняют, что PromptLock использует модель
gpt-oss-20b от OpenAI, которая является одной из двух бесплатных open-weight моделей, опубликованных компанией ранее в этом месяце. Она работает локально на зараженном устройстве через Ollama API и «на лету» генерирует вредоносные Lua-скрипты.• После малварь определяет, какие файлы искать, копировать, шифровать или даже уничтожать, основываясь на типе файла и его содержимом. По данным исследователей, отвечающая за уничтожение данных функциональность пока не реализована.
• PromptLock использует 128-битный алгоритм SPECK для шифрования файлов, а сам вымогатель написан на Go.
• Отмечено, что PromptLock является лишь концепцией и еще ни разу не был замечен в реальных условиях. Такие вот дела...
Please open Telegram to view this post
VIEW IN TELEGRAM
Bluesky Social
ESET Research (@esetresearch.bsky.social)
#ESETResearch has discovered the first known AI-powered ransomware, which we named #PromptLock. The PromptLock malware uses the gpt-oss:20b model from OpenAI locally via the Ollama API to generate malicious Lua scripts on the fly, which it then executes 1/7
🚀 Новая работа по обучению моделей с ограниченным бюджетом разметки: Group Relative Policy Optimization (GRPO)
💡 Идея проста: самые большие улучшения достигаются, если обучать модель именно на самых сложных задачах.
Что показали эксперименты:
- 📈 +30–40 баллов на reasoning-задачах
- 🔥 +20% lift на out-of-distribution тестах
- ✅ Только hardest 10% данных даёт лучший результат, чем easy, middle или случайный выбор
Как это работает:
- Трудность задачи оценивается по *pass rate* — сколько ответов base-модели проходят из нескольких сэмплов
- Промпты ранжируются на easy / middle / hard
- GRPO обучается только на hard-срезе
- Обучение идёт за счёт нескольких rollout’ов: награда выдаётся только тем, кто превысил средний уровень группы
- На лёгких задачах сигнал быстро исчезает, на сложных остаётся вариативность и полезные градиенты
📊 Результаты:
- GSM8K, Tracking Shuffled Objects → hardest 10% всегда лучше остальных
- AIME-2025 → только hard-обученная модель превзошла base, с ~20% приростом
🔑 Практическое правило: покупайте задачи, которые базовая модель *редко* решает, но *иногда* угадывает правильно. Именно они приносят максимальную отдачу.
🟢 Paper: https://arxiv.org/abs/2508.14094
🟢 Github: https://github.com/Pikus16/grpo_difficulty
Ну наконец-то доказали !!!
💡 Идея проста: самые большие улучшения достигаются, если обучать модель именно на самых сложных задачах.
Что показали эксперименты:
- 📈 +30–40 баллов на reasoning-задачах
- 🔥 +20% lift на out-of-distribution тестах
- ✅ Только hardest 10% данных даёт лучший результат, чем easy, middle или случайный выбор
Как это работает:
- Трудность задачи оценивается по *pass rate* — сколько ответов base-модели проходят из нескольких сэмплов
- Промпты ранжируются на easy / middle / hard
- GRPO обучается только на hard-срезе
- Обучение идёт за счёт нескольких rollout’ов: награда выдаётся только тем, кто превысил средний уровень группы
- На лёгких задачах сигнал быстро исчезает, на сложных остаётся вариативность и полезные градиенты
📊 Результаты:
- GSM8K, Tracking Shuffled Objects → hardest 10% всегда лучше остальных
- AIME-2025 → только hard-обученная модель превзошла base, с ~20% приростом
🔑 Практическое правило: покупайте задачи, которые базовая модель *редко* решает, но *иногда* угадывает правильно. Именно они приносят максимальную отдачу.
Ну наконец-то доказали !!!
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Hard Examples Are All You Need: Maximizing GRPO Post-Training...
Collecting high-quality training examples for language model fine-tuning is expensive, with practical budgets limiting the amount of data that can be procured. We investigate whether example...
🔥1