Neurohive - Нейронные сети, AI, ML, DL
4.66K subscribers
257 photos
49 videos
1.42K links
Нейросети - свежие новости. State-of-the-art модели и методы, AI, Deep learning, Big data, Machine learning, NLP, Computer vision
Website: neurohive.io/ru/
По вопросам сотрудничества: @cyrud
Download Telegram
NVIDIA представила семейство открытых моделей Llama Nemotron с продвинутыми возможностями в задачах рассуждения. Сложный трехступенчатый процесс обучения моделей Llama позволил улучшить их точность на 20% при достижении в 5 раз большей скорости инференса. Llama Nemotron специализированы для задач математики, программирования, рассуждений и принятия сложных решений.

Модель Llama 3.1 Nemotron Nano 8B построена на базе Llama-3.1-8B-Instruct, имеет архитектуру плотного декодер-трансформера с длиной контекста 128K. Подходит для локальной работы.

Модель Llama 3.3 Nemotron Super 49B - это дообученная Llama-3.3-70B-Instruct, улучшенная с помощью Neural Architecture Search c cохранением длины контекста 128K. Улучшения включают skip attention и вариационный FFN. Эта архитектура специально оптимизирована для работы на одном GPU H100-80GB.

На тестах модель Llama Nemotron Super 49B показывает лучшие результаты во всех тестируемых категориях, обходя DeepSeek R1. На MATH 500 точность 96%, на Arena Hard результат 88%. При этом модель обеспечивает в 5 раз более высокую пропускную способность - около 3000 токенов в секунду, превосходя конкурентов как в точности, так и в производительности.

Модели доступны на build.nvidia.com и Hugging Face.

#StateoftheArt
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic выпустил версию Claude for Education, разработанную специально для внедрения в университетах. Learning mode использует сократовский метод диалога, задавая уточняющие и наводящие вопросы и помогая студентам развивать критическое мышление.

Модель обучена на наборах диалогов студентов и преподавателей. Функция вознаграждения стимулирует генерацию наводящих вопросов вместо прямых ответов. Сначала модель выполняет стандартное предсказание ответа, затем включается дополнительный классификатор, определяющий, следует ли трансформировать ответ в сократический формат. Если да, активируется сеть переформулирования, которая превращает прямой ответ в серию наводящих вопросов.

В модели используется расширенный chain-of-thought промптинг с явной токенизацией промежуточных шагов рассуждения. Это позволяет модели в деталях демонстрировать процесс решения.

Northeastern University в Бостоне стал первым партнером Anthropic: внедрение охватывает все 13 кампусов и обеспечивает доступ к Claude для 50 000 студентов, преподавателей и сотрудников. Компания запустила программу Campus Ambassadors для студентов, желающих использовать Claude в своих кампусах, и предлагает API-кредиты для студенческих проектов.

#AIapps
Стартап Аватар Машина выпустил Fractal TechDocs - ИИ-ассистента для строителей, инженеров, архитекторов и проектировщиков для работы с нормативными документами на русском языке: ГОСТы, СП, СНиПы. Модель работает в закрытом контуре без риска утечки данных.

Fractal TechDocs поддерживает три режима ответов:
- Обычный ответ – типовой graph-RAG c краткими ответами и выдержками из документа;
- Ответ с размышлением – агент для развернутого анализа с учетом нескольких параметров, например, требований к пожарной безопасности для разных групп мобильности;
- Глубокое размышление – агент для больших отчетов по десяткам файлов, сравнение данных и детальным, структурным выводом.

Размер файлов ограничен 30мб или 500к слов, без ограничения на количество файлов. Поддерживаются текстовые форматы: doc, docx. pdf, ppt, txt и другие, анализируются изображения внутри документов.

TechDocs выпущен в статусе публичной беты, доступ полностью бесплатный.

#AIapps
🚀 Post-Trade Researcher в Wunder Fund
💰 $4,000–$6,000 на руки
🏠 Удалёнка, релокация по желанию

Wunder Fund c 2014 года занимается HFT — высокочастотным алготрейдингом. Торгуем на многих биржах по всему миру, как классических, так и криптовалютных. Наш дневной торговый оборот около ~$8 млрд.

Сейчас ищем ресёрчера, который поможет делать наш симулятор биржи максимально реалистичным.

🧠 Что делать
• Искать аномалии в данных и метриках торговых стратегий
• Разбираться в расхождениях между симуляцией и реальностью
• Исследовать инциденты из прода, дебажить, докапываться до корня

🔍 Как узнать себя в этой роли
• Обожаешь данные и любишь пристально в них вглядываться
• Сам берешь задачи под контроль и доводишь до завершения
• Работаешь с Python, pandas, Linux, SQL
• Будет плюсом: C++, Kaggle, ШАД, опыт работы с биржевыми данными

🏝 Условия: Удалёнка, помощь с ВНЖ и отсрочкой. Два раза в год собираемся на корп. вилле (Бали, Тай и т.д.)
Платим $4-6k на руки любым удобным способом.

💌 Как откликнуться
Пишите Маше в ТГ: @wunderfund
Или на почту join@wunderfund.io
This media is not supported in your browser
VIEW IN TELEGRAM
MedSAM2  - модель сегментации медицинских 3D-изображений и видео, построенная на базе модели SAM2.1-Tiny. MedSAM2 - полностью открытая модель: исследователи выложили код, веса модели и аннотированные датасеты на Github и HF.

Модель использует иерархический трансформер (Hiera) с модулем внимания памяти, потоковый "банк" памяти, который обусловливает признаки текущего кадра на основе предсказаний предыдущих кадров и подход transfer-learning с дифференцированными скоростями обучения.

MedSAM2 превосходит SOTA модели EfficientMedSAM-Top1 на 5-13%, SAM2.1 на 7-18% в задачах сегментации 3D-сканов и на 2-9% для видео.

Возможно, наибольший вклад MedSAM2 – это ее практическое применение в аннотации данных. Исследователи реализовали пайплайн аннотации с человеком в цикле (human-in-the-loop), сократив время аннотации для:
- снимков КТ с 525.9 секунд до 74.3 секунд на поражение (на 86%);
- поражений печении на МРТ - на 87%;
- видео эхокардиографии - на 92%.

#Stateoftheart
Исследователи из Tencent опубликовали DeepMath-103K - крупный математический датасет для обучения с подкреплением продвинутых моделей рассуждения. Проект опубликован на Github.

DeepMath-103K содержит 103 тысячи математических задач, из которых 95к — отборные сложные задачи, и 8к задач средней сложности. Каждая задача имеет проверяемый окончательный ответ и три пути решения, сгенерированных Deepseek R1, что позволяет поддерживать разные методы обучения: supervised fine-tuning, reward modeling и model distillation. Набор данных был очищен от пересечений с популярными тестовыми наборами: MATH, AIME, AMC, Minerva Math и OlympiadBench.

Qwen2.5-7B-Base, обученная на DeepMath-103K, улучшила точность с 54,8% до 85,5% на на MATH500, на AIME24 с 7,7% до 20,4%. Точность ответов в задачах из олимпиад по математике улучшились с 27,8% до 51,0%.

Создание набора данных стоило исследователям $138 000 на API-кредиты GPT-4o и 127 000 часов работы GPU H20.

#Dataset
This media is not supported in your browser
VIEW IN TELEGRAM
Инженер по машинному обучению без сильной теоретической и практической базы — как нейросеть без данных: не обучается

Если вы хотите попасть в категорию high-level инженеров по машинному обучению — рекомендуем свежий подкаст на MLinside с Алексеем Толстиковым, руководителем ШАДа Яндекса.

ШАД — это точка входа в профессию через глубокие знания, отбор и постоянную работу над собой.
Выпускники становятся авторами исследований, работают в международных научных центрах, запускают собственные стартапы, разрабатывают ИИ-продукты, которыми пользуются миллионы.

В выпуске:

– почему ШАД — это не просто школа, а катализатор карьеры;
– как устроен отбор: задачи, интервью, альтернативный трек;
– как не слиться на экзамене и зачем читать Зорича.

🎧 Подкаст
Microsoft представила модель Phi-4-reasoning с 14 миллиардами параметров, которая в задачах рассуждения показывает результаты на уровне DeepSeek-R1 (671B параметров), и превосходит o1-mini и DeepSeek-R1-Distill-Llama-70B на большинстве бенчмарков. Модель доступна через репозиторий Microsoft на HF, а в GitHub Models можно протестировать ее в playground или интегрировать через GitHub API.

Phi-4-reasoning сохранила архитектуру базовой модели Phi-4, с двумя ключевыми модификациями. Команда назначила плейсхолдер-токены в виде маркеров <think> и </think> для разграничения секций рассуждения, позволяя модели явно отделять процесс мышления от финального ответа. Длина контекста расширена с 16K до 32K токенов, что предоставило пространство для развёрнутых цепочек рассуждений.

Для обучения модели команда тщательно отобрала более 1,4 миллиона пар "запрос-ответ», сосредоточившись на задачах, требующих многоэтапного рассуждения, а не простого воспроизведения фактов. Улучшения в способностях к рассуждению распространились за пределы специализированных задач и усилили общий интеллект модели.

#Stateoftheart
ZEROSEARCH: открытый фреймворк, снижающий затраты на обучение LLM поиску на 88%

ZEROSEARCH основан на ключевом наблюдении: LLM уже приобрели обширные общие знания в процессе предварительного обучения и способны генерировать релевантные документы в ответ на поисковые запросы. Cвежие подходы сталкиваются с двумя проблемами: непредсказуемым качеством документов из поисковых систем и высокими затратами на API при обучении.

Фреймворк Zerosearch включает три ключевых компонента:
1. Симуляция поисковой системы: через supervised fine-tuning LLM генерирует как релевантные ответы, так и зашумленные документы путем изменения нескольких слов в промпте.
2. Во время RL-тренировки ZEROSEARCH использует стратегию curriculum-based rollout, которая постепенно снижает качество генерируемых документов. Подход последовательно развивает способность модели к рассуждению, прибегая ко всё более сложным сценариям.
3. Низкие затраты на обучение по сравнению с использованием коммерческих поисковых API. Реализация подхода требует GPU-инфраструктуры, но он снижает затраты на обучение на 88%.

В результате 7B-модель достигла производительности, сравнимой с использованием реальной поисковой системы для обучения. Модель с 14B параметров превосходит производительность модели, обученной на данных из реальной поисковой системы сразу на нескольких бенчмарках.

Исследователи опубликовали в открытом доступе реализацию кода, датасеты и предварительно обученные модели.

#StateoftheArt
NVIDIA представила обновления экосистемы Isaac для разработки роботов: генерацию синтетических сред с продвинутой физикой и усовершенствованное тестирование моделей на всех этапах разработки.

Isaac Sim 5.0 будет доступен на GitHub до конца квартала. Интеграция с сервисом NVIDIA Brev, рынком облачных провайдеров GPU, позволит разработчикам найти наиболее подходящего по соотношению цены и качества. Обучение на облачных GPU Nvidia ускорит циклы итераций благодаря развертыванию в один клик.

Улучшена симуляция датчиков глубины и моделирование шума для стереокамер, чтобы карты глубины с шумовыми характеристики были аналогичны данным с реальных сенсоров.

Обновленное моделирование трения в «суставах» роботов, определенное через OpenUSD, дает более точную симуляцию движений роботов в реальном мире.

Agility Robotics, Boston Dynamics, Fourier уже используют эти технологии Nvidia для обучения роботов.

#Stateoftheart
Visual-ARFT: открытый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах

Исследователи обучали модель Qwen2.5-VL двум сценариям:
Агентный поиск: модель планирует, декомпозирует исходную задачу и извлекает информацию из внешних источников для ответа на сложные мультимодальные многошаговые VQA вопросы.
Агентное программирование: модель рассуждает о задаче, пишет и выполняет код для обработки изображений и решения сложных задач визуального анализа.

Visual-ARFT использует модульную систему верифицируемых вознаграждений:
Format Reward учит соблюдать четкий формат выходных данных, включая теги <think>, <search>, <code> и <answer>. Это стимулирует структурированное пошаговое рассуждение и корректное использование инструментов.
Accuracy Rewards оценивают качество ответов, используя F1-score, оценивая семантическое сходство поисковых запросов и выполнимость сгенерированного кода.

На MAT-Coding модель Qwen2.5-VL-7B с Visual-ARFT достигает улучшений +18.56% F1 и +13.00% EM по сравнению с базовой версией, превосходя GPT-4o.
На MAT-Search та же модель демонстрирует прирост +10.28% F1 и +8.66% EM.

Код доступен на Github.

#Stateoftheart
Работаете с ML?

Наверняка вам знакома ситуация, когда проведение простого эксперимента превращается в неэффективный и дорогой процесс. Неподходящая или “собранная вручную” инфраструктура, отсутствие трекинга и логирования, разрозненные окружения и пайплайны…

Решения Selectel для ваших ML-задач помогут справиться с этими проблемами:
▪️ Серверы с разными типами GPU под конкретные задачи — выделенные и облачные, с видеокартами NVIDIA (Tesla T4, A2, A30, A100, A2000, A5000);
▪️Готовые серверы с набором преднастроенных инструментов для ML и анализа данных;
▪️ ML- и Inference- платформы — быстрое обучение и развертывание моделей в несколько кликов.

Инфраструктура размещена в России: низкие задержки, поддержка на русском языке, соответствие 152-ФЗ.

Если хотите выстроить инфраструктуру для ML на базе публичного облака Selectel, перенесите свой проект в Selectel и получите до 30 000 бонусов на тестирование облачных сервисов в течение месяца.

Регистрируйтесь по ссылке

Реклама, АО «Селектел», ИНН 7810962785, erid:2VtzqvinKoa
This media is not supported in your browser
VIEW IN TELEGRAM
Mistral AI представил Agents API — фреймворк для создания автономных AI-агентов со встроенными коннекторами, постоянной памятью и возможностями оркестрации. Разработчики могут создавать неограниченнное число агентов и выстраивать пайплайны для взаимодействия между ними.

Agents API включает пять встроенных коннекторов: для генерации изображений и кода на Python, работы с документами, веб-поиска и интеграции в внешними системами через MCP-протокол.

Примеры реализации агентов: агент-программист с интеграцией GitHub для автоматизированной разработки, агент-аналитик для извлечения метрик и компиляции отчетов, турагент для планирования поездок, агент-нутрициолог для управления диетой.

Передача задач между агентами позволяет решать сложные задачи через координацию нескольких агентов. Например, финансовый агент передает задачу поиска данных веб-агенту, а затем получает результаты обратно для анализа.

Цены: Mistral Medium 3 — $0.4/$2 за миллион input/output токенов, Web Search и Code Execution — $30 за 1,000 вызовов, Image Generation — $100 за 1,000 изображений.

#Development
Исследователи Microsoft опубликовали On-Policy RL with Optimal reward baseline (OPO) - метод обучения с подкреплением на основе человеческих предпочтений, который решает проблемы современных RL-моделей: генерация однообразных ответов, непредсказуемые изменения между обновлениями и снижение производительности. Код этого упрощенного агортима выравнивания выложен на Github.

On-policy принцип означает, что градиенты вычисляются на данных, собранных текущей политикой, то есть формулой вероятностного распределения, которую модель назначает ответам y для выхода x. Слабые on-policy ограничения приводят к использованию данных от предыдущих версий политики, что технически делает обучение off-policy. В результате модель генерирует очень похожие, однообразные ответы, слишком резко меняет свое поведение между обновлениями и даже ухудшает свои исходные способности.

Стандартный пайплайн RLHF включает контролируемое дообучение и часто использует алгоритм Proximal Policy Optimization (PPO), управляемый обученной моделью вознаграждения. В отличие от PPO, который собирает батч данных с текущей политикой и затем выполняет множественные обновления градиентов на этом фиксированном батче, строгое on-policy обучение гарантирует, что каждый шаг градиента вычисляется с использованием свежих данных, сэмплированных с текущей политики.

Также команда разработала математически оптимальный бейзлайн, который минимизирует дисперсию градиента.

Строгое on-policy обучение превзошло обучение off-policy (55.42% против 53.50% на AIME 2024), демонстрируя при этом более стабильную, эффективную динамику обучения с меньшими повторениями и большим разнообразием ответов.

#StateoftheArt