Машинное обучение digest
58 subscribers
1.69K photos
224 videos
925 links
Download Telegram
⚡️ EasyR1 – эффективный и масштабируемый фреймворк для обучения с подкреплением (RL) с поддержкой мультимодальных данных.

Чем интересен EasyR1?
EasyR1 сочетает в себе алгоритм GRPO, продемонстрированный в DeepSeek R1, и расширение системы veRL для поддержки vision-language моделей, таких как Qwen2.5-VL.

Уже после 30 шагов обучения фреймворк показал прирост производительности на 5% в экспериментах на тестовом наборе Geometry3k.

Это делает его привлекательным инструментом для исследователей и разработчиков, работающих с задачами, где объединяются визуальные и текстовые данные.

Фреймворк спроектирован так, чтобы быть масштабируемым и легко интегрироваться с различными алгоритмами RL, что открывает широкие возможности для дальнейших исследований.

Ожидайте будущих обновлений – в них планируется интеграция дополнительных алгоритмов RL и новых архитектур VLM.

Github

#EasyR1 #opensource #GRPO #VLM
✔️ Создатель C++ бьет тревогу из-за "серьезных атак" на язык программирования.

Бьярне Страуструп, создатель C++, обратился к сообществу с призывом защитить язык, который в последние годы подвергается критике со стороны кибербезопасности и технических экспертов из-за проблем с ручным управлением памяти. C и C++ полагаются на него, что приводит к ошибкам выхода за пределы чтения и записи, которые, в свою очередь становятся источником для уязвимостей и составляют большинство проблем в крупных проектах.

Страуструп признает, что C++ нуждается в срочных мерах для улучшения безопасности, особенно в свете рекомендаций правительственных агентств, которые рекомендуют отказаться от использования "небезопасных" языков к 2026 году. Он предлагает использовать фреймворк "Profiles", который может помочь в решении этих проблем, но скептики считают, что это решение не будет готово вовремя.
theregister.com

✔️ ByteDance выпустила первую в Китае ИИ-IDE Trae

ByteDance официально выпустила «Trae», интегрированную среду разработки ИИ (AI IDE). Trae работает с моделью Doubao 1.5 Pro и может переключаться на полноценные версии DeepSeek R1 и V3.

Trae поддерживает автодополнение кода, понимание кода, исправление ошибок и генерацию кода на основе естественного языка. В ней есть новый режим Builder, который позволяет разработчикам быстро генерировать и оптимизировать код с текстовых помощью описаний.

Внутренняя версия Trae оптимизирована для сценариев разработки в Китае и предлагает версии для Mac и Windows, версия для Linux и возможность подключения в API провайдеров языковых моделей будут выпущены позже.
trae.com.cn

✔️ Microsoft представила Dragon Copilot: ИИ для врачей.

Dragon Copilot - инструмент с голосовыми возможностями на базе ИИ, его цель - облегчить бремя административных задач для медицинских работников. Он объединяет в себе возможности Dragon Medical One и DAX Copilot, позволяя врачам оперативно получать доступ к медицинской информации и автоматически формировать различные документы, выписки и направления.

По словам представителей Microsoft, Dragon Copilot должен вернуть врачам возможность сосредоточиться на пациентах, а не на рутинной бумажной работе, что, как ожидается, приведет к улучшению качества медицинской помощи. Доступ к Dragon Copilot будет осуществляться через мобильное приложение, браузер или десктопное приложение, с интеграцией в различные виды электронных медсистем.
news.microsoft.com

✔️ Google SpeciesNet : модель ИИ для идентификации видов животных.

Google опубликовала SpeciesNet, опенсорс-модель для идентификации биологических видов на основе анализа фотоснимков, полученных с автоматических камер слежения.
Исследователи в различных регионах мира используют подобные устройства для изучения популяций диких животных, но обработка получаемых данных представляет собой трудоемкий процесс из-за их объема. SpeciesNet, обученная на массиве из 65 млн. изображений, оптимизирует процедуру анализа.

Система способна классифицировать изображения по 2 тыс. категорий - как отдельные виды животных, так и более широкие таксономические группы.
techcrunch.com

✔️ Sinumerik Machine Tool Robot от Siemens: новая эра в промышленной робототехнике.

Siemens AG объявила о выпуске революционного продукта в области промышленной робототехники – Sinumerik Machine Tool Robot (MTR). Он обеспечивает увеличение точности траектории на 200–300 % по сравнению с традиционными промышленными роботами, а повышение производительности достигает 20–40 % благодаря инновационным концепциям управления.

В основе MTR лежит интеллектуальная система управления Sinumerik One - цифровая система ЧПУ нового поколения от Siemens. Она наделяет промышленных роботов характеристиками станков, делая их идеальными для высокоточных операций даже при обработке сверхтвердых материалов.

Технология будет представлена на выставках JEC, EMO (на стендах Danobat и Siemens) и Automatica (на стенде Siemens).
press.siemens.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Mistral OCR – это новый высокоточный и мультимодальный API, предназначенный для всестороннего анализа документов.

Он работает с изображениями и PDF, возвращая результат в виде упорядоченного, структурированного вывода, где текст и визуальные элементы перемежаются в соответствии с исходной структурой документа.

Согласно внутренним тестам, Mistral OCR достигает 94.89% точности, опережая Google Document AI (83.42%) и Azure OCR (89.52%).

Система способна обрабатывать 2000 страниц в минуту (в том числе на русском языке) на одном вычислительном узле, предлагая функцию "doc-as-prompt" для использования документов в качестве инструкций. Полученные данные могут быть структурированы в формат JSON. Mistral OCR доступен в Le Chat и через API на la Plateforme.
mistral.ai

Вот колаб, в котором всё, что вам нужно для запуска:

— Вставить API в строку api_key (его можно получить бесплатно); — Загрузить файл в левую папку и заменить pdf_file = Path на имя вашего документа.

На выходы вы получите текст, изображения и таблицы — а таблицы всегда были для меня особенно сложными.

https://mistral.ai/fr/news/mistral-ocr

@ai_machinelearning_big_data


#mistral #ocr
⚡️ Mistral OCR – это новый высокоточный и мультимодальный API, предназначенный для всестороннего анализа документов.

Он работает с изображениями и PDF, возвращая результат в виде упорядоченного, структурированного вывода, где текст и визуальные элементы перемежаются в соответствии с исходной структурой документа.

Согласно внутренним тестам, Mistral OCR достигает 94.89% точности, опережая Google Document AI (83.42%) и Azure OCR (89.52%).

Система способна обрабатывать 2000 страниц в минуту (в том числе на русском языке) на одном вычислительном узле, предлагая функцию "doc-as-prompt" для использования документов в качестве инструкций. Полученные данные могут быть структурированы в формат JSON. Mistral OCR доступен в Le Chat и через API на la Plateforme.
mistral.ai

Вот колаб, в котором всё, что вам нужно для запуска:

— Вставить API в строку api_key (его можно получить бесплатно); — Загрузить файл в левую папку и заменить pdf_file = Path на имя вашего документа.

На выходы вы получите текст, изображения и таблицы — а таблицы всегда были для меня особенно сложными.

https://mistral.ai/fr/news/mistral-ocr

@ai_machinelearning_big_data


#mistral #ocr
🔥 «The State of LLM Reasoning Models» свежая статья от Себастьяна Рашка, которая посвящена современному состоянию исследований в области рассуждений (reasoning) и масштабирования выводов (inference scaling) для больших языковых моделей (LLM).

Основные моменты:
- Эволюция возможностей рассуждения:
В статье показано, как с увеличением размеров моделей и вычислительных ресурсов появляются «внезапные» способности, позволяющие моделям выполнять сложное логическое и пошаговое рассуждение. Это включает методы вроде chain-of-thought, которые помогают моделям структурировать ответ.

- Масштабирование и его эффекты:
Анализируются закономерности масштабирования — как увеличение числа параметров и использование более мощных аппаратных средств влияет на точность и способность моделей к рассуждению. Выявляются пределы, где дополнительные вычисления начинают давать менее заметное улучшение.

- Инновации в инференсе:
Статья рассматривает новые подходы к оптимизации процесса инференса, что особенно важно для применения LLM в реальном времени и на устройствах с ограниченными ресурсами. Поднимается вопрос балансировки между качеством ответов и затратами на вычисления.

- Практические выводы для исследований:
Сатья служит ориентиром, показывающим, какие направления развития (например, улучшение алгоритмов рассуждения, оптимизация инференс-методов) могут принести наибольший эффект при дальнейшем увеличении масштабов моделей. Это позволяет понять, куда двигаться в будущих исследованиях и как лучше интегрировать существующие технологии в практические приложения.

Отличное воскресенье чтиво 📕

📌 Читать

#ai #ml #reasoning #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
📌LADDER: как научить LLM решать сложные задачи без учителя.

Tufa Labs опубликовала пейпер фреймворка LADDER, который дает возможность языковым моделям самостоятельно улучшать навыки решения сложных задач.

Технология имитирует человеческое обучение: ИИ разбивает проблемы на простые шаги, создаёт «учебный план» из упрощённых вариантов и постепенно наращивает мастерство решения. Например, модель Llama 3.2 с 3 млрд. параметров, изначально решавшая лишь 1% интегралов студенческого уровня, после обучения по методу LADDER достигла 82% точности.

Самые интересные результаты LADDER показал на тесте MIT Integration Bee — ежегодном соревновании по интегральному исчислению. На нем модель Qwen2.5 (7B), доработанная с помощью LADDER, набрала 73%, обойдя GPT-4o (42%) и большинство студентов, а с применением TTRL — результат вырос до 90%. Это превзошло даже показатели OpenAI o1, хотя последний не использовал числовую проверку решений.

TTRL (Test-Time Reinforcement Learning) — это метод «микрообучения», который позволяет языковым моделям адаптироваться к сложным задачам прямо во время их решения.


В основе LADDER - принцип рекурсивной декомпозиции: модель разбивает непосильную задачу на цепочку постепенно усложняющихся шагов, создавая собственную «учебную программу». Столкнувшись со сложным интегралом, ИИ генерирует его упрощённые версии — снижает степень полинома, убирает дробные коэффициенты или заменяет составные функции базовыми. Каждый такой вариант становится ступенью, ведущей к решению целевой задачи.

Работа фреймворка делится на три этапа:

Первый — генерация «дерева вариантов»: модель создаёт десятки модификаций задачи, ранжируя их по сложности.

Второй — верификация: каждое решение проверяется численными методами (например, сравнение значений интеграла в ключевых точках).

Третий — обучение с подкреплением: система поощряет успешные стратегии, используя баллы за правильные ответы и штрафуя за ошибки.

Дополняющее применение TTRL позволяет проводить «экспресс-тренировки» прямо во время теста: ИИ генерирует варианты конкретной задачи и адаптируется к ней за секунды, не требуя вмешательства человека.


🟡Arxiv

@ai_machinelearning_big_data

#AI #ML #RL #LADDER #Paper
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ OpenAI презентовала новые инструменты для разработчиков.

OpenAI анонсировала 3 новых инструмента для разработчиков, поддерживаемых в API и доступных через новый SDK. Среди новинок – WebSearch Tool, основанный на дообученной модели GPT-4o/GPT-4o-mini, для поиска информации в интернете. FileSearch Tool - инструмент поиска по документам с возможностью фильтрации по тегам, аналогично функциональности в Ассистентах. Третий - Computer Use (Operator), использующий ту же GPT-4o, предоставляющий доступ к локальному компьютеру пользователя.

Опубликованы и тарифы: Computer Use несколько дороже обычной GPT-4o, а поиск по файлам тарифицируется за запросы ( 2.5 долл. за 1000) и объем загруженных данных
(10 центов за гигабайт)
OpenAI на Youtube

✔️ TypeScript 7.0 будет в 10 раз быстрее.

Microsoft анонсировала радикальное улучшение производительности TypeScript за счет новой нативной реализации компилятора, написанной на Go. Он сократит время сборки проектов, ускорит загрузку редакторов и снизит потребление памяти. Уже сейчас тесты показывают: проверка кода VS Code занимает не 77,8 секунд, а всего 7,5.

Выпуск TypeScript 7.0 запланирован на конец 2025 года, но тестовую версию уже можно опробовать в GitHub-репозитории. Пока команда сохранит поддержку TypeScript 6.x для проектов, зависящих от старых API.

Подробности — в AMA-сессии Discord 13 марта, где авторы ответят на вопросы о будущем экосистемы.
devblogs.microsoft.com

✔️ Agora выпустила набор Conversational AI для IoT-устройств.

Agora, мировой лидер в области решений для взаимодействия в реальном времени, анонсировала запуск ConvoAI Device Kit — инструментария для разработки голосового ИИ в IoT-устройствах. Совместно с производителем чипов Beken и создателем роботов Robopoet Agora предлагает технологию, которая превращает игрушки, гаджеты и «умные» устройства в эмоционально отзывчивых собеседников.

ConvoAI Device Kit объединяет чипы Beken с платформой Agora и обеспечивает распознавание речи с минимальной задержкой, адаптивные диалоги и обработку эмоций.
Решение подходит для образовательных игрушек, «умных» домов и носимых гаджетов.
agora.io

✔️ Supermicro запускает edge-серверы для AI с процессорами Intel Xeon 6.

Supermicro анонсировала линейку компактных серверов, оптимизированных для ИИ. Новые системы оснащены процессорами Intel Xeon 6 с P-ядрами (до 144 вычислительных ядер, увеличенная на 40% пропускная способность памяти и улучшенная энергоэффективность). Новая линейка позволит обрабатывать данные в реальном времени непосредственно на месте их генерации, что критично для телекома, медицины и промышленности.

Серверы поддерживают до 512 ГБ DDR5, имеют порты 100 GbE и слот PCIe 5.0 для GPU, что делает их идеальными для медиа-задач и Edge AI. Отдельного представлены системы с процессорами Intel Core Ultra 15-го поколения — они предназначены для IoT и AI-инференса на edge-периферии (до 24 ядер и NPU).
supermicro.com

✔️ Cerebras развернёт 6 дата-центров в США и Европе.

Cerebras Systems, лидер в области инференса генеративного ИИ, объявила о запуске 6 новых дата-центров. Объекты в США, Канаде и Европе, оснащённые тысячами систем CS-3 на базе Wafer-Scale Engines, обеспечат обработку свыше 40 млн токенов Llama 70B в секунду, что сделает Cerebras крупнейшим поставщиком облачных решений для ИИ.

Проект увеличит совокупную мощность компании в 20 раз, удовлетворив растущий спрос клиентов — от Mistral до гигантов вроде HuggingFace. Особое внимание уделено надёжности: дата-центр в Оклахома-Сити, защищённый от торнадо и сейсмической активности, начнёт работу в июне 2025 года.
cerebras.ai

✔️ GPUStack — менеджер кластеров GPU с открытым исходным кодом для запуска и масштабирования AI моделей.Позволяет организовать эффективное распределение ресурсов для инференса AI моделей, упрощает развертывание масштабируемых решений и обеспечивает гибкую интеграцию с существующими сервисами и приложениями.
Github

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ OpenAI презентовала новые инструменты для разработчиков.

OpenAI анонсировала 3 новых инструмента для разработчиков, поддерживаемых в API и доступных через новый SDK. Среди новинок – WebSearch Tool, основанный на дообученной модели GPT-4o/GPT-4o-mini, для поиска информации в интернете. FileSearch Tool - инструмент поиска по документам с возможностью фильтрации по тегам, аналогично функциональности в Ассистентах. Третий - Computer Use (Operator), использующий ту же GPT-4o, предоставляющий доступ к локальному компьютеру пользователя.

Опубликованы и тарифы: Computer Use несколько дороже обычной GPT-4o, а поиск по файлам тарифицируется за запросы ( 2.5 долл. за 1000) и объем загруженных данных
(10 центов за гигабайт)
OpenAI на Youtube

✔️ TypeScript 7.0 будет в 10 раз быстрее.

Microsoft анонсировала радикальное улучшение производительности TypeScript за счет новой нативной реализации компилятора, написанной на Go. Он сократит время сборки проектов, ускорит загрузку редакторов и снизит потребление памяти. Уже сейчас тесты показывают: проверка кода VS Code занимает не 77,8 секунд, а всего 7,5.

Выпуск TypeScript 7.0 запланирован на конец 2025 года, но тестовую версию уже можно опробовать в GitHub-репозитории. Пока команда сохранит поддержку TypeScript 6.x для проектов, зависящих от старых API.

Подробности — в AMA-сессии Discord 13 марта, где авторы ответят на вопросы о будущем экосистемы.
devblogs.microsoft.com

✔️ Agora выпустила набор Conversational AI для IoT-устройств.

Agora, мировой лидер в области решений для взаимодействия в реальном времени, анонсировала запуск ConvoAI Device Kit — инструментария для разработки голосового ИИ в IoT-устройствах. Совместно с производителем чипов Beken и создателем роботов Robopoet Agora предлагает технологию, которая превращает игрушки, гаджеты и «умные» устройства в эмоционально отзывчивых собеседников.

ConvoAI Device Kit объединяет чипы Beken с платформой Agora и обеспечивает распознавание речи с минимальной задержкой, адаптивные диалоги и обработку эмоций.
Решение подходит для образовательных игрушек, «умных» домов и носимых гаджетов.
agora.io

✔️ Supermicro запускает edge-серверы для AI с процессорами Intel Xeon 6.

Supermicro анонсировала линейку компактных серверов, оптимизированных для ИИ. Новые системы оснащены процессорами Intel Xeon 6 с P-ядрами (до 144 вычислительных ядер, увеличенная на 40% пропускная способность памяти и улучшенная энергоэффективность). Новая линейка позволит обрабатывать данные в реальном времени непосредственно на месте их генерации, что критично для телекома, медицины и промышленности.

Серверы поддерживают до 512 ГБ DDR5, имеют порты 100 GbE и слот PCIe 5.0 для GPU, что делает их идеальными для медиа-задач и Edge AI. Отдельного представлены системы с процессорами Intel Core Ultra 15-го поколения — они предназначены для IoT и AI-инференса на edge-периферии (до 24 ядер и NPU).
supermicro.com

✔️ Cerebras развернёт 6 дата-центров в США и Европе.

Cerebras Systems, лидер в области инференса генеративного ИИ, объявила о запуске 6 новых дата-центров. Объекты в США, Канаде и Европе, оснащённые тысячами систем CS-3 на базе Wafer-Scale Engines, обеспечат обработку свыше 40 млн токенов Llama 70B в секунду, что сделает Cerebras крупнейшим поставщиком облачных решений для ИИ.

Проект увеличит совокупную мощность компании в 20 раз, удовлетворив растущий спрос клиентов — от Mistral до гигантов вроде HuggingFace. Особое внимание уделено надёжности: дата-центр в Оклахома-Сити, защищённый от торнадо и сейсмической активности, начнёт работу в июне 2025 года.
cerebras.ai

✔️ GPUStack — менеджер кластеров GPU с открытым исходным кодом для запуска и масштабирования AI моделей.Позволяет организовать эффективное распределение ресурсов для инференса AI моделей, упрощает развертывание масштабируемых решений и обеспечивает гибкую интеграцию с существующими сервисами и приложениями.
Github

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
📌Awesome CursorRules: репозиторий с рецептами Cursor AI.

Awesome CursorRules — коллекция файлов-рецептов .cursorrules для тонкой настройки поведения Cursor AI. Автор репозитория собрал десятки шаблонов, адаптирующих генерацию кода под конкретные проекты: от мобильных приложений до блокчейн-решений.

Главная «фишка» .cursorrules — гибкость. Разработчики могут прописать правила, которые сделают подсказки ИИ более релевантными: например, учесть стиль кода команды или архитектурные особенности проекта. Это не только ускоряет работу, но и снижает риск ошибок.

Коллекция включает практически все сферы разработки: фронтенд (Angular, NextJS, Qwik, React, Solid, Svelte, Vue), бэкенд (Deno, Elixir, ES, Go, Java, Lavarel, NodeJS, Python, TypeScript, WordPress), мобильную разработку (React Native, SwiftUI, TypeScript, Android, Flutter) и специфические задачи — интеграцию с Kubernetes или оптимизацию под SOLID-принципы.

Для новичков есть пошаговые инструкции: достаточно скопировать файл в проект или установить расширение для VS Code.

Судя по отзывам, Awesome CursorRules уже стал мастхэв для тех, кто хочет выжать максимум из Cursor AI.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Github #Awesome #CursorAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Китайцы снова жгут: Baidu выпустили ERNIE 4.5 и ERNIE X1, мощные модели по невероятно низкой цене!

Вот все, что вам нужно знать.

⚡️ERNIE 4.5

- Мулльтимодальная модель, превосходит GPT 4.5 в нескольких бенчмарках всего за 1% от цены GPT 4.5
- OpenAI GPT 4.5 - Input: $75 / 1M токенов, Output: $150 / 1M токенов;
- ERNIE 4.5 - Input: $0.55 / 1M токенов, Output: $2,20 / 1M токенов

⚡️ERNIE X1

- Ризонинг модель с мультимодальными возможностями, спроизводительностью на уровне с DeepSeek R1, но в два раза дешевле.

Чатбот с искусственным интеллектом ERNIE Bot доступен бесплатно для всех пользователей.

Обе модели доступны в свободном доступе ERNIE Bot на его официальном сайте: https://yiyan.baidu.com.

#ernie #ai #llm #Baidu
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM