This media is not supported in your browser
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤1👍1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2😱2
Forwarded from Machinelearning
⚡️ Magma-8B – это экспериментальная модель от Microsoft, которая объединяет обработку текста и изображений в одном агентском решении.
Чем полезен инструмент:
- Мультимодальность: Возможность работать с изображениями, видео и текстом позволяет строить комплексные системы – от навигации по пользовательским интерфейсам до управления робототехникой.
Агентские возможности: Модель не просто описывает содержимое картинки, а умеет генерировать план действий, что особенно ценно для интерактивных приложений.
- ИспользованиеSet-of-Mark и Trace-of-Mark, помогает связать визуальные элементы с текстовыми командами, обеспечивая более точное понимание и планирование.
Magma-8B специально разработан для сценариев работы с агентами – акцент не только на генерации текста, но и на взаимодействии с реальными объектами (например, интерфейсами).
Модель обучалась на разнообразных источниках, включая неразмеченные видео, в результате этого удалось добиться понимания динамики и пространственных отношений в видео.
Современные технические решения и масштабируемость, что позволяет адаптировать модель под разные задачи.
Минусы:
- На данном этапе модель ориентирована на исследовательские проекты, поэтому может требовать доработки перед использованием в боевых условиях.
- Ограничения по языкам: основной фокус сделан на английском, что может усложнить работу с другими языками.
Возможны нестабильные результаты - в некоторых сценариях, особенно если задача выходит за рамки обучающих данных, что требует осторожности при внедрении в реальные приложения.
В целом, Magma-8B – это интересный экспериментальный инструмент, который может стать отправной точкой для создания новых, более «умных» агентных систем, объединяющих восприятие и действие в одном флаконе.
https://huggingface.co/microsoft/Magma-8B
#microsoft #magma #multimodal
Чем полезен инструмент:
- Мультимодальность: Возможность работать с изображениями, видео и текстом позволяет строить комплексные системы – от навигации по пользовательским интерфейсам до управления робототехникой.
Агентские возможности: Модель не просто описывает содержимое картинки, а умеет генерировать план действий, что особенно ценно для интерактивных приложений.
- ИспользованиеSet-of-Mark и Trace-of-Mark, помогает связать визуальные элементы с текстовыми командами, обеспечивая более точное понимание и планирование.
Magma-8B специально разработан для сценариев работы с агентами – акцент не только на генерации текста, но и на взаимодействии с реальными объектами (например, интерфейсами).
Модель обучалась на разнообразных источниках, включая неразмеченные видео, в результате этого удалось добиться понимания динамики и пространственных отношений в видео.
Современные технические решения и масштабируемость, что позволяет адаптировать модель под разные задачи.
Минусы:
- На данном этапе модель ориентирована на исследовательские проекты, поэтому может требовать доработки перед использованием в боевых условиях.
- Ограничения по языкам: основной фокус сделан на английском, что может усложнить работу с другими языками.
Возможны нестабильные результаты - в некоторых сценариях, особенно если задача выходит за рамки обучающих данных, что требует осторожности при внедрении в реальные приложения.
В целом, Magma-8B – это интересный экспериментальный инструмент, который может стать отправной точкой для создания новых, более «умных» агентных систем, объединяющих восприятие и действие в одном флаконе.
pip install torchvision Pillow open_clip_torch
https://huggingface.co/microsoft/Magma-8B
#microsoft #magma #multimodal
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👏1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Rust
Источник: Oxen.ai Blog
Ссылка: Oxen.ai
Статья подробно рассказывает о процессе обучения специализированной языковой модели для генерации кода на Rust, обладающей 1.5 млрд параметров.
Авторы применяют метод обучения с подкреплением (GRPO) с использованием обратной связи от инструментов Rust (компилятор и система сборки cargo). Это позволяет модели учиться генерировать код, который успешно компилируется, проходит линтер (cargo clippy) и unit-тесты.
Подход к данным и метрикам: Описаны этапы подготовки датасета, в том числе адаптация существующих Python-подобных задач под синтаксис Rust, а также разработка специальных reward-функций, проверяющих качество сгенерированного кода.
Материал показывает, как можно использовать инструменты Rust для автоматизированной проверки качества кода, что может служить основой для создания интеллектуальных помощников и средств автоматизации.
🔗 Читать
@rust_code
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2
Media is too big
VIEW IN TELEGRAM
🤡3👎2❤1👍1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1👎1🔥1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👌2❤1🆒1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥3👍1
Forwarded from Machinelearning
TSMC обратилась к Nvidia, AMD и Broadcom с предложением войти в совместное предприятие, целью которого станет управление производственными мощностями Intel. Как сообщают источники, TSMC планирует сохранить за собой менее 50% акций в данном предприятии. Аналогичное предложение, по некоторым данным, было направлено и компании Qualcomm. Эти переговоры разворачиваются на фоне обращения администрации президента США к TSMC с просьбой оказать содействие испытывающей трудности Intel. Известно, что переговоры по Intel находятся на ранней стадии, и TSMC заинтересована в привлечении нескольких компаний к участию в этом проекте.
zaobao.com.sg
Проект Scientist-v2, разработка Sakana AI, смогла создать научную работу, которая успешно прошла процесс рецензирования на одном из воркшопов Международной конференции ICLR. Это стало первым случаем, когда полностью сгенерированное исследование прошло стандартную процедуру оценки. Представленная работа была посвящена методам регуляризации нейронных сетей и, как ни странно, сообщала об отрицательных результатах.
Несмотря на то, что средняя оценка работы составила 6.33, что превысило порог принятия воркшопа, согласно предварительной договоренности, работа была отозвана, поскольку в научном сообществе пока отсутствуют устоявшиеся нормы для сгенерированных работ.
sakana.ai
Google DeepMind представила новейшую разработку – Gemini Robotics, модель на базе Gemini 2.0, способную наделить роботов способностью к "телесному" мышлению. Эта VLA (Vision-Language-Action) модель способна самостоятельно управлять роботами, открывая новые возможности в их применении.
Наряду с ней представлена Gemini Robotics-ER, модель с углубленным пространственным пониманием, позволяющая робототехникам использовать возможности Gemini в своих проектах. Обе модели демонстрируют интерактивность и ловкость, позволяя роботам адаптироваться к различным ситуациям, взаимодействовать с людьми и выполнять сложные задачи. Google DeepMind тестирует Gemini Robotics-ER с несколькими доверенными партнерами.
deepmind.google
Команда Doubao официально представила технический отчет о своей модели генерации изображений Seedream 2.0, впервые раскрыв детали процесса разработки, начиная со сбора данных и заканчивая постобработкой с использованием RLHF.
В отчете отмечаются улучшения в понимании китайского и английского языков, отрисовке текста, достижении высокого уровня эстетики и разрешения генераций. Seedream 2.0 была запущена еще в начале декабря 2024 года в приложениях Doubao и Jimeng, ей воспользовались сотни миллионов пользователей и она стала любимым инструментом для многих профессиональных дизайнеров в Китае. По сравнению с Ideogram 2.0, Midjourney V6.1 и Flux 1.1 Pro, Seedream 2.0 лучше справляется с текстом и лучше понимает китайскую культуру. Модель поддерживает запросы на китайском и английском языках.
team.doubao.com
Испанское правительство одобрило законопроект, предусматривающий введение внушительных штрафов для компаний, которые используют сгенерированный контент без соответствующей маркировки. Мера направлена на борьбу с распространением "дипфейков".
Несоблюдение требований по маркировке будет классифицироваться как "серьезное правонарушение", что может повлечь за собой штрафы до 35 млн. евро или 7% от годового оборота компании-гарушителя. Новый регулирующий орган AESIA будет отвечать за обеспечение соблюдения новых правил.
reuters.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1🔥1👏1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2❤1🤡1