OpenVLA 7B (vision-language-action) — это open-source модель, обученная на 970K эпизодах манипулирования роботами из набора данных Open X-Embodiment. Модель принимает на вход текстовый промпт и изображения с камеры и генерирует действия робота.
OpenVLA 7B из коробки поддерживает управление несколькими роботами и может быть быстро адаптирована к новым областям робототехники с помощью тонкой настройки.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39🔥8❤6👀6🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
Что нас ждет
— Супер высокая детализация;
— Плавные переходы по кадрам;
— Длительность роликов до 10 секунд;
— Продвинутые инструменты контроля над видео;
— Нейронная сеть будет преобразовывать текст в видео, изображение в видео и текст в изображение;
— Возможность обучения на собственных стилях
На видео сравнение недавно-3 Alpha не и открытой Luma. Разница видна невооруженным взгялдом
Для этих генераций были использованы одни и те же промпты.
#генераторвидео
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29👍18❤4
⚡️ DeepSeek-Coder-V2: Первая модель с открытым исходным кодом, превосходящая GPT4-Turbo в кодинге и математике
> > Превосходит GPT4-Turbo, Claude3-Opus, Gemini-1.5Pro, Codestral в задачах написания кода и решении математических задач.
> Поддерживает 338 языков программирования, длина контекста 128 К.
> Полностью открытый исходный код двух размеров: 230B и 16 B
В таблице
#DeepSeekCoder
▪HF: https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Instruct
▪Github: https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf
▪Попробовать: https://chat.deepseek.com/sign_in?from=coder
@ai_machinelearning_big_data
> > Превосходит GPT4-Turbo, Claude3-Opus, Gemini-1.5Pro, Codestral в задачах написания кода и решении математических задач.
> Поддерживает 338 языков программирования, длина контекста 128 К.
> Полностью открытый исходный код двух размеров: 230B и 16 B
В таблице
Arena-Hard-Auto DeepSeek-Coder-V2
превосходит Yi-large, Claude3-Opus, GL M4 и Qwen2-72B.
#DeepSeekCoder
▪HF: https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Instruct
▪Github: https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf
▪Попробовать: https://chat.deepseek.com/sign_in?from=coder
@ai_machinelearning_big_data
🔥63👍19❤8🙈2
This media is not supported in your browser
VIEW IN TELEGRAM
🎙️StreamSpeech: Мощная модель синхронного перевода речи.
StreamSpeech - это бесшовная модель “Все в одном” для автономного и синхронного распознавания речи, перевода речи и синтеза речи.
💡 StreamSpeech достигает производительности SOTA как при работе офлайн, так и при синхронном переводе речи в речь.
▪page: https://ictnlp.github.io/StreamSpeech-site/
▪paper: https://arxiv.org/abs/2406.03049
▪code: https://github.com/ictnlp/streamspeech
@ai_machinelearning_big_data
StreamSpeech - это бесшовная модель “Все в одном” для автономного и синхронного распознавания речи, перевода речи и синтеза речи.
💡 StreamSpeech достигает производительности SOTA как при работе офлайн, так и при синхронном переводе речи в речь.
▪page: https://ictnlp.github.io/StreamSpeech-site/
▪paper: https://arxiv.org/abs/2406.03049
▪code: https://github.com/ictnlp/streamspeech
@ai_machinelearning_big_data
🔥47👍7❤4
🔥 Астрологи объявлили неделю моделей генерации видео!
После ажиотажа вокруг моделей Kling, Luma и Runway, вышла новая версия Open-Sora с открытым исходным кодом.
На huggingface опубликована Open-Sora 1.2 от компании Hpcoretech.
Основные моменты:
Новая модель 1.1B, обучена на 20M видео и генерирует видео продолжительностью до 14 секунд с разрешением 720p.
▪Diffusion Model: https://huggingface.co/hpcai-tech/OpenSora-STDiT-v3
▪VAE model: https://huggingface.co/hpcai-tech/OpenSora-VAE-v1.2
▪Technical report: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md
▪Demo: https://huggingface.co/spaces/hpcai-tech/open-sora
@ai_machinelearning_big_data
После ажиотажа вокруг моделей Kling, Luma и Runway, вышла новая версия Open-Sora с открытым исходным кодом.
На huggingface опубликована Open-Sora 1.2 от компании Hpcoretech.
Основные моменты:
Новая модель 1.1B, обучена на 20M видео и генерирует видео продолжительностью до 14 секунд с разрешением 720p.
▪Diffusion Model: https://huggingface.co/hpcai-tech/OpenSora-STDiT-v3
▪VAE model: https://huggingface.co/hpcai-tech/OpenSora-VAE-v1.2
▪Technical report: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md
▪Demo: https://huggingface.co/spaces/hpcai-tech/open-sora
@ai_machinelearning_big_data
🔥31👍14❤4🌚1
🔥 Meta анонсировали четыре новые открытые модели искусственного интеллекта!
🦎 Meta Chameleon
Языковые модели 7B и 34B, поддерживающие смешанный ввод и вывод только текста.
https://arxiv.org/abs/2405.09818
🪙 Meta Multi-Token Prediction
Предварительно обученные языковые модели для написания кода.
🎼 Мета-JASCO
Модели преобразования текста в музыку, способные принимать различные входные данные.
https://pages.cs.huji.ac.il/adiyoss-lab/JASCO/
🗣️ Meta AudioSeal
Модель добавления меток на аудио, которая, является первой моделью, разработанной специально для распознавания речи, генерируемой искусственным интеллектом, и доступной по коммерческой лицензии.
https://github.com/facebookresearch/audioseal
📝 Additional RAI artifacts
Исследования, данные и код для работы с географическими данными и данными культурных предпочтений в системах искусственного интеллекта.
https://github.com/facebookresearch/DIG-In
Подробности и доступ ко всему, что будет опубликовано на FAIR сегодня ➡️ https://ai.meta.com/blog/meta-fair-research-new-releases/
*Компания Meta Platforms Inc. признана экстремистской организацией и запрещена на территории РФ.
@ai_machinelearning_big_data
🦎 Meta Chameleon
Языковые модели 7B и 34B, поддерживающие смешанный ввод и вывод только текста.
https://arxiv.org/abs/2405.09818
🪙 Meta Multi-Token Prediction
Предварительно обученные языковые модели для написания кода.
🎼 Мета-JASCO
Модели преобразования текста в музыку, способные принимать различные входные данные.
https://pages.cs.huji.ac.il/adiyoss-lab/JASCO/
🗣️ Meta AudioSeal
Модель добавления меток на аудио, которая, является первой моделью, разработанной специально для распознавания речи, генерируемой искусственным интеллектом, и доступной по коммерческой лицензии.
https://github.com/facebookresearch/audioseal
📝 Additional RAI artifacts
Исследования, данные и код для работы с географическими данными и данными культурных предпочтений в системах искусственного интеллекта.
https://github.com/facebookresearch/DIG-In
Подробности и доступ ко всему, что будет опубликовано на FAIR сегодня ➡️ https://ai.meta.com/blog/meta-fair-research-new-releases/
*Компания Meta Platforms Inc. признана экстремистской организацией и запрещена на территории РФ.
@ai_machinelearning_big_data
❤17👍10🔥10
Media is too big
VIEW IN TELEGRAM
MeshAnything строит полигональную сетку так же, как это делал бы человек.
При этом MeshAnything генерирует полигональные сетки, обходясь минимумом необходимых граней, что значительно облегчает хранение, рендеринг и моделирование полученных 3D-объектов.
MeshAnything можно интегрировать в различные конвейеры создания 3D-объектов.
🤗 Hugging Face
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33👍11❤5🎉3🥰1😁1
Microsoft выкатили Florence-2 — модель, принимающую изображения на вход, способную решать многие задачи CV (распознавание, сегментирование, OCR).
Есть 2 основные версии — base и large (200M и 800M параметров), при этом обе версии модели отлично себя показывают в сравнении с моделями, которые тяжелее в 100 раз.
🤗 Hugging Face
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33🔥12❤4
Media is too big
VIEW IN TELEGRAM
pip install open-interpreter
interpreter
Open Interpreter предоставляет интерфейс естественного языка для управления компьютером.
Можно общаться с Open Interpreter через ChatGPT-подобный интерфейс прямо в терминале.
При помощи Open Interpreter можно на естественном языке выполнять такие действия как:
— создание и редактирование фотографий, видео, PDF-файлов и т. д.
— управление браузером
— анализ данных, построение графиков и т.д.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍48🔥11⚡4❤3💘1
DataOps Platform от МТС получила награду от CNews в номинации “Инновация года: Self-Service платформа для работы с большими данными". Платформа предоставляет инструменты для хранения, обработки, контроля качества и виртуализации данных, а также построения отчётности и многое другое. Успешное замещение импортных сервисов на собственную платформу принесло экономию до 1,5 млрд рублей за год. Отличный шаг в развитии цифровой экосистемы.
@ai_machinelearning_big_data
@ai_machinelearning_big_data
🔥22👍6❤5
GEB-1.3B — это лёгкая LLM, обученная на 550 миллиардах лексем.
При всей своей лёгкости модель превосходит Llama-7B и схожие LLM в 3 метриках из 4 (C-Eval, CMMLU, Average)
Для достижения такого впечатляющего результата были использованы новые методы обучения, включая ROPE, Group-Query-Attention и FlashAttention-2, для ускорения обучения при сохранении производительности LLM. Кроме того, была произведена тонкая настройка модели при помощи 10 миллионов разных промптов и инструкций.
Кстати, квантизованная FP32-версия GEB-1.3B довольно быстро работает даже на CPU, при этом продолжаются работы по дальнейшему увеличению скорости с помощью квантования.
🤗 Hugging Face
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥9❤4🤨4😁1
Magnum-72B-v1 создана на базе Qwen-2 72B.
Обучение проводилось на 55 миллионах токенов высококачественных данных. Для тонкой настройки всех параметров модели было использовано 8 ускорителей AMD Instinct MI300X.
🤗 Hugging Face
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤7🔥6
Toucan — это модель преобразования текста в речь (TTS) + набор инструментов для обучения, тренировки и развертывания модели.
Модель создана в Институте обработки естественного языка (IMS) Штутгартского университета.
Всё написано на идиоматическом Python с использованием PyTorch, для максимально лёгкого изучения и тестирования.
🤗 Затестить на HF
🤗 Датасет на HF
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤28👍12🔥5🥰1