281K subscribers
3.95K photos
676 videos
17 files
4.54K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Mamba — семейство SSM-моделей

Селективные модели пространства состояний (SSM), такие как Mamba, не имеют некоторых недостатков трансформеров, таких как квадратичная вычислительная сложность при увеличении длины последовательности и большие требования к памяти. Более того, недавние исследования показали, что SSM могут соответствовать или превосходить возможности трансформеров, что делает их интересной альтернативой.

Однако до сих пор проводились лишь небольшие эксперименты по сравнению SSM с трансформерами.
Это исследование призвано исправить ситуацию, здесь проводится прямое сравнение 8B моделей Mamba, Mamba-2 и трансформера, обученных на одних и тех же наборах данных объемом до 3.5Т лексем. Также эти модели сравниваются с гибридной моделью (Mamba-2-Hybrid), состоящей из 43% слоев Mamba-2, 7% слоев Attention и 50% слоев MLP.

🤗 Mamba-2 и другие модели на Hugging Face
🟡 Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31👍144👏3😭1
🌟 OpenVLA 7B — OpenVLA — VLA-модель с 7B параметрами

OpenVLA 7B (vision-language-action) — это open-source модель, обученная на 970K эпизодах манипулирования роботами из набора данных Open X-Embodiment. Модель принимает на вход текстовый промпт и изображения с камеры и генерирует действия робота.

OpenVLA 7B из коробки поддерживает управление несколькими роботами и может быть быстро адаптирована к новым областям робототехники с помощью тонкой настройки.

🖥 GitHub
🟡 Модели на Hugging Face
🟡 Страничка OpenVLA

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39🔥86👀6🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Runway AI только что анонсировали Gen-3 Alpha, которая генерирует видео из текста и изображений и будет доступна в ближайшие дни.

Что нас ждет
— Супер высокая детализация;
— Плавные переходы по кадрам;
— Длительность роликов до 10 секунд;
— Продвинутые инструменты контроля над видео;
— Нейронная сеть будет преобразовывать текст в видео, изображение в видео и текст в изображение;
— Возможность обучения на собственных стилях

На видео сравнение недавно-3 Alpha не и открытой Luma. Разница видна невооруженным взгялдом

Для этих генераций были использованы одни и те же промпты.

#генераторвидео

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29👍184
⚡️ DeepSeek-Coder-V2: Первая модель с открытым исходным кодом, превосходящая GPT4-Turbo в кодинге и математике

> > Превосходит GPT4-Turbo, Claude3-Opus, Gemini-1.5Pro, Codestral в задачах написания кода и решении математических задач.
> Поддерживает 338 языков программирования, длина контекста 128 К.
> Полностью открытый исходный код двух размеров: 230B и 16 B

В таблице Arena-Hard-Auto DeepSeek-Coder-V2 превосходит Yi-large, Claude3-Opus, GL M4 и Qwen2-72B.

#DeepSeekCoder

HF: https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Instruct
Github: https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf
Попробовать: https://chat.deepseek.com/sign_in?from=coder

@ai_machinelearning_big_data
🔥63👍198🙈2
This media is not supported in your browser
VIEW IN TELEGRAM
🎙️StreamSpeech: Мощная модель синхронного перевода речи.

StreamSpeech - это бесшовная модель “Все в одном” для автономного и синхронного распознавания речи, перевода речи и синтеза речи.

💡 StreamSpeech достигает производительности SOTA как при работе офлайн, так и при синхронном переводе речи в речь.

page: https://ictnlp.github.io/StreamSpeech-site/
paper: https://arxiv.org/abs/2406.03049
code: https://github.com/ictnlp/streamspeech

@ai_machinelearning_big_data
🔥47👍74
🔥 Астрологи объявлили неделю моделей генерации видео!

После ажиотажа вокруг моделей Kling, Luma и Runway, вышла новая версия Open-Sora с открытым исходным кодом.

На huggingface опубликована Open-Sora 1.2 от компании Hpcoretech.

Основные моменты:

Новая модель 1.1B, обучена на 20M видео и генерирует видео продолжительностью до 14 секунд с разрешением 720p.

Diffusion Model: https://huggingface.co/hpcai-tech/OpenSora-STDiT-v3
VAE model: https://huggingface.co/hpcai-tech/OpenSora-VAE-v1.2
Technical report: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md
Demo: https://huggingface.co/spaces/hpcai-tech/open-sora

@ai_machinelearning_big_data
🔥31👍144🌚1
🔥 Meta анонсировали четыре новые открытые модели искусственного интеллекта!

🦎 Meta Chameleon
Языковые модели 7B и 34B, поддерживающие смешанный ввод и вывод только текста.
https://arxiv.org/abs/2405.09818

🪙 Meta Multi-Token Prediction
Предварительно обученные языковые модели для написания кода.

🎼 Мета-JASCO
Модели преобразования текста в музыку, способные принимать различные входные данные.
https://pages.cs.huji.ac.il/adiyoss-lab/JASCO/

🗣️ Meta AudioSeal
Модель добавления меток на аудио, которая, является первой моделью, разработанной специально для распознавания речи, генерируемой искусственным интеллектом, и доступной по коммерческой лицензии.
https://github.com/facebookresearch/audioseal

📝 Additional RAI artifacts
Исследования, данные и код для работы с географическими данными и данными культурных предпочтений в системах искусственного интеллекта.
https://github.com/facebookresearch/DIG-In

Подробности и доступ ко всему, что будет опубликовано на FAIR сегодня ➡️ https://ai.meta.com/blog/meta-fair-research-new-releases/

*Компания Meta Platforms Inc. признана экстремистской организацией и запрещена на территории РФ.

@ai_machinelearning_big_data
17👍10🔥10
Media is too big
VIEW IN TELEGRAM
⚡️ MeshAnything: генерация качественной полигональной сетки с помощью авторегрессионных трансформеров

MeshAnything строит полигональную сетку так же, как это делал бы человек.
При этом MeshAnything генерирует полигональные сетки, обходясь минимумом необходимых граней, что значительно облегчает хранение, рендеринг и моделирование полученных 3D-объектов.

MeshAnything можно интегрировать в различные конвейеры создания 3D-объектов.

🖥 GitHub
🤗 Hugging Face
🟡 Страничка MeshAnything

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33👍115🎉3🥰1😁1
⚡️ Florence-2 — open-source VLM от Microsoft

Microsoft выкатили Florence-2 — модель, принимающую изображения на вход, способную решать многие задачи CV (распознавание, сегментирование, OCR).

Есть 2 основные версии — base и large (200M и 800M параметров), при этом обе версии модели отлично себя показывают в сравнении с моделями, которые тяжелее в 100 раз.

🤗 Hugging Face
🟡 Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33🔥124
Media is too big
VIEW IN TELEGRAM
🌟 Open Interpreter — полное управление компьютером при помощи запросов на естественном языке

pip install open-interpreter
interpreter


Open Interpreter предоставляет интерфейс естественного языка для управления компьютером.
Можно общаться с Open Interpreter через ChatGPT-подобный интерфейс прямо в терминале.

При помощи Open Interpreter можно на естественном языке выполнять такие действия как:
— создание и редактирование фотографий, видео, PDF-файлов и т. д.

— управление браузером

— анализ данных, построение графиков и т.д.

🖥 GitHub
🟡 Доки

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍48🔥1143💘1
DataOps Platform от МТС получила награду от CNews в номинации “Инновация года: Self-Service платформа для работы с большими данными". Платформа предоставляет инструменты для хранения, обработки, контроля качества и виртуализации данных, а также построения отчётности и многое другое. Успешное замещение импортных сервисов на собственную платформу принесло экономию до 1,5 млрд рублей за год. Отличный шаг в развитии цифровой экосистемы.

@ai_machinelearning_big_data
🔥22👍65
🌟 GEB-1.3B — open-source облегченная LLM

GEB-1.3B — это лёгкая LLM, обученная на 550 миллиардах лексем.
При всей своей лёгкости модель превосходит Llama-7B и схожие LLM в 3 метриках из 4 (C-Eval, CMMLU, Average)

Для достижения такого впечатляющего результата были использованы новые методы обучения, включая ROPE, Group-Query-Attention и FlashAttention-2, для ускорения обучения при сохранении производительности LLM. Кроме того, была произведена тонкая настройка модели при помощи 10 миллионов разных промптов и инструкций.

Кстати, квантизованная FP32-версия GEB-1.3B довольно быстро работает даже на CPU, при этом продолжаются работы по дальнейшему увеличению скорости с помощью квантования.

🟡 Arxiv
🤗 Hugging Face

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥94🤨4😁1