196K subscribers
3.56K photos
542 videos
17 files
4.3K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️ Китай продолжает выпускать новые МОЩНЫЕ и ДЕШЕВЫЕ модели искусственного интеллекта!

Материнская компания Tik-Tok, ByteDance, выпустила Doubao-1.5-pro.:
🔸На бенчмарках с GPT-4o они идут рука об руку
🔸Экономичная цена:
- 0,022 доллара за миллион кэшированных токенов
- 0,11 доллара за миллион токенов
- 0,275 доллара за миллион выходных токенов
🔸Преимущество в стоимости:
- в 5 раз дешевле, чем DeepSeek
- Более чем в 200 раз доступнее, чем OpenAI o1
🔸Особенности:
- контекстное окно размером 32k + 256k
Архитектура: Для повышения эффективности используется MoE
Влияние на рынок: Этот шаг является частью широкой китайской инициативы в области искусственного интеллекта от ByteDance и DeepSeek для доминировали на ИИ рынке

> превосходит на топовых бенчмарках почти всех остальных LLM
> превосходит o1 на AIME
> использует MoE с 7 экспертами
> 20b активированных параметров

https://team.doubao.com/zh/special/doubao_1_5_pro

#Doubao #llm #ml #ai #release
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🖤 Open R1

Разработчики с Hugging Face решили повторить полный цикл разработки DeepSeek - от сбора данных до обучения! 🔥

Цель этого репозитория - объяснить все части конвейера создания R1 таким образом, чтобы каждый мог повторить его или построить поверх него свой проект.

Из чего состоит проект:
- src/open_r1 содержит скрипты для обучения и оценки моделей, а также для генерации синтетических данных:
- grpo.py : обучение модели с помощью GRPO
- sft.py: простой SFT
- evaluate.py: оценка модели на основе тестов R1.
- generate.py: генерация синтетических данных с помощью Distilabel.
- Makefile содержит простую в выполнении команду для каждого шага конвейера R1.

Github

@ai_machinelearning_big_data


#opensource #DeepSeekR1 #huggingface #OpenR1
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 WebRover – это автономный ИИ-агент , предназначенный для взаимодействия с элементами веб-страниц и выполнения пользовательских запросов.

Агент построен на базе LangChain и LangGraph и в первую очередь создан, чтобы освободить пользователей от рутины, связанной с поиском и сбором информации.

Благодаря глубокому пониманию контекста и способности автоматически определять нужные элементы, WebRover эффективно справляется даже со сложными задачами.

Основные возможности WebRover включают:
- самостоятельную навигацию по сайтам, управление состоянием через LangGraph и автоматизированное взаимодействие с браузером посредством Playwright.
- агент способен анализировать содержимое страниц, делать скриншоты и формировать структурированные ответы и парить информацию.

Особенности
🤖 Навигация на основе GPT-4 для понимания контекста и интеллектуальной навигации по веб-сайтам
🎯 Интеллектуальное обнаружение элементов: Автоматически идентифицирует и взаимодействует с любыми элементами сайтов
📸 Визуальная обратная связь: Визуализация процесса навигации в реальном времени
🔄 Автономная работа: Самокорректирующаяся навигация со стратегиями обратного хода

git clone https://github.com/hrithikkoduri18/webrover.git
cd webrover
cd backend


Github

@ai_machinelearning_big_data


#aiagents #ai #ml #opensource
📕 Think Stats: Бесплатная книга по статистике.

Think Stats - это введение в теорию вероятностей и статистику для Python программистов и датасаентистов.

Каждая глава
доступна в виде блокнота Jupyter ноутбука, в котором можно запускать код и решать упражнения

⭐️ Книга доступна по лицензии Creative Commons, что означает, что вы можете свободно читать, копировать и распространять при условии указания ссылки на источник и не использования в коммерческих целях.

Книга
Github

@ai_machinelearning_big_data


#freebook #ml #probability #book #opensource #practice #книганедели
Please open Telegram to view this post
VIEW IN TELEGRAM
💥Релиз Qwen2.5-1M!

Теперь модель поддерживает контекст длиной 1 МИЛЛИОН ТОКЕН 🔥

⭐️ Доступны 2 модели: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M.

Модель 14B-1M выигрывает у гораздо более крупной модели Qwen 2.5 Turbo (предположительно MoE с тем же количеством активных параметров).

Доступен подробный технический отчет о серии Qwen2.5-1M! 📊

📖 Технический отчет: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
📄 Блог: https://qwenlm.github.io/blog/qwen2.5-1m/
🚀 Потестировать можно здесь: https://chat.qwenlm.ai
🤗 Huggingface: https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba
Modelscope: https://modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40

@ai_machinelearning_big_data

#qwen #opensource #ml #llm
💰 Банк Китая выделит 1 триллион юаней (137 миллиардов долларов) в течение 5 лет для противостояния США в гонке искусственного интеллекта.

Это прямой ответ на проект «Звездные врата».

Евросоюз: максимум, что мы можем сделать, — это выделить 10 миллиардов на ИИ регулирование.

@ai_machinelearning_big_data

#ai #news #stargate #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Мл сообщество активно обсуждает успехи Китая и DeepSeek-R1, в частности, в гонке за доминирование на рынке ИИ.

Релиз R1 и новости об инвестировании в развитие отрасли, вызвали падение акций американских ИТ-гигантов на бирже NASDAQ. Акции NVIDIA упали уже на 14% за сутки. Компания потеряла 465 млрд долларов и это антирекорд.

Но помимо R1 в этом месяце разработчики из Китая выпустили еще очень много интересных моделей 🔥 Китай набирает очень серьезные обороты,

Давайте посмотрим на список самых ярких релизов из Поднебесной за январь:

LLM:
InternLM3-8B-Instruct
MiniMax-Text-01
RWKV-7 RNN + трансформер 👀
Собственно сам DeepSeek-R1
Baichuan-M1-14B медицинский LLM 🩺
Qwen2.5-Math-PRM от Alibaba
Qwen2.5 -1M


Модели кодинга:
Tare от BytedanceTalk

TTS модели синтеза и генерации речи:
T2A-01-HD от MiniMax AI
LLaSA

МЛЛМ:
Kimi k1.5 от Moonshot AI
MiniCPM-o-2_6 от OpenBMB
Sa2VA-4B от ByteDanceOSS
VideoLLaMA 3 от Alibaba DAMO
LLaVA-Mini от Китайской академии наук

Hunyuan-7B от TXhunyuan
Hunyuan 3D 2.0

ИИ-агенты:
UI-TARS от ByteDanceOSS
GLM-PC

Датасеты:
Fineweb-Edu-Chinese-V2.1
Multimodal_textbook от Alibaba
MME-Finance от Hithink AI
GameFactory от KwaiVGI

@ai_machinelearning_big_data


#ai #ml #digest #china #deepseek #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🐋 DeepSeek только что выпустила еще одну модель ИИ с открытым исходным кодом, Janus-Pro-7B.

Она мультимодальная и выигрывает у OpenAI DALL-E 3 и Stable Diffusion на бенчмарках GenEval и DPG-Bench.

Модели
: https://huggingface.co/deepseek-ai/Janus-Pro-7B
https://huggingface.co/deepseek-ai/Janus-Pro-1B
Quickstart: https://github.com/deepseek-ai/Janus?tab=readme-ov-file#3-quick-start 📖
Tech report: https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

@ai_machinelearning_big_data


#ai #deepseek #opensource #Janus
⭐️ The Illustrated DeepSeek-R1

Одно из лучших иллюстрированных объяснение внутренностей DeepSeek-R1.
Читать

⭐️ Видео генератор Pika 2.1 официально выпущен ​​— поддерживает разрешение 1080p и генерирует более согласованные и детализированные на видео.
https://pika.art/

⭐️ DeepSeek-R1 теперь может работать в 1.58-битном режиме, оставаясь при этом полностью функциональным. Умельцы из Unsloth AI уменьшили размер модели 671B с 720 ГБ до 131 ГБ - это на 80 % меньше.

Наивное квантование всех слоев полностью ломает модель, вызывая бесконечные циклы и тарабарщину на выходе. Их динамические кванты решают эту проблему.

1,58-битный квант помещается в 160 ГБ VRAM (2x H100 80 ГБ) для быстрого вывода со скоростью ~140 токенов/сек.

Изучив архитектуру DeepSeek-R1, разработчики выборочно квантовали определенные слои в более высокие биты (например, в 4-битные), а большинство слоев MoE оставили в 1,5 бита.
Бенчмарки + блог
GGUF (131-212 ГБ) на Hugging Face:

⭐️ YuE (乐) - новая мощная модель генерации музыки с открытым исходным кодом! 🎵 Поддерживает преобразования текста в песню (как Suno.ai) с поддержкой различных жанров, вокала и множества языков. Модель совместима с Hugging Face и LLAMA.
Код
Демо

⭐️ Qwen 2.5-VL – обновленная визуальная модель, доступная в трех размерах: 3B, 7B и 72B параметров.
Qwen-2.5-VL
Qwen-2.5-1M


⭐️Netflix выпустили Go-with-the-Flow
Netflix выпустили новый алгоритм искажения шума для генерации видео, достаточно быстрый, чтобы работать в реальном времени, который заменяет случайную временную гауссиану на коррелированный искаженный шум, полученный из полей оптического потока, который сохраняет при этом пространственную гауссиану. Эффективность алгоритма позволяет тонко настраивать современные модели диффузии видео с минимальными расходами и предоставляет универсальное решение для широкого спектра управления движением на видео. Обширные эксперименты и исследования демонстрируют преимущества метода, делая его надежным и масштабируемым подходом для управления движением в диффузионных моделях видео.
HF
Github

⭐️ «Awesome DL-Based MRI Reconstruction» - новый Awesome репозиторий, содержащий ресурсы, инструменты и научные статьи, посвященные использованию глубокого обучения для ускорения получения магнитно-резонансных изображений. Созданный для обмена знаниями и сотрудничества, он служит важным руководством для исследователей и медиков со всего мира.
Github

@ai_machinelearning_big_data


#ai #ml #news #llm #deepseek #Netflix #Qwen #Pika #news #ainews
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🖤 80 Open Source инструментов для ИИ от российских разработчиков

ICT.Moscow выпустили подборку отечественных Open Source проектов для разработки ИИ: здесь библиотеки и фреймворки для ML, готовые нейросети, датасеты для обучения и методы оптимизации.

Какие решения популярные вошли в подборку:
- YaFSDP позволяет ускорить обучение моделей ИИ за счет оптимизации хранения промежуточных весов и вычисления их градиентов.
- Yandex Cloud ML SDK помогает в использовании платформы AI Studio, в частности взаимодействовать с моделями и эмбеддингами — векторными представлениями текста.
- ReBased позволяет создавать большие языковые модели, быстро обрабатывающие длинные тексты.
- Платформа YTsaurus позволяет управлять кластерами графических процессоров, на которых проводится обучение моделей.

▪️ Статья

@ai_machinelearning_big_data

#opensource #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM