⚡️ Лучшее за неделю из мира Open ML/ AI:
1. В качестве сюрприза команда Qwen выпустила -
Qwen2-Math - специализированный англоязычный набор моделей на базе LLM Qwen2 для математических вычислений. Всего в релиз вошло 6 вариантов с разной плотностью параметров, от 1.5B до 72B.
Старшая модель Qwen 2-Math-72B предназначена для сложных
Qwen 2 Audio - 8.5B, лицензионные аудиоязыковые модели Apache 2.0 (Bas + Instruct), достигшие SoTA на ASR, S2TT и AIR-Bench, обученные на ~ 550 тысячах часов аудио. Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.
2. Parler TTS- 885M - это модели текст-в-речь (TTS), способные генерировать качественную, естественно звучащую речь в заданном стиле (пол, тон, тип речи и т. д.).
Все датасеты обучения, предварительная обработка, код обучения и веса выпускаются публично, что даст возможность сообществу строить на нашей работе и разрабатывать свои собственные модифицированные модели TTS. Обе модели обучались на 45 тысячах часов англоязычных аудиокниг.
3. LG выпустили модель EXAONE 7.8B, обученную на 8T токсинах, превосходящий L3.1 8B, Phi3, Mistral 72,0 балла Human eval, набравшей 34,4 балла на MATH, 9,01 балла по MT-Bench (некоммерческая лицензия).
4. Hugging Face выпустили IDEFICS3 Llama 8B - VLM-модель с лицензией Apache 2.0 с расширенными возможностями контроля качества и Мощным функционалом работы с документами! Модель основанп на : SigLip, текст на базе: Llama 3.1 8B, контекст 10K, DocVQA 87.7; MMStar 55.9
5. Internet LM open выпустил Internet LM 2.5 20B с лицензией Apache 2.0, контекстным окном размером до 1 млн, модель обучена работе с большим количеством синтетических данных! соревнуется с Gemma 27B в области информационных технологий; СРЕДНИЙ балл: 73,5, МАТЕМАТИКА: 64,7
6. Tsingua KEG выпустила CogVideoX 2B - открытую модель преобразования текста в видео, подобную SORA, которая генерирует видео продолжительностью до 6 секунд с частотой 8 кадров в секунду, довольно приличного качества!
И... произошло еще много чего: PyTorch выпустил FlexAttention, aiola выпустила Whisper Medusa (которая на 150% быстрее выводит логические данные), Maxime выпустила токен frankenmerge 1T.
@data_analysis_ml
#ainews #mlnews #digest
1. В качестве сюрприза команда Qwen выпустила -
Qwen2-Math - специализированный англоязычный набор моделей на базе LLM Qwen2 для математических вычислений. Всего в релиз вошло 6 вариантов с разной плотностью параметров, от 1.5B до 72B.
Старшая модель Qwen 2-Math-72B предназначена для сложных
Qwen 2 Audio - 8.5B, лицензионные аудиоязыковые модели Apache 2.0 (Bas + Instruct), достигшие SoTA на ASR, S2TT и AIR-Bench, обученные на ~ 550 тысячах часов аудио. Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.
2. Parler TTS- 885M - это модели текст-в-речь (TTS), способные генерировать качественную, естественно звучащую речь в заданном стиле (пол, тон, тип речи и т. д.).
Все датасеты обучения, предварительная обработка, код обучения и веса выпускаются публично, что даст возможность сообществу строить на нашей работе и разрабатывать свои собственные модифицированные модели TTS. Обе модели обучались на 45 тысячах часов англоязычных аудиокниг.
3. LG выпустили модель EXAONE 7.8B, обученную на 8T токсинах, превосходящий L3.1 8B, Phi3, Mistral 72,0 балла Human eval, набравшей 34,4 балла на MATH, 9,01 балла по MT-Bench (некоммерческая лицензия).
4. Hugging Face выпустили IDEFICS3 Llama 8B - VLM-модель с лицензией Apache 2.0 с расширенными возможностями контроля качества и Мощным функционалом работы с документами! Модель основанп на : SigLip, текст на базе: Llama 3.1 8B, контекст 10K, DocVQA 87.7; MMStar 55.9
5. Internet LM open выпустил Internet LM 2.5 20B с лицензией Apache 2.0, контекстным окном размером до 1 млн, модель обучена работе с большим количеством синтетических данных! соревнуется с Gemma 27B в области информационных технологий; СРЕДНИЙ балл: 73,5, МАТЕМАТИКА: 64,7
6. Tsingua KEG выпустила CogVideoX 2B - открытую модель преобразования текста в видео, подобную SORA, которая генерирует видео продолжительностью до 6 секунд с частотой 8 кадров в секунду, довольно приличного качества!
И... произошло еще много чего: PyTorch выпустил FlexAttention, aiola выпустила Whisper Medusa (которая на 150% быстрее выводит логические данные), Maxime выпустила токен frankenmerge 1T.
@data_analysis_ml
#ainews #mlnews #digest
Forwarded from Machinelearning
📄 ML NEWS
🤖 Microsoft Research только что опубликовали новую версию AutoGen - суперпопулярного фреймворка для работы с агентами с открытым исходным кодом
AutoGen v0.4 это переработанный фреймворк, в котором значительно улучшена масштабируемость, добавлена модульность и новая система отладки процессов agentic AI за счет внедрения асинхронной архитектуры, управляемой событиями.
▪ Github
🖥 Google представил архитектуру Titans, которая возможно станет очень важным элементом развития больших языковых моделей (LLM) в 2025 году.
Архитектура состоит из 3х типов памяти:
- Краткосрочная память – для оперативной обработки данных.
- Долгосрочная память – для всей сохранения значимой информации.
- Постоянная память – для фиксации важной информации.
По заявлениям разработчиков Titans может эффективно обрабатывать контекст превышающим 2 миллионов токенов.
▪Подробнее
🖥 ChatGPT теперь таск-менеджер:
ИИ теперь способен инициировать диалог благодаря новой функции Tasks. Ранее он только отвечал на запросы, а теперь способен самостоятельно выполнять задачи.
Tasks позволяют пользователям давать ChatGPT задачи с указанием времени выполнения.
▪Подробнее
📱 DeepSeek V3 вышел на айфонах
Приложение доступно AppStore бесплатно и работает очень быстро
▪Скачать можно здесь.
⚡️ Выпущена новая открытая модель Omni!
MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах.
- 8B параметров (SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B)
- Превосходит GPT-4V в vision задачах с 70. 2 баллами на OpenCompass
- Лучшие в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса
▪ Model
👩💻 Stable point-aware 3D от Stability AI
Свежий инструмент с открытым исходным кодом, который отлично справляется с созданием 3D объектов по одному изображению.
▪Github
@ai_machinelearning_big_data
#news #ml #digest #Stability #chatgpt #google #microsoft #deepSeek #MiniCPM
AutoGen v0.4 это переработанный фреймворк, в котором значительно улучшена масштабируемость, добавлена модульность и новая система отладки процессов agentic AI за счет внедрения асинхронной архитектуры, управляемой событиями.
▪ Github
Архитектура состоит из 3х типов памяти:
- Краткосрочная память – для оперативной обработки данных.
- Долгосрочная память – для всей сохранения значимой информации.
- Постоянная память – для фиксации важной информации.
По заявлениям разработчиков Titans может эффективно обрабатывать контекст превышающим 2 миллионов токенов.
▪Подробнее
ИИ теперь способен инициировать диалог благодаря новой функции Tasks. Ранее он только отвечал на запросы, а теперь способен самостоятельно выполнять задачи.
Tasks позволяют пользователям давать ChatGPT задачи с указанием времени выполнения.
▪Подробнее
Приложение доступно AppStore бесплатно и работает очень быстро
▪Скачать можно здесь.
⚡️ Выпущена новая открытая модель Omni!
MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах.
- 8B параметров (SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B)
- Превосходит GPT-4V в vision задачах с 70. 2 баллами на OpenCompass
- Лучшие в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса
▪ Model
Свежий инструмент с открытым исходным кодом, который отлично справляется с созданием 3D объектов по одному изображению.
▪Github
@ai_machinelearning_big_data
#news #ml #digest #Stability #chatgpt #google #microsoft #deepSeek #MiniCPM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Релиз R1 и новости об инвестировании в развитие отрасли, вызвали падение акций американских ИТ-гигантов на бирже NASDAQ.
Но помимо R1 в этом месяце разработчики из Китая выпустили еще очень много интересных моделей 🔥 Китай набирает очень серьезные обороты,
Давайте посмотрим на список самых ярких релизов из Поднебесной за январь:
LLM:
✨ InternLM3-8B-Instruct
✨ MiniMax-Text-01
✨ RWKV-7 RNN + трансформер 👀
✨ Собственно сам DeepSeek-R1
✨ Baichuan-M1-14B медицинский LLM 🩺
✨ Qwen2.5-Math-PRM от Alibaba
✨ Qwen2.5 -1M
Модели кодинга:
✨ Tare от BytedanceTalk
TTS модели синтеза и генерации речи:
✨ T2A-01-HD от MiniMax AI
✨ LLaSA
МЛЛМ:
✨ Kimi k1.5 от Moonshot AI
✨ MiniCPM-o-2_6 от OpenBMB
✨ Sa2VA-4B от ByteDanceOSS
✨ VideoLLaMA 3 от Alibaba DAMO
✨ LLaVA-Mini от Китайской академии наук
✨Hunyuan-7B от TXhunyuan
✨ Hunyuan 3D 2.0
ИИ-агенты:
✨ UI-TARS от ByteDanceOSS
✨ GLM-PC
Датасеты:
✨ Fineweb-Edu-Chinese-V2.1
✨ Multimodal_textbook от Alibaba
✨ MME-Finance от Hithink AI
✨ GameFactory от KwaiVGI
📌 Полный список Релизов
#ai #ml #digest #china #deepseek #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM