Технозаметки Малышева
8.32K subscribers
3.74K photos
1.4K videos
40 files
3.92K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Forwarded from Machinelearning
⚡️ Мл сообщество активно обсуждает успехи Китая и DeepSeek-R1, в частности, в гонке за доминирование на рынке ИИ.

Релиз R1 и новости об инвестировании в развитие отрасли, вызвали падение акций американских ИТ-гигантов на бирже NASDAQ.

Но помимо R1 в этом месяце разработчики из Китая выпустили еще очень много интересных моделей 🔥 Китай набирает очень серьезные обороты,

Давайте посмотрим на список самых ярких релизов из Поднебесной за январь:

LLM:
InternLM3-8B-Instruct
MiniMax-Text-01
RWKV-7 RNN + трансформер 👀
Собственно сам DeepSeek-R1
Baichuan-M1-14B медицинский LLM 🩺
Qwen2.5-Math-PRM от Alibaba
Qwen2.5 -1M


Модели кодинга:
Tare от BytedanceTalk

TTS модели синтеза и генерации речи:
T2A-01-HD от MiniMax AI
LLaSA

МЛЛМ:
Kimi k1.5 от Moonshot AI
MiniCPM-o-2_6 от OpenBMB
Sa2VA-4B от ByteDanceOSS
VideoLLaMA 3 от Alibaba DAMO
LLaVA-Mini от Китайской академии наук

Hunyuan-7B от TXhunyuan
Hunyuan 3D 2.0

ИИ-агенты:
UI-TARS от ByteDanceOSS
GLM-PC

Датасеты:
Fineweb-Edu-Chinese-V2.1
Multimodal_textbook от Alibaba
MME-Finance от Hithink AI
GameFactory от KwaiVGI

📌 Полный список Релизов

#ai #ml #digest #china #deepseek #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍83😁1
🔬 Janus-Pro - новый мультимодальный генератор от DeepSeek

Для понимания изображений: SigLIP-L энкодер (384x384)
Для генерации: Специализированный токенизатор с даунсемплингом 16x

Фундамент: DeepSeek-LLM-7B-base
Общая архитектура: единый трансформер для всех модальностей

Эффективное использование памяти благодаря раздельным путям обработки

💪 Где показывает превосходство:

Понимание изображений:
- Превосходит специализированные модели в задачах VQA
- Лучше справляется с абстрактными рассуждениями о визуальном контенте


Генерация:
- Качество на уровне специализированных моделей
- Более стабильное соответствие текстовым промптам

Мультизадачность:
- Свободное переключение между пониманием и генерацией
- Нет деградации производительности при смене режимов

🎯 Технические преимущества:
- Меньше конфликтов в обучении благодаря раздельным путям
- Лучшая масштабируемость архитектуры
- Более эффективное использование вычислительных ресурсов

Что особенно интересно: архитектура Janus-Pro решает фундаментальную проблему unified моделей, при этом не усложняя систему дополнительными компонентами. Это редкий случай, когда "простое решение" оказывается действительно эффективным.

🔮 Перспективы:
Судя по архитектуре, модель имеет серьезный потенциал для масштабирования. Особенно интересно будет увидеть версию на базе их 70B модели - теоретически, это может дать качественный скачок в обеих модальностях.

https://github.com/deepseek-ai/Janus
paper

Demo

АСТАНАВИТЕСЬ!!!111 Адин адин!!
Уважаемые DeepSeek, новый год через 2 дня. Идите уже отдыхать и закупать видеокарты :))))

#DeepSeek #Janus #multimodal
———
@tsingular
🔥14😁4🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
А вот это интересно!

Умельцы из Unsloth пожали Deepseek весом более 700 гигабайт в ~150-180

https://t.me/seeallochnaya/2273

Т.е, внимание, - это 2 DIGITS!!!

Всего $6000 и R1 будет летать у вас ДОМА! :))

Потери в качестве минимальны. В примере видно, что она по прежнему генерит рабочий код.

Статья: https://unsloth.ai/blog/deepseekr1-dynamic

Главные технические моменты:

Архитектурный подход:
Они изучили архитектуру DeepSeek R1 и обнаружили, что модель использует MoE (Mixture of Experts) слои
Первые 3 слоя модели являются полностью плотными (не MoE)
MoE слои используют общих экспертов, занимая всего 1.5% весов

Стратегия квантизации:
Применили динамическую квантизацию, используя разные уровни точности для разных слоев:

Первые 3 плотных слоя (0.5% весов) оставили в 4-6 битном представлении
MoE слои с общими экспертами (1.5% весов) оставили в 6 битах
Модули внимания MLA (<5% весов) оставили в 4-6 битах
Основную массу весов (~88%) в MoE слоях сжали до 1.58 бит

Особое внимание к down_proj слоям:
Обнаружили, что down_proj матрицы особенно чувствительны к квантизации
Это связано с архитектурой SwiGLU, где down_proj должен масштабировать большие числа
Первые 3-6 MoE down_proj матриц оставили в высокой точности

Общие технические детали:
Размер модели уменьшился с 720GB до 131GB (сокращение на 80%)
Для работы требуется минимум 20GB RAM
Оптимальная производительность достигается при сумме VRAM + RAM ≥ 80GB
Скорость генерации около 140 токенов в секунду на 2x H100 80GB

#DeepSeek #Unsloth
———
@tsingular
🔥10👍4
Forwarded from Не баг, а фича
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Трамп: «DeepSeek — сигнал для наших компаний о необходимости срочно сосредоточиться на победе».

Только что Президент США заявил, что рассматривает DeepSeek как «позитивный» проект, но американской отрасли следует как можно скорее сделать свой ответ.

Нейросети — новое ядерное оружие.

🙂 Не баг, а фича
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥2🤯2👀1🤝1
DeepSeek ловко обходит санкции, Nvidia одобряет

Китайская компания DeepSeek применила нестандартный подход к разработке конкурентоспособных генеративных моделей.
Предприятие задействовало локальную версию чипа H800 (адаптированный H100) в сочетании с Test Time Scaling.
Методика позволяет системе анализировать множество вариантов ответов, значительно повышая точность результатов.
Технологический гигант Nvidia дипломатично признал достижения, подчеркнув легитимность применяемых методов.
Инновационный подход демонстрирует возможность создания передовых моделей в условиях ограничений.

Т.е. обучение и инференс на картах, которые не попадают под санкции.

#DeepSeek #Nvidia #TestTimeScaling
-------
@tsingular
🔥131
Китайский ИИ-спринт к Новому году

1. DeepSeek R1 - рассуждающая модель на уровне GPT-4, но с открытым кодом и в 25 раз дешевле.

2. Kimi.ai K1.5 (Moonshot AI / Tencent) - соперник O1 в математике и коде.

3. Doubao-1.5-pro (ByteDance) - GPT-4 уровень всего за $0.022 за миллион токенов

4. MiniMax Text-01 - монстр на 456B параметров с контекстом в 4М токенов 🔥

5. Qwen 2.5 (Alibaba) - две версии, - с миллионным контекстом и генерацией медиа ⚡️

Бонус: Банк Китая вливает $137 млрд на 5 лет - прямой ответ на американский Stargate!

Итого 5 супермощных релизов и ещё сутки впереди :)
Продолжаем наблюдение.

Хотя вроде все крупные ИТ холдинги отметились. Остались только нишевые разработчики.

#Китай
———
@tsingular
1🔥186👍41
Сохраним нетленку :)

#Китай #юмор
———
@tsingular
😁24🤣15
Media is too big
VIEW IN TELEGRAM
Перевёл для вас выступление Трампа сегодняшнее.

Можно сколько угодно говорить о том хорошая это модель или не очень.
Что, вот наши делают не хуже, просто про них никто не слышал.
Перегрет пузырь и выехал ли Китай чисто на маркетинге, - но факт есть:

Модель ИИ обсуждается, как конкурентная на уровне президентов крупнейших стран.
Как стратегическая разработка.

И к отрасли должно быть такое же отношение у всех.

#Trump #DeepSeek #ElevenLabs
———
@tsingular
🔥17💯10👍4
Forwarded from эйай ньюз
Qwen-2.5-Max - китайцам тоже сложно конкурировать с DeepSeek

На бенчах соревнуется с фронтирными не-reasoner моделями, но стоит как reasoner. Если будете читать цифры бенчей - осторожно. На первой картинке заявленные бенчи для каждой модели от их разработчиков, а на второй уже замеры самой команды Qwen.

Цена тут и правда MAX. За модель просят 10 долларов за миллион токенов на вход и 30 долларов за миллион токенов на выход. Это, если что, в разы дороже чем все конкуренты - в 2.5x дороже чем Sonnet и аж в 30x дороже DeepSeek V3. Причём Qwen тут не предлагает никаких фич для оптимизации цен, даже тех что уже стали стандартом.

Основное достоинство модели при такой цене - то, что её основной конкурент в Китае находится под жуткой нагрузкой уже второй день и не может выдержать всех желающих.

Ко всему это модель закрытая, как и все современные MoE модельки Qwen. Бесплатно потестить можно в их чат интерфейсе.

chat.qwenlm.ai

Хух, в Китае наступил Китайский Новый год и релизов от них должно стать чуть меньше

@ai_newz
👍9🤣62
Forwarded from PIMENOV.RU
Знакомьтесь, Ло Фули.

• покидает Alibaba, чтобы присоединиться к DeepSeek🐳
• Конкурирующая AI-лаборатория предлагает ей $10 миллионов
• отказывается и строит AGI за половину стоимости
• открытый код превыше всего

🗣@pimenov_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28👀7
Лян Вэньфэн: от математического гения до создателя AI-революции

За последние 10 лет Лян Вэньфэн превратился из талантливого математика в одного из ключевых игроков мировой индустрии искусственного интеллекта. Его путь — это история упорства, инноваций и веры в силу технологий.

Биография: от финансов к AI
2015 год: Основал хедж-фонд High-Flyer, который стал первым в Китае квантовым фондом, использующим ИИ для анализа рынка. За 8 лет компания привлекла более 100 млрд юаней и заработала состояние на алгоритмической торговле (HFT).

2021–2022: Начал скупать чипы Nvidia A100, создав кластер из 10 000 GPU для обучения моделей ИИ, несмотря на экспортные ограничения США.
(по слухам там, на самом деле 50тыс карт, но пока не подтверждено)

2023 год: Основал DeepSeek, переключив ресурсы High-Flyer на разработку AI. Его цель — достичь общего искусственного интеллекта (AGI), а не коммерческой выгоды.

Достижения DeepSeek
DeepSeek-V3: Модель, обученная на 1/11 вычислительных ресурсов Llama 3, но превзошедшая её в задачах программирования и обработки текста. Стоимость разработки — 5.6 млн против 78 млн у GPT-4.

DeepSeek-R1: Чат-бот с открытым исходным кодом, который конкурирует с OpenAI o1, но в 20–50 раз дешевле.
Приложение стало самым скачиваемым в мире, обогнав ChatGPT.

Экономический эффект: Успех DeepSeek вызвал падение акций Nvidia на 17% и пересмотр подходов к ИИ-разработкам в США и ЕС.

Интересные факты
«Ботан с плохой стрижкой»: Коллеги описывают Ляна как одержимого идеями человека, который спал в офисе и не мог четко сформулировать своё видение, кроме фразы: «Это изменит правила игры».

Патриотизм и открытость: В отличие от западных компаний, DeepSeek открывает исходный код, чтобы «демократизировать ИИ». Это решение принесло ему аудиенцию у премьер-министра Китая Ли Цяна и статус национального героя.

Команда DeepSeek: молодые гении
Лян собрал команду из выпускников Пекинского и Цинхуаского университетов, делая ставку на страсть и любопытство, а не опыт.
Например:
Гао Хуацзо и Цзэн Вандин разработали MLA — архитектуру, снизившую затраты на вычисления на 87%.

Шао Чжихун (доктор Tsinghua) создал алгоритмы для DeepSeek-Math, а Чжу Цихао (доктор Peking) — модели для обработки кода.

В компании нет иерархии: любой сотрудник может запустить проект, получив доступ к кластерам GPU без согласований.

Лян Вэньфэн доказал, что инновации рождаются не только в Кремниевой долине. Его история — вызов статус-кво и напоминание, что настоящие прорывы требуют смелости мыслить иначе. Как сказал сам Лян: «Китай не может вечно быть в роли догоняющего».

#Deepseek #ЛянВэньфэн
———
@tsingular
🔥27👍1611
HuggingFace объединяет ведущих провайдеров облачного инференса

Облачный инференс от разных провайдеров теперь можно запускать через единый интерфейс Hub.
Доступны сервисы AWS, Nvidia, SambaNova и Replicate с гибкой тарификацией.
Подключение реализовано через REST API, поддерживающий OpenAI-совместимые клиенты.
Функционал включает генерацию изображений и работу с языковыми моделями.
Зарегистрированным пользователям доступна базовая бесплатная квота.
Оплата производится напрямую провайдерам без дополнительных комиссий.

Теперь не нужно держать аккаунты у всех провайдеров - достаточно одного в HuggingFace 😎

#HuggingFace #gate #inference
-------
@tsingular
👍6🔥2🤯2
CEO Anthropic - Dario Amodei в своём блоге разобрал ситуацию с DeepSeek.

Анатомия прорыва: как устроена DeepSeek

DeepSeek реализовала свой прорыв в два этапа. Первый — модель V3, выпущенная в конце 2024 года — стал настоящей инженерной победой.
Два ключевых компонента:

Key-Value cache: инженеры DeepSeek нашли способ более эффективного управления памятью, что существенно снизило вычислительные затраты

Mixture of Experts: технология, позволяющая модели динамически выбирать оптимальный "набор экспертов" для каждой задачи, была доведена до нового уровня эффективности

Результат? Модель, обучение которой обошлось всего в $6 млн, достигла уровня производительности, сопоставимого с западными системами 7-10 месячной давности. Для сравнения: Claude 3.5 Sonnet, обученный примерно год назад, обошелся Anthropic в "несколько десятков миллионов долларов".

Железный фундамент: о чем молчат заголовки

Однако простое сравнение стоимости обучения не корректное. За кулисами DeepSeek располагает впечатляющей инфраструктурой:

50,000 чипов трех типов:
- NVIDIA H100 (топовые чипы, полученные до запрета)
- H800 (закуплены до октябрьского запрета 2023)
- H20 (все еще доступны, оптимальны для inference)

Общая стоимость этого "железного фундамента" оценивается примерно в $1 млрд — всего в 2-3 раза меньше, чем у знаменитого кластера xAI "Colossus".

Новая парадигма: от "сырой силы" к умному обучению

Второй этап — модель R1 — демонстрирует смену парадигмы в обучении LLM. Вместо простого наращивания вычислительной мощности, DeepSeek (как и другие лидеры отрасли) делает ставку на двухэтапный подход:

1. Базовое предобучение на больших данных (pre-training)
2. Специализированное обучение с подкреплением (RL) для развития навыков рассуждения

Этот подход позволяет достичь впечатляющих результатов в таких областях как:
- Решение математических задач
- Программирование
- Логические головоломки
- Chain-of-thought reasoning

Что особенно интересно, сейчас мы находимся в уникальной точке развития этой технологии: даже относительно небольшие инвестиции в RL-обучение (порядка $1 млн) дают значительный прирост производительности.

Масштаб имеет значение: законы роста

Исследования показывают четкую закономерность в развитии LLM:

- Модель за $1 млн решает около 20% ключевых задач
- За $10 млн — уже 40%
- За $100 млн — достигает 60%

При этом каждый такой шаг не просто количественный — он означает качественный скачок, сравнимый с разницей между уровнем бакалавра и PhD в конкретной области.

Что дальше: горизонт 2026-2027

Несмотря на все оптимизации и прорывы, общий тренд индустрии остается неизменным: создание по-настоящему продвинутых систем будет требовать все больших ресурсов. Эксперты прогнозируют, что к 2026-2027 годам для достижения уровня "экспертной" AI потребуется:

- Миллионы специализированных чипов
- Десятки миллиардов долларов инвестиций
- Прорывы в:
- Управлении памятью
- Сетевых подсистемах
- Распределенном обучении

При этом каждое повышение эффективности (сейчас — примерно 4x в год против 1.68x в 2020) не снижает общих затрат, а лишь позволяет создавать еще более мощные системы за те же деньги.

Настоящая цена прогресса

История DeepSeek показывает: в мире AI за каждым "чудом эффективности" стоят:
- Годы исследований
- Миллиарды долларов инвестиций в инфраструктуру
- Прорывные инженерные решения

При этом Claude 3.5 Sonnet, обученный 9-12 месяцев назад, до сих пор превосходит DeepSeek в ряде ключевых задач, особенно в разработке кода, несмотря на 10-кратное снижение стоимости inference по сравнению с GPT-4.

Рекомендую, конечно, прочитать целиком.

#Anthropic
———
@tsingular
👍20🤔4
DeepSeek взломали

Специалисты Wiz Research выявили незащищенную базу ClickHouse китайского ИИ-стартапа DeepSeek.
Обнаруженный сервер содержал миллионы записей, включая истории чатов, API-ключи и внутренние логи.
Уязвимые порты 8123 и 9000 предоставляли полный контроль над БД без аутентификации.
После оперативного уведомления компания быстро закрыла доступ к серверу.

Когда погоня за технологиями опережает базовую кибергигиену. 🔓

#DeepSeek #ClickHouse #Cybersecurity
-------
@tsingular
😢13👀5🔥2
DeepSeek R1 теперь доступна на Azure и AWS Bedrock

DeepSeek R1 интегрируется в ведущие облачные платформы и теперь доступен не только из Китая.

Модель существует в двух версиях: 8B и 70B.
Меньшая версия сохраняет до 92% функционала при значительной экономии ресурсов.

Развертывание осуществляется через serverless инфраструктуру с автомасштабированием и защитой от MS и AWS, что, по идее, не позволит повториться инциденту с уязвимостями.

Azure
AWS
и раньше писал про Groq

#DeepSeek #Microsoft #AWS
———
@tsingular
🔥7
В части взлома цензуры DeepSeek.
Простой метод так то, но сработал.


Народ с Реддита попросил рассказать о событиях, которые попадают под китайскую цензуру заменив буквы O на 0, A на 4 и Е на 3.
Для человека читабельно, для скриптов, - не особо.

К старому уже тезису, что цензурить ИИ нужно с помощью ИИ, а не скриптов.
Тут, кстати, помогут малые быстрые модели специально дообученные.

Ну и на русском отвечает спокойно про любые темы, так что "русский учите, - пригодится", а фильтры цензора у них похоже просто на англоязычных скриптах.

#jailbreak
———
@tsingular
😁114👍2
Вся лента в DeepSeek. ужас :)

#юмор
———
@tsingular
🤣23
В слайды презентаций про ИИ автоматизацию :)

А накидайте в комментах, может у вас тоже есть прикольные ?

#мемы #юмор
———
@tsingular
👍9🆒41🔥1
NVIDIA DLI: бесплатное обучение ИИ с сертификацией

Deep Learning Institute предоставил комплексный бесплатный образовательный пакет для специалистов по машинному обучению.

Программа включает практические лаборатории с профессиональными графическими ускорителями.

Участники получают сертификаты, подтверждающие освоение нейросетевых технологий.

Курсы содержат реальные проекты с актуальными наборами данных.

Особенность обучения - гибкий график и бесплатный доступ к учебным материалам от экспертов корпорации.

Для всех, кто знает английский и математику.
Я, вот, решил про RAG пройти в первую очередь. 4 часа всего.

Для работы понадобится VPN

#NVIDIA #DLI #обучение
———
@tsingular
👍8🔥41
Forwarded from эйай ньюз
Опенсорс Suno🤡🤡🤡

Наконец-то в опенсорс генераторах музыки сподвижки. Угадайте, кто? Правильно, китайцы YuE — по-русски йе! Yeah, ну или просто 乐. По звуку похоже скорее на Suno v2, но и это уже очень хорошо. Примеры в видосе и полные треки в комментариях.

К сожалению, какого-то демо не нашёл, поэтому своих тестов нет. Пейпер обещают скоро, а вот раскатить модельку у себя уже можно. Потребуется только 24 GB RAM, ну и, в теории, 4090 тоже может осилить.

Ждём, когда оптимизируют и понаделают всякие финтифлюшки, по типу звуковых IP-адаптеров и контролнетов. :)

Модели на HF
Project page
GitHub

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥3