Одно из лучших иллюстрированных объяснение внутренностей DeepSeek-R1.
▪ Читать
▪ https://pika.art/
Наивное квантование всех слоев полностью ломает модель, вызывая бесконечные циклы и тарабарщину на выходе. Их динамические кванты решают эту проблему.
1,58-битный квант помещается в 160 ГБ VRAM (2x H100 80 ГБ) для быстрого вывода со скоростью ~140 токенов/сек.
Изучив архитектуру DeepSeek-R1, разработчики выборочно квантовали определенные слои в более высокие биты (например, в 4-битные), а большинство слоев MoE оставили в 1,5 бита.
▪Бенчмарки + блог
▪GGUF (131-212 ГБ) на Hugging Face:
▪Код
▪Демо
▪Qwen-2.5-VL
▪Qwen-2.5-1M
Netflix выпустили новый алгоритм искажения шума для генерации видео, достаточно быстрый, чтобы работать в реальном времени, который заменяет случайную временную гауссиану на коррелированный искаженный шум, полученный из полей оптического потока, который сохраняет при этом пространственную гауссиану. Эффективность алгоритма позволяет тонко настраивать современные модели диффузии видео с минимальными расходами и предоставляет универсальное решение для широкого спектра управления движением на видео. Обширные эксперименты и исследования демонстрируют преимущества метода, делая его надежным и масштабируемым подходом для управления движением в диффузионных моделях видео.
▪HF
▪Github
▪ Github
@ai_machinelearning_big_data
#ai #ml #news #llm #deepseek #Netflix #Qwen #Pika #news #ainews
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Исследователи из Беркли воспроизвели Ahah-moment в задачах на обратный отсчет и умножение.
Благодаря RL их модель LM 3B самостоятельно развивает способности к самопроверке и поиску.ю правильного ответа.
▪ Github▪Полный лог эксперимента ▪Тред
1. OpenThoughts: 114 тыс датасет, полученный из R1 по математике, кодингу и другим наукам
2. R1-Distill-SFT: 1.7M, полученный из R1-32B на NuminaMath и Tulu data
lmmslab провели интересное исследование мультимодальной R1, используя математически-ориентированные обучающие примеры RL* и *натренированные модели GRPO*.
▪Github ▪Dataset ▪Wandb Logs
Этот новый флуоресцентный белок, похожий на белки, обнаруженные у медуз, может найти применение в медицине.
Он существует только в виде цифровой последовательности и существенно отличается от известных белков.
Исследователи из компании EvolutionaryScale опубликовали результаты, которые сейчас проходят рецензирование.
Новые методы белковой инженерии могут произвести революцию во многих областях, включая разработку новых лекарств.
Флуоресцентные белки, такие как esmGFP, уже используются в исследованиях для визуализации биологических процессов.
ИИ значительно ускоряет этот процесс и расширяет возможности модификации белков.
▪Подробнее
Официальный API DeepSeek сбоит уже почти сутки, так что многие пользователи ищут варианты.
▪Вот список открытых и не очень альтернатив.
Релиз кода для Stable Flow - метода, не требующего обучения, который позволяет выполняет различные типы операций по редактированию изображений (например, редактирование, добавление, замена объектов) с помощью моделей потока.
▪Github ▪Paper ▪Video
▪Установить ▪Github
@ai_machinelearning_big_data
#rl #ml #experiment #deepseek #reasoning #education #llm #news #ainews #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
В релиз добавлен ряд улучшений:
🔥 torch.compile теперь поддерживает Python 3.13
🔥 Новый torch.compiler.set_stance
🔥 Улучшения в AOTInductor
🔥 Поддержка FP16 на процессорах X86.
Сегодня утром был опубликован Международный отчет о безопасности искусственного интеллекта, и OpenAI поделилась предварительными результатами тестов o3.
«значительно более высокие показатели, чем у любой предыдущей модели, в ряде самых сложных тестов в области программирования, абстрактного мышления и научного мышления»
- LLama 4 и LLama 4 mini (на претренинге)
- Подтверждает ризонинг в LLaMa!
- Llama 4 будет изначально мультимодальной
- это омни-модель
- она будет иметь агентские возможности.
- 👓 — идеальный форм-фактор для ИИ
- строительство центра обработки данных размером с Манхэттен
Компания Wiz Research обнаружила «DeepLeak» — общедоступную базу данных ClickHouse, принадлежащую DeepSeek, которая раскрывает крайне конфиденциальную информацию, включая секретные ключи, текстовые сообщения чата, сведения о бэкэнде и журналы.
Codegen - это новый SDK к мощному многоязычному языковому серверу,
Который позволяет делать рефакторинг, применение паттернов, анализ целых проектов и т. д.
Несмотря на открытие завода в Аризоне, TSMC по-прежнему производит большую часть своих чипов на Тайване.
А поскольку чипы TSMC обычно отправляются в Китай и другие азиатские страны для сборки, прежде чем попасть в США, эти пошлины в случае их введения могут привести к росту стоимости такой электроники, как iPhone, игровые графические процессоры и ноутбуки.
- превосходит лучшие малые модели в задачах оценки на 11 бенчмарках
- превосходит GPT-4o в RewardBench и EvalBiasBench
- отлично работает в реальных приложениях
Коллекция записных книжек, демонстрирующих варианты использования Qwen2.5-VL, включая локальную модель и API. Примеры включают в себя использование вычислений, пространственное понимание, разбор документов, мобильный агент, распознавание текста, Универсальное распознавание, понимание видео.
@ai_machinelearning_big_data
#pytorch #pytorchrelease #opensource #LLama #LLama4 #openai #chatgpt #ai #news #ml #llm #ainews #LumaLabsAI #Microsoft #DeepSeek #qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Вводите промпт и ChatGPT найдет, проанализирует и синтезирует сотни онлайн-ресурсов, чтобы создать развернутый отчет за 10 минут работы, вместо нескольких часов, которые потребовались бы человеку.
Основные моменты:
— Уже доступен для пользователей Pro.
— Агент предоставит полный список источников, а также прокомментирует каждый из них;
— Хорошо подходит для решения задач, связанных с поиском в интернете.
— Набрал 26.6 % на «Последнем экзамене человечества».
ИИ превосходит существующие методы как по точности, так и по вычислительной эффективности, предлагая обновления прогнозов в реальном времени четыре раза в день через Google Cloud, BigQuery и Earth Engine.
Исследователи могут получить доступ как к текущим, так и к историческим прогнозам для анализа и планирования.
Внутри 2 мощных инструмента:
WeatherNext Graph:
- Формирует единый сверхточный прогноз.
- Обновления происходят каждые 6 часов.
- Предсказания делаются на 10 дней вперёд.
- Выдает прогнозы с максимальной точностью.
WeatherNext Gen:
- Генерирует ансамблевые прогнозы из 50 вероятных сценариев.
- Обновление прогноза происходит каждые 12 часов.
- Модель позволяет лучше оценивать риски экстремальных погодных явлений.
Преимущества над традиционными методами:
- Более высокая скорость обработки данных.
- Значительное повышение точности по сравнению с физическими моделями.
- Опенсорс
Внутри много интересного о DeepSeek, Китае, OpenAI, NVIDIA, xAI, Google, Anthropic, Meta, Microsoft, TSMC, Stargate, строительстве мегакластеров, RL, ризонинге и множестве других тем на передовых ИИ тематик.
Очень интересная и наполненная техническими деталями беседа.
- Новая модель: Qwen2.5-Plus теперь обновлен до qwen-plus-0125-exp, с новыми методами пост-тренинга. Разрыв с Qwen2.5-Max значительно сократился.
- Гибкие режимы: Убрали все ограничения на переключение между режимами в течение одной сессии! С.
- Неограниченный ввод: Поддержка текстов длиной более 10 000 символов
- Возможность загружайть файлы txt, pdf, docx, xlsx, pptx, md и другие. Теперь длинный ввод не требует усилий.
Резюме самых интересных открытий за первую неделю с момента появления DS.
Компания Reliance Group Мукеша Амбани, один из крупнейших и наиболее влиятельных индийских конгломератов, строит крупный центр обработки данных в Джамнагаре - небольшом городке в штате Гуджарат, где уже расположены крупные нефтеперерабатывающие и нефтехимические предприятия Reliance.
По сообщениям Bloomberg, общая мощность центра обработки данных, который может стать крупнейшим в мире, составит 3 гигаватта, что значительно увеличит текущую мощность индийских центров обработки данных, которая оценивается менее чем в 1 гигаватт.
Таким образом, он будет в пять раз больше, чем 600-мегаваттный центр Microsoft в Бойдтоне, штат Вирджиния.
Метахранилище - это высокомасштабируемый сервис метаданных во время выполнения, который работает с несколькими движками: BigQuery, Apache Spark, Apache Hive и Apache Flink, и поддерживает открытый формат таблиц Apache Iceberg
@ai_machinelearning_big_data
#DeepSeek #opensource #ai #ml #llm #machinelearning #guide #news #chatgpt #openai #google #deepmind #qwen #DataAnalytics #ainews #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM