Математика Дата саентиста
12.7K subscribers
356 photos
123 videos
37 files
319 links
@notxxx1 - админ

@data_analysis_ml - ds

Регистрация в РКН: № 5153205507
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Это увлекательный интерактивный гайд, объясняющий интуицию, лежащую в основе гауссовых процессов.

Гауссовские процессы позволяют построить распределение функций с непрерывной областью определения.

🔗 Гайд

@data_math
Mathematics for Computer Science

Бесплатный учебник от CRC Press объемом 547 страниц.

📚 Книга


@data_math
🚀Прими участие в ML Cup 2025 от Авито и выиграй 1,2 миллиона рублей!

Ты — специалист в области машинного обучения? Хочешь проверить свои силы в реальных задачах, с которыми ежедневно сталкиваются 1000+ специалистов Авито? Тогда не упусти шанс стать частью крупнейшего соревнования в этой области!

Что тебя ждет:

☑️Денежный призовой фонд
☑️Автоматизированная оценка решений
☑️2 практические задачи:

1️⃣Персональные рекомендации — предскажи, какие товары вызовут интерес у миллионов пользователей → ссылка на регистрацию.

2️⃣Поиск дублей — как с помощью CV находить похожие объявления даже при разных текстах и ракурсах фото → ссылка на регистрацию.

Выбирай одну или обе задачи, показывай лучшие результаты и получай шанс на победу! Участвовать можно как индивидуально, так и в команде до 4 человек. Загружай до 5 решений в день.

Регистрация уже открыта! Подробности и анкета по ссылкам выше.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🔥 ​Hugging Face выпустила версию 0.30.0 библиотеки huggingface_hub - это самое крупное обновление за два года!

Представлены значительные улучшения, особенно в области хранения и обработки больших моделей и датасетов.​

✔️ Основные нововведения:

Интеграция с Xet: Внедрена поддержка Xet — передового протокола для хранения крупных объектов в Git-репозиториях, призванного заменить Git LFS.

В отличие от LFS, который выполняет дедупликацию на уровне файлов, Xet работает на уровне фрагментов данных, что особенно полезно для специалистов, работающих с массивными моделями и датасетами.

Для интеграции с Python используется пакет xet-core, написанный на Rust, который обрабатывает все низкоуровневые детали.​

Чтобы начать использовать Xet, установите дополнительную зависимость:​
pip install -U huggingface_hub[hf_xet]

После установки вы сможете загружать файлы из репозиториев, поддерживающих Xet.​

Доплнительно:
😶 Расширен InferenceClient:
😶 Добавлена поддержка новых провайдеров для инференса: Cerebras и Cohere.
😶 Внедрены асинхронные вызовы для задач инференса (например, text-to-video), что повышает стабильность и удобство работы.
😶 Улучшен CLI
😶 Команда huggingface-cli upload теперь поддерживает wildcards (шаблоны) прямо в пути к файлам (например, huggingface-cli upload my-model *.safetensors вместо опции --include).
😶 Команда huggingface-cli delete-cache получила опцию --sort для сортировки кэшированных репозиториев (например, по размеру: --sort=size).

✔️ Полный список обновлений
✔️Блог
✔️Документация по Xet

@ai_machinelearning_big_data


#huggingface #release #xet
Please open Telegram to view this post
VIEW IN TELEGRAM
📚 «Линейная алгебра»

Вторая лучшая книга по линейной алгебре с ~1000 практических задач.

Идеально для ИИ и машинного обучения.

Книга полностью бесплатна .

Прекрасно подходит для новичков.

📌 Книга

@data_math
book.23.pdf
430.5 KB
🔥 Математический анализ для решения физических задач
М. А. Шубин

Материал основананный на лекциях, дважды прочитанных автором в Красноярской краевой летней школе по естественным
наукам школьникам

В нем кратко объясняются основные понятия математического анализа (производная и интеграл) и даются простейшие приложения к физическимзадачам, основанные на составлении и решении дифференциальных уравнений.

Материал рассчитанана широкий круг читателей: школьников, студентов, учителей.
Please open Telegram to view this post
VIEW IN TELEGRAM
Растите сильную команду. Топ-5 курсов Яндекс Практикума для IT

👾 Технологии меняются каждый день — проверено Яндексом.


Мы ощущаем перемены на своих проектах. Постоянные вызовы, новые инструменты, штормы на рынках. Знаем, как важно, чтобы команда быстро развивалась и адаптировалась к изменениям. Поэтому создаём актуальное обучение, которое соответствует реальным задачам IT-сферы.

Нам доверяют: 5000+ компаний уже обучили 36 000+ сотрудников в Яндекс Практикуме.

👉 Вот топ-5 курсов, которые выбирали компании для развития IT-команд в 2025 году:

— SQL для работы с данными и аналитики
— DevOps для эксплуатации и разработки
— Python-разработчик
— Архитектура программного обеспечения
— Управление командой разработки
— Навыки аргументации

👉Подобрать курс

Реклама, АНО ДПО “Образовательные технологии Яндекса”, ИНН 7704282033, erid: 2VtzqwTEKDb
🧮 Модели решают математику… но не совсем

Исследователи предложили новый бенчмарк — MATH-Perturb, чтобы проверить: языковые модели действительно "умеют" решать задачи по математике или просто запоминают шаблоны?

📌 Что сделали: Они взяли 279 самых сложных задач из датасета MATH (уровень 5) и создали две версии для каждой:

MATH-P-Simple — простая пертурбация (вопрос формулируется иначе, но суть и метод решения не меняется).

MATH-P-Hard — сложная пертурбация (незаметное изменение, которое требует другого метода решения и более глубокого понимания).

🧠 Что показали тесты: Модели легко решают оригинальные и "простые" пертурбированные задачи — даже если используют "шорткат-решения" (по сути, угадывают по шаблону).
Но на сложных пертурбациях они резко проваливаются. Шорткат больше не работает, и модель теряется.

📊 Вывод: Многие языковые модели, включая самые продвинутые, не понимают математику в глубоком смысле. Они подбирают шаблон, а не рассуждают.

MATH-Perturb — отличный способ отделить память от мышления.

🔗 Подробнее: https://arxiv.org/abs/2404.01649
🔗 Бенчмарк: https://math-perturb.github.io/

@data_math
Сейчас информация для тех, кто еще учится в вузе

Мы собрали большое комьюнити умных и образованных людей, среди которых точно есть те, кому нравится обучать точным наукам и программированию. И на своём опыте знаю, чего стоит поиск учеников, особенно если нет ресурсов, какими обладают онлайн-школы. А так как я придерживаюсь стратегии win-win, с радостью готов поделиться ресурсом, который поможет вам найти учеников уже сейчас:

Последний в этом году 3-х дневный концентрат от репетитора и студента факультета компьютерных наук из ВШЭ

За 5 лет репетиторства он разработал систему, которой пользуются все начинающие репетиторы, а действующие с её помощью сокращают время работы и увеличивают доход.

Его советам точно можно доверять. Не упустите эту возможность учиться у лучших в своем деле.

УЧАСТВОВАТЬ
Forwarded from Machinelearning
✔️ Релиз весов HiDream-I1: 17B параметров и превосходство над GPT-4o по качеству генерации изображений.

HiDream-I1 - генеративная модель text-to-imаge, разработанная китайской компанией HiDream, которая работает под брендом vivagoAI.

Модель получила 17 млрд. параметров и показывает высочайшее качество генерации изображений в фотореализме, анимационном и художественном стилях. Представлено 3 версии модели: Dev, Full и Fast.

Модель выпущена под лицензией MIT и уже заняла 1 место в GenAI-бенчмарках, обогнав предыдущего лидера, GPT-4o.

🟡Попробовать
🟡Github
🟡HidreamAi в X (ex-Twitter)


@ai_machinelearning_big_data

#news #ai #ml #HiDream #AImodel
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 Kimi-VL: VLM с MoE, ризонингом и контекстом 128K.

Moonshot AI опубликовала веса Kimi-VL — открытой VLM, которая объединяет обработку текста, изображений и видео. Благодаря архитектуре MoE модель активирует всего 2.8 млрд. параметров в языковом декодере, обеспечивая скорость, сопоставимую с компактными аналогами, и результативность флагманских решений.

Главное преимущество Kimi-VL — способность анализировать длинные контексты до 128 тыс. токенов, что делает её идеальной для работы с объемными документами, длинными видео или сложными мультимедийными задачами.

Основу модели составляет визуальный энкодер MoonViT, оптимизированный для нативной обработки изображений любого разрешения без необходимости разбивать их на части. Это позволяет точно распознавать текст, графики или UI-интерфейсы даже в высокодетализированных скриншотах.

Например, на бенчмарке InfoVQA модель показывает точность 83.2%, обходя даже GPT-4o. В задачах OCR Kimi-VL достигает 86.7% на OCRBench, что ставит её в ряд лучших в индустрии.

Разработчики также представили Kimi-VL-Thinking — версию с расширенными возможностями CoT. Благодаря использованным RL и длительному CoT-тюнингу она демонстрирует впечатляющие результаты в математических и академических задачах: на MathVista точность составила 71.3%, а на MMMU — до 61.7%, что лучше, чем у Gemma-3-12B-IT.

В тестах Kimi-VL превосходит конкурентов в работе с агентами: на OSWorld её результат 8.22% выше, чем у GPT-4o (5.03%), а на WindowsAgentArena — 10.4%. Для длинных видео модель набирает 64.5% на LongVideoBench, подтверждая способность анализировать часовые записи без потери ключевых деталей.

Модели доступны на Hugging Face в двух вариантах:

🟢Kimi-VL-A3B-Instruct для стандартных задач;

🟠Kimi-VL-Thinking для сложных рассуждений.

▶️ Инференс через Transformers занимает несколько строк кода — достаточно загрузить изображение, задать запрос и получить подробный ответ.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #KimiAI #MoonShotAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Theory—Theoretical & Mathematical Foundations

📓 Book

@data_math
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🔥 Короткое видео от
Hunyuan, которое объясняет архитектуру гибридного трансформера Mamba, лежащего в основе моделей Hunyuan T1 и Turbo S.

🔜 Оригинал

#mamba #Hunyuan
Please open Telegram to view this post
VIEW IN TELEGRAM