BigData
3.32K subscribers
757 photos
91 videos
3 files
841 links
Data Science : Big Data : Machine Learning : Deep Learning. По всем вопросам @evgenycarter
Download Telegram
Open R1

Разработчики с Hugging Face повторил полный цикл разработки DeepSeek - от сбора данных до обучения! 🔥

Цель этого репозитория - объяснить все части конвейера создания R1 таким образом, чтобы каждый мог повторить его или построить поверх него свой проект.

Из чего состоит проект:
- src/open_r1 содержит скрипты для обучения и оценки моделей, а также для генерации синтетических данных:
- grpo.py : обучение модели с помощью GRPO
- sft.py: простой SFT
- evaluate.py: оценка модели на основе тестов R1.
- generate.py: генерация синтетических данных с помощью Distilabel.
- Makefile содержит простую в выполнении команду для каждого шага конвейера R1.

https://github.com/huggingface/open-r1

👉 @bigdata_1
👍3🔥1
Как масштабировать машинные модели и работать с огромными объемами данных? Откройте для себя возможности Spark ML на открытом уроке от OTUS!

Spark ML — это мощный инструмент для масштабируемого машинного обучения, который позволяет обучать модели на больших данных, не переходя на специализированные ML-системы. Мы покажем, как интеграция с Spark SQL и DataFrame API упрощает ETL-подготовку данных и фичуризацию для реальных проектов.

Убедитесь, как Spark ML решает задачи отказоустойчивости и распределённых вычислений, позволяя вам легко строить промышленные ML-пайплайны.

Посетите открытый урок 11 июня в 20:00 МСК в преддверие старта курса «Spark Developer» и получите скидку на обучение: https://vk.cc/cMFGYY

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
ИИ против Машинного Обучения, Глубокого Обучения и Генеративного ИИ — чёткое объяснение


1 — Искусственный интеллект (AI)
Это обобщающее направление, сосредоточенное на создании машин или систем, способных выполнять задачи, которые обычно требуют человеческого интеллекта: рассуждение, обучение, решение проблем, понимание языка и т.д.
AI включает в себя различные поднаправления, такие как машинное обучение (ML), обработка естественного языка (NLP), робототехника и компьютерное зрение.


2 — Машинное обучение (ML)
Это поднаправление AI, которое занимается разработкой алгоритмов, позволяющих компьютерам учиться на данных и принимать решения на их основе.

Вместо того чтобы явно программировать каждую задачу, ML-системы улучшают свои результаты по мере обработки новых данных.
Типичные применения: фильтрация спама, рекомендательные системы, предиктивная аналитика.


3 — Глубокое обучение (Deep Learning)
Это узкая область машинного обучения, использующая искусственные нейронные сети с множеством слоёв для моделирования сложных закономерностей в данных.

Нейронные сети — это вычислительные модели, вдохновлённые структурой мозга человека. Глубокие нейросети способны автоматически находить нужные представления для распознавания.
Примеры использования: распознавание изображений и речи, обработка естественного языка, автономные транспортные средства.


4 — Генеративный искусственный интеллект (Generative AI)
Это AI-системы, способные создавать новый контент — текст, изображения, музыку, код и т.п. — похожий на данные, на которых они обучались. Они работают на основе трансформерной архитектуры.

Известные модели генеративного AI: GPT (генерация текста), DALL·E (создание изображений).

👉 @bigdata_1
👍7👎21
🎯RecSys R&D команда из Яндекса разработали рекомендательные системы нового поколения на базе больших генеративных нейросетей.

В то время как индустрия пристально следит за успехами LLM, в другой ключевой сфере — рекомендательных системах — случился важный апдейт. Исследователи Яндекса разработали и внедрили в свои сервисы новую трансформерную модель ARGUS (AutoRegressive Generative User Sequential Modeling), способную буквально «читать» поведение пользователя.

Алгоритмы учитывают сложные последовательности (включая мельчайшие фидбеки), предсказывают большое количество обезличенных действий и точнее понимают реакцию и вкусы пользователей. Особенно актуально в эпоху, когда рекомендательные системы становятся фундаментом современных сервисов, а контента становится слишком много.

На Хабре подробно описано, как команда масштабировала систему. Выделили 3 главных условия нейросетевого масштабирования: должен быть огромный массив данных, выразительная архитектура с большой емкостью модели и фундаментальная задача обучения.

В Яндекс Музыке генеративные нейросети в рекомендациях используются уже с 2023. Она же стала первым сервисом, в который интегрировали новые модели и перевели их в онлайн. В результате: пользователи стали ставить на 20% больше лайков, а разнообразие рекомендаций выросло. В Яндекс Маркете внедрение новых алгоритмов позволило учитывать в несколько раз больше обезличенного контекста о пользовательском поведении на сервисе — это эквивалентно примерно двум годам активности покупателей. Рекомендации позволяют чаще встречать интересные товары, и учитывают сезонность. Если, например, прошлым летом пользователь интересовался футболом, то в этот сезон система посоветуем ему мячи или спортивную униформу. В будущем апдейт получат и другие сервисы компании.
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
MASt3R-SLAM: детализированный SLAM с априорными данными 3D-реконструкции в реальном времени.

Представлена система плотного SLAM в реальном времени с использованием одной камеры, разработанная на основе MASt3R — приорной модели для реконструкции сцены и сопоставления по двум изображениям. Благодаря использованию этого мощного ML-приора, система сохраняет устойчивость при работе с произвольными видеопоследовательностями из реального мира, не накладывая ограничений на калиброванную или параметрическую модель камеры, за исключением предположения об уникальном центре проекции.

В рамках архитектуры реализованы эффективные алгоритмы сопоставления с картой точек (pointmap matching), трекинга камеры, локального слияния (fusion), построения графа и замыкания петель (loop closure), а также глобальной оптимизации второго порядка.

При наличии калибровки камеры, достаточно минимальной модификации, чтобы достичь state-of-the-art результатов на ряде стандартных бенчмарков. В целом, система представляет собой plug-and-play решение для монокулярного SLAM, обеспечивающее глобально согласованные траектории камеры и плотную 3D-реконструкцию при скорости 15 FPS.


➡️Проект https://edexheim.github.io/mast3r-slam/

➡️Набор моделей https://download.europe.naverlabs.com/ComputerVision/MASt3R/

➡️Arxiv https://arxiv.org/pdf/2412.12392

👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥1
✔️ Stanford и Google представили Marin — первую полностью открытую LLM, разработанную на JAX

Чем Marin выделяется среди других моделей:

— Открыто всё: не только веса, но и весь процесс обучения — код, датасеты, гиперпараметры, логи и эксперименты доступны на GitHub
— Обучение проходило на массиве из 12.7 триллионов токенов — модель обошла Llama 3.1 8B в 14 из 19 тестов
— Распространяется под лицензией Apache 2.0 — свободно используйте, модифицируйте и воспроизводите
— Используются Levanter + JAX, обеспечивающие bit‑точную воспроизводимость и масштабируемость на TPU/GPU

Проект задуман как открытая исследовательская лаборатория: каждый эксперимент фиксируется через pull request, логируется в Weights & Biases, обсуждается в issue и сохраняется в репозитории — даже неудачи документируются ради прозрачности.

Доступны две версии модели:

- Marin‑8B‑Base — мощная базовая модель, опережающая Llama 3.1 8B
- Marin‑8B‑Instruct — дообучена с помощью SFT, превосходит OLMo 2 и немного уступает Llama 3.1 Tulu

Это не просто открытый доступ к весам — новый научный стандарт в эпоху масштабных языковых моделей.

📌 JAX — научный фреймворк от Google для численных и ML-вычислений
📌 TPU — специализированные процессоры от Google для ускорения задач машинного обучения


➡️Github: https://github.com/stanford-crfm/marin

➡️Блог: https://developers.googleblog.com/en/stanfords-marin-foundation-model-first-fully-open-model-developed-using-jax/

➡️Гайд: https://docs.jax.dev/en/latest/quickstart.html

👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61
CogView4-6B – свежая Text2Image
Модель генерации изображений, разработанный командой THUDM.
.

Архитектура модели 6B DIT и 9B TextEncoder Демка показывает очень высокое качество следования заданному промпту.

CogView4 поддерживает очень длинный контекст.

Генерирует изображения от 512 до 2048 пикселей.

➡️Model: https://huggingface.co/THUDM/CogView4-6B
➡️Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
➡️Github: https://github.com/THUDM/CogView4
➡️Paper: https://arxiv.org/abs/2403.05121

👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Media is too big
VIEW IN TELEGRAM
PhysX-3D: Physical-Grounded 3D Asset Generation

3D-моделирование переходит из виртуального в физический мир. Существующие методы генерации 3D в основном сосредоточены на геометрии и текстурах, но игнорируют физически обоснованное моделирование. В результате, несмотря на быстрый прогресс в области генеративных 3D-моделей, синтезированные объекты часто лишены богатых и важных физических свойств, что ограничивает их применение в реальных задачах, таких как симуляции и embodied AI.

В качестве первого шага к решению этой проблемы мы предлагаем PhysX — сквозную парадигму генерации физически обоснованных 3D-объектов.

1. Чтобы преодолеть критический дефицит 3D-датасетов с физической аннотацией, мы представляем PhysXNet — первый датасет, систематически снабжённый физическими метками по пяти базовым измерениям: абсолютный масштаб, материал, аффордансы, кинематика и функциональное описание. Для этого мы разработали масштабируемый процесс аннотирования с участием человека, основанный на vision-language моделях, что позволяет эффективно создавать физически ориентированные объекты из исходных 3D-данных.

2. Кроме того, мы предлагаем PhysXGen — прямой фреймворк для генерации физически обоснованных 3D-объектов по изображениям, который внедряет физические знания в предобученное 3D-структурное пространство. В частности, PhysXGen использует двухветвевую архитектуру для явного моделирования скрытых связей между 3D-структурами и физическими свойствами, что позволяет получать 3D-объекты с правдоподобными физическими характеристиками при сохранении высокого качества геометрии.

Обширные эксперименты подтверждают превосходную производительность и высокую способность к обобщению предлагаемого подхода. Весь код, данные и модели будут опубликованы для поддержки будущих исследований в области генеративного физического ИИ.

➡️Github: https://github.com/ziangcao0312/PhysX-3D

➡️Paper: https://arxiv.org/pdf/2507.12465v1.pdf

➡️Dataset: https://huggingface.co/datasets/Caoza/PhysX-3D

👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1👀1
Неформально про реком
Глитч нейросети — это база, а ивент AI VK & Pro в «оригинале» — повод собраться и узнать, как меняются рекомендательные системы.

27 августа VK проводит AI VK & Pro — закрытый митап про RecSys и ML. Где соберутся крутые ML-инженеры, исследователи и разработчики.

В программе доклады от ML-лидов VK. Поговорим про Discovery Platform, продовые трансформеры и мультимодальные модели.
Приходите задать вопросы, поделиться опытом и поглитчевать среди своих в неформальной обстановке. А после — афтепати: винил, сигары, вино и покер.


📍 Москва, только офлайн
📅 27 августа, сбор с 18:00
🎟 Вход по регистрации
LaneSegNet: Map Learning with Lane Segment Perception for Autonomous Driving

➡️Github: https://github.com/OpenDriveLab/LaneSegNet

➡️Paper: https://arxiv.org/abs/2312.16108v1

👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Обзор математики для начинающего ML-инженера

Доступное объяснение основных аспектов высшей математики, которые потребуются ML‑щику разного грейда в рабочих сценариях — без дотошных доказательств и с обилием визуальных и численных примеров.

Этот текст содержит доступное объяснение основных частей высшей математики, которые могут потребоваться ML‑щику разного грейда в рабочих сценариях — без дотошных доказательств и с обилием визуальных и численных примеров.

Предвосхищая возможные вопросы: я ставлю целью рассказать про минимальный набор знаний, с которым можно будет уже самостоятельно погружаться в более интересные и прикладные сценарии. Я не планирую рассмотрение в этих постах более упоротных разделов и деталей — с такой глубиной можно не на один год увязнуть при знакомстве с математикой для ML


В статье я постараюсь с примерами, пытаясь все же соблюдать небольшую формальность, разложить по полочкам ключевые моменты из высшей математики, которые точно понадобятся при изучении и впитывании машинного обучения в 2025.

https://habr.com/ru/articles/942114/

👉 @bigdata_1
👍51
This media is not supported in your browser
VIEW IN TELEGRAM
📌 Awesome Artificial Intelligence — это огромная подборка ресурсов по искусственному интеллекту.
В репозитории собраны статьи, курсы, книги, инструменты и библиотеки, охватывающие различные направления AI: машинное обучение, глубокое обучение, обработка естественного языка, компьютерное зрение и многое другое.

Этот список будет полезен тем, кто хочет системно изучать ИИ или просто расширить свой набор инструментов. Отличный вариант для закладок, если вы занимаетесь исследованием или разработкой в сфере AI.

https://github.com/owainlewis/awesome-artificial-intelligence

👉 @bigdata_1
👍2👏2
Media is too big
VIEW IN TELEGRAM
Сервисы вынуждены адаптироваться к изменениям в российском законодательстве, которые касаются обработки персональных данных и сбора согласий на рекламные рассылки. Постоянные изменения создают трудности для бизнеса - штрафы за нарушения увеличиваются, и каждая ошибка может иметь серьезные последствия.

На IT- конференции ГИД 4.0 эсперты обсудили новые требования, методы их соблюдения и способы сохранения репутации как сервисов, так и их партнеров.

Подробности на канале ГИДа
🛠 В блоге Anthropic вышел разбор того, как они создают инструменты для агентов, которые помогают улучшать процесс написания текста.

В статье описываются подходы к построению таких тулов, их интеграция в пайплайн, а также примеры использования для редактирования, анализа и структурирования текста. Фактически это набор "помощников", которые делают агента более продуктивным и гибким при работе с длинными документами.

https://www.anthropic.com/engineering/writing-tools-for-agents

👉 @bigdata_1
👍1
🚀 Подборка Telegram каналов для программистов

Системное администрирование, DevOps 📌

https://t.me/bash_srv Bash Советы
https://t.me/win_sysadmin Системный Администратор Windows
https://t.me/sysadmin_girl Девочка Сисадмин
https://t.me/srv_admin_linux Админские угодья
https://t.me/linux_srv Типичный Сисадмин
https://t.me/devopslib Библиотека девопса | DevOps, SRE, Sysadmin
https://t.me/linux_odmin Linux: Системный администратор
https://t.me/devops_star DevOps Star (Звезда Девопса)
https://t.me/i_linux Системный администратор
https://t.me/linuxchmod Linux
https://t.me/sys_adminos Системный Администратор
https://t.me/tipsysdmin Типичный Сисадмин (фото железа, было/стало)
https://t.me/sysadminof Книги для админов, полезные материалы
https://t.me/i_odmin Все для системного администратора
https://t.me/i_odmin_book Библиотека Системного Администратора
https://t.me/i_odmin_chat Чат системных администраторов
https://t.me/i_DevOps DevOps: Пишем о Docker, Kubernetes и др.
https://t.me/sysadminoff Новости Линукс Linux

1C разработка 📌
https://t.me/odin1C_rus Cтатьи, курсы, советы, шаблоны кода 1С
https://t.me/DevLab1C 1С:Предприятие 8
https://t.me/razrab_1C 1C Разработчик
https://t.me/buh1C_prog 1C Программист | Бухгалтерия и Учёт
https://t.me/rabota1C_rus Вакансии для программистов 1С

Программирование C++📌
https://t.me/cpp_lib Библиотека C/C++ разработчика
https://t.me/cpp_knigi Книги для программистов C/C++
https://t.me/cpp_geek Учим C/C++ на примерах

Программирование Python 📌
https://t.me/pythonofff Python академия.
https://t.me/BookPython Библиотека Python разработчика
https://t.me/python_real Python подборки на русском и английском
https://t.me/python_360 Книги по Python

Java разработка 📌
https://t.me/BookJava Библиотека Java разработчика
https://t.me/java_360 Книги по Java Rus
https://t.me/java_geek Учим Java на примерах

GitHub Сообщество 📌
https://t.me/Githublib Интересное из GitHub

Базы данных (Data Base) 📌
https://t.me/database_info Все про базы данных

Мобильная разработка: iOS, Android 📌
https://t.me/developer_mobila Мобильная разработка
https://t.me/kotlin_lib Подборки полезного материала по Kotlin

Фронтенд разработка 📌
https://t.me/frontend_1 Подборки для frontend разработчиков
https://t.me/frontend_sovet Frontend советы, примеры и практика!
https://t.me/React_lib Подборки по React js и все что с ним связано

Разработка игр 📌
https://t.me/game_devv Все о разработке игр

Библиотеки 📌
https://t.me/book_for_dev Книги для программистов Rus
https://t.me/programmist_of Книги по программированию
https://t.me/proglb Библиотека программиста
https://t.me/bfbook Книги для программистов

БигДата, машинное обучение 📌
https://t.me/bigdata_1 Big Data, Machine Learning

Программирование 📌
https://t.me/bookflow Лекции, видеоуроки, доклады с IT конференций
https://t.me/rust_lib Полезный контент по программированию на Rust
https://t.me/golang_lib Библиотека Go (Golang) разработчика
https://t.me/itmozg Программисты, дизайнеры, новости из мира IT
https://t.me/php_lib Библиотека PHP программиста 👨🏼‍💻👩‍💻
https://t.me/nodejs_lib Подборки по Node js и все что с ним связано
https://t.me/ruby_lib Библиотека Ruby программиста
https://t.me/lifeproger Жизнь программиста. Авторский канал.

QA, тестирование 📌
https://t.me/testlab_qa Библиотека тестировщика

Шутки программистов 📌
https://t.me/itumor Шутки программистов

Защита, взлом, безопасность 📌
https://t.me/thehaking Канал о кибербезопасности
https://t.me/xakep_2 Хакер Free

Книги, статьи для дизайнеров 📌
https://t.me/ux_web Статьи, книги для дизайнеров

Математика 📌
https://t.me/Pomatematike Канал по математике
https://t.me/phis_mat Обучающие видео, книги по Физике и Математике
https://t.me/matgeoru Математика | Геометрия | Логика

Excel лайфхак📌
https://t.me/Excel_lifehack

https://t.me/mir_teh Мир технологий (Technology World)

Вакансии 📌
https://t.me/sysadmin_rabota Системный Администратор
https://t.me/progjob Вакансии в IT