🗿 StyleNeRF: A Style-based 3D-Aware Generator for High-resolution Image Synthesis
Github: https://github.com/facebookresearch/StyleNeRF
Video: http://jiataogu.me/style_nerf
Paper: https://arxiv.org/abs/2110.08985
Project: http://jiataogu.me/style_nerf/
Dataset: https://github.com/facebookresearch/StyleNeRF#dataset
@ai_machinelearning_big_data
Github: https://github.com/facebookresearch/StyleNeRF
Video: http://jiataogu.me/style_nerf
Paper: https://arxiv.org/abs/2110.08985
Project: http://jiataogu.me/style_nerf/
Dataset: https://github.com/facebookresearch/StyleNeRF#dataset
@ai_machinelearning_big_data
New segmentation task -- reasoning segmentation. The task is designed to output a segmentation mask given a complex and implicit query text.
LISA раскрывает новые возможности сегментации мультимодальных LLM и позволяет решать сложные задачи рассуждения на знание реального мира.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
TrustLLM
— инструмент на Python
для комплексного исследования ответов от LLM. TrustLLM рассматривает 6 аспектов ответов: правдивость, безопасность, этичность, соблюдение конфиденциальности и другие.
В этом документе подробно объясняется, как использовать инструмент для оценки эффективности собственных моделей.
pip install trustllm
▪GitHub
▪Arxiv
▪Docs
▪Project
#llm
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 ManiWAV:— обучение роботизированные системы аудио-визуальному самоконтролю.
Исследователи из Stanford и Сolambia University при поддержке Toyota Research Institute разработали метод аудиовизуального обучения роботизированных манипуляторов, который превосходит некоторые альтернативные подходы по контактным операциям и может быть применим к любой релевантной промышленной среде.
https://github.com/real-stanford/maniwav/blob/main/assets/audio_teaser.jpg?raw=true
Для самостоятельного тестирования и применения нужны:
- совместимость с Universal Manipulation Interface (UMI)
- установить микрофоны на целевой манипулятор (рекомендации + модель грипера с держателем)
- загрузить датасет и модель
Доступны режимы тренировки и тестирования ( под ссылками строки кода для выполнения команд)
Тренировка выполняется при помощи CUDA, рекомендованный GPU: NVIDIA GeForce RTX 3090 24 GB, но есть поддержка multi-GPU
🟡 Страница проекта ManiWAV
🟡 Paper
🟡Summary Video
🖥 GitHub
@ai_machinelearning_big_data
Исследователи из Stanford и Сolambia University при поддержке Toyota Research Institute разработали метод аудиовизуального обучения роботизированных манипуляторов, который превосходит некоторые альтернативные подходы по контактным операциям и может быть применим к любой релевантной промышленной среде.
https://github.com/real-stanford/maniwav/blob/main/assets/audio_teaser.jpg?raw=true
Для самостоятельного тестирования и применения нужны:
- совместимость с Universal Manipulation Interface (UMI)
- установить микрофоны на целевой манипулятор (рекомендации + модель грипера с держателем)
- загрузить датасет и модель
Доступны режимы тренировки и тестирования ( под ссылками строки кода для выполнения команд)
Тренировка выполняется при помощи CUDA, рекомендованный GPU: NVIDIA GeForce RTX 3090 24 GB, но есть поддержка multi-GPU
🟡 Страница проекта ManiWAV
🟡 Paper
🟡Summary Video
🖥 GitHub
@ai_machinelearning_big_data
При обучении генеративных моделей большую роль в качестве инференса готовых моделей играет датасет обучения.
Одним из неплохих источников может стать MiraData от Tencent — готовый датасет суммарной продолжительностью видео в 16 тысяч часов, предназначенный для обучения моделей генерации текста в видео. Он включает в себя длинные видеоролики (в среднем 72,1 секунды) с высокой интенсивностью движения и подробными структурированными аннотациями (в среднем 318 слов на ролик).
Для оценки качества датасета была даже специально создана система бенчмарков MiraBench из 17 метрик, оценивающих временную согласованность, движения в кадре, качество видео, и другие параметры. Согласно их результатам, MiroData превосходит другие известные датасеты, доступные в открытых источниках , которые в основном состоят из коротких видеороликов с плавающим качеством и короткими описаниями.
🤗 Hugging Face
@ai_machinelearning_big_data
#Text2Video #Dataset #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
MINT-1T — это мультимодальный чередующийся набор данных с открытым исходным кодом, содержащий один триллион текстовых токенов и 3,4 миллиарда изображений.
Помимо этого, в него включены ранее неиспользованные источники: PDF-файлы и документы из ArXivOrg.
Состав и структура датасета :
Процесс обработки длился более 6 месяцев, затрачено 4.2 млн процессорных часов и использовано порядка 2350 процессорных ядер вычислительной мощности.
Датасет был отфильтрован от документов низкого качества и дубликатов, очищен от персональных данных (e-mail, IP-адреса, другие идентификаторы), удален NSFW-контент.
Перед публикацией проведена дополнительная проверка фильтром качества текста из Huggingface Datatrove.
В этом команде разработки помогли инструменты:
Эксперименты показали, что модели, обученные на MINT-1T, превосходят аналоги на существующих датасетах, особенно в задачах визуальных вопросов-ответов и обработки изображений.
@ai_machinelearning_big_data
#AI #Dataset #ML #MLLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Med Trinity-25M - крупномасштабный мультимодальный набор данных для медицины из более 25 миллионов изображений в 10 модальностях, с подробными аннотациями для более чем 65 заболеваний.
Аннотации содержат:
MedTrinity-25M подходит для мультимодальных задач: создание медицинских описаний патологий и новообразований, отчетов, задач классификации и сегментации. Этот набор данных может быть использован для подготовки медицинских моделей искусственного интеллекта.
Модели:
# Clone repository
git clone https://github.com/UCSC-VLAA/MedTrinity-25M.git
# Install Package
conda create -n llava-med++ python=3.10 -y
conda activate llava-med++
pip install --upgrade pip # enable PEP 660 support
pip install -e .
# Install cases FOR TRAIN
pip install -e ".[train]"
pip install flash-attn --no-build-isolation
pip install git+https://github.com/bfshi/scaling_on_scales.git
pip install multimedeval
# Pre-train 1 stage
cd MedTrinity-25M
bash ./scripts/med/llava3_med_stage1.sh
# Pre-train 2 stage
bash ./scripts/med/llava3_med_stage2.sh
# Finetune
cd MedTrinity-25M
bash ./scripts/med/llava3_med_finetune.sh
# Eval
cd MedTrinity-25M
bash ./scripts/med/llava3_med_eval_batch_vqa_rad.shs
@ai_machinelearning_big_data
#AI #Dataset #MedTech #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenMathInstruct-2 состоит из 14 млн. пар "вопрос-решение" (примерно 600 тысяч уникальных вопросов) и является одним из крупнейших общедоступных наборов данных для обучения LLM в математике.
Набор данных создан на основе Llama-3.1-405B-Instruct путем синтеза решений для существующих вопросов из наборов данных MATH и GSM8K и генерации новых задач и решений.
Результаты абляционных экспериментов, которые проводились для поиска оптимальных параметров синтеза, показали, что:
Итоговые данные, включенные в датасет прошли тщательную деконтаминацию с использованием конвейера
lm-sys
и ручной проверки на поиск дубликатов с тестовыми наборами данных. OpenMathInstruct-2 показал высокую эффективность при обучении LLM.
Модель Llama3.1-8B-Base, обученная на OpenMathInstruct-2, превзошла Llama3.1-8B-Instruct на 15,9% по точности на наборе данных MATH, а OpenMath2-Llama3.1-70B обошла Llama3.1-70B-Instruct на 3,9%.
Датасет выпущен в 3-х размерностях: полный набор (примерно 7.5 GB) и уменьшенные версии train_1M (640 Mb), train_2M (1.3 Gb) и train_5M (3.1 Gb).
@ai_machinelearning_big_data
#AI #ML #LLM #MATH #NVIDIA #Dataset
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
CogVideoX Factory - репозиторий с набором скриптов для эффективного файнтюна моделей семейства CogVideoX (CogVideoX-2B и CogVideoX-5B) с фокусом на оптимизацию VRAM. CogVideoX Factory позволяет выполнять обучение на GPU с 24 GB.
Проект предоставляет гибкость в выборе между LoRA и файнтюном всей модели для задач "text-to-video" и "IMG-to-video".
Чтобы сделать возможным файнтюн на ограниченных ресурсах, CogVideoX использует методы оптимизации:
CogVideoX Factory предлагает сценарии обучения:
train_text_to_video_lora.sh
;train_image_to_video_lora.sh
;train_text_to_video_sft.sh
.⚠️ Предварительная подготовка данных - один из важнейших условий CogVideoX Factory. Скрипт
prepare_dataset.py
играет ключевую роль в этом процессе, преобразуя видео и аннотации в латенты и эмбединги. Использование предварительно вычисленных латентов и эмбедингов позволяет не загружать VAE и T5 во время обучения.CogVideoX Factory предлагает подробную документацию, в которой объясняются шаги по подготовке датасетов, настройке параметров обучения, запуску инференса, информацию о требованиях к памяти для каждой модели и конфигурации, помогая принять корректные решения о выборе стратегии обучения.
@ai_machinelearning_big_data
#AI #ML #LoRA #T2V #IMG2V #Finetune
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
SegVLAD - метод для решения задач визуального распознавания мест (VPR) в условиях значительных изменений ракурса. SegVLAD использует сегментацию изображений, разделяя их на значимые объекты ("вещи"). Вместо того, чтобы кодировать все изображение целиком, как это делают традиционные методы VPR, SegVLAD кодирует и ищет соответствия на уровне отдельных сегментов.
Основа архитектуры SegVLAD - набор перекрывающихся подграфов сегментов SuperSegments. Подграфы создаются путем расширения окрестности каждого сегмента, учитывая информацию о соседних сегментах, полученную с помощью триангуляции Делоне.
Для каждого SuperSegment вычисляется дескриптор с использованием метода VLAD (Vector of Locally Aggregated Descriptors).
VLAD агрегирует локальные дескрипторы пикселей, полученные с помощью предварительно обученного DINOv2, который способен извлекать высокоуровневые признаки, инвариантные к различным условиям съемки.
SegVLAD обучался на наборах данных, включающих как уличные, так и внутренние среды: Pitts30k, AmsterTime, Mapillary Street Level Sequences (MSLS), SF-XL, Revisted Oxford5K, Revisited Paris6k, Baidu Mall, 17Places, InsideOut и VPAir.
Тесты SegVLAD показали, что метод превосходит современные VPR, особенно на датасетах с большими изменениями точки обзора. SegVLAD является универсальным и может быть использован с различными методами сегментации изображений и кодировщиками признаков.
Проект программной реализации метода SegVLAD - Revisit Anything.
⚠️ Перед запуском подготовьте данные датасета согласно структуре и укажите путь к данным в
place_rec_global_config.py
/# Шаг1 - выбор метода (DINO/SAM):
python place_rec_SAM_DINO.py --dataset <> --method DINO/SAM
# Шаг2 - генерация VLAD cluster center (опционально):
python vlad_c_centers_pt_gen.py --dataset <>
# Шаг 3 - извлечение PCA:
place_rec_global_any_dataset_pca_extraction.py --dataset <> --experiment <> --vocab-vlad <domain/map>
# Шаг 4 - запуск SegVLAD:
place_rec_main.py --dataset <> --experiment <> --vocab-vlad <domain/map> --save_results <True/False>
@ai_machinelearning_big_data
#AI #ML #SAM #DINO #VPR #SegVLAD
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Набор данных LAION-DISCO-12M состоит из 12 млн ссылок на общедоступные треки YouTube с метаданными. Он собран для поддержки фундаментальных исследований в области машинного обучения, созданию базовых моделей обработки звука, извлечения музыкальной информации, анализа наборов данных аудио и обучение рекомендательных систем и приложений.
Метод создания LAION-DISCO-12M основан на рекурсивном поиске исполнителей на платформе YouTube Music. Начиная с начального списка исполнителей топ-чартов разных стран, новые артисты обнаруживались путем анализа раздела "Похожие исполнители".
Для каждого исполнителя извлекались метаданные: имя, количество подписчиков и список всех песен и музыкальных клипов. Каждая песня или музыкальный клип были связаны с URL-адресом YouTube.
Размер датасета составляет 250 516 исполнителей и 12 648 485 треков.
Поля метаданных:
@ai_machinelearning_big_data
#AI #ML #LAION #Audio #Dataset
Please open Telegram to view this post
VIEW IN TELEGRAM
SmolTalk - это синтетический датасет, разработанный HuggingFace для обучения SmolTalk: новый синтетический набор данных для обучения больших языковых моделей LLM с учителем. Он состоит из 2 млн. строк и был использован для создания семейства моделей SmolLM2-Instruct. SmolTalk включает в себя как новые, так и существующие наборы данных.
Новые наборы данных:
Существующие общедоступные наборы данных:
SmolTalk сравнили недавно выпущенным набором данных Orca AgentInstruct 1M, обучив SmolLM2 на обоих наборах данных с использованием одинаковой конфигурации обучения.
Результаты показали, что SmolTalk показал значительные улучшения в производительности модели, особенно в задачах математики, программирования и следованию системным промптам. Наблюдались также значительные улучшения в масштабе 7B при обучении Mistral-7B на SmolTalk, особенно по показателям IFEval, BBH, GS8Mk и MATH.
from datasets import load_dataset
ds = load_dataset("HuggingFaceTB/smoltalk", "all", split="train")
# to load the train split of a specific subset such as smol-magpie-ultra, you can do
ds = load_dataset("HuggingFaceTB/smoltalk", "smol-magpie-ultra", split="train")
@ai_machinelearning_big_data
#AI #ML #LLM #HuggingFace #Dataset
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
The Well – коллекция датасетов для машинного обучения, содержащая 15 ТБ данных численного моделирования различных физических систем. Коллекция состоит из 16 наборов данных из областей: биологии, гидродинамики, акустики, магнитогидродинамики, внегалактических субстанций и взрывы сверхновых.
Данные представлены в унифицированном формате HDF5, организованном в соответствии с общей спецификацией. Они сгенерированы на равномерных сетках и дискретизированы с постоянным временным шагом.
Файлы HDF5 содержат все доступные переменные состояния и пространственно-изменяющиеся коэффициенты в виде массивов NumPy в формате одинарной точности fp32. Доступны скалярные, векторные и тензорные поля, учитывая их различные свойства преобразования.
Каждый файл данных случайным образом разделен на обучающую, тестовую и валидационную выборки в соотношении 8:1:1. Детальное описание каждого набора данных представлено в таблицах, где указаны координатная система, разрешение снимков, количество временных шагов в траектории, общее количество траекторий в наборе данных, размер набора данных, время выполнения симуляций и используемое оборудование.
The Well предоставляет класс
the_well
для Python, который позволяет загружать и использовать данные в процессе обучения моделей. Для удобства большинство наборов размещены на Hugging Face, что позволяет получать данные напрямую через интернет.# Create new venv
python -m venv path/to/env
source path/to/env/activate/bin
# Instal from repo
git clone https://github.com/PolymathicAI/the_well
cd the_well
pip install .
# Streaming from Hugging Face
from the_well.data import WellDataset
from torch.utils.data import DataLoader
trainset = WellDataset(
well_base_path="hf://datasets/polymathic-ai/",
well_dataset_name="active_matter",
well_split_name="train",
)
train_loader = DataLoader(trainset)
for batch in train_loader:
...
@ai_machinelearning_big_data
#AI #ML #Dataset #TheWell
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Common Corpus - обширный открытый текстовый набор данных на 2 трлн. токенов. Набор разработан PleIAs в сотрудничестве с рядом партнёров и отличается от других датасетов высоким уровнем открытости и возможностью отслеживания происхождения данных.
В обновленную версию были включены материалы, не защищенные авторским правом или распространяемые на основе открытых лицензий.
Common Corpus содержит информацию объемом 10 млрд. токенов для каждого из 8 основных языков (английский, немецкий, французский, испанский, итальянский, польский, греческий и латынь) и 1 млрд. токенов для каждого из 33 дополнительных языка.
В состав Common Corpus входят научные публикации, правительственные и юридические документы, программный код и материалы культурного наследия - книги и газеты.
Все исходные данные для датасетов Common Corpus прошли тщательную модерацию, строгий отбор, коррекцию орфографических ошибок и удаление нежелательного или недостоверного контента.
Common Corpus соответствует положениям AI Act и предоставляет возможность обучения моделей, совместимых с принципами открытого ИИ и может быть использован в коммерческих и некоммерческих целях.
identifier
- уникальный идентификатор текстового документа;collection
- название коллекции, к которой относится документ;license
- информация о лицензии;date
- дата создания документа;title
- заголовок документа;creator
- автор или источник публикации;language
- язык документа;word_count
, token_count
- количественные показатели: число слов и токенов;text
- текстовое содержание документа.@ai_machinelearning_big_data
#AI #ML #Dataset #PlelAs #CommonCorpus
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
HuggingFace, воодушевившись победой модели OlympicCoder над Sonnet 3.7 в бенчмарках LiveCodeBench и в заданиях Международной олимпиады по информатике 2024 года, опубликовал набор датасетов для предварительного обучения и тонкой настройки LLM в задачах генерации кода:
@ai_machinelearning_big_data
#AI #ML #LLM #Dataset #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
QWEN только что выпустили новую модель на 32B параметров, Qwen2.5-VL-32B-Instruct.
Эта модель представляет собой значительный прогресс для своего размера. И что самое лучшее, она лицензирована Apache 2.
Модель выдает более подробные и структурированный ответы.
💡 Детальное понимание: превосходные возможности анализа изображений и визуальной логической дедукции.
📊 Превосходит сопоставимые модели, такие как Mistral-Small-3.1-24B и Gemma-3-27B-IT.
🚀 В нескольких тестах даже превосходит более крупный Qwen2-VL-72B-Instruct.
Еще один крутой релиз понедельника!
ВЧ: https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct
@ai_machinelearning_big_data
#AI #ML #LLM #Dataset #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
RL требует не только правильно настроенных алгоритмов, но и качественных данных. Многие существующие датасеты имеют проблемы в виде дублирования задач, низкого качества вопросов и недостаточную полноту охвата целевой специализации: в OpenR1 обнаружили 20 повторяющихся задач из Math-500, а General Reasoning содержит мусорные данные из-за обработке на краудсорсинге. Это мешает моделям учиться глубокому анализу, заставляя их «угадывать» ответы вместо логических рассуждений.
Intelligent Internet представили II-Thought-RL-v0 — датасет из 340 тысяч задач, созданный для решения этих проблем. Его ключевые принципы: масштаб, качество и чистота данных.
Каждый вопрос проходит многоступенчатую обработку: сначала удаляются дубликаты и загрязненные данные, затем Gemini 2.0 Flash и Qwen-2.5-32B фильтруют неоднозначные или некорректные задачи - отбраковываются вопросы с ошибками в формулировках, зависимостью от изображений или открытыми ответами.
Особенность датасета — акцент на верификацию. Математические задачи проверяются через Math-Verify, код запускается в изолированном окружении Sandbox Fusion, а для медицинских вопросов используется LLM-судья. Это снижает риск «взлома наград», когда модель начинает идти кратчайшим путем, а не решать задачи, рассуждая.
II-Thought-RL-v0 уже превзошел аналоги в тестах: модель с 1,5 млрд. параметров, обученная на этом датасете, обогнала DeepSeek-R1 на 3-5% в задачах AIME и LiveCodeBench.
Пока остается нерешенным вопрос дисбаланса сфер в наборе: 70% данных относятся к математике и программированию, а медицина, финансы и инженерия почти не представлены. В будущем создатели датасета планируют расширить его, чтобы модели учились рассуждать в реальных мультидисциплинарных сценариях.
@ai_machinelearning_big_data
#AI #ML #LLM #RL #Dataset
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥OpenCodeReasoning: кодинга датасет от Nvidia
- 735 тыс. решений на Python для 28 тыс. уникальных задач программирования
- Крупнейший синтетический набор данных для генерации кода на основе рассуждений
- Сгенерирован моделью R1 от NVIDIA с полным набором шагов рассуждений
- Собран с 10 топовых платформ для кодинга.
https://huggingface.co/datasets/nvidia/OpenCodeReasoning
@ai_machinelearning_big_data
#dataset #nvidia
- 735 тыс. решений на Python для 28 тыс. уникальных задач программирования
- Крупнейший синтетический набор данных для генерации кода на основе рассуждений
- Сгенерирован моделью R1 от NVIDIA с полным набором шагов рассуждений
- Собран с 10 топовых платформ для кодинга.
https://huggingface.co/datasets/nvidia/OpenCodeReasoning
@ai_machinelearning_big_data
#dataset #nvidia
NVIDIA представила новый подход к обучению моделей для сложных математических задач, заняв первое место в конкурсе Kaggle AIMO-2.
Секрет — в огромном датасете OpenMathReasoning, который состоит из 540 тыс. уникальных задач с Art of Problem Solving, 3,2 млн. многошаговых решений (CoT) и 1,7 млн. примеров с интеграцией кода (TIR).
Для сравнения: это в разы больше, чем в популярных аналогах MATH и GSM8K. Все это дополнено 566 тыс. примеров для обучения генеративному выбору решений (GenSelect) — методу, который лучше, чем классическое голосование большинством.
OpenMathReasoning создавался тщательно и ответственно. Сначала задачи фильтровались через Qwen2.5-32B, чтобы убрать простые или дублирующие бенчмарки. Затем DeepSeek-R1 и QwQ-32B генерировали решения, а итеративная тренировка с жесткой фильтрацией улучшала качество. Например, код в TIR-решениях должен был не просто проверять шаги, а давать принципиально новые вычисления — вроде перебора вариантов или численного решения уравнений.
Модели OpenMath-Nemotron (1,5B–32B параметров), обученные на этом наборе данных показали SOTA-результаты. 14B-версия в режиме TIR решает 76,3% задач AIME24 против 65,8% у базового DeepSeek-R1. А с GenSelect, который анализирует 16 кандидатов за раз, точность взлетает до 90%. Даже 1,5B-модель с GenSelect обгоняет 32B-гиганты в отдельных тестах.
@ai_machinelearning_big_data
#AI #ML #Math #Dataset #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Исследователи Яндекса выложили в опенсорс датасет для RecSys почти на 5 млрд событий — YaMBDa
YaMBDa содержит 4,79 млрд событий – обезличенных взаимодействий пользователей в Яндекс Музыке и «Моей Волне». К ним относятся прослушивания, лайки/дизлайки, временные метки и некоторые характеристики треков. Важно, что все данные анонимизированы, датасет включает в себя только числовые идентификаторы. При этом датасет предназначен для тестирования алгоритмов для разных областей, а не только для стримингов.
Алгоритмы рекомендаций какое-то время оставались на плато, в том числе из-за ограниченного доступа к большим, реалистичным датасетам. Даже с появлением LLM и ускорением обучения иногда может все еще не хватать качественных публичных данных, особенно приближенных к продакшн-нагрузкам. Известные LFM-1B, LFM-2B и Music Listening Histories Dataset (27B) со временем стали недоступны из-за лицензионных ограничений. А рекорд по числу взаимодействий сейчас держит рекламный датасет от Criteo — около 4 млрд событий.
⚙️ Что внутри YaMBDa:
– 3 объёма данных: 50M, 500M и полный сет на 4,79B событий
– Эмбеддинги треков из аудио, полученные через CNN
– Метка
– Формат Parquet с поддержкой Pandas, Polars (альтернатива Pandas) и Spark
🔗Доступно на HuggingFace
@ai_machinelearning_big_data
#dataset
YaMBDa содержит 4,79 млрд событий – обезличенных взаимодействий пользователей в Яндекс Музыке и «Моей Волне». К ним относятся прослушивания, лайки/дизлайки, временные метки и некоторые характеристики треков. Важно, что все данные анонимизированы, датасет включает в себя только числовые идентификаторы. При этом датасет предназначен для тестирования алгоритмов для разных областей, а не только для стримингов.
Алгоритмы рекомендаций какое-то время оставались на плато, в том числе из-за ограниченного доступа к большим, реалистичным датасетам. Даже с появлением LLM и ускорением обучения иногда может все еще не хватать качественных публичных данных, особенно приближенных к продакшн-нагрузкам. Известные LFM-1B, LFM-2B и Music Listening Histories Dataset (27B) со временем стали недоступны из-за лицензионных ограничений. А рекорд по числу взаимодействий сейчас держит рекламный датасет от Criteo — около 4 млрд событий.
⚙️ Что внутри YaMBDa:
– 3 объёма данных: 50M, 500M и полный сет на 4,79B событий
– Эмбеддинги треков из аудио, полученные через CNN
– Метка
is_organic
: отличает органические действия в датасете от рекомендованных– Формат Parquet с поддержкой Pandas, Polars (альтернатива Pandas) и Spark
🔗Доступно на HuggingFace
@ai_machinelearning_big_data
#dataset