DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_130 (Часть_1)

🔠Как устроен RCFile ?

RCFile (Record Columnar File) - это формат хранения данных в столбцовом формате. Он разработан для улучшения производительности чтения и записи больших объемов данных. Вот некоторая информация о том, как устроен RCFile:

1. Блоки данных: RCFile разбивает данные на блоки фиксированного размера, обычно 64 или 128 Кб. Большие файлы разбиваются на множество таких блоков.

2. Заголовок блока: Каждый блок начинается с заголовка, содержащего метаданные. Заголовок включает в себя информацию о сжатии столбцов, оффсеты и длины столбцов в блоке, а также информацию о наличии или отсутствии значений NULL.

#RCFile #data_storage_format #columnar_storage #hadoop
#big_data #data_serialization
#compression #indexing
#apache_hive
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_130 (Часть_1)

🔠Как устроен RCFile ? (Часть_2)

3. Колонки данных: После заголовка каждого блока содержатся столбцы данных. Для каждого столбца создается отдельный поток данных. Все значения столбца сериализуются последовательно и записываются в блок. Значения могут быть сжаты для снижения требуемого места хранения и улучшения производительности чтения.

4. Индекс: RCFile поддерживает индекс, который позволяет быстро локализовать данные в блоках. Индекс облегчает поиск значений по ключу и выполнение операций, таких как фильтрация и слияние данных.

#RCFile #data_storage_format #columnar_storage #hadoop #big_data #data_serialization #compression #indexing #apache_hive
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_130 (Часть_3)

🔠Как устроен RCFile ? (Часть_3)

5. Компрессия: RCFile поддерживает сжатие данных для уменьшения размера файлов и ускорения операций ввода-вывода. Для каждого столбца можно указать схему сжатия. Некоторые из поддерживаемых схем сжатия включают Gzip, LZO и Snappy.

6. Сериализация: Значения столбцов сериализуются перед записью в блок и десериализуются при чтении. RCFile использует схему сериализации, чтобы преобразовать значения в байты и наоборот.

#RCFile #data_storage_format #columnar_storage #hadoop #big_data #data_serialization #compression #indexing #apache_hive
200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_131

🔠Где и зачем используют формат Record Columnar File ?

Формат record columnar file используется для хранения и организации структурированных данных, таких как таблицы или базы данных. Он широко используется в системах управления базами данных (СУБД) для хранения и обработки больших объемов данных.

Преимущество формата record columnar file заключается в его эффективности и оптимизации использования ресурсов. Вместо хранения данных по строкам, как в традиционной форме записи, record columnar file организует данные по столбцам. Это позволяет сжимать данные более эффективно и улучшает быстродействие запросов к базе данных.

Некоторые популярные СУБД, которые используют формат record columnar file, включают Apache Parquet, Apache ORC и ClickHouse.

#RCFile #data_storage_format #columnar_storage #hadoop #big_data #data_serialization #compression #indexing #apache_hive