❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_63
🔠Q_63: Что такое AVRO ?
✔️Ответ:
Avro представляет собой систему сериализации данных, которая предоставляет компактное и эффективное представление данных для передачи и хранения. Этот формат независим от языка программирования, что делает его очень удобным для обмена данными между различными системами. Avro также обеспечивает поддержку эволюции данных, что означает, что можно добавлять, изменять или удалять поля данных без необходимости модификации всей структуры данных. Avro сохраняет схему в независимом от реализации текстовом формате JSON.
#work #ml #avro #model #ml #bigdata #hdfs #yarn #mapreduce #learning
🔠Q_63: Что такое AVRO ?
✔️Ответ:
Avro представляет собой систему сериализации данных, которая предоставляет компактное и эффективное представление данных для передачи и хранения. Этот формат независим от языка программирования, что делает его очень удобным для обмена данными между различными системами. Avro также обеспечивает поддержку эволюции данных, что означает, что можно добавлять, изменять или удалять поля данных без необходимости модификации всей структуры данных. Avro сохраняет схему в независимом от реализации текстовом формате JSON.
#work #ml #avro #model #ml #bigdata #hdfs #yarn #mapreduce #learning
❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_65
🔠Q_65: Какие плюсы и минусы AVRO ?
✔️Ответ:
Плюсы AVRO:
1. Схематизация данных: AVRO предоставляет строгую схему для сериализации данных, что обеспечивает однородную структуру и упрощает работу с данными в процессе машинного обучения.
2. Эффективность: формат данных AVRO компактный и эффективный в использовании ресурсов.
Минусы AVRO :
1. Сложность чтения: AVRO данные обычно сохраняются в бинарном формате. Для чтения и интерпретации данных требуется знание схемы данных.
2. Неудобство при отладке: из-за компактности формата данных AVRO, отладка становится сложнее в случае возникновения ошибок или проблем с данными.
#work #avro #model #ml #bigdata #hdfs #yarn #mapreduce #learning
🔠Q_65: Какие плюсы и минусы AVRO ?
✔️Ответ:
Плюсы AVRO:
1. Схематизация данных: AVRO предоставляет строгую схему для сериализации данных, что обеспечивает однородную структуру и упрощает работу с данными в процессе машинного обучения.
2. Эффективность: формат данных AVRO компактный и эффективный в использовании ресурсов.
Минусы AVRO :
1. Сложность чтения: AVRO данные обычно сохраняются в бинарном формате. Для чтения и интерпретации данных требуется знание схемы данных.
2. Неудобство при отладке: из-за компактности формата данных AVRO, отладка становится сложнее в случае возникновения ошибок или проблем с данными.
#work #avro #model #ml #bigdata #hdfs #yarn #mapreduce #learning
❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_66
🔠Q_66: Какие типы данных поддерживает AVRO ?
✔️Ответ:
- примитивные (null, Boolean, int, long, float, double, string, bytes, fixed);
- сложные составные (union, recod, enum, array, map);
- логические (decimal, date, time-millis, time-micros, timestamp-millis, timestamp-micros, uuid).
#work #avro #model #ml #bigdata #data #type #mapreduce #learning
🔠Q_66: Какие типы данных поддерживает AVRO ?
✔️Ответ:
- примитивные (null, Boolean, int, long, float, double, string, bytes, fixed);
- сложные составные (union, recod, enum, array, map);
- логические (decimal, date, time-millis, time-micros, timestamp-millis, timestamp-micros, uuid).
#work #avro #model #ml #bigdata #data #type #mapreduce #learning
❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_67
🔠Q_67: Что такое Apache Casandra ?
✔️Ответ:
Apache Cassandra - это распределенная открытая система управления базами данных (СУБД), разработанная для обработки больших объемов данных и обеспечения высокой доступности без единой точки отказа. Cassandra предоставляет масштабируемый и отказоустойчивый способ хранения и доступа к данным в распределенной среде.
#work #casandra #apache #bigdata #data #type #mapreduce #learning
🔠Q_67: Что такое Apache Casandra ?
✔️Ответ:
Apache Cassandra - это распределенная открытая система управления базами данных (СУБД), разработанная для обработки больших объемов данных и обеспечения высокой доступности без единой точки отказа. Cassandra предоставляет масштабируемый и отказоустойчивый способ хранения и доступа к данным в распределенной среде.
#work #casandra #apache #bigdata #data #type #mapreduce #learning
❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_67
🔠Q_67: Из чего состоит модель данных Apache Casandra ?
✔️Ответ:
- столбец или колонка (column)
- строка или запись (row)
- семейство столбцов (column family)
- пространство ключей (keyspace)
#work #casandra #apache #bigdata #nosql #type #mapreduce #learning
🔠Q_67: Из чего состоит модель данных Apache Casandra ?
✔️Ответ:
- столбец или колонка (column)
- строка или запись (row)
- семейство столбцов (column family)
- пространство ключей (keyspace)
#work #casandra #apache #bigdata #nosql #type #mapreduce #learning
❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_68
🔠Q_68: Что такое Supervised Embedding ?
✔️Ответ:
Semisupervised embedding - это метод, который комбинирует преимущества неразмеченных и размеченных данных для обучения векторных представлений (эмбеддингов) объектов или признаков. Обычно в машинном обучении используются размеченные данные, где каждый объект имеет соответствующую метку или класс. Но часто разметка данных может быть сложной или затруднительной из-за высокой стоимости или необходимости экспертного участия. Этот метод особенно полезен, когда доступ к размеченным данным ограничен или когда разметка требует больших усилий.
#work #casandra #apache #bigdata #nosql #type #mapreduce #learning
🔠Q_68: Что такое Supervised Embedding ?
✔️Ответ:
Semisupervised embedding - это метод, который комбинирует преимущества неразмеченных и размеченных данных для обучения векторных представлений (эмбеддингов) объектов или признаков. Обычно в машинном обучении используются размеченные данные, где каждый объект имеет соответствующую метку или класс. Но часто разметка данных может быть сложной или затруднительной из-за высокой стоимости или необходимости экспертного участия. Этот метод особенно полезен, когда доступ к размеченным данным ограничен или когда разметка требует больших усилий.
#work #casandra #apache #bigdata #nosql #type #mapreduce #learning
❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_69
🔠Q_69: Какие типы данных поддерживает Apache Casandra ?
✔️Ответ:
- BytesType: любые байтовые строки (без валидации);
- AsciiType: ASCII строка;
- UTF8Type: UTF-8 строка;IntegerType: число с произвольным размером;
- Int32Type: 4-байтовое число;
- LongType: 8-байтовое число;
- UUIDType: UUID 1-ого или 4-ого типа;
- TimeUUIDType: UUID 1-ого типа;
- DateType: 8-байтовое значение метки времени;
- BooleanType: два значения: true = 1 или false = 0;
- FloatType: 4-байтовое число с плавающей запятой;
- DoubleType: 8-байтовое число с плавающей запятой;
- DecimalType: число с произвольным размером и плавающей запятой;
- CounterColumnType: 8-байтовый счётчик.
#work #casandra #apache #bigdata #nosql #type #mapreduce #learning
🔠Q_69: Какие типы данных поддерживает Apache Casandra ?
✔️Ответ:
- BytesType: любые байтовые строки (без валидации);
- AsciiType: ASCII строка;
- UTF8Type: UTF-8 строка;IntegerType: число с произвольным размером;
- Int32Type: 4-байтовое число;
- LongType: 8-байтовое число;
- UUIDType: UUID 1-ого или 4-ого типа;
- TimeUUIDType: UUID 1-ого типа;
- DateType: 8-байтовое значение метки времени;
- BooleanType: два значения: true = 1 или false = 0;
- FloatType: 4-байтовое число с плавающей запятой;
- DoubleType: 8-байтовое число с плавающей запятой;
- DecimalType: число с произвольным размером и плавающей запятой;
- CounterColumnType: 8-байтовый счётчик.
#work #casandra #apache #bigdata #nosql #type #mapreduce #learning
❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_70
🔠Q_70: Можете ли вы назвать что в своем составе содержит Cloudera CDH ?
✔️Ответ:
- инструменты для управления потоками данных (Flume, Sqoop);
- фреймворки распределённой и потоковой обработки, а также брокеры сообщений (Spark, Kafka);
- СУБД для Big Data аналитики (HBase, Hive, Impala);
- высокоуровневый процедурный язык для выполнения запросов к большим слабоструктурированным наборам данных (Pig);
- координаторы и планировщики задач (Zookeeper, Oozie);
- средства Machine Learning (Mahout);
- набор библиотек для запуска облачных сервисов (Whirr).
#work #свр #apache #bigdata #cloudear #type #mapreduce #learning
🔠Q_70: Можете ли вы назвать что в своем составе содержит Cloudera CDH ?
✔️Ответ:
- инструменты для управления потоками данных (Flume, Sqoop);
- фреймворки распределённой и потоковой обработки, а также брокеры сообщений (Spark, Kafka);
- СУБД для Big Data аналитики (HBase, Hive, Impala);
- высокоуровневый процедурный язык для выполнения запросов к большим слабоструктурированным наборам данных (Pig);
- координаторы и планировщики задач (Zookeeper, Oozie);
- средства Machine Learning (Mahout);
- набор библиотек для запуска облачных сервисов (Whirr).
#work #свр #apache #bigdata #cloudear #type #mapreduce #learning
❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_71
🔠Q_71: Что такое Cloudera Manager ?
✔️Ответ:
Cloudera Manager — собственная специализированная подсистема управления кластером. Она включает сценарии развёртывания Hadoop-инфраструктуры и средства Apache Maven, что позволяет автоматизировать создание и модификацию локальных и облачных Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий, настраивать оповещения о наступлении событий, связанных с эксплуатацией инфраструктуры распределённой обработки данных
#work #cdh #apache #bigdata #cloudear #type #mapreduce #learning
🔠Q_71: Что такое Cloudera Manager ?
✔️Ответ:
Cloudera Manager — собственная специализированная подсистема управления кластером. Она включает сценарии развёртывания Hadoop-инфраструктуры и средства Apache Maven, что позволяет автоматизировать создание и модификацию локальных и облачных Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий, настраивать оповещения о наступлении событий, связанных с эксплуатацией инфраструктуры распределённой обработки данных
#work #cdh #apache #bigdata #cloudear #type #mapreduce #learning
❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_72
🔠Q_72: В чем суть алгоритма Краскала ?
✔️Ответ:
Алгоритм Краскала - это алгоритм для построения минимального остовного дерева взвешенного неориентированного графа. Он основан на жадной стратегии, которая добавляет ребра с наименьшим весом, при условии, что они не образуют цикл с уже добавленными ребрами.
Вот основные шаги алгоритма Краскала:
1. Сортируем все ребра графа по возрастанию их весов.
2. Создаем пустое остовное дерево (граф без циклов).
3. Последовательно перебираем ребра в отсортированном порядке.
4. Для каждого ребра проверяем, не создаст ли его добавление цикл в уже существующем остовном дереве. Если нет, то добавляем это ребро в остовное дерево.
5. Повторяем шаг 4 до тех пор, пока все ребра не будут перебраны.
После выполнения алгоритма, мы получаем минимальное остовное дерево, которое содержит все вершины графа и имеет минимальную сумму весов ребер.
#work #algorithms #coding #ml #dl #cloudear #type #mapreduce #learning
🔠Q_72: В чем суть алгоритма Краскала ?
✔️Ответ:
Алгоритм Краскала - это алгоритм для построения минимального остовного дерева взвешенного неориентированного графа. Он основан на жадной стратегии, которая добавляет ребра с наименьшим весом, при условии, что они не образуют цикл с уже добавленными ребрами.
Вот основные шаги алгоритма Краскала:
1. Сортируем все ребра графа по возрастанию их весов.
2. Создаем пустое остовное дерево (граф без циклов).
3. Последовательно перебираем ребра в отсортированном порядке.
4. Для каждого ребра проверяем, не создаст ли его добавление цикл в уже существующем остовном дереве. Если нет, то добавляем это ребро в остовное дерево.
5. Повторяем шаг 4 до тех пор, пока все ребра не будут перебраны.
После выполнения алгоритма, мы получаем минимальное остовное дерево, которое содержит все вершины графа и имеет минимальную сумму весов ребер.
#work #algorithms #coding #ml #dl #cloudear #type #mapreduce #learning