DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_66

🔠Q_66: Какие типы данных поддерживает AVRO ?

✔️Ответ:

- примитивные (null, Boolean, int, long, float, double, string, bytes, fixed);
- сложные составные (union, recod, enum, array, map);
- логические (decimal, date, time-millis, time-micros, timestamp-millis, timestamp-micros, uuid).

#work #avro #model #ml #bigdata #data #type #mapreduce #learning
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_67

🔠Q_67: Что такое Apache Casandra ?

✔️Ответ:

Apache Cassandra - это распределенная открытая система управления базами данных (СУБД), разработанная для обработки больших объемов данных и обеспечения высокой доступности без единой точки отказа. Cassandra предоставляет масштабируемый и отказоустойчивый способ хранения и доступа к данным в распределенной среде.

#work #casandra #apache #bigdata #data #type #mapreduce #learning
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_67

🔠Q_67: Из чего состоит модель данных Apache Casandra ?

✔️Ответ:

- столбец или колонка (column)
- строка или запись (row)
- семейство столбцов (column family)
- пространство ключей (keyspace)

#work #casandra #apache #bigdata #nosql #type #mapreduce #learning
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_68

🔠Q_68: Что такое Supervised Embedding ?

✔️Ответ:

Semisupervised embedding - это метод, который комбинирует преимущества неразмеченных и размеченных данных для обучения векторных представлений (эмбеддингов) объектов или признаков. Обычно в машинном обучении используются размеченные данные, где каждый объект имеет соответствующую метку или класс. Но часто разметка данных может быть сложной или затруднительной из-за высокой стоимости или необходимости экспертного участия. Этот метод особенно полезен, когда доступ к размеченным данным ограничен или когда разметка требует больших усилий.

#work #casandra #apache #bigdata #nosql #type #mapreduce #learning
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_69

🔠Q_69: Какие типы данных поддерживает Apache Casandra ?

✔️Ответ:

- BytesType: любые байтовые строки (без валидации);
- AsciiType: ASCII строка;
- UTF8Type: UTF-8 строка;IntegerType: число с произвольным размером;
- Int32Type: 4-байтовое число;
- LongType: 8-байтовое число;
- UUIDType: UUID 1-ого или 4-ого типа;
- TimeUUIDType: UUID 1-ого типа;
- DateType: 8-байтовое значение метки времени;
- BooleanType: два значения: true = 1 или false = 0;
- FloatType: 4-байтовое число с плавающей запятой;
- DoubleType: 8-байтовое число с плавающей запятой;
- DecimalType: число с произвольным размером и плавающей запятой;
- CounterColumnType: 8-байтовый счётчик.

#work #casandra #apache #bigdata #nosql #type #mapreduce #learning
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_70

🔠Q_70: Можете ли вы назвать что в своем составе содержит Cloudera CDH ?

✔️Ответ:

- инструменты для управления потоками данных (Flume, Sqoop);
- фреймворки распределённой и потоковой обработки, а также брокеры сообщений (Spark, Kafka);
- СУБД для Big Data аналитики (HBase, Hive, Impala);
- высокоуровневый процедурный язык для выполнения запросов к большим слабоструктурированным наборам данных (Pig);
- координаторы и планировщики задач (Zookeeper, Oozie);
- средства Machine Learning (Mahout);
- набор библиотек для запуска облачных сервисов (Whirr).

#work #свр #apache #bigdata #cloudear #type #mapreduce #learning
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_71

🔠Q_71: Что такое Cloudera Manager ?

✔️Ответ:

Cloudera Manager — собственная специализированная подсистема управления кластером. Она включает сценарии развёртывания Hadoop-инфраструктуры и средства Apache Maven, что позволяет автоматизировать создание и модификацию локальных и облачных Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий, настраивать оповещения о наступлении событий, связанных с эксплуатацией инфраструктуры распределённой обработки данных

#work #cdh #apache #bigdata #cloudear #type #mapreduce #learning
100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_72

🔠Q_72: В чем суть алгоритма Краскала ?

✔️Ответ:

Алгоритм Краскала - это алгоритм для построения минимального остовного дерева взвешенного неориентированного графа. Он основан на жадной стратегии, которая добавляет ребра с наименьшим весом, при условии, что они не образуют цикл с уже добавленными ребрами.

Вот основные шаги алгоритма Краскала:

1. Сортируем все ребра графа по возрастанию их весов.
2. Создаем пустое остовное дерево (граф без циклов).
3. Последовательно перебираем ребра в отсортированном порядке.
4. Для каждого ребра проверяем, не создаст ли его добавление цикл в уже существующем остовном дереве. Если нет, то добавляем это ребро в остовное дерево.
5. Повторяем шаг 4 до тех пор, пока все ребра не будут перебраны.

После выполнения алгоритма, мы получаем минимальное остовное дерево, которое содержит все вершины графа и имеет минимальную сумму весов ребер.

#work #algorithms #coding #ml #dl #cloudear #type #mapreduce #learning