#ApacheSpark #bestpractice @BigDataSchool_ru
Тест по Spark.
🍩Что является основной абстракцией для Spark SQL?
Тест по Spark.
🍩Что является основной абстракцией для Spark SQL?
Anonymous Quiz
42%
набор RDD
0%
отсортированный список
0%
серия датафрейма
58%
датафрейм
#ApacheSpark #bestpractice @BigDataSchool_ru
Тест по Spark.
♻️Что отвечает за соединение Spark и реляционной СУБД?
Тест по Spark.
♻️Что отвечает за соединение Spark и реляционной СУБД?
Anonymous Quiz
0%
ядро Spark
54%
RDBMS-драйвер
32%
Spark-драйвер
14%
исполнитель Spark
#ApacheSpark #bestpractice @BigDataSchool_ru
Тест по Spark.
❓Какой коннектор используется для соединения Spark с реляционными СУБД?
Тест по Spark.
❓Какой коннектор используется для соединения Spark с реляционными СУБД?
Anonymous Quiz
6%
BDE
91%
JDBC
3%
ODBC
0%
RIS
#ApacheSpark #bestpractice @BigDataSchool_ru
Тест по Spark.
🏙️Что представляет собой датафрейм?
Тест по Spark.
🏙️Что представляет собой датафрейм?
Anonymous Quiz
14%
список однотипных данных
52%
двумерный массив, состоящий из данных разных типов
7%
одномерный массив данных
28%
двумерная таблица
#ApacheSpark #bestpractice @BigDataSchool_ru
Тест по Spark.
🍱Какой язык используется при Maven-сборке?
Тест по Spark.
🍱Какой язык используется при Maven-сборке?
Anonymous Quiz
4%
HTML
9%
UML
13%
XMLS
74%
XML
#ApacheSpark #bestpractice @BigDataSchool_ru
Тест по Spark.
🍰Что является базовой структурой данных в реляционных СУБД?
Тест по Spark.
🍰Что является базовой структурой данных в реляционных СУБД?
Anonymous Quiz
92%
связанные таблицы
0%
сетевые таблицы
8%
граф
0%
стек
#ApacheSpark #bestpractice @BigDataSchool_ru
Тест по Spark.
📂Какой файл формируется при сборке приложения?
Тест по Spark.
📂Какой файл формируется при сборке приложения?
Anonymous Quiz
39%
исполняемый файл
22%
конфигурационный файл
26%
файл компиляции
13%
файл сборки
#ApacheSpark #bestpractice @BigDataSchool_ru
Тест по Spark.
🚀Что такое сборка приложений?
Тест по Spark.
🚀Что такое сборка приложений?
Anonymous Quiz
88%
компиляция и компоновка приложения
0%
построение интерфейса приложения
4%
разбиение исходного кода приложения на модули
8%
преобразование исходного кода приложения в языки низкого уровня
#apachespark #bestpractice @BigDataSchool_ru
Тест по Spark.
🌳Какой метод используется для предсказания на основе обученной модели случайных лесов?
Тест по Spark.
🌳Какой метод используется для предсказания на основе обученной модели случайных лесов?
Anonymous Quiz
71%
predict()
5%
transform()
5%
get()
19%
getPredict()
#apachespark #bestpractice @BigDataSchool_ru
Тест по Spark.
🌳За что отвечает параметр featuresCol в модели случайного леса Spark?
Тест по Spark.
🌳За что отвечает параметр featuresCol в модели случайного леса Spark?
Anonymous Quiz
44%
за формирование вектора ключевых признаков, по которым будет вестись обучение модели
38%
за указание колонки, содержащей вектор признаков
6%
за формирование вектора целевой переменной
13%
за указание вектора целевой переменной
#apachespark #bestpractice @BigDataSchool_ru
Тест по Spark.
🧬Какой метод отвечает за случайное разбиение датасета на тренировочную и тестовую выборки?
Тест по Spark.
🧬Какой метод отвечает за случайное разбиение датасета на тренировочную и тестовую выборки?
Anonymous Quiz
80%
randomSplit()
0%
split()
5%
randomDiv()
15%
splitByRandom()
#apachespark #bestpractice @BigDataSchool_ru
Тест по Spark.
❓Какие значения принимает результат анализа логистической регрессией?
Тест по Spark.
❓Какие значения принимает результат анализа логистической регрессией?
Anonymous Quiz
8%
Y или N
60%
0 или 1
28%
True или False
4%
000 или 111
#apachespark #bestpractice @BigDataSchool_ru
Тест по Spark.
📝Какой язык используется при Maven-сборке?
Тест по Spark.
📝Какой язык используется при Maven-сборке?
Anonymous Quiz
70%
XML
0%
HTML
11%
XMLS
19%
UML
#apachespark #bestpractice @BigDataSchool_ru
Тест по Spark.
❓В каком файле задаются параметры SBT-сборки?
Тест по Spark.
❓В каком файле задаются параметры SBT-сборки?
Anonymous Quiz
39%
build.conf
6%
build.lib
50%
build.sbt
6%
build.ini
#apachespark #bestpractice @BigDataSchool_ru
Тест по Spark
❓Какой метод необходимо использовать для того, чтобы обучить модель One-vs-Rest?
Тест по Spark
❓Какой метод необходимо использовать для того, чтобы обучить модель One-vs-Rest?
Anonymous Quiz
18%
fitModel()
24%
fit()
41%
trainModel()
18%
train()
#API #ApacheSpark #pandas
Планы выполнения запросов при работе с API pandas в Apache Spark
Для чего смотреть планы выполнения запросов при работе с API pandas в Spark и как это сделать: примеры использования метода spark.explain() и его аргументов для вывода логических и физических планов. Разбираем на примере PySpark-скрипта.
API pandas и физический план выполнения запроса в Apache Spark
Мы уже писали, что PySpark, API-интерфейс Python в Apache Spark, позволяет работать с популярной библиотекой pandas.
Статья: https://bigdataschool.ru/blog/news/spark/pandas-on-spark-and-execution-plans.html
Курсы: https://bigdataschool.ru/courses/apache-spark-core https://bigdataschool.ru/courses/apache-spark-structured-streaming https://bigdataschool.ru/courses/apache-spark-machine-learning
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Планы выполнения запросов при работе с API pandas в Apache Spark
Для чего смотреть планы выполнения запросов при работе с API pandas в Spark и как это сделать: примеры использования метода spark.explain() и его аргументов для вывода логических и физических планов. Разбираем на примере PySpark-скрипта.
API pandas и физический план выполнения запроса в Apache Spark
Мы уже писали, что PySpark, API-интерфейс Python в Apache Spark, позволяет работать с популярной библиотекой pandas.
Статья: https://bigdataschool.ru/blog/news/spark/pandas-on-spark-and-execution-plans.html
Курсы: https://bigdataschool.ru/courses/apache-spark-core https://bigdataschool.ru/courses/apache-spark-structured-streaming https://bigdataschool.ru/courses/apache-spark-machine-learning
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#VARIANT #ApacheSpark #релиз
Чего ждать от Apache Spark 4.0: обзор свежего предрелиза
3 июня 2024 года вышел предварительный релиз Apache Spark 4.0. Эта версия еще не считается стабильной и предназначена только для ознакомления. Поэтому даже полноценные release notes по ней пока отсутствуют. Тем не менее, сегодня познакомимся с наиболее интересными фичами этого выпуска: новый тип данных VARIANT, API источника данных Python и логи в формате JSON.
Статья: https://bigdataschool.ru/blog/news/spark/spark-4-0-predrelease-overview.html
Курсы: https://bigdataschool.ru/courses/apache-spark-core https://bigdataschool.ru/courses/apache-spark-sql https://bigdataschool.ru/courses/apache-spark-for-data-engineer
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Чего ждать от Apache Spark 4.0: обзор свежего предрелиза
3 июня 2024 года вышел предварительный релиз Apache Spark 4.0. Эта версия еще не считается стабильной и предназначена только для ознакомления. Поэтому даже полноценные release notes по ней пока отсутствуют. Тем не менее, сегодня познакомимся с наиболее интересными фичами этого выпуска: новый тип данных VARIANT, API источника данных Python и логи в формате JSON.
Статья: https://bigdataschool.ru/blog/news/spark/spark-4-0-predrelease-overview.html
Курсы: https://bigdataschool.ru/courses/apache-spark-core https://bigdataschool.ru/courses/apache-spark-sql https://bigdataschool.ru/courses/apache-spark-for-data-engineer
Наш сайт: https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#ApacheSpark #потоковаяобработка
Как ускорить Apache Spark Structured Streaming: 3 главных параметра потоковой обработки
Как размер пакета, режим вывода и интервал срабатывания триггера потоковой обработки влияют на скорость вычислений в приложении Apache Spark Structured Streaming и как настроить эти параметры.
Размер пакета при потоковой обработке данных в Spark Streaming
Хотя скорость обработки данных средствами Apache Spark Streaming зависит от многих факторов, включая саму структуру и формат обрабатываемых данных, в большинстве случаев ее можно повысить, задав оптимальные настройки следующих параметров...
Статья
Курсы: CORS, SPOT, SPARK, MLSP, GRAS, SPAD
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Как ускорить Apache Spark Structured Streaming: 3 главных параметра потоковой обработки
Как размер пакета, режим вывода и интервал срабатывания триггера потоковой обработки влияют на скорость вычислений в приложении Apache Spark Structured Streaming и как настроить эти параметры.
Размер пакета при потоковой обработке данных в Spark Streaming
Хотя скорость обработки данных средствами Apache Spark Streaming зависит от многих факторов, включая саму структуру и формат обрабатываемых данных, в большинстве случаев ее можно повысить, задав оптимальные настройки следующих параметров...
Статья
Курсы: CORS, SPOT, SPARK, MLSP, GRAS, SPAD
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#PySpark #ApacheSpark
Распараллеливание заданий в PySpark
Почему параллельное выполнение заданий в Apache Spark зависит от языка программирования и как можно обойти однопоточную природу Python в PySpark.
Что не так с параллельным выполнением заданий PySpark и как это исправить?
Apache Spark позволяет писать распределенные приложения благодаря инструментам для распределения ресурсов между вычислительными процессами. В режиме кластера каждое приложение Spark, представляющее собой экземпляр контекста SparkContext, запускает независимый набор процессов-исполнителей.
Статья
Курсы: CORS SPOT MLSP GRAS SPAD
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
Распараллеливание заданий в PySpark
Почему параллельное выполнение заданий в Apache Spark зависит от языка программирования и как можно обойти однопоточную природу Python в PySpark.
Что не так с параллельным выполнением заданий PySpark и как это исправить?
Apache Spark позволяет писать распределенные приложения благодаря инструментам для распределения ресурсов между вычислительными процессами. В режиме кластера каждое приложение Spark, представляющее собой экземпляр контекста SparkContext, запускает независимый набор процессов-исполнителей.
Статья
Курсы: CORS SPOT MLSP GRAS SPAD
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"