Школа Больших Данных
509 subscribers
68 photos
656 links
Канал Школы Больших Данных https://www.bigdataschool.ru/ - обучение технологиям Big Data: разработка приложений и администрирование кластеров Hadoop, Kafka, Spark, NoSQL, Python, ML и DS.
Тел: +7 (495) 41-41-121
Контакты: @Bigdataschool_mck @olga_burykh
Download Telegram
#ApacheSpark #bestpractice @BigDataSchool_ru
Тест по Spark.
🧮Какой язык служит основой для внутренних вычислений в Spark SQL?
Anonymous Quiz
36%
диалект HiveQL
8%
язык не имеет значения
31%
Java
26%
SQL
#ApacheSpark #bestpractice @BigDataSchool_ru
Тест по Spark.
🍩Что является основной абстракцией для Spark SQL?
Anonymous Quiz
42%
набор RDD
0%
отсортированный список
0%
серия датафрейма
58%
датафрейм
#ApacheSpark #bestpractice @BigDataSchool_ru
Тест по Spark.
♻️Что отвечает за соединение Spark и реляционной СУБД?
Anonymous Quiz
0%
ядро Spark
54%
RDBMS-драйвер
32%
Spark-драйвер
14%
исполнитель Spark
#ApacheSpark #bestpractice @BigDataSchool_ru
Тест по Spark.
Какой коннектор используется для соединения Spark с реляционными СУБД?
Anonymous Quiz
6%
BDE
91%
JDBC
3%
ODBC
0%
RIS
#ApacheSpark #bestpractice @BigDataSchool_ru
Тест по Spark.
🍱Какой язык используется при Maven-сборке?
Anonymous Quiz
4%
HTML
9%
UML
13%
XMLS
74%
XML
#ApacheSpark #bestpractice @BigDataSchool_ru
Тест по Spark.
🍰Что является базовой структурой данных в реляционных СУБД?
Anonymous Quiz
92%
связанные таблицы
0%
сетевые таблицы
8%
граф
0%
стек
#ApacheSpark #bestpractice @BigDataSchool_ru
Тест по Spark.
📂Какой файл формируется при сборке приложения?
Anonymous Quiz
39%
исполняемый файл
22%
конфигурационный файл
26%
файл компиляции
13%
файл сборки
#apachespark #bestpractice @BigDataSchool_ru
Тест по Spark.
🌳Какой метод используется для предсказания на основе обученной модели случайных лесов?
Anonymous Quiz
71%
predict()
5%
transform()
5%
get()
19%
getPredict()
#apachespark #bestpractice @BigDataSchool_ru
Тест по Spark.
🧬Какой метод отвечает за случайное разбиение датасета на тренировочную и тестовую выборки?
Anonymous Quiz
80%
randomSplit()
0%
split()
5%
randomDiv()
15%
splitByRandom()
#apachespark #bestpractice @BigDataSchool_ru
Тест по Spark.
Какие значения принимает результат анализа логистической регрессией?
Anonymous Quiz
8%
Y или N
60%
0 или 1
28%
True или False
4%
000 или 111
#apachespark #bestpractice @BigDataSchool_ru
Тест по Spark.
📝Какой язык используется при Maven-сборке?
Anonymous Quiz
70%
XML
0%
HTML
11%
XMLS
19%
UML
#apachespark #bestpractice @BigDataSchool_ru
Тест по Spark.
В каком файле задаются параметры SBT-сборки?
Anonymous Quiz
39%
build.conf
6%
build.lib
50%
build.sbt
6%
build.ini
#apachespark #bestpractice @BigDataSchool_ru
Тест по Spark
Какой метод необходимо использовать для того, чтобы обучить модель One-vs-Rest?
Anonymous Quiz
18%
fitModel()
24%
fit()
41%
trainModel()
18%
train()
#API #ApacheSpark #pandas
Планы выполнения запросов при работе с API pandas в Apache Spark


Для чего смотреть планы выполнения запросов при работе с API pandas в Spark и как это сделать: примеры использования метода spark.explain() и его аргументов для вывода логических и физических планов. Разбираем на примере PySpark-скрипта.

API pandas и физический план выполнения запроса в Apache Spark
Мы уже писали, что PySpark, API-интерфейс Python в Apache Spark, позволяет работать с популярной библиотекой pandas.
Статья: https://bigdataschool.ru/blog/news/spark/pandas-on-spark-and-execution-plans.html
Курсы:
https://bigdataschool.ru/courses/apache-spark-core https://bigdataschool.ru/courses/apache-spark-structured-streaming https://bigdataschool.ru/courses/apache-spark-machine-learning
Наш сайт:
https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#VARIANT #ApacheSpark #релиз
Чего ждать от Apache Spark 4.0: обзор свежего предрелиза

3 июня 2024 года вышел предварительный релиз Apache Spark 4.0. Эта версия еще не считается стабильной и предназначена только для ознакомления. Поэтому даже полноценные release notes по ней пока отсутствуют. Тем не менее, сегодня познакомимся с наиболее интересными фичами этого выпуска: новый тип данных VARIANT, API источника данных Python и логи в формате JSON.
Статья: https://bigdataschool.ru/blog/news/spark/spark-4-0-predrelease-overview.html
Курсы:
https://bigdataschool.ru/courses/apache-spark-core https://bigdataschool.ru/courses/apache-spark-sql https://bigdataschool.ru/courses/apache-spark-for-data-engineer
Наш сайт:
https://bigdataschool.ru
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#ApacheSpark #потоковаяобработка
Как ускорить Apache Spark Structured Streaming: 3 главных параметра потоковой обработки


Как размер пакета, режим вывода и интервал срабатывания триггера потоковой обработки влияют на скорость вычислений в приложении Apache Spark Structured Streaming и как настроить эти параметры.

Размер пакета при потоковой обработке данных в Spark Streaming
Хотя скорость обработки данных средствами Apache Spark Streaming зависит от многих факторов, включая саму структуру и формат обрабатываемых данных, в большинстве случаев ее можно повысить, задав оптимальные настройки следующих параметров...
Статья
Курсы: CORS, SPOT, SPARK, MLSP, GRAS, SPAD
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"
#PySpark #ApacheSpark
Распараллеливание заданий в PySpark


Почему параллельное выполнение заданий в Apache Spark зависит от языка программирования и как можно обойти однопоточную природу Python в PySpark.

Что не так с параллельным выполнением заданий PySpark и как это исправить?
Apache Spark позволяет писать распределенные приложения благодаря инструментам для распределения ресурсов между вычислительными процессами. В режиме кластера каждое приложение Spark, представляющее собой экземпляр контекста SparkContext, запускает независимый набор процессов-исполнителей.
Статья
Курсы:
CORS SPOT MLSP GRAS SPAD
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"