Школа Больших Данных
58 subscribers
61 links
Канал Школы Больших Данных https://www.bigdataschool.ru/ - обучение технологиям Big Data: разработка приложений и администрирование кластеров Hadoop, Kafka, Spark, NoSQL, Python, ML и DS.
Тел: +7 (495) 41-41-121
Контакты: @olga_burykh, @AnnaVichugova
Download Telegram
to view and join the conversation
#BigData #Spark
💡На практике каждый аналитик Big Data и Data Scientist часто сталкивается с удалением дублирующихся значений в датасете. Поэтому, чтобы добавить в наши курсы по Apache Spark еще больше полезных примеров, сегодня рассмотрим 5 простых способов решения этой востребованной задачи. Читайте далее, чем distinct() отличается от dropDuplicates(), а reduceByKey() – от collect_set(), когда стоит применять оконные функции и при чем здесь ограничение размера Scala-кортежей.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/deduplication-with-spark-methods.html
#DataScience #ML
🌳Деревья решений (Decision trees) являются одним из самых популярных алгоритмов машинного обучения и используются для задач классификации (бинарной и многоклассовой) и регрессии. Деревья решений простоты, понятны, они хорошо обрабатывают категориальные значения, а также могут находить нелинейные связи. В этой статье вы узнаете о реализации деревьев решений в Spark MLlib, мере узловой неопределенности (impurity) в классификации и регрессии с примерами кода на Python.
@BigDataSchool_ru
https://spark-school.ru/blogs/decision-trees-spark-mllib/
💥🎂 Сегодня, вместо анонса новых статей и обзора видео-материалов, мы напоминаем про ежемесячную акцию для наших слушателей "День бесплатного обучения за отзыв": напиши и опубликуй отзыв по прослушанному курсу на странице отзывов Школы Больших Данных в Google, Yandex, Zoon, YELP, Youtube, VK, Facebook и участвуй в розыгрыше Сертификата на 1 день бесплатного обучения.
Принимайте участие и получайте свои призы, майских победителей определяем уже в следующий понедельник, 31.05.2021, успевайте!
💥
@BigDataSchool_ru
https://www.bigdataschool.ru/events/action-prizes-2021.html
#DataScience #ML
📎🌳В предыдущей статье мы говорили о таком алгоритме машинного обучения, как деревья решений (Decision Trees). Сегодня рассмотрим ансамблевый алгоритм, который состоит из множества таких деревьев и имеет название случайный лес (Random Forest). Читайте у нас: в чем случайность случайного леса, что такое бэггинг, а также как проводить обучение случайного леса в рамках классификации с помощью Spark ML1
@BigDataSchool_ru
https://spark-school.ru/blogs/random-forest-ml/
Школа Больших Данных pinned «💥🎂 Сегодня, вместо анонса новых статей и обзора видео-материалов, мы напоминаем про ежемесячную акцию для наших слушателей "День бесплатного обучения за отзыв": напиши и опубликуй отзыв по прослушанному курсу на странице отзывов Школы Больших Данных в Google…»
#ApacheKafka #Zookeeper
💡Приглашаем вас на курс по Администрированию Apache Kafka кластера с новыми обновленными лабораторными работами по переходу на Без Zookeeper ный вариант Kafka кластера и установка кластера с self-managered quorum конфигурацией.
@BigDataSchool_ru
https://www.bigdataschool.ru/news/apache-kafka-теперь-без-zookeeper-новый-релиз.html
#ApacheSpark #BigData
👀 В прошлый раз мы говорили деревья решений в Spark. Сегодня поговорим о том, как устроена распределенная архитектура Big Data фреймворка Apache Spark. Читайте далее про архитектуру среды Spark и ее особенности, включая основные элементы, из которых она состоит.
@BigDataSchool_ru
https://spark-school.ru/blogs/spark-parallel-architecture/
#Spark #JVM
💡В этой статье продолжим говорить про обучение разработчиков Apache Spark и рассмотрим, какие сегменты памяти есть в этом Big Data фреймворке и как с ними работать наиболее эффективно. Читайте далее, почему процессы PySpark и SparkR потребляют внешнюю память, чем пользовательская память кучи JVM отличается от памяти хранилища и какие конфигурации нужно настроить, чтобы ускорить распределенные вычисления и предотвратить возможные утечки.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/jvm-spark-memory-types-and-configurations.html
#Nvidia #ML
👀В этой статье выполним необходимые действия для обучения нейронной сети детектирования объектов с учетом особенностей ее имплементации на Nvidia Jetson Nano. Будем решать задачу детектирования кораблей в видеопотоке.
@BigDataSchool_ru
https://python-school.ru/nvidia-jetson-nano-neural-network-training-for-ship-detection/
#Kafka #AVRO #JSON
💡Как сэкономить место на диске и увеличить пропускную способность всей Big Data системы на базе Apache Kafka и зачем добавлять задержку перед отправкой сообщений брокеру. Почему кодеки сжатия помогут снизить затраты на облачный Kafka-кластер и как предупредить проблему нехватки места на жестком диске, а также чем AVRO лучше JSON.
@BigDataSchool_ru
https://www.bigdataschool.ru/blog/how-to-optimize-message-storage-in-kafka.html
#ML #Spark
👀Что такое наивный байесовский классификатор (Naive Bayes), почему он бывает 4-х видов (полиномиальный, дополняющий, бернуллевский, гауссовский) и как это реализовано во 2-ой и 3-ей версии Apache Spark ML. Краткое объяснение и пример обучения Naive Bayes на языке Python для начинающих data scientist'ов.
@BigDataSchool_ru
https://spark-school.ru/blogs/naive-bayes-ml/
#AirFow #ETL
💡 Устали от ручного управления зависимостями в Apache AirFlow? Вспомним классику: компонент Mediator на базе одноименного шаблона архитектурного проектирования ПО облегчит взаимодействие между разными DAG’ами в конвейерах обработки больших данных. @BigDataSchool_ru https://www.bigdataschool.ru/blog/cross-dag-dependency-in-airflow-quintoandar-case.html
"#Python #PEP8
📟Что такое ""чистый код""? Некоторые даже получают эстетическое удовольствие при его виде. Coding style является одним из критериев соблюдения чистоты, который определяется внутри организации или команды. Но для тех, кто еще не определился со стилем, предусмотрены официальные рекомендации по написанию кода на Python — PEP 8, как форматировать свой код так, чтобы он был читаемый, и чтобы за него не было стыдно. @BigDataSchool_ru
https://python-school.ru/pep-8/ "