Habr.com – Telegram

Habr.com

664 subscribers

83.4K links

Top of hubr.com with instant view.

Download Telegram

About

Blog

Apps

Platform

664 subscribers

Путь, который занял 100* лет: встречаем CatBoost 1.0.0

#БлогкомпанииЯндекс #Opensource #R #Машинноеобучение #Распределённыесистемы #catboost #apachespark IV

https://habr.com/ru/post/580950/

Путь, который занял 100* лет: встречаем CatBoost 1.0.0

Всем привет. Меня зовут Станислав Кириллов, я работаю в команде, которая отвечает за развитие библиотеки машинного обучения CatBoost. Мы впервые поделились ей с сообществом четыре года назад —...

15 views10:45

Миграция данных из различных RDBMS в HADOOP

#БлогкомпанииNeoflex #SQL #Apache #Hadoop #neoflex #hadoop #apachespark IV

https://habr.com/ru/post/586056/

Миграция данных из различных RDBMS в HADOOP

В статье будет рассмотрен процесс экспорта данных в Hadoop из различных РСУБД посредством фреймворка Spark. Для взаимодействия с фреймворком Spark будет использован язык программирования Python с...

20 views06:00

Apache Spark

#БлогкомпанииOTUS #Apache #Машинноеобучение #sparkml #apachespark #машинноеобучение #spark IV

https://habr.com/ru/post/653033/

Привет, Хабр. Делимся авторской статьей преподавателя OTUS Вадима Заигрина.Apache SparkApache Spark – это распределенный фреймворк обработки данных, ставший де-факто стандартом в обработке...

33 views11:45

[Перевод] Потоковая передача данных с помощью Apache Spark и MongoDB

#БлогкомпанииFirstVDS #Системноеадминистрирование #Apache #FirstVDS #FirstDEDIC #ApacheSpark #MongoDB IV

https://habr.com/ru/post/671104/

Потоковая передача данных с помощью Apache Spark и MongoDB

MongoDB объявила о выпуске 10.0 версии коннектора MongoDB для Apache Spark . В этой версии используется новый API Spark Data Sources второй версии (V2) с поддержкой структурированной потоковой...

39 views08:15

Машинное обучение с Apache Cassandra и Apache Spark

#БлогкомпанииOTUS #NoSQL #Apache #Машинноеобучение #apachespark #apachecassandra IV

https://habr.com/ru/post/692800/

Машинное обучение с Apache Cassandra и Apache Spark

В первой статье из серии об использовании Apache Cassandra в машинном обучении мы обсудили цели и задачи машинного обучения, и поговорили почему Cassandra — превосходный инструмент для обработки...

32 views18:45

[Перевод] Обзор End-to-End Exactly-Once семантики в Apache Flink (с Apache Kafka!)

#БлогкомпанииOTUS #Apache #apache #apacheflink #apachespark #EndtoEnd #ExactlyOnce IV

https://habr.com/ru/post/699814/

Обзор End-to-End Exactly-Once семантики в Apache Flink (с Apache Kafka!)

Эта статья — адаптация презентации Петра Новойски (Piotr Nowojski) на Flink Forward Berlin 2017 . Запись презентации и слайды можно найти на сайте Flink Forward Berlin. Релиз Apache Flink 1.4.0 в...

28 views12:30

PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать

#БлогкомпанииAvitoTech #Python #BigData #apachespark #аналитикаданных #spark #hadoop IV

https://habr.com/ru/companies/avito/articles/732870/

PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать

Привет! Меня зовут Александр Ледовский. Я тимлид команды аналитики и DS, мы строим рекламные аукционы в Авито. Для работы с поисковыми логами мы пользуемся Apache Spark. Я расскажу о моём опыте...

47 views22:00

PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив

#БлогкомпанииAvitoTech #Python #DataMining #BigData #apachespark #pyspark #spark IV

https://habr.com/ru/companies/avito/articles/740232/

PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив

Привет! Меня зовут Александр Ледовский. Я тимлид команды аналитики и DS, строю рекламные аукционы в Авито. В работе мы активно используем Apache Spark. Одна из типовых задач аналитика — посчитать...

37 views07:45

Обработка больших и очень больших графов

#Алгоритмы #Распределённыесистемы #граф #apachespark #распределённыевычисления IV

https://habr.com/ru/articles/753904/

Обработка больших и очень больших графов

TLDR Статья является вводной из цикла статей, посвященных обработке больших и очень больших графов. Приведен обзор основных фреймворков для обработки графов: Pregel , GraphLab и PowerGraph ....

36 views06:45

Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса

#БлогкомпанииITSumma #BigData #DataEngineering #Opensource #bigdata #apachekafka #apachespark IV

https://habr.com/ru/companies/itsumma/articles/758996/

Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса

Большие данные мертвы. В той их части, которая характеризуется как “большие”. Так считает Джордан Тигани , инженер-основатель Google BigQuery, человек, который больше 10 лет рассказывал всем о пользе...

33 views10:15