Data Science: SQL и Аналитика данных – Telegram

Data Science: SQL и Аналитика данных

@pizdatascience

39.9K subscribers

245 photos

54 videos

1 file

300 links

№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri

Download Telegram

About

Blog

Apps

Platform

Data Science: SQL и Аналитика данных

39.9K subscribers

Data Science: SQL и Аналитика данных

This media is not supported in your browser

VIEW IN TELEGRAM

👀

ChartDB — бесплатный редактор диаграмм БД

Мало что радует так же сильно, как когда находится простой, полезный и бесплатный инструмент, который можно вот просто взять и начать использовать без регистраций и SMS.

ChartDB — как раз такой. Это open source тул, который создает схемы БД за один запрос и 15 секунд.

⏺️ Можно запустить локально (за инструкциями идем на гитхаб), также есть веб-версия.
⏺️ Работает с PostgreSQL, MySQL, SQL Server, MariaDB, SQLite и
⏺️ Получившиеся схемы можно редактировать, дополнять комментариями или экспортировать в виде картинок, если вы захотите добавить их в отчет или документ.

Все это бесплатно, однако есть но. ChartDB пока находится в публичной бете, так что со временем разработчики могут добавить какую-нибудь монетизацию. И скорее всего, это и сделают. Так что поспешите потестить инструмент, пока это не случилось. 👀

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.48K views09:16

Data Science: SQL и Аналитика данных

👀

Полнотекстовый поиск в PostgreSQL: какое решение лучше?

Нашли описание маленького, но интересного исследования на 50+ респондентов, которые рассказали, какие инструменты они используют для полнотекстового поиска (или full text search/FTS) в Postgres.

➡️ Большинство голосов получили Elasticsearch и нативный FTS-функционал в Postgres, хотя у каждого есть как минусы, так и плюсы.

⏺️

FTS в Postgres простой (то есть не требует дополнительной инфраструктуры) и надежный, но плохо справляется большим датасетами, а его возможности ограничены — например, нет поддержки BM

⏺️

Elasticsearch — поисковый движок без ограничений «родного» поиска Postgres. Он быстро обрабатывает огромные массивы информации и «переваривает» почти любые запросы. При этом не обеспечивает такую же надежность и точность результатов, а еще требует больше ресурсов для внедрения и поддержки. Некоторые участники опроса рассказали, что Elasticsearch обходится им дороже всего остального софта, который они используют в работе.

Есть и другие альтернативы, в том числе и ParadeDB — инструмент, разработанный авторами исследования (да, опрос они проводили не просто так, а чтобы рассказать про свой проект).

Свое главное преимущество они видят в том, что их решение изначально заточено на работу именно с Postgres, а потому просто в использовании и при этом позволяет расширить его возможности, почти как Elasticsearch. В общем, берет лучшее от обоих.

А что выбираете вы? Ждем ваших вариантов! 👀

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.33K views15:07

Data Science: SQL и Аналитика данных

👀

Скоро этот мем потеряет актуальность

СЕО Google Сундар Пичаи рассказал, что больше четверти всего кода в компании пишется с помощью ИИ, и это помогает серьезно ускорить и упростить работу инженеров.

Уверены, что скоро больше компаний последуют примеру Google. Такими темпами уйдет эпоха Stack Overflow и ~~копирования~~ поисков вдохновения в коде коллег — потому что зачем это все делать, если ChatGPT сама все напишет, а человеку надо будет только проверить?

И наверняка это случится не только в IT.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.22K views09:26

Data Science: SQL и Аналитика данных

🔥

Нейроконтент для алгоритмов

Бывает у вас такое, что заходите на сайт, смотрите, что там написано, и не можешь понять, для кого вообще это все? Неужели кому-то может быть интересно читать или смотреть это?

🔄

Мы нашли ответ — это все делается для алгоритмов Google.

Автор сайта The Luddite решил монетизировать какой-нибудь из своих проектов одним из простейших доступных ему способов — прикрутив к нему рекламу. Выбор пал на сайт Apportionment Calculator с алгоритмом, который рассчитывает, сколько мест в конгрессе получит каждый штат получит на основе переписи населения.

В общем, что-то на американском, но это и не так важно. Главное, что это был простой маленький сайт с одной-единственной задачей.

Google это не понравилось
Когда автор подал заявку в AdSense, ему почти сразу пришел отказ с формулировкой «сайт не отвечает требованиям платформы». Он навел справки и выяснил, что Google любит, когда на странице много оригинального, но необязательно качественного контента. А кто справляется с созданием такого контента лучше нейросети?

С помощью друзей и ChatGPT автор сайта добавил на него:
⏺️ историческую справку,
⏺️ страничку с рецептами (там есть, кстати, рецепт десерта «алгоритмический восторг»),
⏺️ поэтический уголок,
⏺️ загадки,
⏺️ и, конечно же, блог.

Весь контент, кроме иллюстраций, был сгенерирован ChatGPT. Особенно хорошо получились загадки. Вот одна из них — чтобы сохранить дух оригинала, перевели ее тоже нейросетью.

В загадках о власти я ключом становлюсь,
Ты в сделках найдёшь меня наяву.
Соглашение – цель, что нам всем по пути,
Встретиться в середине, где интересы нашли.
Что я?

Ответ: Найти компромисс

Как вам? Google тоже понравилось, и заявку автора на размещение рекламы на этот раз одобрили. История получилась смешная, но при этом немного грустная. Роботы и алгоритмы все больше вытесняют людей из интернета. 🤖

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.31K views09:32

Data Science: SQL и Аналитика данных

👀

Экономика open source: сколько денег приносит бесплатный проект

Spliit — приложение для совместного ведения расходов. С его помощью можно вести совместный семейный бюджет или планировать траты в поездке с друзьями. Приложение бесплатное, без премимум-фич и рекламы, а еще требует от создателя небольших, но регулярных затрат ~100 долларов в месяц — в основном на хостинг.

🔄

Можно ли при таком сценарии заработать на своем проекте? Давайте разбираться.
Приложению уже несколько лет, но версия, о которой пойдет речь ниже, появилась всего год назад.

⏺️ За это время в приложение зашли 152к раз, из них 29к — по ссылке. То есть кто-то создал группу и пригласил в нее друзей или родных. В неделю в Spliit заходят 5000-6000 раз.
⏺️ Пользователи создали 15к групп и 162к записей о расходах. В неделю создают в среднем по 300 групп и 2000 записей.

Получается, что пользуются им довольно активно. Так как оно бесплатное, поддержать автора можно донатами — либо через сервис Stripe, либо через GitHub.

Суммы донатов разные — от 6 долларов в месяц до 107, но большинство в пределах от 20 до 40.

Вот такая экономика — кажется, что заработать на бесплатном проекте, исключительно на людской доброте и благодарности, будет сложновато.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.17K views09:30

Data Science: SQL и Аналитика данных

🔥

Как Discord хранит данные

У мессенджера Discord больше 150 млн активных пользователей и 19 млн серверов, где эти люди общаются и генерируют миллиарды сообщений.

🔄

Как компания хранит такой огромный массив данных?

Об этом команда Discord рассказала в блоге проекта. Приводим оттуда самое любопытное.
⏺️ Сообщения пользователей хранились в БД Cassandra. В 2017 году было 12 нодов с миллиардами сообщений. В 2022 — 177 с триллионами.
⏺️ Сообщения из одного канала хранились в одной партиции и реплицировались на три нода. Такой подход не вызывал проблем с небольшими каналами, зато активные сообщества на сотни юзеров создавали большую нагрузку. В Dicsord это называли «hot partition» — не оригинально, но понятно.
⏺️ Ситуацию усугубляло то, что в Cassandra чтение файлов «дороже» для системы, чем запись. Из-за этого «hot partition» могло спровоцировать сообщение, отправленное на всех юзеров в большом канале. Когда они все разом открывали приложение, начинали оставлять ответы и реакции, это приводило к серьезным лагам.

🔄

Проблемы из-за «горящих партиций» возникали слишком часто, и команда решила переехать на другую базу — ScyllaDB. Но очевидно, что простая смена базы не решила бы проблему.

⏺️ В Discord разработали сервисы, через которые данные просеивались прежде, чем попасть в базу. Если поступало одновременно много запросов к одной и той же строке в базе, сервис аккумулировал и только после этого отправлял в ScyllaDB.
⏺️ В итоге она оказалась намного более стабильной и эффективной базой. Данные, которые в Cassandra хранились в 177 нодах, в ScyllaDB уместились на 72.
⏺️ ScyllaDB с поддержкой дата-сервисов не уронил даже Чемпионат Мира по футболу. Забавно, что на графиках Discord было хорошо видно ключевые моменты матчей — нагрузка резко возрастала в ответ на каждый гол Месси.

У Discord ситуация не уникальная, но не частая — не так много компаний, которые ворочают такими массивами данных. И все же надеемся, что вы почерпнули из их опыта что-то полезное для себя.

p.s. Обратите внимание на наших партнеров выше👆

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.49K viewsedited 10:43

Data Science: SQL и Аналитика данных

🔥Все, что вы хотели знать о дата-инжиниринге

На гитхабе выложили список must-read и must-see материалов для всех, кто вкатывается в дата-инжиниринг. Или уже вкатился, но хочет прокачать скиллы.

⏺️Роадмап, с чего начать знакомство с профессией.
⏺️Курсы и книги.
⏺️Профессиональные коммьюнити, блоги и подкасты.
⏺️Инструменты для оркестрации, хранения и визуализации данных.

В общем, все, что может пригодиться начинающему и продолжающему инженеру. Знаете таких? Тогда покажите им этот пост, и себе его сохранить не забудьте.

❤️

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.52K viewsedited 06:06

Data Science: SQL и Аналитика данных

👀

Оценка компетенций разработчика с помощью ИИ: за и против

Звучит, как сюжет из «Черного зеркала»: робот, который оценивает, подходит ли соискатель на должность или хватает ли сотруднику знаний для повышения. Но это не фантастика, а вполне реальная практика.

Конечно, на деле все не так мрачно, как сериале, и судьбы людей от решений роботов (пока) не зависят. ИИ лишь помогает ускорить процесс скрининга.

➡️

Технологию предложила компания Jumse. Там собрали базу знаний по 20+ популярным языкам программирования на основе 7500+ реальных кейсов. Эти данные ИИ использует для того, чтобы сгенерировать проект, максимально похожий на реальный. Разработчик должен провести ревью этого проекта и найти ошибки в коде.

Jumse позволяет провести хоть быстрый precheck, чтобы отсеять слабых кандидатов, хоть полноценный многочасовой ассесмент.

В итоге:
⏺️ HR могут проверить технические скиллы, не дергая техлидов на собеседования.
⏺️ СТО и руководители направлений смогут оценить навыки своих сотрудников и найти их сильные и слабые стороны.
⏺️ Сами разработчики смогут проверить свои знания на почти реальных кейсах и найти точки роста.

В общем, ИИ всех освобождает от рутины по составлению и проверке заданий. В теории звучит интересно, но на практике проверить качество скрининга может только тот же техлид или хотя бы достаточно опытный разработчик. Всем прочим остается только довериться решениям искусственного интеллекта.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.77K views08:38

Data Science: SQL и Аналитика данных

🔥

Инструмент, который вытащит нужные данные из PDF

Магия искусственного интеллекта избавляет от необходимости самостоятельно ковыряться в PDF’ках, чтобы найти в них нужные данные.

➡️

Documind — маленький open source инструмент, который сделает это за вас. Он обрабатывает PDF-файлы с помощью API OpenAI и возвращает структурированные данные.

Можно самостоятельно дать задачу, какие данные и в каком формате вам нужны, а можно воспользоваться готовыми шаблонами. Пока их всего три: инвойс, банковская выписка и водительское удостоверение из Великобритании. Не густо, но разработчики обещают добавить еще, а также работают над облачной версией. Пока в нее пускают только после отправки реквеста через сайт проекта.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.73K views09:05

Data Science: SQL и Аналитика данных

➡️

Логика семплинга в SQL

Кажется, что пятница — время расслабиться и почитать что-нибудь легкое?

А вот и нет. 🔥 Принесли вам основательный лонгрид про семплинг с помощью SQL:

⏺️ Как работают алгоритмы выборки без замены и с заменой и как реализовать оба.
⏺️ Как увеличить скорость обработки запроса, понимая особенности чтения данных в БД.
⏺️ Как сделать рандомную выборку чуть менее рандомной.

Автор не пишет «press X to win» — то есть «напишите вот такой запрос, чтобы получить вот такой результат», а подробно объясняет логику их работы с формулами и ссылками на дополнительную литературу. Думаем, будет полезно и новичкам, и тем, кто с SQL работает уже не первый день.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.64K views09:05

Data Science: SQL и Аналитика данных

🔥

За что они так любят Excel?

Мемы про сложные отношения аналитиков с Excel появились не на пустом месте. Часто пользователи просто не понимают своего счастья и не ценят все эти прекрасные дашборды, которые для них любовно собирают аналитики, BI-специалисты и дата-инженеры.

«Да, красиво, удобно, но можно те же данные в Excel показать, пожалуйста?»

☝🏻 Знакомо?

Это может раздражать или фрустрировать, но это происходит не без причины. И часто причина — именно в дашбордах, которые сделали именно для того, чтобы сделать жизнь пользователя лучше.

1️⃣ Пользователь не доверяет данным. Ему понятен формат обычной таблички, а с дашбордом он просто может не понимать, откуда взялись данные или как был сформирован график.

➡️

Тут может помочь дополнительное обучение, инструкции и подсказки — все, что сделает дашборд понятнее.

2️⃣ Перемены нервируют или нарушают привычный рабочий процесс. Пользователь привык работать со своими таблицами, даже если они неудобные и громоздкие, а на составление отчетов уходила куча времени. Теперь ему надо привыкать к новому инструменту и менять процессы — это почти никому не нравится. Может быть, этот дашборд вообще ему не нужен был, а сделали его по требованию руководства.

➡️

Тут поможет обмен опытом. С одной стороны стоит привлекать пользователя к работе над дашбордом, чтобы он понимал, что и зачем делается и как это поможет ему в работе. С другой стороны — аналитикам надо понимать, как пользователь будет взаимодействовать с дашбордом, как он встроится в его рабочий пайплайн.

3️⃣ Дашборд просто неудобный. Он непонятный, он долго грузится, на нем миллион фильтров и кнопок, за которыми прячутся нужные данные. Да, так бывает — как бы вдумчиво вы ни подходили к разработке, иногда просто что-то идет не так.

➡️

Что тут посоветовать? Собрать фидбек и вносить правки.

Если хочется почитать подробнее, то вот хорошая статья на эту тему.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.75K views09:05

Data Science: SQL и Аналитика данных

🔥

Dataviz, Data Science и HR

К традиции подводить итоги в конце года все относятся по-разному: кому-то все равно, для кого-то это повод вспомнить, что хорошего произошло за последние 12 месяцев, а для кого-то —причина для стресса.

В последнюю категорию нередко попадают сотрудники корпораций. Те тоже в конце года подводят итоги и оценивают результаты своих подчиненных. 10% (или 15%, или 20%) лучших получат премии, а 10% со дна рейтинга отправятся искать новое место работы.

Обычно результат этой оценки представляют в виде всем знакомой куполообразной кривой. И это выглядит логично:
⏺️ Это универсальный график, уместный для визуализации данных из самых разных областей. Если в компании дела идут нормально, то и результаты сотрудников тоже распределятся по осям нормально.
⏺️График четко делит людей на несколько групп: «среднячки» в центре, топы и аутсайдеры по краям. Это наглядный, честный и объективный способ визуализировать, кто работал хорошо, а кто не постарался.

Так ведь?
Ну, не совсем. На графике данные распределяются симметрично, но давайте честно — отражает ли это реальность?
⏺️ В любом коллективе почти всегда есть несколько топовых сотрудников, которые и правда «тянут» на себе весь отдел и генерируют львиную долю результата.
⏺️ При этом обратной картины не наблюдается — их успехи не нивелируют провалы аутсайдеров из анти-топа. Встречаются люди, которые своей некомпетентностью приносят реальные убытки, но это скорее исключения, а не стабильные 10-20% от всего штата компании.

Если описывать ситуацию так, то это уже не скучное нормальное распределение, а правило Парето про 20% усилий, которые генерируют 80% результата. То есть сотрудники делятся на небольшую долю топ-перформеров, большинство «среднячков» и редких аутсайдеров.

Если интересно почитать подробнее, то в блоге Data Science for Fun and Profit про это есть любопытная статья. А мы просто отметим, что это отличный пример того, как датавиз влияет на восприятие данных и принятие решений.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.71K views09:05

Data Science: SQL и Аналитика данных

👀

Что внутри Postgres?

«Just use Postrges» — это выражение уже почти мем. Кто-то иронизирует над тенденцией в любой непонятной ситуации использовать Postgres, а кто-то говорит это вполне серьезно. Его любят за бесплатность, производительность, умение работать с разными типами данных — в общем, есть за что.

Но что, если заглянуть глубже и разобраться, как именно он работает?
⏺️ Как хранит данные и распределяет ваши таблицы по папкам?
⏺️ Как Postgres оптимизирует работу с большими файлами?
⏺️ Что делают Pages, и как они помогают снизить вероятность ошибок записи?

Ответы — в лонгриде аж на 30+ минут вдумчивого чтения How Postgres stores data on disk.

Если вникнуть в тонкости того, как Postgres хранит данные, то, во-первых, появится еще несколько веских причин его любить. А во-вторых, это может пригодиться в работе — когда вы понимаете, как что-то устроено, намного проще исправлять ошибки или искать причины проблем.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

7.21K views09:05

Data Science: SQL и Аналитика данных

➡️

Как показать выполнение KPI на графиках

Шпаргалка для всех, кто занимается версткой дашбордов — 20 способов изобразить выполнение KPI. В основном это разные вариации барчартов и линейных графиков, но все равно поглядеть что-нибудь полезное для себя можно.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.73K views09:05

Data Science: SQL и Аналитика данных

👀

Минутка истории

Все эти ваши датавизы, графики и хитрые многосоставные дашборды — это, конечно, хорошо. Но идеальным, проверенным временем способом структурировать данные остаются самые обычные, простые таблицы.

➡️

И про «проверенный временем способ» мы написали не просто так.
Во время раскопок в Ираке нашли глиняную табличку с таблицей, в которой подсчитывали зарплаты рабочих. В одной колонке записаны имена, в других — разные суммы денег и, судя по всему, число отработанных часов или смен. Возраст находки — 3500-4000 лет.

Может быть, когда вы в следующий раз придется поработать с отчетом по зарплатам сотрудникам или выплатам подрядчикам, вы вспомните, что неизвестный житель древнего города Ларса несколько тысяч лет назад заполнял почти такую же табличку. Только фильтров не было и итоговые суммы приходилось считать самому, а не вписанной в ячейку формулой.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.92K views07:35

Data Science: SQL и Аналитика данных

🔥

Дашборд для руководителя в Power BI

Как и обещали, разбавляем дашборды из Tableau примерами работ из других BI-систем. Сегодня на очереди Power BI.

Три вкладки, куча фильтров (и, конечно, кросс-фильтрация), интерактивные графики и занятное оформление.

Есть мнение, что в Power BI сложнее сделать «красиво», чем в Tableau, но это хороший пример. В Power BI тоже можно заморочиться с дизайном, было бы желание.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.65K views06:19

Data Science: SQL и Аналитика данных

Пятничный мем, друзья!

Вся правда про ИИ

#мем #датамем

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

7.43K views07:34

Data Science: SQL и Аналитика данных

👀

Клавиатура Маркова

Обычная клавиатура со стандартной раскладкой: скучно, предсказуемо, как у всех.

Клавиатура, на которой значение кнопок меняется в зависимости от того, что вы на ней пишете: небанально, свежо, добавляет в жизнь бодрящий элемент неожиданности.

Если вы готовы сделать свою жизнь немножко интереснее, то клавиатура Маркова (да, названа в честь того самого Маркова) уже ждет вас на гитхабе. Она меняет значение кнопок с каждым нажатием так, что буквы, которые вы используете чаще всего, будут расположены на среднем ряду клавиатуры (он же home row). Правда, работает это только с латиницей.

➡️

Пример от автора: если весь день печатать только слово «the», то каждый раз, когда вы будете нажимать на клавишу “t”, “h” будет переезжать на средний ряд.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

7.98K views05:18

Data Science: SQL и Аналитика данных

🔥

Геоаналитика, искусственный интеллект и покемоны

Поднимите руки, кто играл в Pokemon Go!

➡️ Для тех, кто не курсе — это AR-игра, где надо с помощью смартфона «ловить» покемонов. На карте отмечают точки, где можно поймать покемона, игрок идет туда ногами, наводит камеру на точку, и игра «встраивает» Пикачу (ну, или кого-то еще) в реальный мир.

Pokemon Go разработала и выпустила в 2016 году компания Niantic. Несмотря на шероховатости на релизе, игра завоевала популярность у миллионов игроков.

Почти 10 лет люди по всему миру ходят по улицам, снимают фото и видео разных локаций со всевозможных ракурсов. Таким образом у Niantic накопилась огромная база данных — игроки фактически «отсканировали» для них крупные города со всего мира. На их основе компания решила разработать геопространственную модель MicKey.

➡️ Если человеку показать 2 фотографии одного и того же места с разных ракурсов или в разное время суток, он поймет, что это одна локация. А вот у ИИ с этим будут трудности. Геоданные игроков Pokemon Go решают эту проблему — они наделали достаточно фотографий, чтобы научить MicKey находить закономерности в изображениях и «понимать», что на них запечатлено одно и тоже же место.

Niantic надеются, что их работа сможет поднять на новый уровень AR-технологии и использоваться в других сферах — например, чтобы научить ИИ ориентироваться на местности, как человек.

Вот такая геоаналитика — мы незаслуженно редко рассказываем про это направление работы с данными, хотя там вон какие чудеса творятся.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

7.62K views09:04

Data Science: SQL и Аналитика данных

🔥

7 BI-платформ за 7 недель

Если не лежит душа к БД, можно углубиться в BI-платформы. Ниже 7 инструментов, с которыми мы сами работаем чаще всего.

Первые 3 сейчас недоступны в России, и если для вас это блокирующий фактор, переходите к 4 пункту — там начинается open source.

⏺️

Tableau. Стандарт индустрии, который не нуждается в представлении, с богатым функционалом и возможностями для кастомизации. В нем можно сделать почти все, что угодно, любые графики и любые расчеты, и это делает его идеальным вариантом для сложной аналитики и отчетности.

⏺️

Power BI. Не менее известный инструмент, который лишь немного уступает Tableau в широте возможностей для кастомизации. При этом он дешевле и прекрасно интегрируется с другими компонентами экосистемы Microsoft.

⏺️

Looker Studio. Простая в освоении облачная платформа, которая подойдет тем, кому важна интеграция с сервисами Google — их можно подключить к Looker бесплатно. Большинство других датасорсов доступны только по подписке за 9$ в месяц.

⏺️

DataLens. BI от Яндекса. Достойный аналог ушедших из РФ платформ, который не только быстро развивается и наращивает мощности, но и помогает с миграцией.

⏺️

Metabase. Простой, понятный и бесплатный open source инструмент, который подойдет тем, кому надо быстро и не заморачиваясь сделать простую аналитику.

⏺️

Superset. Почти Tableau от мира бесплатных BI-платформ, который может похвастаться впечатляющим количеством встроенных графиков и фич вроде гибких настроек доступ или автоматических email-рассылок с актуальными данными с дашборда.

⏺️

Redash. Еще один относительно простой в освоении инструмент, который выделяется широким списком поддерживаемых датасорсов и умением работать с большими объемами данных.

Если интересно узнать про каждый инструмент чуть подробнее, то у нас есть шпаргалка со сравнением — там больше внимания уделено плюсам и минусам инструментов, есть примеры дашбордов и цены.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

11.9K views10:29

Data Science: SQL и Аналитика данных

🔥

Как добавить сторителлинг в свой датавиз

Магия датавиза не только в том, чтобы показать данные на графиках, но и в том, чтобы правильно расставить акценты и подчеркнуть важное.

Разбираем на примере из блога Datawrapper, как с помощью нескольких небольших правок сделать обычные линейные графики информативнее.

➡️ Автор хотел показать, как изменилась Индия за 75 лет и для этого нарисовал 4 чарта с данными о рождаемости, детской смертности, продолжительности жизни и росте населения. Они и сами по себе уже выглядят внушительно: уже без всяких правок по ним можно судить, что жизнь в Индии за 75 лет стала лучше.

Но сравните, насколько красноречивее они стали, когда:
⏺️ к ним добавили более говорящие заголовки и пояснения к каждому графику;
⏺️ расположили их рядом, так чтобы вместе с пояснениями они рассказывали цельную историю: «Хотя рождаемость снизилась, упала и детская смертность, а продолжительность жизни выросла, что привело к росту населения»;
⏺️ изменили цветовую гамму и подкрутили дизайн, чтобы расставить акценты.

Такую же логику — говорящие заголовки, цветовые акценты, сторителлинг — можно применить и в других областях, чтобы усилить свои отчеты и презентации.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

15.1K views09:33