Налейте аналитику
918 subscribers
43 photos
2 files
33 links
Мысли вслух лида аналитики ЛитРес, уроки по SQL/Python для новичков и не только, рассуждения о том, как делать надо и главное - как не надо, что должен уметь начинающий аналитик и чем дата-саентист отличается от дата-инженера

karaulovandrey@yandex.ru
Download Telegram
В целом, ответ правильный, с той лишь разницей, что формально по условию задачи в результате должно быть только одно поле name. А вот теперь все формальности тренажера учтены
Всем привет, совместно с Мариной с канала Продакт аналитикс - продуктовым аналитиком в AliExpress - подготовили небольшой разбор BI-систем: я имел значительный опыт работы с MS PowerBI, Марина - с Tableau. Бесспорно, это самые распространенные BI-инструменты, каждый из нас расскажет о своем.


1. PowerBI (сайт PowerBI)


Гибкая ценовая политика. Есть лицензии Pro, которые стоят 10$ в месяц на пользователя. То есть, если в небольшой компании, скажем, 2 аналитика и 28 человек, которым нужен доступ на просмотр отчетов - то это выйдет в 300$ в месяц (250 тысяч рублей в год). Возможности в Pro-версии, конечно, порезаны, но многим с головой хватит и этого - обновление по расписанию есть, коннекторы к десяткам источников данных на месте. Premium-версия отличается возможностью развернуть PBI на своем сервере и выделенным сервером отчетов, что нужно для компаний со строгой политикой безопасности и работы с большими объемами данных

Низкий порог вхождения в создание отчетов, буквально возможность создать отчет, не написав ни одной строчки кода. Да, в PBI есть свой язык формул - DAX и язык запросов Power Query (как и в Excel), но для несложных отчетов про это можно не вспоминать. После загрузки данных в PBI для работы с ними открывается визуальный интерфейс, очень сильно напоминающий Excel, в котором табличные данные легко обрабатываются, преобразуются, добавляются новые столбцы и вычисляются новые меры. Опять же, если приводить в качестве аналогии Excel, то это как записать макрос, только проще.

Много разнообразных визуализаций - от столбчатых диаграмм до диаграмм Ганта и карты мира.

Неплохая мобильная версия, в т.ч. приложения для IOS/Android. Как и в Tableau, посмотреть в дороге, не упала ли вчера выручка, очень подойдет.

По единичному личному опыту - неплохая русскоязычная поддержка, вопрос был решен в течение 2 дней.

Минусы, конечно же, тоже есть.

Отсутствие PowerBI Desktop - основного инструмента создания отчетов и подключения к данным - на Mac OS.

Ограничения на объемы. Смешные для некоторых компаний ограничения на объемы в лицензии Pro - это еще ничего (1Гб размер отчета/файла .pbix, 10Гб размер одного источника данных), т.к. в Premium на порядки больше, подробнее здесь. А вот ограничение в 150 тысяч строк на экспорт из отчета в Excel/csv - это в 2021 году недопустимо. Конечно, прекрасно, что любой пользователь опубликованного отчета может скачать сырые данные таблиц/графиков себе в Excel/csv и работать с ними самостоятельно. Но 150 тысяч строк? Excel уже давно поддерживает 2 в степени 20 строк (если калькулятора под рукой нет, то это 1 048 576 строк), я писал об этом здесь. И этот объем лицензией Premium не увеличить.

Отсутствие в лицензии Pro жизненно необходимых функций. Понятно, что MS стимулирует выбирать более дорогую лицензию - но, например, инкрементальное добавление данных есть только в премиуме, что уже совсем нехорошо.

Подключение к локальным источникам через персональный шлюз работает не очень хорошо. Обновление в оперативной памяти компьютера, на котором установлен PowerBI Desktop при использовании персонального шлюза, ограничивает объем данных, которые может вместить PBI, а также загружает оперативку компьютера под 100%.

Несмотря на обилие визуализаций, к ним иногда возникают вопросы. Во-первых, вырвиглазные цвета в стандартной цветовой схеме - ярко-красный, очень интенсивный цвет морской волны, обилие каких-то козявочных оттенков. Иногда, чтобы добиться приемлемого вида, если категорий много, сидишь только над цветами по полчаса. Во-вторых, например, сглаженная линия, которую в 2 клика можно сделать в Excel, тут недоступна, что делает многие графики неприятно ломаными.
2. Tableau (сайт Tableau) - опыт Марины


Действительно классно визуализирует данные, превращая их в крутые дашборды, являющиеся образцом качества и дизайна (чем могут похвастаться далеко не все визуализаторы)

Достаточно легкий и интуитивно понятный в использовании

Обладает высокой производительностью, потому что тянет даже очень big data

Поддерживает мобильную версию (что крайне важно, если вы, например, делаете много дашбордов с KPI, а у ваших заказчиков возникла резкая потребность что-то проверить - можете быть уверены, качество на мобильной версии не поедет)

Огромное сообщество пользователей Tableau -на 99,9% вопросов вы найдете ответы в различных видео на ютубе, stackoverflow, официальных видео на сайте инструмента и т.д.)

Теперь о минусах.

Дорого и даже очень, поэтому подходит в большинстве своем для крупных компаний, которые могут себе это позволить

Ценообразование негибкое, то есть, отсутствует индивидуальный подход к клиентам и всем из них предлагается расширенная лицензия, хотя она может быть не особо актуальна для компании

Не самый безопасный инструмент - не обеспечивает 100% защиту данных

Фактическое отсутствие постпродажного обслуживания - в вашу проблему навряд ли будут вникать, скорее, просто предложат докупить какой-то пакет, и на сим поддержка закончится

Вечные проблемы с версиями - что-то будет доступно в старой версии, а что-то - уже нет

Несмотря на опцию постановки каких-то отчетов на расписание, тем не менее что-то придется перепинывать вручную, что не всегда удобно

Чтобы сделать какие-то элементы, которые часто нужны в дашбордах, вам часто может понадобиться использование различных костылей с копированием элементов из Гугла, хитровыдуманных функций и просмотров видео с коллегами из Индии
Разбор задачи SQL №16 (с ошибкой)

#SQL_trainer8

Задача номер 16. Вывести отсортированный по количеству перелетов (по убыванию) и имени (по возрастанию) список пассажиров, совершивших хотя бы 1 полет.

В этой задачке тренажер обхитрил сам себя ) сейчас все расскажу
Как уже было упомянуто, задачка интересна тем, что в ней есть ошибка в онлайн-тренажере. Для начала - как бы я решал эту задачу. Запрос несложный, но... неправильный!
SELECT

p.name,

COUNT(DISTINCT pit.trip) AS count

FROM Pass_in_trip AS pit

JOIN Passenger AS p ON p.id = pit.passenger

GROUP BY p.id

ORDER BY count DESC, p.name ASC
В разборе задачи №5 я писал, что COUNT(DISTINCT id) лучше, чем COUNT(*), т.к. помогает в том числе избежать дублей при джоинах. В текущей задаче дублей при джойнах не наблюдается, но все равно пример показательный. Видим, что для пассажира 'Michael Caine' COUNT(DISTINCT trip) дал результат 3, а COUNT(*) = 4.
Лезем дальше в таблицы. Пропускаю этап, где я определил, что id этого пассажира Passenger.id = 14, и что мы видим по нему в таблице Pass_in_trip? Видим, что на одном рейсе 7771 он купил 2 места! Поэтому COUNT(DISTINCT trip) = 3, а COUNT(*) = 4.
Я абсолютно уверен, что тренажер, подсунув эту задачку с небольшой хитростью, обманул сам себя. Пассажир совершил 3 полета, но чтобы получить выполнение задания, нужно в запросе поставить COUNT(*), который вернет для этого пассажира число 4. Ай-яй-яй, тренажер!
Налейте аналитику pinned «#дайджест В последнее время все посты выходили по теме разбора простеньких задач из тренажера SQL (уже скоро начнутся задачи поинтереснее), поэтому предыдущие посты немного затерялись, возможно, часть аудитории о них и не знает ) Поэтому небольшой дайджест…»
Налейте аналитику pinned «#дайджест В последнее время все посты выходили по теме разбора простеньких задач из тренажера SQL (уже скоро начнутся задачи поинтереснее), поэтому предыдущие посты немного затерялись, возможно, часть аудитории о них и не знает ) Поэтому небольшой дайджест…»