Data Science: SQL и Аналитика данных
39.9K subscribers
245 photos
54 videos
1 file
300 links
№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri
Download Telegram
➡️ Как показать выполнение KPI на графиках

Шпаргалка для всех, кто занимается версткой дашбордов — 20 способов изобразить выполнение KPI. В основном это разные вариации барчартов и линейных графиков, но все равно поглядеть что-нибудь полезное для себя можно.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Минутка истории

Все эти ваши датавизы, графики и хитрые многосоставные дашборды — это, конечно, хорошо. Но идеальным, проверенным временем способом структурировать данные остаются самые обычные, простые таблицы.

➡️ И про «проверенный временем способ» мы написали не просто так.
Во время раскопок в Ираке нашли глиняную табличку с таблицей, в которой подсчитывали зарплаты рабочих. В одной колонке записаны имена, в других — разные суммы денег и, судя по всему, число отработанных часов или смен. Возраст находки — 3500-4000 лет.

Может быть, когда вы в следующий раз придется поработать с отчетом по зарплатам сотрудникам или выплатам подрядчикам, вы вспомните, что неизвестный житель древнего города Ларса несколько тысяч лет назад заполнял почти такую же табличку. Только фильтров не было и итоговые суммы приходилось считать самому, а не вписанной в ячейку формулой.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Дашборд для руководителя в Power BI

Как и обещали, разбавляем дашборды из Tableau примерами работ из других BI-систем. Сегодня на очереди Power BI.

Три вкладки, куча фильтров (и, конечно, кросс-фильтрация), интерактивные графики и занятное оформление.

Есть мнение, что в Power BI сложнее сделать «красиво», чем в Tableau, но это хороший пример. В Power BI тоже можно заморочиться с дизайном, было бы желание.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Пятничный мем, друзья!

Вся правда про ИИ


#мем #датамем

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Клавиатура Маркова

Обычная клавиатура со стандартной раскладкой: скучно, предсказуемо, как у всех.

Клавиатура, на которой значение кнопок меняется в зависимости от того, что вы на ней пишете: небанально, свежо, добавляет в жизнь бодрящий элемент неожиданности.

Если вы готовы сделать свою жизнь немножко интереснее, то клавиатура Маркова (да, названа в честь того самого Маркова) уже ждет вас на гитхабе. Она меняет значение кнопок с каждым нажатием так, что буквы, которые вы используете чаще всего, будут расположены на среднем ряду клавиатуры (он же home row). Правда, работает это только с латиницей.

➡️ Пример от автора: если весь день печатать только слово «the», то каждый раз, когда вы будете нажимать на клавишу “t”, “h” будет переезжать на средний ряд.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Геоаналитика, искусственный интеллект и покемоны

Поднимите руки, кто играл в Pokemon Go!

➡️ Для тех, кто не курсе — это AR-игра, где надо с помощью смартфона «ловить» покемонов. На карте отмечают точки, где можно поймать покемона, игрок идет туда ногами, наводит камеру на точку, и игра «встраивает» Пикачу (ну, или кого-то еще) в реальный мир.

Pokemon Go разработала и выпустила в 2016 году компания Niantic. Несмотря на шероховатости на релизе, игра завоевала популярность у миллионов игроков.

Почти 10 лет люди по всему миру ходят по улицам, снимают фото и видео разных локаций со всевозможных ракурсов. Таким образом у Niantic накопилась огромная база данных — игроки фактически «отсканировали» для них крупные города со всего мира. На их основе компания решила разработать геопространственную модель MicKey.

➡️ Если человеку показать 2 фотографии одного и того же места с разных ракурсов или в разное время суток, он поймет, что это одна локация. А вот у ИИ с этим будут трудности. Геоданные игроков Pokemon Go решают эту проблему — они наделали достаточно фотографий, чтобы научить MicKey находить закономерности в изображениях и «понимать», что на них запечатлено одно и тоже же место.

Niantic надеются, что их работа сможет поднять на новый уровень AR-технологии и использоваться в других сферах — например, чтобы научить ИИ ориентироваться на местности, как человек.

Вот такая геоаналитика — мы незаслуженно редко рассказываем про это направление работы с данными, хотя там вон какие чудеса творятся.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 7 BI-платформ за 7 недель

Если не лежит душа к БД, можно углубиться в BI-платформы. Ниже 7 инструментов, с которыми мы сами работаем чаще всего.

Первые 3 сейчас недоступны в России, и если для вас это блокирующий фактор, переходите к 4 пункту — там начинается open source.

⏺️Tableau. Стандарт индустрии, который не нуждается в представлении, с богатым функционалом и возможностями для кастомизации. В нем можно сделать почти все, что угодно, любые графики и любые расчеты, и это делает его идеальным вариантом для сложной аналитики и отчетности.
⏺️ Power BI. Не менее известный инструмент, который лишь немного уступает Tableau в широте возможностей для кастомизации. При этом он дешевле и прекрасно интегрируется с другими компонентами экосистемы Microsoft.
⏺️ Looker Studio. Простая в освоении облачная платформа, которая подойдет тем, кому важна интеграция с сервисами Google — их можно подключить к Looker бесплатно. Большинство других датасорсов доступны только по подписке за 9$ в месяц.
⏺️ DataLens. BI от Яндекса. Достойный аналог ушедших из РФ платформ, который не только быстро развивается и наращивает мощности, но и помогает с миграцией.
⏺️ Metabase. Простой, понятный и бесплатный open source инструмент, который подойдет тем, кому надо быстро и не заморачиваясь сделать простую аналитику.
⏺️ Superset. Почти Tableau от мира бесплатных BI-платформ, который может похвастаться впечатляющим количеством встроенных графиков и фич вроде гибких настроек доступ или автоматических email-рассылок с актуальными данными с дашборда.
⏺️Redash. Еще один относительно простой в освоении инструмент, который выделяется широким списком поддерживаемых датасорсов и умением работать с большими объемами данных.

Если интересно узнать про каждый инструмент чуть подробнее, то у нас есть шпаргалка со сравнением — там больше внимания уделено плюсам и минусам инструментов, есть примеры дашбордов и цены.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Как добавить сторителлинг в свой датавиз

Магия датавиза не только в том, чтобы показать данные на графиках, но и в том, чтобы правильно расставить акценты и подчеркнуть важное.

Разбираем на примере из блога Datawrapper, как с помощью нескольких небольших правок сделать обычные линейные графики информативнее.

➡️ Автор хотел показать, как изменилась Индия за 75 лет и для этого нарисовал 4 чарта с данными о рождаемости, детской смертности, продолжительности жизни и росте населения. Они и сами по себе уже выглядят внушительно: уже без всяких правок по ним можно судить, что жизнь в Индии за 75 лет стала лучше.

Но сравните, насколько красноречивее они стали, когда:
⏺️ к ним добавили более говорящие заголовки и пояснения к каждому графику;
⏺️ расположили их рядом, так чтобы вместе с пояснениями они рассказывали цельную историю: «Хотя рождаемость снизилась, упала и детская смертность, а продолжительность жизни выросла, что привело к росту населения»;
⏺️ изменили цветовую гамму и подкрутили дизайн, чтобы расставить акценты.

Такую же логику — говорящие заголовки, цветовые акценты, сторителлинг — можно применить и в других областях, чтобы усилить свои отчеты и презентации.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Давно в поиске «той самой вакансии»? Она наверняка уже есть в канале match!

Здесь публикуют лучшие предложения в Digital и IT, чтобы ты не листал бесконечно.

Подписывайся на match — и начни карьеру, которая тебе по-настоящему подходит 💫
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Как работает конкурентность?

Если спросить, что такое конкурентность, скорее всего, большинство наших подписчиков смогут ответить достаточно точно. Это понятие, знакомое всем, кто так или иначе связан с ИТ-сферой.

➡️ Для тех, кто пока с ним не сталкивался, поясним максимально простыми словами:
Конкурентность — способность системы в заданный промежуток времени выполнять несколько процессов, переключаясь между ними.

Конкурентность не надо путать с параллелизмом, но это тема для отдельного материала.

Зато если попросить объяснить, как работает конкурентность, у многих могут возникнуть затруднения. За явлением, которое на первым взгляд кажется довольно понятным, стоит очень сложный процесс.

К счастью, нашелся человек, который детально разобрался сам и нарисовал визуальный гайд для остальных. Гайд в какой-то момент превращается в мем «как нарисовать сову», но так и надо.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Сегодня не пятница, но это не повод не запостить

#мем

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Trisigma — аналитическая платформа от Авито Тех

Trisigma призвана ускорить разработку и развитие продуктов за счет комплексной аналитики и автоматизации A/B-тестирования. Она дает возможность проверить гипотезы и новые функции, а также оценить их влияние на бизнес-показатели, проводя сотни тестов одновременно.

Платформа разворачивается в облаке и легко интегрируется в ИТ-инфраструктуру компании для обмена данными с другими компонентами системы. Она нетребовательна к ресурсам, поэтому внедрить ее сможет как корпорация, так и небольшой стартап. Особенно полезен инструмент будет финтехам, эдтехам и стриминговым сервисам — тем, кому важно постоянно развивать и дорабатывать свои продукты с опорой на данные.

Что им даст Trisigma?
⏺️ Автоматизацию тестирования — это даст возможность проводить больше тестов и при этом освободить время аналитиков.
⏺️ Информативные и точные отчеты с результатами тестов. Автоматизация позволяет избежать ошибок, связанных с человеческим фактором.
⏺️В итоге — принятие решений на основе данных и быстрое внедрение новых функций в продукт.

По словам управляющего партнера Авито Ивана Гуза, применение подхода с A/B тестированием обеспечивает дополнительный прирост ключевых показателей компании, таких как выручка или количество покупателей, в коридоре от 10 до 20% в год.

➡️ Для тех, кто хочет познакомиться с возможностями Trisigma, команда Авито Тех уже открыла прием заявок.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6 TB в SQLite

Как известно, те, кто хочет, ищет способы, а те, кто не хочет — оправдания.

Те, кому не хватает целеустремленности и авантюризма, говорят, что SQLite не заточена под работу с большими объемами данных и вообще не в этом ее главное преимущество. Те, кто открыт новому и не боится вызовов, делают базу на 6 терабайт.

Ко вторым относится автор searchcode — проекта по поиску исходного кода. В базе больше 75 миллиардов строк из 40 миллионов проектов. Вот так 6,4 ТБ данных и набежало.

⏺️Изначально автор использовал MySQL, и был верен ей с самого начала до конца 2024 года. Но он постоянно искал способы сделать архитектуру проекта проще и удобнее — и пришел к мысли, что пора переходитm на SQLite.
⏺️Переход не всегда был простым — пришлось и разобраться, как обойти ошибку database is locked, и найти способ сжатия данных в SQLite. В MySQL вопрос решался через функцию compress, а вот в SQLite решение оказалось не таким очевидным.

Спойлернем: автор начал с поисков стороннего плагина, но в итоге пришел к тому, что более жизнеспособный вариант — компрессия на уровне файловой системы.

⏺️Несмотря на все сложности, SQLite с 6,4 ТБ справляется не хуже, а иногда даже лучше, чем MySQL. Автор все равно переживает, что какие-нибудь проблемы все равно вылезут, но пока полет нормальный.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Umami — альтернатива Google Analytics

Как бы ни был хорош, привычен и удобен Google Analytics, не всем нравится, что корпорация собирает и использует в своих целях их данные. Если вы не хотите делиться с Google информацией о своих пользователях, можно рассмотреть альтернативы — например, Umami.

Это бесплатный инструмент для веб-аналитики с открытым исходным кодом.

⏺️ Поддерживает PostgreSQL и MySQL. Судя по отзывам — работает устойчиво и стойко переваривает даже большие потоки данных.
⏺️Простой интерфейс с гибкими настройками событий и действий юзеров, которые вы хотите трекать. Можно отслеживать действия, клики, переходы и удержания, строить воронки — в общем, все, что надо.
⏺️Для тех, кто не хочет хостить инструмент самостоятельно, есть облачная версия.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Польза несовершенства на примере BlueSky

BlueSky — соцсеть, созданная как альтернатива Twitter. Принцип работы тот же: пользователи создают профили, подписываются на других пользователей и видят их посты в своих лентах.

Давайте посмотрим, как это работает изнутри и почему часть постов не доходит до подписчиков — и это нормально.
⏺️ Таблица Timeline — те самые ленты постов — разделена на несколько шардов, где для каждого юзера выделена своя партиция. Всего на 32 млн пользователей приходится несколько сотен шардов.
⏺️ Когда кто-то выкладывает новый пост, он разлетается по его подписчикам и встраивается в таблицы, из которых формируются их ленты. Одновременно старые сообщения выводятся из них.  Этот процесс работает нормально, если пользователи не шалят и не подписываются на всех подряд. Но если кто-то подписывается на тысячи или сотни тысяч аккаунтов, начинаются проблемы.
⏺️ Его лента постоянно обновляется, и это создает повышенную нагрузку не только на его партицию, но и на соседей по шарду. При этом сам пользователь (если это и правда человек, а не бот) никогда не сможет прочитать все сообщения в ней. Значит, и BlueSky незачем выводить все-все новые посты — достаточно просто, чтобы в ленте регулярно появлялся новый контент.

Так, чтобы избежать перегрузки, BlueSky внедрили такие понятия:
⏺️ разумное ограничение (reasonable limit) на число подписок — то есть сколько подписок нужно, чтобы лента стабильно обновлялась и оставалась читабельной.
⏺️ loss_factor — процент новых сообщений, которые не попадут в ленту пользователя. Он рассчитывается по формуле min(reasonable_limit/num_follows, 1).

Допустим лимит у нас 2000, а подписан пользователь на 8000 аккаунтов. В этом случае loss_factor = 0,25, то есть только 25% новых постов попадут в его ленту.

Внедрение таких запрограммированных потерь помогло значительно поднять производительность и снизить задержки.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Коннектор Tableau + ClickHouse

Команда ClickHouse представила официальный коннектор с Tableau.

⏺️Работает с Tableau Desktop и Tableau Server — для Cloud пока не завезли. Всех, кто считает, что это упущение надо исправить как можно скорее, призывают писать об этом команде ClichHouse.
⏺️В Tableau's Data Source Verification Tool коннектор показал совместимость 98%. 2% приходятся на специфические форматы даты и времени, которые ClickHouse не поддерживает.
⏺️Коннектор вместе с инструкциями по установке доступен в Tableau Exchange.
⏺️Подробный гайд, как пользоваться коннектором и собрать дашборд в Tableau на основе датасета в ClickHouse опубликован в блоге СУБД. Этот датасет, кстати, можно скачать и самостоятельно потестить, как работает коннектор.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Docs: как Notion, только open source

Очередная бесплатная альтернатива популярному платному тулу — на этот раз заменяем недоступный в РФ Notion опенсорсным Docs.

➡️ Это инструмент для совместной работы над текстовыми документами, разработанный совместно правительствами Франции и Германии. Да, это не просто чей-то pet project, сделанный из любви к искусству. Все серьезно.

Визуально Docs выглядит как Notion, но попроще — впрочем, так и надо. Его представляют как бесплатную, удобную и безопасную альтернативу, в которой нет ничего лишнего. Можно писать и форматировать текст одному или вместе с коллегами — как и в Notion, тут есть возможность раздать разные уровни доступа.

Есть даже поддержка AI-функций для перевода или создания краткого саммари документа.

У проекта есть cвой сайт и github.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM