Data Science: SQL и Аналитика данных
39.9K subscribers
245 photos
54 videos
1 file
300 links
№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri
Download Telegram
🔥Геоаналитика, искусственный интеллект и покемоны

Поднимите руки, кто играл в Pokemon Go!

➡️ Для тех, кто не курсе — это AR-игра, где надо с помощью смартфона «ловить» покемонов. На карте отмечают точки, где можно поймать покемона, игрок идет туда ногами, наводит камеру на точку, и игра «встраивает» Пикачу (ну, или кого-то еще) в реальный мир.

Pokemon Go разработала и выпустила в 2016 году компания Niantic. Несмотря на шероховатости на релизе, игра завоевала популярность у миллионов игроков.

Почти 10 лет люди по всему миру ходят по улицам, снимают фото и видео разных локаций со всевозможных ракурсов. Таким образом у Niantic накопилась огромная база данных — игроки фактически «отсканировали» для них крупные города со всего мира. На их основе компания решила разработать геопространственную модель MicKey.

➡️ Если человеку показать 2 фотографии одного и того же места с разных ракурсов или в разное время суток, он поймет, что это одна локация. А вот у ИИ с этим будут трудности. Геоданные игроков Pokemon Go решают эту проблему — они наделали достаточно фотографий, чтобы научить MicKey находить закономерности в изображениях и «понимать», что на них запечатлено одно и тоже же место.

Niantic надеются, что их работа сможет поднять на новый уровень AR-технологии и использоваться в других сферах — например, чтобы научить ИИ ориентироваться на местности, как человек.

Вот такая геоаналитика — мы незаслуженно редко рассказываем про это направление работы с данными, хотя там вон какие чудеса творятся.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 7 BI-платформ за 7 недель

Если не лежит душа к БД, можно углубиться в BI-платформы. Ниже 7 инструментов, с которыми мы сами работаем чаще всего.

Первые 3 сейчас недоступны в России, и если для вас это блокирующий фактор, переходите к 4 пункту — там начинается open source.

⏺️Tableau. Стандарт индустрии, который не нуждается в представлении, с богатым функционалом и возможностями для кастомизации. В нем можно сделать почти все, что угодно, любые графики и любые расчеты, и это делает его идеальным вариантом для сложной аналитики и отчетности.
⏺️ Power BI. Не менее известный инструмент, который лишь немного уступает Tableau в широте возможностей для кастомизации. При этом он дешевле и прекрасно интегрируется с другими компонентами экосистемы Microsoft.
⏺️ Looker Studio. Простая в освоении облачная платформа, которая подойдет тем, кому важна интеграция с сервисами Google — их можно подключить к Looker бесплатно. Большинство других датасорсов доступны только по подписке за 9$ в месяц.
⏺️ DataLens. BI от Яндекса. Достойный аналог ушедших из РФ платформ, который не только быстро развивается и наращивает мощности, но и помогает с миграцией.
⏺️ Metabase. Простой, понятный и бесплатный open source инструмент, который подойдет тем, кому надо быстро и не заморачиваясь сделать простую аналитику.
⏺️ Superset. Почти Tableau от мира бесплатных BI-платформ, который может похвастаться впечатляющим количеством встроенных графиков и фич вроде гибких настроек доступ или автоматических email-рассылок с актуальными данными с дашборда.
⏺️Redash. Еще один относительно простой в освоении инструмент, который выделяется широким списком поддерживаемых датасорсов и умением работать с большими объемами данных.

Если интересно узнать про каждый инструмент чуть подробнее, то у нас есть шпаргалка со сравнением — там больше внимания уделено плюсам и минусам инструментов, есть примеры дашбордов и цены.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Как добавить сторителлинг в свой датавиз

Магия датавиза не только в том, чтобы показать данные на графиках, но и в том, чтобы правильно расставить акценты и подчеркнуть важное.

Разбираем на примере из блога Datawrapper, как с помощью нескольких небольших правок сделать обычные линейные графики информативнее.

➡️ Автор хотел показать, как изменилась Индия за 75 лет и для этого нарисовал 4 чарта с данными о рождаемости, детской смертности, продолжительности жизни и росте населения. Они и сами по себе уже выглядят внушительно: уже без всяких правок по ним можно судить, что жизнь в Индии за 75 лет стала лучше.

Но сравните, насколько красноречивее они стали, когда:
⏺️ к ним добавили более говорящие заголовки и пояснения к каждому графику;
⏺️ расположили их рядом, так чтобы вместе с пояснениями они рассказывали цельную историю: «Хотя рождаемость снизилась, упала и детская смертность, а продолжительность жизни выросла, что привело к росту населения»;
⏺️ изменили цветовую гамму и подкрутили дизайн, чтобы расставить акценты.

Такую же логику — говорящие заголовки, цветовые акценты, сторителлинг — можно применить и в других областях, чтобы усилить свои отчеты и презентации.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Давно в поиске «той самой вакансии»? Она наверняка уже есть в канале match!

Здесь публикуют лучшие предложения в Digital и IT, чтобы ты не листал бесконечно.

Подписывайся на match — и начни карьеру, которая тебе по-настоящему подходит 💫
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Как работает конкурентность?

Если спросить, что такое конкурентность, скорее всего, большинство наших подписчиков смогут ответить достаточно точно. Это понятие, знакомое всем, кто так или иначе связан с ИТ-сферой.

➡️ Для тех, кто пока с ним не сталкивался, поясним максимально простыми словами:
Конкурентность — способность системы в заданный промежуток времени выполнять несколько процессов, переключаясь между ними.

Конкурентность не надо путать с параллелизмом, но это тема для отдельного материала.

Зато если попросить объяснить, как работает конкурентность, у многих могут возникнуть затруднения. За явлением, которое на первым взгляд кажется довольно понятным, стоит очень сложный процесс.

К счастью, нашелся человек, который детально разобрался сам и нарисовал визуальный гайд для остальных. Гайд в какой-то момент превращается в мем «как нарисовать сову», но так и надо.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Сегодня не пятница, но это не повод не запостить

#мем

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Trisigma — аналитическая платформа от Авито Тех

Trisigma призвана ускорить разработку и развитие продуктов за счет комплексной аналитики и автоматизации A/B-тестирования. Она дает возможность проверить гипотезы и новые функции, а также оценить их влияние на бизнес-показатели, проводя сотни тестов одновременно.

Платформа разворачивается в облаке и легко интегрируется в ИТ-инфраструктуру компании для обмена данными с другими компонентами системы. Она нетребовательна к ресурсам, поэтому внедрить ее сможет как корпорация, так и небольшой стартап. Особенно полезен инструмент будет финтехам, эдтехам и стриминговым сервисам — тем, кому важно постоянно развивать и дорабатывать свои продукты с опорой на данные.

Что им даст Trisigma?
⏺️ Автоматизацию тестирования — это даст возможность проводить больше тестов и при этом освободить время аналитиков.
⏺️ Информативные и точные отчеты с результатами тестов. Автоматизация позволяет избежать ошибок, связанных с человеческим фактором.
⏺️В итоге — принятие решений на основе данных и быстрое внедрение новых функций в продукт.

По словам управляющего партнера Авито Ивана Гуза, применение подхода с A/B тестированием обеспечивает дополнительный прирост ключевых показателей компании, таких как выручка или количество покупателей, в коридоре от 10 до 20% в год.

➡️ Для тех, кто хочет познакомиться с возможностями Trisigma, команда Авито Тех уже открыла прием заявок.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6 TB в SQLite

Как известно, те, кто хочет, ищет способы, а те, кто не хочет — оправдания.

Те, кому не хватает целеустремленности и авантюризма, говорят, что SQLite не заточена под работу с большими объемами данных и вообще не в этом ее главное преимущество. Те, кто открыт новому и не боится вызовов, делают базу на 6 терабайт.

Ко вторым относится автор searchcode — проекта по поиску исходного кода. В базе больше 75 миллиардов строк из 40 миллионов проектов. Вот так 6,4 ТБ данных и набежало.

⏺️Изначально автор использовал MySQL, и был верен ей с самого начала до конца 2024 года. Но он постоянно искал способы сделать архитектуру проекта проще и удобнее — и пришел к мысли, что пора переходитm на SQLite.
⏺️Переход не всегда был простым — пришлось и разобраться, как обойти ошибку database is locked, и найти способ сжатия данных в SQLite. В MySQL вопрос решался через функцию compress, а вот в SQLite решение оказалось не таким очевидным.

Спойлернем: автор начал с поисков стороннего плагина, но в итоге пришел к тому, что более жизнеспособный вариант — компрессия на уровне файловой системы.

⏺️Несмотря на все сложности, SQLite с 6,4 ТБ справляется не хуже, а иногда даже лучше, чем MySQL. Автор все равно переживает, что какие-нибудь проблемы все равно вылезут, но пока полет нормальный.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Umami — альтернатива Google Analytics

Как бы ни был хорош, привычен и удобен Google Analytics, не всем нравится, что корпорация собирает и использует в своих целях их данные. Если вы не хотите делиться с Google информацией о своих пользователях, можно рассмотреть альтернативы — например, Umami.

Это бесплатный инструмент для веб-аналитики с открытым исходным кодом.

⏺️ Поддерживает PostgreSQL и MySQL. Судя по отзывам — работает устойчиво и стойко переваривает даже большие потоки данных.
⏺️Простой интерфейс с гибкими настройками событий и действий юзеров, которые вы хотите трекать. Можно отслеживать действия, клики, переходы и удержания, строить воронки — в общем, все, что надо.
⏺️Для тех, кто не хочет хостить инструмент самостоятельно, есть облачная версия.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Польза несовершенства на примере BlueSky

BlueSky — соцсеть, созданная как альтернатива Twitter. Принцип работы тот же: пользователи создают профили, подписываются на других пользователей и видят их посты в своих лентах.

Давайте посмотрим, как это работает изнутри и почему часть постов не доходит до подписчиков — и это нормально.
⏺️ Таблица Timeline — те самые ленты постов — разделена на несколько шардов, где для каждого юзера выделена своя партиция. Всего на 32 млн пользователей приходится несколько сотен шардов.
⏺️ Когда кто-то выкладывает новый пост, он разлетается по его подписчикам и встраивается в таблицы, из которых формируются их ленты. Одновременно старые сообщения выводятся из них.  Этот процесс работает нормально, если пользователи не шалят и не подписываются на всех подряд. Но если кто-то подписывается на тысячи или сотни тысяч аккаунтов, начинаются проблемы.
⏺️ Его лента постоянно обновляется, и это создает повышенную нагрузку не только на его партицию, но и на соседей по шарду. При этом сам пользователь (если это и правда человек, а не бот) никогда не сможет прочитать все сообщения в ней. Значит, и BlueSky незачем выводить все-все новые посты — достаточно просто, чтобы в ленте регулярно появлялся новый контент.

Так, чтобы избежать перегрузки, BlueSky внедрили такие понятия:
⏺️ разумное ограничение (reasonable limit) на число подписок — то есть сколько подписок нужно, чтобы лента стабильно обновлялась и оставалась читабельной.
⏺️ loss_factor — процент новых сообщений, которые не попадут в ленту пользователя. Он рассчитывается по формуле min(reasonable_limit/num_follows, 1).

Допустим лимит у нас 2000, а подписан пользователь на 8000 аккаунтов. В этом случае loss_factor = 0,25, то есть только 25% новых постов попадут в его ленту.

Внедрение таких запрограммированных потерь помогло значительно поднять производительность и снизить задержки.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Коннектор Tableau + ClickHouse

Команда ClickHouse представила официальный коннектор с Tableau.

⏺️Работает с Tableau Desktop и Tableau Server — для Cloud пока не завезли. Всех, кто считает, что это упущение надо исправить как можно скорее, призывают писать об этом команде ClichHouse.
⏺️В Tableau's Data Source Verification Tool коннектор показал совместимость 98%. 2% приходятся на специфические форматы даты и времени, которые ClickHouse не поддерживает.
⏺️Коннектор вместе с инструкциями по установке доступен в Tableau Exchange.
⏺️Подробный гайд, как пользоваться коннектором и собрать дашборд в Tableau на основе датасета в ClickHouse опубликован в блоге СУБД. Этот датасет, кстати, можно скачать и самостоятельно потестить, как работает коннектор.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Docs: как Notion, только open source

Очередная бесплатная альтернатива популярному платному тулу — на этот раз заменяем недоступный в РФ Notion опенсорсным Docs.

➡️ Это инструмент для совместной работы над текстовыми документами, разработанный совместно правительствами Франции и Германии. Да, это не просто чей-то pet project, сделанный из любви к искусству. Все серьезно.

Визуально Docs выглядит как Notion, но попроще — впрочем, так и надо. Его представляют как бесплатную, удобную и безопасную альтернативу, в которой нет ничего лишнего. Можно писать и форматировать текст одному или вместе с коллегами — как и в Notion, тут есть возможность раздать разные уровни доступа.

Есть даже поддержка AI-функций для перевода или создания краткого саммари документа.

У проекта есть cвой сайт и github.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Каталог чартов Tableau

Tableau Public — источник вдохновения и полезных приемов по работе с Tableau. Мы часто постим особенно впечатлившие Viz of the Day — визуализации, не всегда применимые в работе, но интересные и наглядно показывающие возможности инструмента.

➡️ Для случаев, когда надо вдохновиться особенно сильно или подсмотреть, как круче сделать какой-то конкретный график, есть целый каталог чартов.

В нем собрали ссылки на Viz of the Day, где использовали различные виды графиков и визуализаций. Есть и весьма небанальные, так что если вам надо будет посмотреть, как сделать в Tableau прогресс-бар или завернуть линейный график в круг, в этом каталоге вы найдете ответ.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Visual DB — фронтенд для базы данных

Любопытный инструмент, который позволяет создавать формы и интерактивные отчеты, просматривать, добавлять и редактировать данные в таблицах. Задача Visual DB — сделать доступ к данным удобнее и проще, поэтому он не требует знания SQL для работы, а еще предлагает использовать ИИ для создания форм.

⏺️Работает с распространенными БД, СУБД и облачными сервисами: MySQL, MariaDB, PostgreSQL, Oracle, Neon, Azure SQL, Amazon RDS, Google Cloud SQL, AlloyDB.
⏺️Можно пользоваться облачной версией, можно захостить на своем сервере (или просто на ПК или ноуте).
⏺️Инструмент бесплатный, но есть тариф Business аж за 5 долларов в месяц с юзера. Его главное отличие в отсутствии ограничений на количество записей в БД.

Ознакомиться со всеми функциями можно на сайте проекта.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤️О любви к CSV

Формат данных CSV — Comma-Separated Values, «значения, разделенные запятыми» — появился еще в 70-х, и с тех пор люди ничего лучше не придумали.

Ладно, может быть, и придумали, но CSV, так или иначе, жил, жив и будет жить еще долго. Он все еще часто используется для хранения данных, несмотря на то что за эти 50 лет разработали множество других форматов.

Почему так?
Юзер с гитхаба уже ответил за нас и перечислил целых 9 причин, почему этот формат заслуживает нашей любви. Как любят писать в кликбейтных статьях, пункт 9 вас поразит!

1️⃣ CSV простой — вся суть формата отражена в названии. Ничего лишнего.
2️⃣ CSV никому не принадлежит, а потому навсегда останется бесплатным и доступным.
3️⃣ CSV — это простой текст, который можно открыть и отредактировать в любом редакторе без всяких сложностей. Для этого не нужен никой специальный платный софт.
4️⃣ CSV не требователен к ресурсам и к памяти компьютера.
5️⃣ В CSV-документы можно легко и эффективно дописывать новые строки.
6️⃣ CSV динамически типизирован — тут есть свои минусы, но это делает его очень гибким при работе с разными типами данных.
7️⃣ CSV лаконичен.
8️⃣ Обратный CSV все еще CSV — информация не потеряется, даже если прочитать документ не с начала, а с конца, байт за байтом.
0️⃣ Excel ненавидит CSV — а значит, уже за это формат заслуживает уважения.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Do you speak SQL?

Мы решили собрать подборку 10 суперполезных, на наш взгляд, сервисов для проверки и прокачки навыков SQL.

➡️ DATALEMUR
Сервис позволяет потренироваться на тестовых заданиях, выбрав один из трех уровней сложности: Easy, Medium и Hard. Создатель сервиса — Ник Сингх, автор книги «Ace the Data Science Interview». Сервис бесплатный, но требуется регистрация.

➡️ LEETCODE
Удобный в навигации сервис с более чем 2.5К тестовых заданий, позволяющий задать себе собственную программу обучения, чтобы подготовиться к конкретному карьерному апгрейду. Есть два вида подписок: на месяц ($35) и на год ($13.25/месяц).

➡️ Zachary Thomas' SQL Questions
Небольшой гид для аналитика данных с тестовыми задачами средней и повышенной сложности. Успеете разобрать за 1 час — лишним не будет!

➡️ WINDOW FUNCTIONS
Вы же любите оконные функции? Тогда этот бесплатный тренажер на Postgres стоит добавить в закладки.

➡️ CODE ACADEMY
Более 940К студентов, сертификат по окончании курса — прекрасные показатели того, что закончив этот курс (пишут, что можно уложиться в 8 часов), начинающий дата аналитик освоит SQL в достаточной мере, чтобы любое тестовое задание было по силам. Есть бесплатный базовый аккаунт, Pro Lite ($13.99/месяц) или Pro ($19.99/месяц).

➡️ SQL BOLT
Полностью бесплатный курс по SQL из 20ти интерактивных уроков, создатели которого будут благодарны донатам через Paypal, но не настаивают. Интерфейс сервиса довольно строг и минималистичен, что позволит по максимуму погрузиться в тему, не отвлекаясь на рекламу и лимиты бесплатных версий, как бывает с конкурентами этого курса.

➡️ SQL ZOO
Построенный на движке MediaWiki, этот каталог бесплатных уроков начинает с азов и поэтапно подводит ученика к использованию SQL с C#, PHP на серверах Amazon EC2 и транзакциям.

➡️ HACKERANK
Сервис, клиентами которого являются компании из списка Fortune 100, Atlassian, Bloomberg, Adobe, LinkedIn, у которого свыше 3К компаний-клиентов. Он не только предоставляет услуги опосредованного тестирования соискателя, но и предлагает курсы по совершенствованию навыков SQL. Регистрация обязательна.

➡️ SQL TEACHING
CASE, SUBSTR, COALESCE — это темы трех последних уроков из курса, который вы можете пройти совершенно бесплатно. Целых 31 функции, навыки использования которых вы можете отшлифовать, всего лишь открыв ссылку сверху!

➡️ W3 SCHOOL
Довольно удобный бесплатный сервис, но с небольшим недостатком — интерактивные упражнения открываются в новой вкладке, и если вы не минималист, познавший дзен в браузере, вкладки и окна которого можно пересчитать на пальцах одной руки, то три сосны могут внезапно разрастись в целый сосновый бор.

🔄 Все сервисы англоязычные!

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Персональный тренер по SQL: быстро, качественно, ChatGPT

Если среди вас есть те, кто осваивает азы SQL с помощью разных онлайн тренажеров и курсов (и, возможно, даже нашего Data марафона для начинающих аналитиков), то, вероятно, вам будет любопытно узнать, что в дополнение к рутинным SQL заданиям можно добавить кое-что новенькое от ChatGPT.

В этой статье на Medium собраны 5 способов, как сделать из ChatGPT персонального наставника для освоения базы SQL. Так, вы можете:

⏺️ попросить ChatGPT доступно и кратко объяснить, что означает та или иная команда, и дать примеры использования;
⏺️ попросить нейросеть определить, какую команду SQL использовать для вашей задачи, и дать пример решения;
⏺️ спросить, как с помощью SQL решить ту или иную комплексную задачу, описав ее обычным, «человеческим» языком;
⏺️ узнать, что делает определенный кусок кода, и разобрать каждую из его составляющих подробно;
⏺️ превратить ChatGPT в вашего наставника, который будет генерировать для вас задания и проверять ваши варианты решения.

Узнать подробнее, как можно таким образом взаимодействовать с ChatGPT, можно в посте, а мы предлагаем вам в комментах поделиться вашими лайфхаками о том, как вы работаете с SQL и ChatGPT. А если это что-то прям суперкрутое, мы даже отдельный пост про это напишем!

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM