Data Science: SQL и Аналитика данных
39.9K subscribers
244 photos
54 videos
1 file
299 links
№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri
Download Telegram
👀 Сегодня не пятница, но это не повод не запостить

#мем

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Trisigma — аналитическая платформа от Авито Тех

Trisigma призвана ускорить разработку и развитие продуктов за счет комплексной аналитики и автоматизации A/B-тестирования. Она дает возможность проверить гипотезы и новые функции, а также оценить их влияние на бизнес-показатели, проводя сотни тестов одновременно.

Платформа разворачивается в облаке и легко интегрируется в ИТ-инфраструктуру компании для обмена данными с другими компонентами системы. Она нетребовательна к ресурсам, поэтому внедрить ее сможет как корпорация, так и небольшой стартап. Особенно полезен инструмент будет финтехам, эдтехам и стриминговым сервисам — тем, кому важно постоянно развивать и дорабатывать свои продукты с опорой на данные.

Что им даст Trisigma?
⏺️ Автоматизацию тестирования — это даст возможность проводить больше тестов и при этом освободить время аналитиков.
⏺️ Информативные и точные отчеты с результатами тестов. Автоматизация позволяет избежать ошибок, связанных с человеческим фактором.
⏺️В итоге — принятие решений на основе данных и быстрое внедрение новых функций в продукт.

По словам управляющего партнера Авито Ивана Гуза, применение подхода с A/B тестированием обеспечивает дополнительный прирост ключевых показателей компании, таких как выручка или количество покупателей, в коридоре от 10 до 20% в год.

➡️ Для тех, кто хочет познакомиться с возможностями Trisigma, команда Авито Тех уже открыла прием заявок.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6 TB в SQLite

Как известно, те, кто хочет, ищет способы, а те, кто не хочет — оправдания.

Те, кому не хватает целеустремленности и авантюризма, говорят, что SQLite не заточена под работу с большими объемами данных и вообще не в этом ее главное преимущество. Те, кто открыт новому и не боится вызовов, делают базу на 6 терабайт.

Ко вторым относится автор searchcode — проекта по поиску исходного кода. В базе больше 75 миллиардов строк из 40 миллионов проектов. Вот так 6,4 ТБ данных и набежало.

⏺️Изначально автор использовал MySQL, и был верен ей с самого начала до конца 2024 года. Но он постоянно искал способы сделать архитектуру проекта проще и удобнее — и пришел к мысли, что пора переходитm на SQLite.
⏺️Переход не всегда был простым — пришлось и разобраться, как обойти ошибку database is locked, и найти способ сжатия данных в SQLite. В MySQL вопрос решался через функцию compress, а вот в SQLite решение оказалось не таким очевидным.

Спойлернем: автор начал с поисков стороннего плагина, но в итоге пришел к тому, что более жизнеспособный вариант — компрессия на уровне файловой системы.

⏺️Несмотря на все сложности, SQLite с 6,4 ТБ справляется не хуже, а иногда даже лучше, чем MySQL. Автор все равно переживает, что какие-нибудь проблемы все равно вылезут, но пока полет нормальный.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Umami — альтернатива Google Analytics

Как бы ни был хорош, привычен и удобен Google Analytics, не всем нравится, что корпорация собирает и использует в своих целях их данные. Если вы не хотите делиться с Google информацией о своих пользователях, можно рассмотреть альтернативы — например, Umami.

Это бесплатный инструмент для веб-аналитики с открытым исходным кодом.

⏺️ Поддерживает PostgreSQL и MySQL. Судя по отзывам — работает устойчиво и стойко переваривает даже большие потоки данных.
⏺️Простой интерфейс с гибкими настройками событий и действий юзеров, которые вы хотите трекать. Можно отслеживать действия, клики, переходы и удержания, строить воронки — в общем, все, что надо.
⏺️Для тех, кто не хочет хостить инструмент самостоятельно, есть облачная версия.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Польза несовершенства на примере BlueSky

BlueSky — соцсеть, созданная как альтернатива Twitter. Принцип работы тот же: пользователи создают профили, подписываются на других пользователей и видят их посты в своих лентах.

Давайте посмотрим, как это работает изнутри и почему часть постов не доходит до подписчиков — и это нормально.
⏺️ Таблица Timeline — те самые ленты постов — разделена на несколько шардов, где для каждого юзера выделена своя партиция. Всего на 32 млн пользователей приходится несколько сотен шардов.
⏺️ Когда кто-то выкладывает новый пост, он разлетается по его подписчикам и встраивается в таблицы, из которых формируются их ленты. Одновременно старые сообщения выводятся из них.  Этот процесс работает нормально, если пользователи не шалят и не подписываются на всех подряд. Но если кто-то подписывается на тысячи или сотни тысяч аккаунтов, начинаются проблемы.
⏺️ Его лента постоянно обновляется, и это создает повышенную нагрузку не только на его партицию, но и на соседей по шарду. При этом сам пользователь (если это и правда человек, а не бот) никогда не сможет прочитать все сообщения в ней. Значит, и BlueSky незачем выводить все-все новые посты — достаточно просто, чтобы в ленте регулярно появлялся новый контент.

Так, чтобы избежать перегрузки, BlueSky внедрили такие понятия:
⏺️ разумное ограничение (reasonable limit) на число подписок — то есть сколько подписок нужно, чтобы лента стабильно обновлялась и оставалась читабельной.
⏺️ loss_factor — процент новых сообщений, которые не попадут в ленту пользователя. Он рассчитывается по формуле min(reasonable_limit/num_follows, 1).

Допустим лимит у нас 2000, а подписан пользователь на 8000 аккаунтов. В этом случае loss_factor = 0,25, то есть только 25% новых постов попадут в его ленту.

Внедрение таких запрограммированных потерь помогло значительно поднять производительность и снизить задержки.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Коннектор Tableau + ClickHouse

Команда ClickHouse представила официальный коннектор с Tableau.

⏺️Работает с Tableau Desktop и Tableau Server — для Cloud пока не завезли. Всех, кто считает, что это упущение надо исправить как можно скорее, призывают писать об этом команде ClichHouse.
⏺️В Tableau's Data Source Verification Tool коннектор показал совместимость 98%. 2% приходятся на специфические форматы даты и времени, которые ClickHouse не поддерживает.
⏺️Коннектор вместе с инструкциями по установке доступен в Tableau Exchange.
⏺️Подробный гайд, как пользоваться коннектором и собрать дашборд в Tableau на основе датасета в ClickHouse опубликован в блоге СУБД. Этот датасет, кстати, можно скачать и самостоятельно потестить, как работает коннектор.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Docs: как Notion, только open source

Очередная бесплатная альтернатива популярному платному тулу — на этот раз заменяем недоступный в РФ Notion опенсорсным Docs.

➡️ Это инструмент для совместной работы над текстовыми документами, разработанный совместно правительствами Франции и Германии. Да, это не просто чей-то pet project, сделанный из любви к искусству. Все серьезно.

Визуально Docs выглядит как Notion, но попроще — впрочем, так и надо. Его представляют как бесплатную, удобную и безопасную альтернативу, в которой нет ничего лишнего. Можно писать и форматировать текст одному или вместе с коллегами — как и в Notion, тут есть возможность раздать разные уровни доступа.

Есть даже поддержка AI-функций для перевода или создания краткого саммари документа.

У проекта есть cвой сайт и github.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Каталог чартов Tableau

Tableau Public — источник вдохновения и полезных приемов по работе с Tableau. Мы часто постим особенно впечатлившие Viz of the Day — визуализации, не всегда применимые в работе, но интересные и наглядно показывающие возможности инструмента.

➡️ Для случаев, когда надо вдохновиться особенно сильно или подсмотреть, как круче сделать какой-то конкретный график, есть целый каталог чартов.

В нем собрали ссылки на Viz of the Day, где использовали различные виды графиков и визуализаций. Есть и весьма небанальные, так что если вам надо будет посмотреть, как сделать в Tableau прогресс-бар или завернуть линейный график в круг, в этом каталоге вы найдете ответ.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Visual DB — фронтенд для базы данных

Любопытный инструмент, который позволяет создавать формы и интерактивные отчеты, просматривать, добавлять и редактировать данные в таблицах. Задача Visual DB — сделать доступ к данным удобнее и проще, поэтому он не требует знания SQL для работы, а еще предлагает использовать ИИ для создания форм.

⏺️Работает с распространенными БД, СУБД и облачными сервисами: MySQL, MariaDB, PostgreSQL, Oracle, Neon, Azure SQL, Amazon RDS, Google Cloud SQL, AlloyDB.
⏺️Можно пользоваться облачной версией, можно захостить на своем сервере (или просто на ПК или ноуте).
⏺️Инструмент бесплатный, но есть тариф Business аж за 5 долларов в месяц с юзера. Его главное отличие в отсутствии ограничений на количество записей в БД.

Ознакомиться со всеми функциями можно на сайте проекта.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤️О любви к CSV

Формат данных CSV — Comma-Separated Values, «значения, разделенные запятыми» — появился еще в 70-х, и с тех пор люди ничего лучше не придумали.

Ладно, может быть, и придумали, но CSV, так или иначе, жил, жив и будет жить еще долго. Он все еще часто используется для хранения данных, несмотря на то что за эти 50 лет разработали множество других форматов.

Почему так?
Юзер с гитхаба уже ответил за нас и перечислил целых 9 причин, почему этот формат заслуживает нашей любви. Как любят писать в кликбейтных статьях, пункт 9 вас поразит!

1️⃣ CSV простой — вся суть формата отражена в названии. Ничего лишнего.
2️⃣ CSV никому не принадлежит, а потому навсегда останется бесплатным и доступным.
3️⃣ CSV — это простой текст, который можно открыть и отредактировать в любом редакторе без всяких сложностей. Для этого не нужен никой специальный платный софт.
4️⃣ CSV не требователен к ресурсам и к памяти компьютера.
5️⃣ В CSV-документы можно легко и эффективно дописывать новые строки.
6️⃣ CSV динамически типизирован — тут есть свои минусы, но это делает его очень гибким при работе с разными типами данных.
7️⃣ CSV лаконичен.
8️⃣ Обратный CSV все еще CSV — информация не потеряется, даже если прочитать документ не с начала, а с конца, байт за байтом.
0️⃣ Excel ненавидит CSV — а значит, уже за это формат заслуживает уважения.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Do you speak SQL?

Мы решили собрать подборку 10 суперполезных, на наш взгляд, сервисов для проверки и прокачки навыков SQL.

➡️ DATALEMUR
Сервис позволяет потренироваться на тестовых заданиях, выбрав один из трех уровней сложности: Easy, Medium и Hard. Создатель сервиса — Ник Сингх, автор книги «Ace the Data Science Interview». Сервис бесплатный, но требуется регистрация.

➡️ LEETCODE
Удобный в навигации сервис с более чем 2.5К тестовых заданий, позволяющий задать себе собственную программу обучения, чтобы подготовиться к конкретному карьерному апгрейду. Есть два вида подписок: на месяц ($35) и на год ($13.25/месяц).

➡️ Zachary Thomas' SQL Questions
Небольшой гид для аналитика данных с тестовыми задачами средней и повышенной сложности. Успеете разобрать за 1 час — лишним не будет!

➡️ WINDOW FUNCTIONS
Вы же любите оконные функции? Тогда этот бесплатный тренажер на Postgres стоит добавить в закладки.

➡️ CODE ACADEMY
Более 940К студентов, сертификат по окончании курса — прекрасные показатели того, что закончив этот курс (пишут, что можно уложиться в 8 часов), начинающий дата аналитик освоит SQL в достаточной мере, чтобы любое тестовое задание было по силам. Есть бесплатный базовый аккаунт, Pro Lite ($13.99/месяц) или Pro ($19.99/месяц).

➡️ SQL BOLT
Полностью бесплатный курс по SQL из 20ти интерактивных уроков, создатели которого будут благодарны донатам через Paypal, но не настаивают. Интерфейс сервиса довольно строг и минималистичен, что позволит по максимуму погрузиться в тему, не отвлекаясь на рекламу и лимиты бесплатных версий, как бывает с конкурентами этого курса.

➡️ SQL ZOO
Построенный на движке MediaWiki, этот каталог бесплатных уроков начинает с азов и поэтапно подводит ученика к использованию SQL с C#, PHP на серверах Amazon EC2 и транзакциям.

➡️ HACKERANK
Сервис, клиентами которого являются компании из списка Fortune 100, Atlassian, Bloomberg, Adobe, LinkedIn, у которого свыше 3К компаний-клиентов. Он не только предоставляет услуги опосредованного тестирования соискателя, но и предлагает курсы по совершенствованию навыков SQL. Регистрация обязательна.

➡️ SQL TEACHING
CASE, SUBSTR, COALESCE — это темы трех последних уроков из курса, который вы можете пройти совершенно бесплатно. Целых 31 функции, навыки использования которых вы можете отшлифовать, всего лишь открыв ссылку сверху!

➡️ W3 SCHOOL
Довольно удобный бесплатный сервис, но с небольшим недостатком — интерактивные упражнения открываются в новой вкладке, и если вы не минималист, познавший дзен в браузере, вкладки и окна которого можно пересчитать на пальцах одной руки, то три сосны могут внезапно разрастись в целый сосновый бор.

🔄 Все сервисы англоязычные!

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Персональный тренер по SQL: быстро, качественно, ChatGPT

Если среди вас есть те, кто осваивает азы SQL с помощью разных онлайн тренажеров и курсов (и, возможно, даже нашего Data марафона для начинающих аналитиков), то, вероятно, вам будет любопытно узнать, что в дополнение к рутинным SQL заданиям можно добавить кое-что новенькое от ChatGPT.

В этой статье на Medium собраны 5 способов, как сделать из ChatGPT персонального наставника для освоения базы SQL. Так, вы можете:

⏺️ попросить ChatGPT доступно и кратко объяснить, что означает та или иная команда, и дать примеры использования;
⏺️ попросить нейросеть определить, какую команду SQL использовать для вашей задачи, и дать пример решения;
⏺️ спросить, как с помощью SQL решить ту или иную комплексную задачу, описав ее обычным, «человеческим» языком;
⏺️ узнать, что делает определенный кусок кода, и разобрать каждую из его составляющих подробно;
⏺️ превратить ChatGPT в вашего наставника, который будет генерировать для вас задания и проверять ваши варианты решения.

Узнать подробнее, как можно таким образом взаимодействовать с ChatGPT, можно в посте, а мы предлагаем вам в комментах поделиться вашими лайфхаками о том, как вы работаете с SQL и ChatGPT. А если это что-то прям суперкрутое, мы даже отдельный пост про это напишем!

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Не любите данные? Вы просто не умеете их готовить

Уверены, что все наши подписчики любят данные, но не удержались от этой шутки.

➡️ Знаете, что такое Mise en place?

Это французский кулинарный термин, который переводится как «ставить на место». Так называют подготовку ингредиентов, когда повара заранее отмеряют, нарезают и раскладывают по мискам продукты, чтобы не тратить время потом. Так овощи не сгорят, пока вы режете мясо, или не окажется вдруг в процессе готовки, что какого-то важного компонента не хватает.

Этот подход можно использовать не только в кулинарии, но и в других областях, включая работу с данными. Их тоже надо подготовить, почистить и упорядочить. Как это сделать, рассказывает статья в блоге сервиса по визуализации данных Datawrapper.

Это целый лонгрид на 20 минут, но, если уделить ему время сейчас, вы сэкономите себе много часов работы и нервов в будущем. Автор статьи дала множество простых, но полезных советов, которые облегчат жизнь. Например:

1️⃣ Не вносить никакие изменения, не сделав бэкап. Если окажется, что вы удалили что-то нужное, придется все отматывать обратно.
2️⃣ Сохранить все ссылки на источники.
3️⃣ Удалить все лишнее — ссылки, сноски, единицы измерения (их лучше убрать в заголовки, а в ячейках оставить только цифры).
4️⃣ Не забывать о форматировании — разделить все слитые ячейки, закрепить первую строчку и ряд, чтобы они всегда были на виду.

Каждый пункт сопровождает короткая инструкция по работе с Excel и Google Sheets с описанием, куда именно нажать, чтобы все заработало. Статья будет особенно полезна новичкам, но и опытные пользователи точно что-нибудь почерпнут!

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Свет мой, ChatGPT! Скажи, да всю правду доложи

Модель ChatGPT, натренированная OpenAI, — одна из нашумевших новостей прошлого года, и посты о ней льются в соцсетях бесконечным потоком. Но нам же хочется чего-то применимого на практике, верно?

Тогда вот: 50 подсказок, которые можно использовать, чтобы ChatGPT генерировала текст в рамках определенной задачи. Хотите попереписываться с Гермионой Грейнджер? Или завести библиотеку английских панчлайнов? Или потренироваться для предстоящего интервью на должность старшего аналитика данных? Тогда вот целый PDF с идеями, как скрасить себе вечер, прокачать навыки в письме на английском или повысить уверенность в себе.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ DataLens открывает галерею дашбордов и не только

Любите иногда позалипать повдохновляться на Tableau Public? Да, мы тоже — а кто не любит?

Теперь то же самое можно будет сделать, но с дашбордами на Yandex DataLens — сервис запускает DataLens Gallery. Это галерея с готовыми примерами дашбордов и чартов. Можно будет как добавить свою работу, так и посмотреть чужие, еще и с разбивкой по отраслям. Особенно понравившиеся даже можно будет развернуть у себя — если автор дал разрешение.

Кроме того, DataLens запускает:

⏺️Editor JavaScript-редактор для кастомизации графиков и таблиц с поддержкой интеграции данных из разных источников, включая внешние API. Он нацелен на опытных аналитиков, но в будущем планируется внедрение LLM-помощника для генерации визуализаций по текстовому описанию.

⏺️Экспорт/импорт и перенос воркбуков между окружениями. Переносить объекты между инсталляциями станет намного проще, где бы они ни находились. Уже доступно в Yandex Cloud и open-source, а скоро обещают и в on-premise.

⏺️Программу сертификации для специалистов по работе с сервисом. Чтобы получить сертификат и с гордостью написать в резюме, что вы владеете DataLens, нужно будет сдать экзамен: там проверят умение работать с чартами, датасетами, датасорсами и дашбордами. Вообще это будет стоить 5000 рублей, но до конца августа — всего 2500₽.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM