Data Science: SQL и Аналитика данных – Telegram

Data Science: SQL и Аналитика данных

@pizdatascience

39.9K subscribers

245 photos

54 videos

1 file

300 links

№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri

Download Telegram

About

Blog

Apps

Platform

Data Science: SQL и Аналитика данных

39.9K subscribers

Data Science: SQL и Аналитика данных

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

Овечкин: 895 шайб и откуда они летели

Последние два дня много обсуждают, как и кто показал рекорд Овечкина в виде инфографики. Мне скинули вот такой видосик из инсты, где показывали каждую шайбу и откуда она была забита. Идея очень классная — но реализация полный отстой: такие крутые данные, а увидеть картинку целиком нельзя. Как мне кажется, оно ещё и сделано не на реальных данных. По крайней мере, последняя шайба точно не из этой позиции.

Использовали Gemini для сборки данных и работы с API, а Cursor — чтобы это всё накодить. Вообще, для вот такого рода проектов это какая-то чума. Я за пару вечеров собрал эту штуку — и она работает! Чудный новый мир.

Потыкать самому — https://revealthedata.com/examples/ovechkin/

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

7.08K viewsedited 08:23

Data Science: SQL и Аналитика данных

👀 Пятница — не время для перегруза, поэтому просто держите мем

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.69K views10:14

Data Science: SQL и Аналитика данных

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

Да, это тетрис на SQL

Про GPT на SQL мы уже как-то рассказывали, а теперь вот нашли тетрис.

Для запуска нужен Postgres — чтобы обойти некоторые ограничения языка, автор воспользовался возможностями именно этой СУБД.

Скачать игру можно на гитхабе автора и там же почитать, с какими проблемами он столкнулся во время работы над проектом и как искал решения. Материал впечатляющий, как и результат работы. Единственный минус в том, что автор почему-то не назвал свой проект TetriSQL.

А какие впечатляющие проекты на SQL попадались вам?

👀

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.77K views07:34

Data Science: SQL и Аналитика данных

🔥

Self-service BI: за или против?

Self-service BI — это подход к аналитике, который состоит в том, что бизнес-клиент сам, без помощи дата-команды, может формулировать запросы к данным и создавать отчеты.

Учить SQL никого не заставляют. Пользователь с помощью кнопок и менюшек в интерфейсе выбирает, какие данные и в каком виде ему нужны, а BI-система превращает это в SQL-запрос. И, конечно, не забываем про ИИ: уже есть достаточно self-service-инструментов с прикрученными к ним LLM. Они «переводят» на SQL запросы пользователей на естественном языке.

➡️

В итоге это всем экономит время: аналитики не отвлекаются на текучку от более крупных и важных проектов, а заказчики не ждут, пока дата-команда возьмется за задачу.

В теории круто. Да и на практике работает — мы рассматривали такой кейс в одном из выпусков Data Heroes (YouTube, VK).

Но есть и минусы или, скорее, опасения.

1️⃣

Широкий доступ к данным — так себе идея. А вдруг пользователи сервера уронят своими самодельными дашбордами, если их станет слишком много?

2️⃣

Аналитика — это не просто сделать выгрузку и нарисовать какой-то график. Чтобы эффективно работать с данными, надо понимать, как они хранятся в базе и как взаимосвязаны друг с другом, как правильно представить их на графиках, чтобы действительно найти в них инсайты. Да и в конце концов, какой бы ни был дружелюбный и понятный интерфейс у инструмента, все рано надо учиться им пользоваться. Не факт, что пользователи действительно захотят учиться, а дата-команда — захочет и сможет их обучить.

3️⃣

Self-service BI все равно надо настраивать и поддерживать, и нет гарантий, что это будет намного проще, чем работать с пользователями и бизнес-заказчиками напрямую, «по старинке».

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.7K views10:49

Data Science: SQL и Аналитика данных

🔥

От 1234 до 8068

Несложно посчитать, что существует 10 000 возможных вариаций ПИН-кодов из 4 цифр.

Также довольно легко догадаться, какие из них будут самыми популярными. Наверняка, почти все, кто читает этот пост, подумали про 1234, 1111 или 0000.

Но вот какая комбинация цифр будет самой непопулярной? Да, у нас спойлер в заголовке. Какие еще ПИН-коды пользуются популярностью? Есть ли тут какая-то закономерность или это чистый рандом?

➡️

На графике выше вы можете видеть, что закономерности таки есть
График составил аналитик Ник Берри в 2012 году на основе 3,4 миллионов слитых в интернет ПИН-кодов. Да, данные не самые новые, но что-то нам подсказывает, что вряд ли за эти 10 лет что-то сильно изменилось.

⏺️Чем светлее точка, тем популярнее код. Рандомно раскиданные черные точки — самые редкие коды. Среди них и 8068, комбинация, которая встретилась всего 25 раз.
⏺️Светлая линия в центре — ПИНы из повторяющихся пар цифр (1212, 1313 и так далее).
⏺️Светлая линия в нижней части — ПИНы, начинающиеся на 19. Вероятно, многие из них — год рождения.
⏺️В левом нижнем углу — большой светлый блок, обрывающийся по обеим осям после 30. Можно предположить, что среди них много пинов, в которых зашифрованы даты рождения. Также люди любят коды, которые начинаются с 0 или 1.

Рассмотреть график поближе можно здесь, а почитать про исследование Ника и его выводы — в его статье. Там же есть топ-20 кодов, на которые приходится аж 26% всех ПИНов из его датасета.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.39K views17:55

Data Science: SQL и Аналитика данных

🔥

AlphaFold 3: как ИИ двигает науку вперед

Давно не рассказывали про то, как ИИ трудится на благо науки. Исправляемся — сегодня на повестке модель для предсказания структуры белков AlphaFold 3.

➡️

AlphaFold 3 разработали Google DeepMind and Isomorphic Labs. Как можно догадаться по названию, это уже третья версия: первую представили в 2018 году, вторую — в 2020. Она нужна для того, чтобы предсказывать структуру белков, их функции и взаимодействия друг с другом и иными веществами.

➡️

Почему это важно?
У белков безумно сложная структура, которую очень тяжело «расшифровать» и описать. А нужно это делать для того, чтобы лучше понять, как они воздействует на другие молекулы. Эта информация полезна при разработке лекарств или при изучении того, как функционирует живой организм — человеческий и не только.

До того, как для этих целей начали использовать ИИ, описание структуры белков было очень долгой и тяжелой задачей. Поэтому AlphaFold оказала огромное влияние на биологию, биохимию и фармацевтку — модель описала больше 200 миллионов белковых структур и значительно упростила работу исследователей. Новая версия стала еще мощнее и теперь способна предсказывать еще более сложные структуры, чем раньше, — целые белковые комплексы.

➡️

Ну и когда ждать лекарство от всех болезней?
А вот тут пока непонятно. Во-первых, надо понимать, что ИИ, при всех свои возможностях, все еще не творит чудеса и даже не гарантирует 100%-ную точность своих предсказаний.

А еще разработчики не стали делиться исходным кодом третьей версии, как сделали с предыдущими. Вместо этого они запустили AlphaFold Server. Он бесплатный, быстрее AlphaFold 2, но предназначен только для некоммерческих исследований и не позволяет предсказывать структуры веществ, которые могут быть использованы как лекарства.

Вот такие новости науки. 👀

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.02K views06:58

Data Science: SQL и Аналитика данных

This media is not supported in your browser

VIEW IN TELEGRAM

👀

ChartDB — бесплатный редактор диаграмм БД

Мало что радует так же сильно, как когда находится простой, полезный и бесплатный инструмент, который можно вот просто взять и начать использовать без регистраций и SMS.

ChartDB — как раз такой. Это open source тул, который создает схемы БД за один запрос и 15 секунд.

⏺️ Можно запустить локально (за инструкциями идем на гитхаб), также есть веб-версия.
⏺️ Работает с PostgreSQL, MySQL, SQL Server, MariaDB, SQLite и
⏺️ Получившиеся схемы можно редактировать, дополнять комментариями или экспортировать в виде картинок, если вы захотите добавить их в отчет или документ.

Все это бесплатно, однако есть но. ChartDB пока находится в публичной бете, так что со временем разработчики могут добавить какую-нибудь монетизацию. И скорее всего, это и сделают. Так что поспешите потестить инструмент, пока это не случилось. 👀

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.48K views09:16

Data Science: SQL и Аналитика данных

👀

Полнотекстовый поиск в PostgreSQL: какое решение лучше?

Нашли описание маленького, но интересного исследования на 50+ респондентов, которые рассказали, какие инструменты они используют для полнотекстового поиска (или full text search/FTS) в Postgres.

➡️ Большинство голосов получили Elasticsearch и нативный FTS-функционал в Postgres, хотя у каждого есть как минусы, так и плюсы.

⏺️

FTS в Postgres простой (то есть не требует дополнительной инфраструктуры) и надежный, но плохо справляется большим датасетами, а его возможности ограничены — например, нет поддержки BM

⏺️

Elasticsearch — поисковый движок без ограничений «родного» поиска Postgres. Он быстро обрабатывает огромные массивы информации и «переваривает» почти любые запросы. При этом не обеспечивает такую же надежность и точность результатов, а еще требует больше ресурсов для внедрения и поддержки. Некоторые участники опроса рассказали, что Elasticsearch обходится им дороже всего остального софта, который они используют в работе.

Есть и другие альтернативы, в том числе и ParadeDB — инструмент, разработанный авторами исследования (да, опрос они проводили не просто так, а чтобы рассказать про свой проект).

Свое главное преимущество они видят в том, что их решение изначально заточено на работу именно с Postgres, а потому просто в использовании и при этом позволяет расширить его возможности, почти как Elasticsearch. В общем, берет лучшее от обоих.

А что выбираете вы? Ждем ваших вариантов! 👀

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.33K views15:07

Data Science: SQL и Аналитика данных

👀

Скоро этот мем потеряет актуальность

СЕО Google Сундар Пичаи рассказал, что больше четверти всего кода в компании пишется с помощью ИИ, и это помогает серьезно ускорить и упростить работу инженеров.

Уверены, что скоро больше компаний последуют примеру Google. Такими темпами уйдет эпоха Stack Overflow и ~~копирования~~ поисков вдохновения в коде коллег — потому что зачем это все делать, если ChatGPT сама все напишет, а человеку надо будет только проверить?

И наверняка это случится не только в IT.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.22K views09:26

Data Science: SQL и Аналитика данных

🔥

Нейроконтент для алгоритмов

Бывает у вас такое, что заходите на сайт, смотрите, что там написано, и не можешь понять, для кого вообще это все? Неужели кому-то может быть интересно читать или смотреть это?

🔄

Мы нашли ответ — это все делается для алгоритмов Google.

Автор сайта The Luddite решил монетизировать какой-нибудь из своих проектов одним из простейших доступных ему способов — прикрутив к нему рекламу. Выбор пал на сайт Apportionment Calculator с алгоритмом, который рассчитывает, сколько мест в конгрессе получит каждый штат получит на основе переписи населения.

В общем, что-то на американском, но это и не так важно. Главное, что это был простой маленький сайт с одной-единственной задачей.

Google это не понравилось
Когда автор подал заявку в AdSense, ему почти сразу пришел отказ с формулировкой «сайт не отвечает требованиям платформы». Он навел справки и выяснил, что Google любит, когда на странице много оригинального, но необязательно качественного контента. А кто справляется с созданием такого контента лучше нейросети?

С помощью друзей и ChatGPT автор сайта добавил на него:
⏺️ историческую справку,
⏺️ страничку с рецептами (там есть, кстати, рецепт десерта «алгоритмический восторг»),
⏺️ поэтический уголок,
⏺️ загадки,
⏺️ и, конечно же, блог.

Весь контент, кроме иллюстраций, был сгенерирован ChatGPT. Особенно хорошо получились загадки. Вот одна из них — чтобы сохранить дух оригинала, перевели ее тоже нейросетью.

В загадках о власти я ключом становлюсь,
Ты в сделках найдёшь меня наяву.
Соглашение – цель, что нам всем по пути,
Встретиться в середине, где интересы нашли.
Что я?

Ответ: Найти компромисс

Как вам? Google тоже понравилось, и заявку автора на размещение рекламы на этот раз одобрили. История получилась смешная, но при этом немного грустная. Роботы и алгоритмы все больше вытесняют людей из интернета. 🤖

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.31K views09:32

Data Science: SQL и Аналитика данных

👀

Экономика open source: сколько денег приносит бесплатный проект

Spliit — приложение для совместного ведения расходов. С его помощью можно вести совместный семейный бюджет или планировать траты в поездке с друзьями. Приложение бесплатное, без премимум-фич и рекламы, а еще требует от создателя небольших, но регулярных затрат ~100 долларов в месяц — в основном на хостинг.

🔄

Можно ли при таком сценарии заработать на своем проекте? Давайте разбираться.
Приложению уже несколько лет, но версия, о которой пойдет речь ниже, появилась всего год назад.

⏺️ За это время в приложение зашли 152к раз, из них 29к — по ссылке. То есть кто-то создал группу и пригласил в нее друзей или родных. В неделю в Spliit заходят 5000-6000 раз.
⏺️ Пользователи создали 15к групп и 162к записей о расходах. В неделю создают в среднем по 300 групп и 2000 записей.

Получается, что пользуются им довольно активно. Так как оно бесплатное, поддержать автора можно донатами — либо через сервис Stripe, либо через GitHub.

Суммы донатов разные — от 6 долларов в месяц до 107, но большинство в пределах от 20 до 40.

Вот такая экономика — кажется, что заработать на бесплатном проекте, исключительно на людской доброте и благодарности, будет сложновато.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.17K views09:30

Data Science: SQL и Аналитика данных

🔥

Как Discord хранит данные

У мессенджера Discord больше 150 млн активных пользователей и 19 млн серверов, где эти люди общаются и генерируют миллиарды сообщений.

🔄

Как компания хранит такой огромный массив данных?

Об этом команда Discord рассказала в блоге проекта. Приводим оттуда самое любопытное.
⏺️ Сообщения пользователей хранились в БД Cassandra. В 2017 году было 12 нодов с миллиардами сообщений. В 2022 — 177 с триллионами.
⏺️ Сообщения из одного канала хранились в одной партиции и реплицировались на три нода. Такой подход не вызывал проблем с небольшими каналами, зато активные сообщества на сотни юзеров создавали большую нагрузку. В Dicsord это называли «hot partition» — не оригинально, но понятно.
⏺️ Ситуацию усугубляло то, что в Cassandra чтение файлов «дороже» для системы, чем запись. Из-за этого «hot partition» могло спровоцировать сообщение, отправленное на всех юзеров в большом канале. Когда они все разом открывали приложение, начинали оставлять ответы и реакции, это приводило к серьезным лагам.

🔄

Проблемы из-за «горящих партиций» возникали слишком часто, и команда решила переехать на другую базу — ScyllaDB. Но очевидно, что простая смена базы не решила бы проблему.

⏺️ В Discord разработали сервисы, через которые данные просеивались прежде, чем попасть в базу. Если поступало одновременно много запросов к одной и той же строке в базе, сервис аккумулировал и только после этого отправлял в ScyllaDB.
⏺️ В итоге она оказалась намного более стабильной и эффективной базой. Данные, которые в Cassandra хранились в 177 нодах, в ScyllaDB уместились на 72.
⏺️ ScyllaDB с поддержкой дата-сервисов не уронил даже Чемпионат Мира по футболу. Забавно, что на графиках Discord было хорошо видно ключевые моменты матчей — нагрузка резко возрастала в ответ на каждый гол Месси.

У Discord ситуация не уникальная, но не частая — не так много компаний, которые ворочают такими массивами данных. И все же надеемся, что вы почерпнули из их опыта что-то полезное для себя.

p.s. Обратите внимание на наших партнеров выше👆

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.49K viewsedited 10:43

Data Science: SQL и Аналитика данных

🔥Все, что вы хотели знать о дата-инжиниринге

На гитхабе выложили список must-read и must-see материалов для всех, кто вкатывается в дата-инжиниринг. Или уже вкатился, но хочет прокачать скиллы.

⏺️Роадмап, с чего начать знакомство с профессией.
⏺️Курсы и книги.
⏺️Профессиональные коммьюнити, блоги и подкасты.
⏺️Инструменты для оркестрации, хранения и визуализации данных.

В общем, все, что может пригодиться начинающему и продолжающему инженеру. Знаете таких? Тогда покажите им этот пост, и себе его сохранить не забудьте.

❤️

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.52K viewsedited 06:06

Data Science: SQL и Аналитика данных

👀

Оценка компетенций разработчика с помощью ИИ: за и против

Звучит, как сюжет из «Черного зеркала»: робот, который оценивает, подходит ли соискатель на должность или хватает ли сотруднику знаний для повышения. Но это не фантастика, а вполне реальная практика.

Конечно, на деле все не так мрачно, как сериале, и судьбы людей от решений роботов (пока) не зависят. ИИ лишь помогает ускорить процесс скрининга.

➡️

Технологию предложила компания Jumse. Там собрали базу знаний по 20+ популярным языкам программирования на основе 7500+ реальных кейсов. Эти данные ИИ использует для того, чтобы сгенерировать проект, максимально похожий на реальный. Разработчик должен провести ревью этого проекта и найти ошибки в коде.

Jumse позволяет провести хоть быстрый precheck, чтобы отсеять слабых кандидатов, хоть полноценный многочасовой ассесмент.

В итоге:
⏺️ HR могут проверить технические скиллы, не дергая техлидов на собеседования.
⏺️ СТО и руководители направлений смогут оценить навыки своих сотрудников и найти их сильные и слабые стороны.
⏺️ Сами разработчики смогут проверить свои знания на почти реальных кейсах и найти точки роста.

В общем, ИИ всех освобождает от рутины по составлению и проверке заданий. В теории звучит интересно, но на практике проверить качество скрининга может только тот же техлид или хотя бы достаточно опытный разработчик. Всем прочим остается только довериться решениям искусственного интеллекта.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.77K views08:38

Data Science: SQL и Аналитика данных

🔥

Инструмент, который вытащит нужные данные из PDF

Магия искусственного интеллекта избавляет от необходимости самостоятельно ковыряться в PDF’ках, чтобы найти в них нужные данные.

➡️

Documind — маленький open source инструмент, который сделает это за вас. Он обрабатывает PDF-файлы с помощью API OpenAI и возвращает структурированные данные.

Можно самостоятельно дать задачу, какие данные и в каком формате вам нужны, а можно воспользоваться готовыми шаблонами. Пока их всего три: инвойс, банковская выписка и водительское удостоверение из Великобритании. Не густо, но разработчики обещают добавить еще, а также работают над облачной версией. Пока в нее пускают только после отправки реквеста через сайт проекта.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.73K views09:05

Data Science: SQL и Аналитика данных

➡️

Логика семплинга в SQL

Кажется, что пятница — время расслабиться и почитать что-нибудь легкое?

А вот и нет. 🔥 Принесли вам основательный лонгрид про семплинг с помощью SQL:

⏺️ Как работают алгоритмы выборки без замены и с заменой и как реализовать оба.
⏺️ Как увеличить скорость обработки запроса, понимая особенности чтения данных в БД.
⏺️ Как сделать рандомную выборку чуть менее рандомной.

Автор не пишет «press X to win» — то есть «напишите вот такой запрос, чтобы получить вот такой результат», а подробно объясняет логику их работы с формулами и ссылками на дополнительную литературу. Думаем, будет полезно и новичкам, и тем, кто с SQL работает уже не первый день.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.64K views09:05

Data Science: SQL и Аналитика данных

🔥

За что они так любят Excel?

Мемы про сложные отношения аналитиков с Excel появились не на пустом месте. Часто пользователи просто не понимают своего счастья и не ценят все эти прекрасные дашборды, которые для них любовно собирают аналитики, BI-специалисты и дата-инженеры.

«Да, красиво, удобно, но можно те же данные в Excel показать, пожалуйста?»

☝🏻 Знакомо?

Это может раздражать или фрустрировать, но это происходит не без причины. И часто причина — именно в дашбордах, которые сделали именно для того, чтобы сделать жизнь пользователя лучше.

1️⃣ Пользователь не доверяет данным. Ему понятен формат обычной таблички, а с дашбордом он просто может не понимать, откуда взялись данные или как был сформирован график.

➡️

Тут может помочь дополнительное обучение, инструкции и подсказки — все, что сделает дашборд понятнее.

2️⃣ Перемены нервируют или нарушают привычный рабочий процесс. Пользователь привык работать со своими таблицами, даже если они неудобные и громоздкие, а на составление отчетов уходила куча времени. Теперь ему надо привыкать к новому инструменту и менять процессы — это почти никому не нравится. Может быть, этот дашборд вообще ему не нужен был, а сделали его по требованию руководства.

➡️

Тут поможет обмен опытом. С одной стороны стоит привлекать пользователя к работе над дашбордом, чтобы он понимал, что и зачем делается и как это поможет ему в работе. С другой стороны — аналитикам надо понимать, как пользователь будет взаимодействовать с дашбордом, как он встроится в его рабочий пайплайн.

3️⃣ Дашборд просто неудобный. Он непонятный, он долго грузится, на нем миллион фильтров и кнопок, за которыми прячутся нужные данные. Да, так бывает — как бы вдумчиво вы ни подходили к разработке, иногда просто что-то идет не так.

➡️

Что тут посоветовать? Собрать фидбек и вносить правки.

Если хочется почитать подробнее, то вот хорошая статья на эту тему.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.75K views09:05

Data Science: SQL и Аналитика данных

🔥

Dataviz, Data Science и HR

К традиции подводить итоги в конце года все относятся по-разному: кому-то все равно, для кого-то это повод вспомнить, что хорошего произошло за последние 12 месяцев, а для кого-то —причина для стресса.

В последнюю категорию нередко попадают сотрудники корпораций. Те тоже в конце года подводят итоги и оценивают результаты своих подчиненных. 10% (или 15%, или 20%) лучших получат премии, а 10% со дна рейтинга отправятся искать новое место работы.

Обычно результат этой оценки представляют в виде всем знакомой куполообразной кривой. И это выглядит логично:
⏺️ Это универсальный график, уместный для визуализации данных из самых разных областей. Если в компании дела идут нормально, то и результаты сотрудников тоже распределятся по осям нормально.
⏺️График четко делит людей на несколько групп: «среднячки» в центре, топы и аутсайдеры по краям. Это наглядный, честный и объективный способ визуализировать, кто работал хорошо, а кто не постарался.

Так ведь?
Ну, не совсем. На графике данные распределяются симметрично, но давайте честно — отражает ли это реальность?
⏺️ В любом коллективе почти всегда есть несколько топовых сотрудников, которые и правда «тянут» на себе весь отдел и генерируют львиную долю результата.
⏺️ При этом обратной картины не наблюдается — их успехи не нивелируют провалы аутсайдеров из анти-топа. Встречаются люди, которые своей некомпетентностью приносят реальные убытки, но это скорее исключения, а не стабильные 10-20% от всего штата компании.

Если описывать ситуацию так, то это уже не скучное нормальное распределение, а правило Парето про 20% усилий, которые генерируют 80% результата. То есть сотрудники делятся на небольшую долю топ-перформеров, большинство «среднячков» и редких аутсайдеров.

Если интересно почитать подробнее, то в блоге Data Science for Fun and Profit про это есть любопытная статья. А мы просто отметим, что это отличный пример того, как датавиз влияет на восприятие данных и принятие решений.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.71K views09:05

Data Science: SQL и Аналитика данных

👀

Что внутри Postgres?

«Just use Postrges» — это выражение уже почти мем. Кто-то иронизирует над тенденцией в любой непонятной ситуации использовать Postgres, а кто-то говорит это вполне серьезно. Его любят за бесплатность, производительность, умение работать с разными типами данных — в общем, есть за что.

Но что, если заглянуть глубже и разобраться, как именно он работает?
⏺️ Как хранит данные и распределяет ваши таблицы по папкам?
⏺️ Как Postgres оптимизирует работу с большими файлами?
⏺️ Что делают Pages, и как они помогают снизить вероятность ошибок записи?

Ответы — в лонгриде аж на 30+ минут вдумчивого чтения How Postgres stores data on disk.

Если вникнуть в тонкости того, как Postgres хранит данные, то, во-первых, появится еще несколько веских причин его любить. А во-вторых, это может пригодиться в работе — когда вы понимаете, как что-то устроено, намного проще исправлять ошибки или искать причины проблем.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

7.21K views09:05

Data Science: SQL и Аналитика данных

➡️

Как показать выполнение KPI на графиках

Шпаргалка для всех, кто занимается версткой дашбордов — 20 способов изобразить выполнение KPI. В основном это разные вариации барчартов и линейных графиков, но все равно поглядеть что-нибудь полезное для себя можно.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.73K views09:05

Data Science: SQL и Аналитика данных

👀

Минутка истории

Все эти ваши датавизы, графики и хитрые многосоставные дашборды — это, конечно, хорошо. Но идеальным, проверенным временем способом структурировать данные остаются самые обычные, простые таблицы.

➡️

И про «проверенный временем способ» мы написали не просто так.
Во время раскопок в Ираке нашли глиняную табличку с таблицей, в которой подсчитывали зарплаты рабочих. В одной колонке записаны имена, в других — разные суммы денег и, судя по всему, число отработанных часов или смен. Возраст находки — 3500-4000 лет.

Может быть, когда вы в следующий раз придется поработать с отчетом по зарплатам сотрудникам или выплатам подрядчикам, вы вспомните, что неизвестный житель древнего города Ларса несколько тысяч лет назад заполнял почти такую же табличку. Только фильтров не было и итоговые суммы приходилось считать самому, а не вписанной в ячейку формулой.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.92K views07:35