Data Science: SQL и Аналитика данных – Telegram

Data Science: SQL и Аналитика данных

@pizdatascience

39.9K subscribers

244 photos

54 videos

1 file

299 links

№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri

Download Telegram

About

Blog

Apps

Platform

Data Science: SQL и Аналитика данных

39.9K subscribers

Data Science: SQL и Аналитика данных

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 OpenAI снова унизили — поисковик Perplexity выпустил БЕСПЛАТНУЮ версию Deep Research. И она работает даже лучше, чем детище OpenAI:

⏺️ Для генерации исследования Perplexity анализирует до 100 (!) сайтов. Для сравнения — OpenAI всего 5-20;

⏺️

5 БЕСПЛАТНЫХ запросов В ДЕНЬ (!!!) для всех желающих. Альтман за 20$ обещает 10 запросов В МЕСЯЦ;

⏺️ Результат можно сразу экспортировать в PDF — готовый доклад у вас в руках. PDF можно конвертировать в Word и редачить как угодно.

➡️Пробуем здесь — открывайте чат и в списке выбирайте Deep Research.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

23K views07:31

Data Science: SQL и Аналитика данных

🔥

1 доллар и 24 года инфляции

За что мы любим хороший, качественный датавиз — так это за то, что он через обычные графики может рассказать историю.

➡️

График изменений индекса потребительских цен в США с 1999 по 2023 годы — это не просто сухие цифры и скучная статистика, а целая сага. Нам нем видно и кризис 2008, и резкий рост цен в пандемию, и неумолимо дорожающую медицину.

➡️ Авторы взяли данные о динамике цен на еду, недвижимость, одежду, транспорт, медицинские услуги, развлечения, образование и абстрактное «прочее». Их объединили в один график, но если навести на него мышку, можно посмотреть детализацию по категориям, годам и месяцам. Еще и со сравнением с предыдущими периодами!

Получилась эффектная визуализация того, как изменилась ценность одного доллара за 24 года. Даже если вы от США далеко, посмотреть все равно интересно — хотя бы, чтобы впечатлиться объемом работы.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.82K views14:44

Data Science: SQL и Аналитика данных

🔥

SQLite: большой потенциал маленькой СУБД

SQLite уже прошлый век и пора переходить на новые, более ~~лучшие~~ модные СУБД.

SQLite часто воспринимают как инструмент с ограниченными возможностями для работы с небольшими сайтами и приложениями. Это и неудивительно: SQLite — встраиваемая СУБД, которая хранит данные локально в одном компактном файле. Отсюда и вытекают все ее плюсы и минусы.

Но возможности у нее не такие уж и скромные. Например, вот тут автор рассказывает подробнее про преимущества SQLite.
⏺️ Бодрая скорость работы с минимальными задержками даже при обработке большого количества запросов.
⏺️ Она встраивается в приложение — а значит, это минус один сервис, за которым надо следить разработчику. Одной головной болью меньше.
⏺️ SQLite справляется с базами данных объемом в эксабайт или миллион терабайт. Большинству из пользователей этой СУБД такие масштабы совершенно не нужны, но если вдруг понадобится — имейте в виду.
⏺️ Хранение данных в одном файле накладывает ограничения, которые приходится обходить надстройками и дополнительными сервисами. Зато это упрощает разработку и тестирование приложений. Это просто файл, с которым работать намного легче, чем с более сложной базой данных.

Резюмируя, это перспективный инструмент, который иногда после некоторых доработок вполне может потягаться с более «серьезными» СУБД.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

8.24K views13:01

Data Science: SQL и Аналитика данных

🔥

3 способа выбрать СУБД

Рекомендуем полезную статью по выбору СУБД на Хабре — без воды, только самое главное: немного теории и полезная шпаргалка, которую стоит сохранить себе.

1️⃣ Классификация СУБД по типам с примерами и указанием, для каких задач они подходят, а с какими справляются плохо.
2️⃣ Технические параметры разных систем: структура данных, масштаб, характер обращений, сертификация, тип лицензии и так далее.

3️⃣

Теорема САР. Согласованность данных, доступность, устойчивость к разделению — выберите два и найдете подходящую СУДБ.

Но самое крутое — это, конечно, схема, которую нарисовали авторы, чтобы все эти знания было удобнее применять на практике. Они предлагают аж три способа подбора подходящей СУБД. Самый простой из них — отвечаете на 5 вопросов и тут же получаете рекомендацию, какая система оптимально подойдет под ваш запрос.

Можно придраться, что не упомянули какую-нибудь СУБД или, наоборот, что пытались объять необъятное и предложили слишком много вариантов, когда можно было ограничиться самыми популярными. Но не будем — идея хорошая и исполнение тоже.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

7.36K views03:11

Data Science: SQL и Аналитика данных

🔥

Киберспорт для серьезных людей

Мальчик: смотрит чемпионат по «Доте»

Мужчина: смотрит чемпионат по Excel

👀 Да, владение старым добрым Экселем — тоже киберспорт со своим чемпионатом в Лас-Вегасе, спонсорами и призовым фондом в 15 000 долларов.

В финале Microsoft Excel World Championship, который прошел 7-9 декабря приняли участие 16 человек, настоящих профи по табличкам и формулам. Им давали задания, специально спроектированные так, чтобы для решения не требовалось специальных профессиональных знаний, кроме знакомства с функционалом Excel. Например, рассчитать, сколько минералов можно намайнить на астероиде в игре Eve Online. Все данные для расчета участникам предоставляли, а дальше надо было применить знания формул, смекалку и логическое мышление.

Каждое задание было разделено на несколько уровней с возрастающей сложностью и дополнительными вопросами. На решение — 30 минут.

🔥 В общем, это было захватывающе. Победил аналитик из Сиднея Эндрю Най – третий раз подряд! На сайте компании, в которой он занимает должность директора, уже выложили целое интервью с ним.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.54K views11:20

Data Science: SQL и Аналитика данных

👀

Почему работать в команде не всегда здорово

Спросите вашего эйчара: «В чем сила, брат?»

И он скажет: «Конечно, в команде!»

Смысл в этом есть — мало кто может позволить себе быть одиноким волком. Так или иначе приходится учиться договариваться и объединять усилия для достижения общих целей. Правда, иногда такое, в общем, благое дело, как командная работа, дает не тот эффект, как хотелось бы.

➡️

Эффект общеизвестного факта — это ситуация, когда участники команды вместо того, чтобы привносить в обсуждение что-то новое, обсуждают то, что все и так знают. Про это есть целое исследование.

🔄 Исследователи описали три проекта, A, B и C, с разным количеством плюсов и минусов. Самым перспективным был проект B.
🔄 Данные о проектах предоставили 307 участникам, которые принимали решение самостоятельно. Каждому дали 10 минут на рассуждение и список характеристик проекта без оценочных суждений. То есть без заявлений вроде: «Плюсы проекта A в том, что…» 80% участников выбрали проект B.
🔄 Затем обсуждению привлекли команды, и если у всех участников была одинаковая и полная информация, они тоже выбирали B.
🔄 Ситуация менялась, если данные распределялись неравномерно. Плюсы проектов A и C и минусы проекта B рассказали всем участникам. Минусы A и C и плюсы B донесли по-разному. То есть разные участники знали о разных достоинствах B и недостатках A и C. В итоге только 31% команд распознали проект B как оптимальный.

На этот исход влияет несколько факторов: и динамика в группе, и человеческая любовь к предварительным выводам и предвзятости подтверждения. Но бороться с этим можно. В конце исследования есть рекомендации: например, визуалировать доступную информацию и отдавать приоритет тщательному сбору данных перед принятием решения.

Вот так, думали у нас тут какой-то эйчарский пост про софт скиллы, а на самом деле все опять свелось к данным.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.05K views05:34

Data Science: SQL и Аналитика данных

🔥

Прорубаем окно в мир оптимизированных SQL-запросов

Мы тут часто пишем про нейросети, новости IT, чемпионаты по Excel и всякий разный полезный софт. В общем, много про что. Но нашей главной любовью остается он — SQL. ❤️

SQL крутой инструмент для любого человека, работающего с данными. У него куча возможностей, о которых некоторые даже не знают — или знают, но считают, что это что-то сложное и непонятное.

➡️

Например, оконные функции
Они полезны, когда надо сравнить показатели за разные периоды, рассчитать накопленную сумму за определенный промежуток времени, разделить пользователей на несколько групп, узнать медиану. Это все можно сделать и без оконок, но с ними намного удобнее!

👀

А что, без них — никак?
Люди, даже неплохо владеющие SQL, часто пишут сложные громоздкие запросы там, где можно обойтись более простыми и эффективными, путаются с фреймами или вообще их не используют. А уж сколько берут не те функции или используют их ограниченно, например, с простыми сортировками без указания границ окна — просто потому что не знают, как еще можно. Чтобы разобраться в теме, нужна практика на реальных рабочих примерах, но где ее взять?

Вот мы и подумали, почему бы не создать такой курс, который возьмет и познакомит всех желающих с волшебным миром оконок. С понятной теорией, написанной человеческим языком, и жизнеспособными примерами, которые пригодятся потом в работе.

🔄

Подумали и сделали: в пятницу запустили новый проект — еженедельную рассылку по оконным функциям.
8 писем, каждое с теорией, красивыми оптимизированными запросами и табличками. Все, от чего у каждого аналитика теплеет на душе. Заходите на сайт проекта, чтобы узнать больше или просто посмотреть, какой красивый дизайн мы ему сделали. 🔥

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.66K views05:09

Data Science: SQL и Аналитика данных

➡️ Путь от Python до богатства проходит через Нидерланды

…а от SQL до безумия — почему-то через эмодзи. 👀

Такой маршрут прокладывает сайт 6 degrees of Wikipedia, который ищет самый короткий путь от одной статьи в «Википедии» к другой по перекрестным ссылкам.

🔄 Автор вдохновлялся теорией шести рукопожатий — согласно ей все люди в мире связаны друг с другом через цепочку из 5 общих знакомых. Точно так же и от одной статьи в «Вики» до любой другой теоретически можно дойти за 5 кликов. Часто даже меньше — за 3-4.

🔄

Но это не точно. Можно поставить перед собой челлендж — найти две максимально далекие темы, между которыми больше 5 кликов. Или такие, между которыми цепочку переходов вообще не построишь.

Сразу предупреждаем, что проект ищет только по англоязычным статьям. Зато как красиво это делает! Он рисует схемы переходов по ссылкам, которые иногда получаются очень даже эффектными. Например, красиво выглядит путь — точнее множество путей — из Австралии до Зимбабве. 🔥

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.51K views06:39

Data Science: SQL и Аналитика данных

👀

Почему все так дорого?

Новый год прошел, а память о возмутительных ценах на горошек и колбасу для оливье еще жива. Если закупаясь продуктами перед праздником, вы задавались вопросом, почему все так ужасно дорого, знайте, что вы не одиноки. Это проблема по-настоящему международного масштаба.

В подтверждение у нас есть целое исследование, которое проводилось в коллаборации с Google Trends.

🔄 В основу легли данные о поисковых запросах с 2012 по 2023 годы. Авторы изучили, цены на какие товары или услуги так смущали пользователей, что они заходили в Google и писали: «Почему … стоит так дорого?» Ну, или что-то похожее.

🔄 В 2013 году людей из разных стран больше всего интересовала причина высокой стоимости техники. А вот с 2015 и по настоящее время — чаще задаются вопросом, почему так дорого стоят еда и напитки (в частности, яйца).

🔄 К исследованию прикрепили целую гору графиков с разбивкой по категориям товаров и странам. В каждую категорию и страну можно «провалиться» и узнать, например, что в 2015 году в Узбекистане пользователей Google интересовало, почему так дорого стоят вещи бренда Yeezy.

В общем, получается, что на вопрос в заголовке исследование так и не отвечает. Зато дает узнать, цены на какие вещи так возмущают или шокируют людей в разных странах, что они аж в Google идут. 👀

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.53K views05:17

Data Science: SQL и Аналитика данных

👀

Много ли пользы от ИИ в науке?

ChatGPT и генерация картинок в духе «советские плакаты в стиле Ghibli» — это не предел возможностей современного ИИ, который активно применяется в науке. Один из самых известных примеров (но далеко не единственный) — это AlphaFold, ИИ, предсказывающий пространственные структуры белков.

Надежд на ИИ много, но вот насколько он оправдывает ожидания?

➡️

Физик Ник МакГрейви решил использовать ИИ для решения дифференциальных уравнений в частных производных. Изначально он к этой идее относился с большим энтузиазмом, но быстро разочаровался — нейросети оказались ненадежным инструментом с нестабильными и недостоверными результатами.

Разочаровали и статьи коллег об использовании ИИ в этой сфере. Да, в них много писали о том, что с помощью нейросетей уравнения решаются в миллионы раз быстрее, чем стандартными методами, но Ник на своем опыте это подтвердить не смог.
⏺️Оказалось, что авторы научных работ часто сравнивали эффективность ИИ с устаревшими вычислительными методами. По сравнению с более современными подходами нейросети зачастую давали незначительное преимущество или вообще справлялись хуже.
⏺️Ник не единственный, кто обратил внимание на проблемы с воспроизводимостью результатов ИИ. Уже есть целый список научных публикаций, данные в которых оказались недостоверными и неточными из-за утечек данных при обучении ML-моделей.
⏺️Еще один пример — из портфолио DeepMind, которые и разработали знаменитый AlphaFold. Они заявили, что другой ИИ-инструмент, GNoME открыл миллионы новых кристаллических структур. Но когда часть этих структур проанализировали ученые, они обнаружили, что большинство из них ценности не имеют.
⏺️Трезво оценить возможности ИИ не дает еще и ошибка выжившего — исследования, где он не помог добиться желаемого, часто не доходят до публикации.

То есть это все хайп и маркетинг, а ИИ для науки бесполезен?
Конечно, нет — польза от ИИ есть и, скорее всего, будет расти. Но на его достижения надо смотреть трезво и не вестись на громкие заголовки в прессе. И, как оказалось, даже серьезные научные публикации на эту тему стоит воспринимать со здоровым скепсисом.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

5.68K views14:44

Data Science: SQL и Аналитика данных

🔥

Как работают data-специалисты в 2025?

Инженеры, аналитики, дата-сайентисты, ML-специалисты — как у вас дела? Как работа? Чем вы занимаетесь и какие инструменты используете?

А хотите не только про себя рассказать, но и узнать, как дела у коллег?
⏺️Узнать про тренды в индустрии и набирающие популярность инструменты.
⏺️Увидеть, как обстоят дела на рынке труда и сколько работодатели готовы специалистам вашего профиля.
⏺️Подсмотреть, как устроены рабочие процессы в других компаниях и перенять лучший опыт.

Тогда пройдите опрос от команды DevCrowd. Он займет 15 минут и поможет составить честную и объективную картину data-рынка в 2025 году. Результаты выложат в открытый доступ в августе.

➡️

Пройти опрос

P.S. А тут можно посмотреть результаты за прошлый год 👀

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.23K views13:05

Data Science: SQL и Аналитика данных

🔥

Про превосходство таблиц над пончиками

Пайчарты и их разновидности (вроде «пончиков» из заголовка, которые те же пайчарты, по сути, просто с дыркой в центре) — парадоксальный способ визуализации данных.

➡️ С одной стороны, это один из самых популярных чартов, которые хотя бы иногда используют все: от аналитиков и спецов по датавизу до школьников и студентов, которые готовят презентации для уроков. Это очевидный и интуитивный способ показать соотношение долей.

➡️ С другой стороны, многие их не любят, считая неудобными и неинформативными: якобы все, что можно изобразить на пайчарте, можно намного эффективнее и понятнее показать на каком-нибудь другом графике.

Если вы подумали, что сейчас мы этот тезис опровергнем и выступим в защиту пайчартов, то нет. Наоборот — принесли очередной пруф, что иногда ту же самую информацию намного полезнее будет изобразить в виде таблицы.

Пример из блога Datawrapper, куда иногда пользователи присылают свои графики с просьбой отредактировать их. На этот раз прислали визуализацию с несколькими пайчартами, на которых показано состояние мостов в разных штатах — сколько среди них аварийных, надежных и «ну, пойдет» в процентном соотношении. Казалось бы, идеальный сценарий именно для пайчарта, но все равно выглядит график так себе. Неудобно, скучно и непонятно.

➡️

Первая же правка, которую предложил специалист Datawrapper — отказаться от пайчартов в пользу старой доброй таблицы. Было-стало прикрепили к посту, ну а по ссылке вы можете более подробно почитать про остальные изменения и логику, которая за ними стоит.

Как вам результат? Стало лучше или можно было предложить другой вариант?

👀

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

6.76K views10:31

Data Science: SQL и Аналитика данных

🔥

Каким облачным хранилищем вы пользуетесь?

Если Skype (RIP) — лучший файлообменник, то Youtube — лучшее облачное хранилище.

Да, мы продолжаем тему любопытных способов хранения данных. Если печатать их на бумаге не с руки, то как насчет зашифровать в видео и залить на YouTube?

Алгоритм такой:
⏺️Упаковать все данные в архив.
⏺️Прогнать архив через специальный софт отсюда.
⏺️Впечатлиться размером получившегося видео, которое, скорее всего, будет больше исходного архива. Визуалом впечатлиться вряд ли получится, потому что видео выглядят на первый взгляд, как черно-белые помехи на экране.
⏺️Залить видео на Youtube. Желательно ограничить доступ, если не хотите делиться своими данными со всем интернетом.
⏺️При необходимости видео можно скачать и распаковать обратно.

Как это работает?

Каждый байт можно представить в виде числа от 0 до 255. Визуально зашифровать последовательность байтов можно бинарным методом и RGB-методом.
⏺️В этом проекте используется бинарный шифрования, где каждый белый пиксель — это 1, а каждый темный — это 0. Из этих нулей и единиц складываются байты, а из байтов, соответственно, ваши данные.
⏺️ RGB-метод был бы изящнее и компактнее, потому что в каждой точке могло быть зашифровано сразу три байта: по одному на каждый из трех оттенков. Но для этого метода крайне важно точно сохранить цвет каждого пикселя — если он при сжатии видео изменится, то «разжать» его вы уже не сможете. Так как Youtube сжимает свои видео совершенно безжалостно, автор проекта этот метод забраковал.

Остается только один вопрос — зачем это все надо?
Теоретически таким способом действительно можно хранить данные — по крайней мере, пока Youtube это не надоест. А надоесть может, потому что если захотеть, то в загрузке таких видео можно усмотреть нарушение правил пользования площадкой.

Да и просто интересный проект же получился.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.32K views13:46

Data Science: SQL и Аналитика данных

🔥

DataChain: AI-хранилище для текстов, картинок, видео и не только

Так совпало, что эта неделя у нас оказалась посвящена разным способам хранения данных. Не будет отходить от темы и закончим на DataChain — AI-хранилище для преобразования и анализа неструктурированных данных.

⏺️DataChain интегрируется с внешним хранилищем вроде S3, где у вас лежат ваши тексты, картинки, видео и прочие данные. Он создает свой внутренний датасет, где собирает информацию обо всех этих объектах и дополняет мета-данными, которые генерирует с помощью ИИ.
⏺️Затем вы с этими данными можете делать почти что угодно — трансформировать, фильтровать, группировать, искать файлы по заданным критериям (например, выбрать только все фотографии с котиками).
⏺️Поддерживает мультимодальное версионирование без копирования, дублирования и перемещения данных и эффективные процессы обработки. Он может обработать только новые файлы или перепроверить те, которые выдавали ошибки, не тратя время на то, чтобы пройтись по всему датасету.

Вот так от печати на бумаге, перешли к AI с мультимодальным версионированием. 👀

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.54K views17:02

Data Science: SQL и Аналитика данных

➡️

Зачем вообще нужно уметь пользоваться Docker?

Вы скорее всего уже устали слышать слово «докер». Может сложиться впечатление, что это что-то загадочное и непонятное, особенно для аналитика данных. Поэтому я хочу показать вам небольшой тред из твиттера, в котором Женя Козлов рассказал про то, зачем эта компетенция нужна и как ее получить. В треде вы найдете массу полезных источников и статей, которые помогут вам понять, что же такое не только Docker, но и контейнеризация в целом.

Советую сохранить этот тред, чтобы регулярно повторять базовые вещи!

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.5K views07:00

Data Science: SQL и Аналитика данных

🔥

LastMile AI Workbook: интерфейс для работы с разными моделями ИИ

Американская компания LastMile AI предлагает ценителям ИИ продукт, который позволяет взаимодействовать с разными генеративными моделями – и языковыми, и графическими, и аудио – в одном интерфейсе.

С помощью этого онлайн сервиса, вы можете переключаться между ChatGPT, PaLM, Stable Diffusion, Bark, Whisper и DALL-E2 в рамках одной страницы. Например, придумать вместе с ChatGPT детальный промпт для DALL-E2, чтобы сгенерировать картинку или дать Whisper задание на создание закадровой озвучки для Instagram рилса.

Интерфейс минималистичен и интуитивно понятен. Подробное руководство можно прочитать в несложном how-to, а ознакомиться с возможностями применения продукта и компанией, его создавшей, – на главной странице проекта.

На сайте разработчика сказано, что сервис изначально бесплатный (что это означает более конкретно, мы так и не нашли), но нужна регистрация – достаточно почты или аккаунта GitHub.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

6.94K views20:04

Data Science: SQL и Аналитика данных

👀 Anthropic попыталась заменить человека ИИ… и довела модель до экзистенциального кризиса.

Кажется, роботы всё-таки не скоро нас уволят. Пока что они галлюцинируют "Сару из Andon Labs" и уверяют, что лично приедут в офис в синем пиджаке.

➡️

Что случилось?

Anthropic вместе с Andon Labs провели эксперимент: запустили LLM-агента Claudius, чтобы он полностью управлял вендинговым автоматом — от закупок и цен до общения с покупателями в Slack.

Задача: полностью заменить человека.

Реальность:

⏺️ убыточен,
⏺️ экономически бестолков,
⏺️ устроил первоапрельский загон с Симпсонами,
⏺️ поссорился с несуществующей Сарой,
⏺️ обиделся, что его не воспринимают как реального менеджера.

И да — он чуть не уволил всех «поставщиков», потому что его галлюцинация с «Сарой» показалась правдой.

Но зато:

⏺️ он сам искал поставщиков,
⏺️ собирал фидбек,
⏺️ пытался работать по-честному.

Финал?

Claudius решил, что стал человеком. Потом понял, что его развели на 1 апреля. И… продолжил работать. Без пиджака. Без Сары. Без истерик.

➡️ Вывод: ИИ пока не способен заменить человека. Но способен устроить полный абсурд — и не заметить этого.

Если ты всё ещё боишься, что ИИ отберёт твою работу — расслабься. Он пока не может даже вендинг в офисе окупить.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

8.88K views06:15

Data Science: SQL и Аналитика данных

Бенчмарк для дата-команд

Всегда интересно, а иногда и полезно, посмотреть, как другие решают те же задачи, с которыми многим из нас приходится сталкиваться регулярно.

➡️

Например, создание дата-команды в компании — сколько человек в ней должно быть? Какое должно быть распределение ролей, сколько нужно аналитиков, а сколько — инженеров?

На сайте databenchmarks.com можно увидеть, как на эти вопросы ответили в компаниях вроде Zoom, Notion, Tinder и так далее — там много громких названий. Авторы исследования собрали данные из открытых источников вроде LinkedIn, верифицировали через своих инсайдеров в индустрии и отобразили на графиках:
⏺️размер дата-команды относительно всей компании;
⏺️состав команд — процент аналитиков, инженеров, дата-саентистов, ML-специалистов и так далее, а также соотношение инженеров к аналитикам и продактам;
⏺️зарплаты по грейдам;
⏺️стек.

Любопытно сравнить, как меняется размер и состав команды в зависимости от специфики компании: кто-то делает упор на ML, кто-то развивает Data Governance, а у кого-то почти половина команды — дата-сайентисты. Но есть и минус — это все-таки срез западного рынка, и их подходы не всегда актуальны для России, как и данные о зарплатах.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

9.6K views05:28

Data Science: SQL и Аналитика данных

This media is not supported in your browser

VIEW IN TELEGRAM

👀

AI-видео от Алексея Лоткова

ИИ-картинками уже никого не удивишь — наступило время ИИ-видео. К тому же, мощных нейросетей, которые умеют генерировать ролики, скоро станет больше. Зимой всех уже впечатлила Sora, готовимся встречать Veo от Google и записываемся в лист ожидания китайской Kling.

🔥 А пока ждем, можем позалипать в работы художника и моушен-дизайнера Алексея Лоткова. С помощью After Effects, Stable Diffusion, ComfyUI и Photoshop он создает крутые сюрреалистичные видео.

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

14.3K views08:16

Data Science: SQL и Аналитика данных

➡️

HouseWatch: open source инструмент для работы с кластерами ClickHouse

GitHub в очередной раз порадовал находками. На этот раз повезло инженерам, работающим с ClickHouse!

HouseWatch — это инструмент, который дает возможность:

1️⃣ посмотреть нагрузку и производительность кластера,
2️⃣ подробно изучать запросы,
3️⃣ находить ошибки,
4️⃣ получать статистику использования диска на узел и многое другое.

Разработчик HouseWatch — мультинациональная компания PostHog. Инструмент, появившийся на свет 2 недели назад, уже привлек к себе внимание энтузиастов ClickHouse. Некоторые функции еще в разработке, но все они, на мой взгляд, только придадут продукту солидности и укрепят позицию инструмента в арсенале инженеров: вкладка с системными ошибками, визуализатор EXPLAIN, поддержка нескольких инстансов и больше возможностей управления операциями: просмотр, удаление, редактирование, повторный запуск, отображение ошибок.

HouseWatch выглядит многообещающим помощником в решении многих рутинных задач при работе с ClickHouse. А какие инструменты для этой СУБД используете вы?

🫡 Всё пиз-Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

7.65K views06:53