Data Science: SQL и Аналитика данных
40K subscribers
244 photos
54 videos
1 file
299 links
№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri
Download Telegram
🔥Персональный тренер по SQL: быстро, качественно, ChatGPT

Если среди вас есть те, кто осваивает азы SQL с помощью разных онлайн тренажеров и курсов (и, возможно, даже нашего Data марафона для начинающих аналитиков), то, вероятно, вам будет любопытно узнать, что в дополнение к рутинным SQL заданиям можно добавить кое-что новенькое от ChatGPT.

В этой статье на Medium собраны 5 способов, как сделать из ChatGPT персонального наставника для освоения базы SQL. Так, вы можете:

⏺️ попросить ChatGPT доступно и кратко объяснить, что означает та или иная команда, и дать примеры использования;
⏺️ попросить нейросеть определить, какую команду SQL использовать для вашей задачи, и дать пример решения;
⏺️ спросить, как с помощью SQL решить ту или иную комплексную задачу, описав ее обычным, «человеческим» языком;
⏺️ узнать, что делает определенный кусок кода, и разобрать каждую из его составляющих подробно;
⏺️ превратить ChatGPT в вашего наставника, который будет генерировать для вас задания и проверять ваши варианты решения.

Узнать подробнее, как можно таким образом взаимодействовать с ChatGPT, можно в посте, а мы предлагаем вам в комментах поделиться вашими лайфхаками о том, как вы работаете с SQL и ChatGPT. А если это что-то прям суперкрутое, мы даже отдельный пост про это напишем!

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Не любите данные? Вы просто не умеете их готовить

Уверены, что все наши подписчики любят данные, но не удержались от этой шутки.

➡️ Знаете, что такое Mise en place?

Это французский кулинарный термин, который переводится как «ставить на место». Так называют подготовку ингредиентов, когда повара заранее отмеряют, нарезают и раскладывают по мискам продукты, чтобы не тратить время потом. Так овощи не сгорят, пока вы режете мясо, или не окажется вдруг в процессе готовки, что какого-то важного компонента не хватает.

Этот подход можно использовать не только в кулинарии, но и в других областях, включая работу с данными. Их тоже надо подготовить, почистить и упорядочить. Как это сделать, рассказывает статья в блоге сервиса по визуализации данных Datawrapper.

Это целый лонгрид на 20 минут, но, если уделить ему время сейчас, вы сэкономите себе много часов работы и нервов в будущем. Автор статьи дала множество простых, но полезных советов, которые облегчат жизнь. Например:

1️⃣ Не вносить никакие изменения, не сделав бэкап. Если окажется, что вы удалили что-то нужное, придется все отматывать обратно.
2️⃣ Сохранить все ссылки на источники.
3️⃣ Удалить все лишнее — ссылки, сноски, единицы измерения (их лучше убрать в заголовки, а в ячейках оставить только цифры).
4️⃣ Не забывать о форматировании — разделить все слитые ячейки, закрепить первую строчку и ряд, чтобы они всегда были на виду.

Каждый пункт сопровождает короткая инструкция по работе с Excel и Google Sheets с описанием, куда именно нажать, чтобы все заработало. Статья будет особенно полезна новичкам, но и опытные пользователи точно что-нибудь почерпнут!

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Свет мой, ChatGPT! Скажи, да всю правду доложи

Модель ChatGPT, натренированная OpenAI, — одна из нашумевших новостей прошлого года, и посты о ней льются в соцсетях бесконечным потоком. Но нам же хочется чего-то применимого на практике, верно?

Тогда вот: 50 подсказок, которые можно использовать, чтобы ChatGPT генерировала текст в рамках определенной задачи. Хотите попереписываться с Гермионой Грейнджер? Или завести библиотеку английских панчлайнов? Или потренироваться для предстоящего интервью на должность старшего аналитика данных? Тогда вот целый PDF с идеями, как скрасить себе вечер, прокачать навыки в письме на английском или повысить уверенность в себе.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ DataLens открывает галерею дашбордов и не только

Любите иногда позалипать повдохновляться на Tableau Public? Да, мы тоже — а кто не любит?

Теперь то же самое можно будет сделать, но с дашбордами на Yandex DataLens — сервис запускает DataLens Gallery. Это галерея с готовыми примерами дашбордов и чартов. Можно будет как добавить свою работу, так и посмотреть чужие, еще и с разбивкой по отраслям. Особенно понравившиеся даже можно будет развернуть у себя — если автор дал разрешение.

Кроме того, DataLens запускает:

⏺️Editor JavaScript-редактор для кастомизации графиков и таблиц с поддержкой интеграции данных из разных источников, включая внешние API. Он нацелен на опытных аналитиков, но в будущем планируется внедрение LLM-помощника для генерации визуализаций по текстовому описанию.

⏺️Экспорт/импорт и перенос воркбуков между окружениями. Переносить объекты между инсталляциями станет намного проще, где бы они ни находились. Уже доступно в Yandex Cloud и open-source, а скоро обещают и в on-premise.

⏺️Программу сертификации для специалистов по работе с сервисом. Чтобы получить сертификат и с гордостью написать в резюме, что вы владеете DataLens, нужно будет сдать экзамен: там проверят умение работать с чартами, датасетами, датасорсами и дашбордами. Вообще это будет стоить 5000 рублей, но до конца августа — всего 2500₽.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Sketch — библиотека, которая выполнит всю работу за вас

Если честно, при просмотре этого видео складывается ощущение, что больше можно совершенно не учиться программировать на Python, ведь Sketch может писать код и проводить анализ самостоятельно.

➡️ Как она работает?

Волшебно. А если серьезно, то эта библиотека — AI-ассистент по написанию кода: она заточена под анализ данных, в особенности с использованием библиотеки pandas (но и других тоже). Вам нужно подключить Sketch, загрузить данные, а затем либо задавать модели вопросы по данным, либо просить ее посчитать что-то на их основе, добавить переменные или нарисовать график.

➡️ Если вы уже запереживали

Спешим напомнить, что любое развитие науки и техники можно приручить и получать от него выгоду (а не потерю рабочего места). Не забывайте, что задачи, которые под силу лишь человеку, всегда будут.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Как наладить обмен данными между несколькими сервисами без API

И стоит ли это делать?

Fly.io — платформа с серверами в 30+ регионах. Создатели обещают, что на их железе вы сможете запустить свое приложение на любом из континентов, кроме Антарктиды (но это вопрос времени, если верить сайту), и везде оно будет работать одинаково быстро.

Чтобы приложения летали еще шустрее, в Fly разработали LiteFS — распределенную файловую систему, заточенную под работу с базами данных SQLite. В процессе тестирования они обнаружили, что с ее помощью можно наладить обмен информацией между приложениями без API.

Угадаете как? Просто отправляя read only-копии базы данных.

⏺️Идею объясняют на примере программы Corrosion, с помощью которой в Fly следят за состоянием серверов. Свои отчеты она хранит в SQLite.

⏺️Когда Corrosion запустили на LiteFS, обнаружили, что теперь могут легко перекидывать данные из нее другим внутренним сервисам компании без API. Достаточно отправить копию базы, а получатель уже извлечет из нее все, что ему нужно, SQL-запросами.

⏺️Авторы рассказывают об этом методе, как об отличном способе сэкономить время разработчиков. Строить API несколько дольше и сложнее, чем перекидывать данные между сервисами напрямую.

👀 Правда, неясно, можно ли широко использовать такой подход. Возможно, это хорошее внутреннее решение для небольшой команды. Но будет ли оно работать так же эффективно с большими объемами данных или числом получателей? Не уверены, поэтому спрашиваем у вас.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Спасти полмиллиона долларов за пять минут

Поучительная история про эффективный менеджмент и дыры, в которые с невероятной скоростью утекают деньги.

➡️ Несколько лет назад компания N решила, что ей нужна своя платформа для аналитики, чтобы стать более data-driven. Узнали, согласны?

Компания, в числе прочих, наняла на работу дата саентиста, недавнего выпускника. Тот обнаружил две вещи:
1️⃣ Дата саенсом в его работе и не пахло.
2️⃣ На самом деле, компании N дата саенс был вообще не нужен, а нужно было для начала сократить раздутый штат. Вместо этого компания наняла кучу важных консультантов. Узнали, согласны?

Тем временем обещанная платформа для аналитики все не строилась и не строилась. Тот самый дата саентист успел уйти из компании, мир успел сотрястись от ковида, а платформы все не было. Узнали, со… ладно, больше не будем.

➡️ Дата саентист вернулся в компанию N спустя несколько лет, потому что ему нужны были деньги, а компании, из которой регулярно сбегали сотрудники, нужны были люди.

Там он увидел вещи, которые вам и не снились. Хаос технического долга у многострадальной платформы, которая только начала работу. Никаких ранее обещанных функций у нее не было, зато был файл, сносящий прод при переносе в другую папку. А еще база данных на Snowflake, которой платили, пока компьютеры, на которых хранились базы, были включены — причем они были запрограммированы на 10 минут простоя после каждого запроса.

Чувствуете, куда все идет?
Наш дата саентист не знает точный бюджет, выделенный на работу с данными, но предполагает, что рассчитывали на сумму около 200к долларов в год, а приблизились к миллиону. Отказ от простоев помог сэкономить около 500к, но успел потрепать автору истории нервы.

➡️ Кажется, что мы рассказали все самое интересное, но это не так. Рекомендуем почитать текст целиком и особенно рекомендации рассказчика, что делать в такой ситуации.

Спойлер: ничего, а то придется ходить на встречи и делать презентации, чтобы объяснить, как вообще это получилось, за невпечатляющую прибавку к зарплате.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤️ Мануал к дому: современные решения для современных проблем

Вы помните, когда надо счетчики на воду менять? А модель счетчика назовете? Или где у вас лежат гарантия на холодильник и инструкция к стиральной машинке? Рано или поздно придется разобраться, что значат все эти значки и циферки с градусами.

➡️ Если эти вопросы вызывают затруднения, не расстраивайтесь. До них у многих не доходят руки, пока не возникнут проблемы. Вот тогда приходится срочно искать документы и еще хуже — разбираться, где проходят провода и куда сантехники запрятали вентили на трубах.

Это всегда невовремя и невесело. Но решение есть — написать мануал! От проблем не избавит, но решать их станет проще.

➡️ Так поступил разработчик Люк Сяо, который недавно купил дом. Он задался вопросами, похожими на те, что в начале поста, и понял, что многого не знает о месте, где живет. Люк решил собрать ответы в одном месте: ТТХ, явки и пароли, документы, инструкции и ченджлог. То есть, сделал ремонт или купил что-то новое — сразу записал.

Он взял фреймворк Diátaxis и создал для своего дома репозиторий на Git. Вы скажете, что это слишком, мы скажем — возможно. Но все равно вызывает уважение. 🔥

Да и сам Люк признает, что большинству людей хватит гуглодока. Но если вы хотите повторить его опыт, он довольно подробно его описал с ссылками, скринами и полезными советами.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 OpenAI снова унизили — поисковик Perplexity выпустил БЕСПЛАТНУЮ версию Deep Research. И она работает даже лучше, чем детище OpenAI:

⏺️ Для генерации исследования Perplexity анализирует до 100 (!) сайтов. Для сравнения — OpenAI всего 5-20;

⏺️ 5 БЕСПЛАТНЫХ запросов В ДЕНЬ (!!!) для всех желающих. Альтман за 20$ обещает 10 запросов В МЕСЯЦ;

⏺️ Результат можно сразу экспортировать в PDF — готовый доклад у вас в руках. PDF можно конвертировать в Word и редачить как угодно.

➡️Пробуем здесь — открывайте чат и в списке выбирайте Deep Research.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1 доллар и 24 года инфляции

За что мы любим хороший, качественный датавиз — так это за то, что он через обычные графики может рассказать историю.

➡️ График изменений индекса потребительских цен в США с 1999 по 2023 годы — это не просто сухие цифры и скучная статистика, а целая сага. Нам нем видно и кризис 2008, и резкий рост цен в пандемию, и неумолимо дорожающую медицину.

➡️ Авторы взяли данные о динамике цен на еду, недвижимость, одежду, транспорт, медицинские услуги, развлечения, образование и абстрактное «прочее». Их объединили в один график, но если навести на него мышку, можно посмотреть детализацию по категориям, годам и месяцам. Еще и со сравнением с предыдущими периодами!

Получилась эффектная визуализация того, как изменилась ценность одного доллара за 24 года. Даже если вы от США далеко, посмотреть все равно интересно — хотя бы, чтобы впечатлиться объемом работы.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 SQLite: большой потенциал маленькой СУБД

SQLite уже прошлый век и пора переходить на новые, более лучшие модные СУБД.

SQLite часто воспринимают как инструмент с ограниченными возможностями для работы с небольшими сайтами и приложениями. Это и неудивительно: SQLite — встраиваемая СУБД, которая хранит данные локально в одном компактном файле. Отсюда и вытекают все ее плюсы и минусы.

Но возможности у нее не такие уж и скромные. Например, вот тут автор рассказывает подробнее про преимущества SQLite.
⏺️ Бодрая скорость работы с минимальными задержками даже при обработке большого количества запросов.
⏺️ Она встраивается в приложение — а значит, это минус один сервис, за которым надо следить разработчику. Одной головной болью меньше.
⏺️ SQLite справляется с базами данных объемом в эксабайт или миллион терабайт. Большинству из пользователей этой СУБД такие масштабы совершенно не нужны, но если вдруг понадобится — имейте в виду.
⏺️ Хранение данных в одном файле накладывает ограничения, которые приходится обходить надстройками и дополнительными сервисами. Зато это упрощает разработку и тестирование приложений. Это просто файл, с которым работать намного легче, чем с более сложной базой данных.

Резюмируя, это перспективный инструмент, который иногда после некоторых доработок вполне может потягаться с более «серьезными» СУБД.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 3 способа выбрать СУБД

Рекомендуем полезную статью по выбору СУБД на Хабре — без воды, только самое главное: немного теории и полезная шпаргалка, которую стоит сохранить себе.

1️⃣ Классификация СУБД по типам с примерами и указанием, для каких задач они подходят, а с какими справляются плохо.
2️⃣ Технические параметры разных систем: структура данных, масштаб, характер обращений, сертификация, тип лицензии и так далее.
3️⃣ Теорема САР. Согласованность данных, доступность, устойчивость к разделению — выберите два и найдете подходящую СУДБ.

Но самое крутое — это, конечно, схема, которую нарисовали авторы, чтобы все эти знания было удобнее применять на практике. Они предлагают аж три способа подбора подходящей СУБД. Самый простой из них — отвечаете на 5 вопросов и тут же получаете рекомендацию, какая система оптимально подойдет под ваш запрос.

Можно придраться, что не упомянули какую-нибудь СУБД или, наоборот, что пытались объять необъятное и предложили слишком много вариантов, когда можно было ограничиться самыми популярными. Но не будем — идея хорошая и исполнение тоже.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Киберспорт для серьезных людей

Мальчик: смотрит чемпионат по «Доте»

Мужчина: смотрит чемпионат по Excel

👀 Да, владение старым добрым Экселем — тоже киберспорт со своим чемпионатом в Лас-Вегасе, спонсорами и призовым фондом в 15 000 долларов.

В финале Microsoft Excel World Championship, который прошел 7-9 декабря приняли участие 16 человек, настоящих профи по табличкам и формулам. Им давали задания, специально спроектированные так, чтобы для решения не требовалось специальных профессиональных знаний, кроме знакомства с функционалом Excel. Например, рассчитать, сколько минералов можно намайнить на астероиде в игре Eve Online. Все данные для расчета участникам предоставляли, а дальше надо было применить знания формул, смекалку и логическое мышление.

Каждое задание было разделено на несколько уровней с возрастающей сложностью и дополнительными вопросами. На решение — 30 минут.

🔥 В общем, это было захватывающе. Победил аналитик из Сиднея Эндрю Най – третий раз подряд! На сайте компании, в которой он занимает должность директора, уже выложили целое интервью с ним.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Почему работать в команде не всегда здорово

Спросите вашего эйчара: «В чем сила, брат?»

И он скажет: «Конечно, в команде!»

Смысл в этом есть — мало кто может позволить себе быть одиноким волком. Так или иначе приходится учиться договариваться и объединять усилия для достижения общих целей. Правда, иногда такое, в общем, благое дело, как командная работа, дает не тот эффект, как хотелось бы.

➡️ Эффект общеизвестного факта — это ситуация, когда участники команды вместо того, чтобы привносить в обсуждение что-то новое, обсуждают то, что все и так знают. Про это есть целое исследование.

🔄 Исследователи описали три проекта, A, B и C, с разным количеством плюсов и минусов. Самым перспективным был проект B.
🔄 Данные о проектах предоставили 307 участникам, которые принимали решение самостоятельно. Каждому дали 10 минут на рассуждение и список характеристик проекта без оценочных суждений. То есть без заявлений вроде: «Плюсы проекта A в том, что…» 80% участников выбрали проект B.
🔄 Затем обсуждению привлекли команды, и если у всех участников была одинаковая и полная информация, они тоже выбирали B.
🔄 Ситуация менялась, если данные распределялись неравномерно. Плюсы проектов A и C и минусы проекта B рассказали всем участникам. Минусы A и C и плюсы B донесли по-разному. То есть разные участники знали о разных достоинствах B и недостатках A и C. В итоге только 31% команд распознали проект B как оптимальный.

На этот исход влияет несколько факторов: и динамика в группе, и человеческая любовь к предварительным выводам и предвзятости подтверждения. Но бороться с этим можно. В конце исследования есть рекомендации: например, визуалировать доступную информацию и отдавать приоритет тщательному сбору данных перед принятием решения.

Вот так, думали у нас тут какой-то эйчарский пост про софт скиллы, а на самом деле все опять свелось к данным.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Прорубаем окно в мир оптимизированных SQL-запросов

Мы тут часто пишем про нейросети, новости IT, чемпионаты по Excel и всякий разный полезный софт. В общем, много про что. Но нашей главной любовью остается он — SQL. ❤️

SQL крутой инструмент для любого человека, работающего с данными. У него куча возможностей, о которых некоторые даже не знают — или знают, но считают, что это что-то сложное и непонятное.

➡️ Например, оконные функции
Они полезны, когда надо сравнить показатели за разные периоды, рассчитать накопленную сумму за определенный промежуток времени, разделить пользователей на несколько групп, узнать медиану. Это все можно сделать и без оконок, но с ними намного удобнее!

👀 А что, без них — никак?
Люди, даже неплохо владеющие SQL, часто пишут сложные громоздкие запросы там, где можно обойтись более простыми и эффективными, путаются с фреймами или вообще их не используют. А уж сколько берут не те функции или используют их ограниченно, например, с простыми сортировками без указания границ окна — просто потому что не знают, как еще можно. Чтобы разобраться в теме, нужна практика на реальных рабочих примерах, но где ее взять? 

Вот мы и подумали, почему бы не создать такой курс, который возьмет и познакомит всех желающих с волшебным миром оконок. С понятной теорией, написанной человеческим языком, и жизнеспособными примерами, которые пригодятся потом в работе.

🔄 Подумали и сделали: в пятницу запустили новый проект — еженедельную рассылку по оконным функциям.
8 писем, каждое с теорией, красивыми оптимизированными запросами и табличками. Все, от чего у каждого аналитика теплеет на душе. Заходите на сайт проекта, чтобы узнать больше или просто посмотреть, какой красивый дизайн мы ему сделали. 🔥

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM