Data Science: SQL и Аналитика данных
40K subscribers
244 photos
54 videos
1 file
299 links
№ 6205468675

На простом языке: про работу с данными, современные технологии, AI, машинное обучение и, немного, SQL.

Сотрудничество: @niktwix

Менеджер: @Spiral_Yuri
Download Telegram
🔥Свет мой, ChatGPT! Скажи, да всю правду доложи

Модель ChatGPT, натренированная OpenAI, — одна из нашумевших новостей прошлого года, и посты о ней льются в соцсетях бесконечным потоком. Но нам же хочется чего-то применимого на практике, верно?

Тогда вот: 50 подсказок, которые можно использовать, чтобы ChatGPT генерировала текст в рамках определенной задачи. Хотите попереписываться с Гермионой Грейнджер? Или завести библиотеку английских панчлайнов? Или потренироваться для предстоящего интервью на должность старшего аналитика данных? Тогда вот целый PDF с идеями, как скрасить себе вечер, прокачать навыки в письме на английском или повысить уверенность в себе.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ DataLens открывает галерею дашбордов и не только

Любите иногда позалипать повдохновляться на Tableau Public? Да, мы тоже — а кто не любит?

Теперь то же самое можно будет сделать, но с дашбордами на Yandex DataLens — сервис запускает DataLens Gallery. Это галерея с готовыми примерами дашбордов и чартов. Можно будет как добавить свою работу, так и посмотреть чужие, еще и с разбивкой по отраслям. Особенно понравившиеся даже можно будет развернуть у себя — если автор дал разрешение.

Кроме того, DataLens запускает:

⏺️Editor JavaScript-редактор для кастомизации графиков и таблиц с поддержкой интеграции данных из разных источников, включая внешние API. Он нацелен на опытных аналитиков, но в будущем планируется внедрение LLM-помощника для генерации визуализаций по текстовому описанию.

⏺️Экспорт/импорт и перенос воркбуков между окружениями. Переносить объекты между инсталляциями станет намного проще, где бы они ни находились. Уже доступно в Yandex Cloud и open-source, а скоро обещают и в on-premise.

⏺️Программу сертификации для специалистов по работе с сервисом. Чтобы получить сертификат и с гордостью написать в резюме, что вы владеете DataLens, нужно будет сдать экзамен: там проверят умение работать с чартами, датасетами, датасорсами и дашбордами. Вообще это будет стоить 5000 рублей, но до конца августа — всего 2500₽.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Sketch — библиотека, которая выполнит всю работу за вас

Если честно, при просмотре этого видео складывается ощущение, что больше можно совершенно не учиться программировать на Python, ведь Sketch может писать код и проводить анализ самостоятельно.

➡️ Как она работает?

Волшебно. А если серьезно, то эта библиотека — AI-ассистент по написанию кода: она заточена под анализ данных, в особенности с использованием библиотеки pandas (но и других тоже). Вам нужно подключить Sketch, загрузить данные, а затем либо задавать модели вопросы по данным, либо просить ее посчитать что-то на их основе, добавить переменные или нарисовать график.

➡️ Если вы уже запереживали

Спешим напомнить, что любое развитие науки и техники можно приручить и получать от него выгоду (а не потерю рабочего места). Не забывайте, что задачи, которые под силу лишь человеку, всегда будут.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Как наладить обмен данными между несколькими сервисами без API

И стоит ли это делать?

Fly.io — платформа с серверами в 30+ регионах. Создатели обещают, что на их железе вы сможете запустить свое приложение на любом из континентов, кроме Антарктиды (но это вопрос времени, если верить сайту), и везде оно будет работать одинаково быстро.

Чтобы приложения летали еще шустрее, в Fly разработали LiteFS — распределенную файловую систему, заточенную под работу с базами данных SQLite. В процессе тестирования они обнаружили, что с ее помощью можно наладить обмен информацией между приложениями без API.

Угадаете как? Просто отправляя read only-копии базы данных.

⏺️Идею объясняют на примере программы Corrosion, с помощью которой в Fly следят за состоянием серверов. Свои отчеты она хранит в SQLite.

⏺️Когда Corrosion запустили на LiteFS, обнаружили, что теперь могут легко перекидывать данные из нее другим внутренним сервисам компании без API. Достаточно отправить копию базы, а получатель уже извлечет из нее все, что ему нужно, SQL-запросами.

⏺️Авторы рассказывают об этом методе, как об отличном способе сэкономить время разработчиков. Строить API несколько дольше и сложнее, чем перекидывать данные между сервисами напрямую.

👀 Правда, неясно, можно ли широко использовать такой подход. Возможно, это хорошее внутреннее решение для небольшой команды. Но будет ли оно работать так же эффективно с большими объемами данных или числом получателей? Не уверены, поэтому спрашиваем у вас.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Спасти полмиллиона долларов за пять минут

Поучительная история про эффективный менеджмент и дыры, в которые с невероятной скоростью утекают деньги.

➡️ Несколько лет назад компания N решила, что ей нужна своя платформа для аналитики, чтобы стать более data-driven. Узнали, согласны?

Компания, в числе прочих, наняла на работу дата саентиста, недавнего выпускника. Тот обнаружил две вещи:
1️⃣ Дата саенсом в его работе и не пахло.
2️⃣ На самом деле, компании N дата саенс был вообще не нужен, а нужно было для начала сократить раздутый штат. Вместо этого компания наняла кучу важных консультантов. Узнали, согласны?

Тем временем обещанная платформа для аналитики все не строилась и не строилась. Тот самый дата саентист успел уйти из компании, мир успел сотрястись от ковида, а платформы все не было. Узнали, со… ладно, больше не будем.

➡️ Дата саентист вернулся в компанию N спустя несколько лет, потому что ему нужны были деньги, а компании, из которой регулярно сбегали сотрудники, нужны были люди.

Там он увидел вещи, которые вам и не снились. Хаос технического долга у многострадальной платформы, которая только начала работу. Никаких ранее обещанных функций у нее не было, зато был файл, сносящий прод при переносе в другую папку. А еще база данных на Snowflake, которой платили, пока компьютеры, на которых хранились базы, были включены — причем они были запрограммированы на 10 минут простоя после каждого запроса.

Чувствуете, куда все идет?
Наш дата саентист не знает точный бюджет, выделенный на работу с данными, но предполагает, что рассчитывали на сумму около 200к долларов в год, а приблизились к миллиону. Отказ от простоев помог сэкономить около 500к, но успел потрепать автору истории нервы.

➡️ Кажется, что мы рассказали все самое интересное, но это не так. Рекомендуем почитать текст целиком и особенно рекомендации рассказчика, что делать в такой ситуации.

Спойлер: ничего, а то придется ходить на встречи и делать презентации, чтобы объяснить, как вообще это получилось, за невпечатляющую прибавку к зарплате.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤️ Мануал к дому: современные решения для современных проблем

Вы помните, когда надо счетчики на воду менять? А модель счетчика назовете? Или где у вас лежат гарантия на холодильник и инструкция к стиральной машинке? Рано или поздно придется разобраться, что значат все эти значки и циферки с градусами.

➡️ Если эти вопросы вызывают затруднения, не расстраивайтесь. До них у многих не доходят руки, пока не возникнут проблемы. Вот тогда приходится срочно искать документы и еще хуже — разбираться, где проходят провода и куда сантехники запрятали вентили на трубах.

Это всегда невовремя и невесело. Но решение есть — написать мануал! От проблем не избавит, но решать их станет проще.

➡️ Так поступил разработчик Люк Сяо, который недавно купил дом. Он задался вопросами, похожими на те, что в начале поста, и понял, что многого не знает о месте, где живет. Люк решил собрать ответы в одном месте: ТТХ, явки и пароли, документы, инструкции и ченджлог. То есть, сделал ремонт или купил что-то новое — сразу записал.

Он взял фреймворк Diátaxis и создал для своего дома репозиторий на Git. Вы скажете, что это слишком, мы скажем — возможно. Но все равно вызывает уважение. 🔥

Да и сам Люк признает, что большинству людей хватит гуглодока. Но если вы хотите повторить его опыт, он довольно подробно его описал с ссылками, скринами и полезными советами.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 OpenAI снова унизили — поисковик Perplexity выпустил БЕСПЛАТНУЮ версию Deep Research. И она работает даже лучше, чем детище OpenAI:

⏺️ Для генерации исследования Perplexity анализирует до 100 (!) сайтов. Для сравнения — OpenAI всего 5-20;

⏺️ 5 БЕСПЛАТНЫХ запросов В ДЕНЬ (!!!) для всех желающих. Альтман за 20$ обещает 10 запросов В МЕСЯЦ;

⏺️ Результат можно сразу экспортировать в PDF — готовый доклад у вас в руках. PDF можно конвертировать в Word и редачить как угодно.

➡️Пробуем здесь — открывайте чат и в списке выбирайте Deep Research.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1 доллар и 24 года инфляции

За что мы любим хороший, качественный датавиз — так это за то, что он через обычные графики может рассказать историю.

➡️ График изменений индекса потребительских цен в США с 1999 по 2023 годы — это не просто сухие цифры и скучная статистика, а целая сага. Нам нем видно и кризис 2008, и резкий рост цен в пандемию, и неумолимо дорожающую медицину.

➡️ Авторы взяли данные о динамике цен на еду, недвижимость, одежду, транспорт, медицинские услуги, развлечения, образование и абстрактное «прочее». Их объединили в один график, но если навести на него мышку, можно посмотреть детализацию по категориям, годам и месяцам. Еще и со сравнением с предыдущими периодами!

Получилась эффектная визуализация того, как изменилась ценность одного доллара за 24 года. Даже если вы от США далеко, посмотреть все равно интересно — хотя бы, чтобы впечатлиться объемом работы.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 SQLite: большой потенциал маленькой СУБД

SQLite уже прошлый век и пора переходить на новые, более лучшие модные СУБД.

SQLite часто воспринимают как инструмент с ограниченными возможностями для работы с небольшими сайтами и приложениями. Это и неудивительно: SQLite — встраиваемая СУБД, которая хранит данные локально в одном компактном файле. Отсюда и вытекают все ее плюсы и минусы.

Но возможности у нее не такие уж и скромные. Например, вот тут автор рассказывает подробнее про преимущества SQLite.
⏺️ Бодрая скорость работы с минимальными задержками даже при обработке большого количества запросов.
⏺️ Она встраивается в приложение — а значит, это минус один сервис, за которым надо следить разработчику. Одной головной болью меньше.
⏺️ SQLite справляется с базами данных объемом в эксабайт или миллион терабайт. Большинству из пользователей этой СУБД такие масштабы совершенно не нужны, но если вдруг понадобится — имейте в виду.
⏺️ Хранение данных в одном файле накладывает ограничения, которые приходится обходить надстройками и дополнительными сервисами. Зато это упрощает разработку и тестирование приложений. Это просто файл, с которым работать намного легче, чем с более сложной базой данных.

Резюмируя, это перспективный инструмент, который иногда после некоторых доработок вполне может потягаться с более «серьезными» СУБД.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 3 способа выбрать СУБД

Рекомендуем полезную статью по выбору СУБД на Хабре — без воды, только самое главное: немного теории и полезная шпаргалка, которую стоит сохранить себе.

1️⃣ Классификация СУБД по типам с примерами и указанием, для каких задач они подходят, а с какими справляются плохо.
2️⃣ Технические параметры разных систем: структура данных, масштаб, характер обращений, сертификация, тип лицензии и так далее.
3️⃣ Теорема САР. Согласованность данных, доступность, устойчивость к разделению — выберите два и найдете подходящую СУДБ.

Но самое крутое — это, конечно, схема, которую нарисовали авторы, чтобы все эти знания было удобнее применять на практике. Они предлагают аж три способа подбора подходящей СУБД. Самый простой из них — отвечаете на 5 вопросов и тут же получаете рекомендацию, какая система оптимально подойдет под ваш запрос.

Можно придраться, что не упомянули какую-нибудь СУБД или, наоборот, что пытались объять необъятное и предложили слишком много вариантов, когда можно было ограничиться самыми популярными. Но не будем — идея хорошая и исполнение тоже.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Киберспорт для серьезных людей

Мальчик: смотрит чемпионат по «Доте»

Мужчина: смотрит чемпионат по Excel

👀 Да, владение старым добрым Экселем — тоже киберспорт со своим чемпионатом в Лас-Вегасе, спонсорами и призовым фондом в 15 000 долларов.

В финале Microsoft Excel World Championship, который прошел 7-9 декабря приняли участие 16 человек, настоящих профи по табличкам и формулам. Им давали задания, специально спроектированные так, чтобы для решения не требовалось специальных профессиональных знаний, кроме знакомства с функционалом Excel. Например, рассчитать, сколько минералов можно намайнить на астероиде в игре Eve Online. Все данные для расчета участникам предоставляли, а дальше надо было применить знания формул, смекалку и логическое мышление.

Каждое задание было разделено на несколько уровней с возрастающей сложностью и дополнительными вопросами. На решение — 30 минут.

🔥 В общем, это было захватывающе. Победил аналитик из Сиднея Эндрю Най – третий раз подряд! На сайте компании, в которой он занимает должность директора, уже выложили целое интервью с ним.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Почему работать в команде не всегда здорово

Спросите вашего эйчара: «В чем сила, брат?»

И он скажет: «Конечно, в команде!»

Смысл в этом есть — мало кто может позволить себе быть одиноким волком. Так или иначе приходится учиться договариваться и объединять усилия для достижения общих целей. Правда, иногда такое, в общем, благое дело, как командная работа, дает не тот эффект, как хотелось бы.

➡️ Эффект общеизвестного факта — это ситуация, когда участники команды вместо того, чтобы привносить в обсуждение что-то новое, обсуждают то, что все и так знают. Про это есть целое исследование.

🔄 Исследователи описали три проекта, A, B и C, с разным количеством плюсов и минусов. Самым перспективным был проект B.
🔄 Данные о проектах предоставили 307 участникам, которые принимали решение самостоятельно. Каждому дали 10 минут на рассуждение и список характеристик проекта без оценочных суждений. То есть без заявлений вроде: «Плюсы проекта A в том, что…» 80% участников выбрали проект B.
🔄 Затем обсуждению привлекли команды, и если у всех участников была одинаковая и полная информация, они тоже выбирали B.
🔄 Ситуация менялась, если данные распределялись неравномерно. Плюсы проектов A и C и минусы проекта B рассказали всем участникам. Минусы A и C и плюсы B донесли по-разному. То есть разные участники знали о разных достоинствах B и недостатках A и C. В итоге только 31% команд распознали проект B как оптимальный.

На этот исход влияет несколько факторов: и динамика в группе, и человеческая любовь к предварительным выводам и предвзятости подтверждения. Но бороться с этим можно. В конце исследования есть рекомендации: например, визуалировать доступную информацию и отдавать приоритет тщательному сбору данных перед принятием решения.

Вот так, думали у нас тут какой-то эйчарский пост про софт скиллы, а на самом деле все опять свелось к данным.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Прорубаем окно в мир оптимизированных SQL-запросов

Мы тут часто пишем про нейросети, новости IT, чемпионаты по Excel и всякий разный полезный софт. В общем, много про что. Но нашей главной любовью остается он — SQL. ❤️

SQL крутой инструмент для любого человека, работающего с данными. У него куча возможностей, о которых некоторые даже не знают — или знают, но считают, что это что-то сложное и непонятное.

➡️ Например, оконные функции
Они полезны, когда надо сравнить показатели за разные периоды, рассчитать накопленную сумму за определенный промежуток времени, разделить пользователей на несколько групп, узнать медиану. Это все можно сделать и без оконок, но с ними намного удобнее!

👀 А что, без них — никак?
Люди, даже неплохо владеющие SQL, часто пишут сложные громоздкие запросы там, где можно обойтись более простыми и эффективными, путаются с фреймами или вообще их не используют. А уж сколько берут не те функции или используют их ограниченно, например, с простыми сортировками без указания границ окна — просто потому что не знают, как еще можно. Чтобы разобраться в теме, нужна практика на реальных рабочих примерах, но где ее взять? 

Вот мы и подумали, почему бы не создать такой курс, который возьмет и познакомит всех желающих с волшебным миром оконок. С понятной теорией, написанной человеческим языком, и жизнеспособными примерами, которые пригодятся потом в работе.

🔄 Подумали и сделали: в пятницу запустили новый проект — еженедельную рассылку по оконным функциям.
8 писем, каждое с теорией, красивыми оптимизированными запросами и табличками. Все, от чего у каждого аналитика теплеет на душе. Заходите на сайт проекта, чтобы узнать больше или просто посмотреть, какой красивый дизайн мы ему сделали. 🔥

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Путь от Python до богатства проходит через Нидерланды

…а от SQL до безумия — почему-то через эмодзи. 👀

Такой маршрут прокладывает сайт 6 degrees of Wikipedia, который ищет самый короткий путь от одной статьи в «Википедии» к другой по перекрестным ссылкам.

🔄 Автор вдохновлялся теорией шести рукопожатий — согласно ей все люди в мире связаны друг с другом через цепочку из 5 общих знакомых. Точно так же и от одной статьи в «Вики» до любой другой теоретически можно дойти за 5 кликов. Часто даже меньше — за 3-4.

🔄 Но это не точно. Можно поставить перед собой челлендж — найти две максимально далекие темы, между которыми больше 5 кликов. Или такие, между которыми цепочку переходов вообще не построишь.

Сразу предупреждаем, что проект ищет только по англоязычным статьям. Зато как красиво это делает! Он рисует схемы переходов по ссылкам, которые иногда получаются очень даже эффектными. Например, красиво выглядит путь — точнее множество путей — из Австралии до Зимбабве. 🔥

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Почему все так дорого?

Новый год прошел, а память о возмутительных ценах на горошек и колбасу для оливье еще жива. Если закупаясь продуктами перед праздником, вы задавались вопросом, почему все так ужасно дорого, знайте, что вы не одиноки. Это проблема по-настоящему международного масштаба.

В подтверждение у нас есть целое исследование, которое проводилось в коллаборации с Google Trends.

🔄 В основу легли данные о поисковых запросах с 2012 по 2023 годы. Авторы изучили, цены на какие товары или услуги так смущали пользователей, что они заходили в Google и писали: «Почему … стоит так дорого?» Ну, или что-то похожее.

🔄 В 2013 году людей из разных стран больше всего интересовала причина высокой стоимости техники. А вот с 2015 и по настоящее время — чаще задаются вопросом, почему так дорого стоят еда и напитки (в частности, яйца).

🔄 К исследованию прикрепили целую гору графиков с разбивкой по категориям товаров и странам. В каждую категорию и страну можно «провалиться» и узнать, например, что в 2015 году в Узбекистане пользователей Google интересовало, почему так дорого стоят вещи бренда Yeezy.

В общем, получается, что на вопрос в заголовке исследование так и не отвечает. Зато дает узнать, цены на какие вещи так возмущают или шокируют людей в разных странах, что они аж в Google идут. 👀

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 Много ли пользы от ИИ в науке?

ChatGPT и генерация картинок в духе «советские плакаты в стиле Ghibli» — это не предел возможностей современного ИИ, который активно применяется в науке. Один из самых известных примеров (но далеко не единственный) — это AlphaFold, ИИ, предсказывающий пространственные структуры белков.

Надежд на ИИ много, но вот насколько он оправдывает ожидания?

➡️ Физик Ник МакГрейви решил использовать ИИ для решения дифференциальных уравнений в частных производных. Изначально он к этой идее относился с большим энтузиазмом, но быстро разочаровался — нейросети оказались ненадежным инструментом с нестабильными и недостоверными результатами.

Разочаровали и статьи коллег об использовании ИИ в этой сфере. Да, в них много писали о том, что с помощью нейросетей уравнения решаются в миллионы раз быстрее, чем стандартными методами, но Ник на своем опыте это подтвердить не смог.
⏺️Оказалось, что авторы научных работ часто сравнивали эффективность ИИ с устаревшими вычислительными методами. По сравнению с более современными подходами нейросети зачастую давали незначительное преимущество или вообще справлялись хуже.
⏺️Ник не единственный, кто обратил внимание на проблемы с воспроизводимостью результатов ИИ. Уже есть целый список научных публикаций, данные в которых оказались недостоверными и неточными из-за утечек данных при обучении ML-моделей.
⏺️Еще один пример — из портфолио DeepMind, которые и разработали знаменитый AlphaFold. Они заявили, что другой ИИ-инструмент, GNoME открыл миллионы новых кристаллических структур. Но когда часть этих структур проанализировали ученые, они обнаружили, что большинство из них ценности не имеют.
⏺️Трезво оценить возможности ИИ не дает еще и ошибка выжившего — исследования, где он не помог добиться желаемого, часто не доходят до публикации.

То есть это все хайп и маркетинг, а ИИ для науки бесполезен?
Конечно, нет — польза от ИИ есть и, скорее всего, будет расти. Но на его достижения надо смотреть трезво и не вестись на громкие заголовки в прессе. И, как оказалось, даже серьезные научные публикации на эту тему стоит воспринимать со здоровым скепсисом.

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Как работают data-специалисты в 2025?

Инженеры, аналитики, дата-сайентисты, ML-специалисты — как у вас дела? Как работа? Чем вы занимаетесь и какие инструменты используете?

А хотите не только про себя рассказать, но и узнать, как дела у коллег?
⏺️Узнать про тренды в индустрии и набирающие популярность инструменты.
⏺️Увидеть, как обстоят дела на рынке труда и сколько работодатели готовы специалистам вашего профиля.
⏺️Подсмотреть, как устроены рабочие процессы в других компаниях и перенять лучший опыт.

Тогда пройдите опрос от команды DevCrowd. Он займет 15 минут и поможет составить честную и объективную картину data-рынка в 2025 году. Результаты выложат в открытый доступ в августе.

➡️ Пройти опрос

P.S. А тут можно посмотреть результаты за прошлый год 👀

🫡 Всё пиз-Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM