🖖 Всем привет!
🧙♀️ Хотел поделиться аналитикой с ее главной составляющей - подписчиками. Думаю, что будет интересно рассмотреть группу с точки зрения «продуктовой» аналитики, а она в Telegram есть.
🧑💼 Это будет ежемесячной рубрикой, где вместе будем обсуждать результаты работы «продукта», выдвигать гипотезы, следить за динамикой и спорить, все как в жизни.
🏁 Основные достижения за апрель: 425 + подписчиков, три поста набрали более 1000 просмотров, 4 видео, 30 постов. Спасибо Вам огромное!
🎬 Начнем с небольшого ликбеза по разделам.
📈 Статистика начинается с секции «Общая», где отображается количество подписчиков, процент включивших уведомления (спасибо), среднее количество просмотров поста, и количество пересылок. Справа видим процентное изменение за период. Задержка данных - 1 день.
📊 Далее идет линейный график «Рост», где показывается изменение общего количества подписчиков. Следом показывается приток и отток подписчиков, а также изменение по включению уведомлений.
🕰 «Просмотры по часам» демонстрирует количество просмотров в зависимости от времени суток и сравнивает два недельных периода. Помогает выбрать оптимальное время выпуска контента.
🚰 Источники просмотров и подписчиков отображают откуда Вы сюда пришли. Что значит «Другое», не знаю, жду Ваших идей.
👅 «Языки» наименее интересный из всех разделов, так как скорее всего показывает локацию, а не язык пользователя.
🤸♀️ «Активность» агрегирует событие просмотр и поделиться по дням. Странно, что находится в самом внизу, хотя для меня один из самых интересных, так как помогает отслеживать пульс группы.
⌛️ В «недавних постах» выведен список постов с количеством просмотров и поделившихся.
🫢 В статистике не хватает общего рейтинга постов, процентов просмотра подписчиков и не подписчиков.
🥳 Подводя итоги месяца, скажу, что это был потрясающий старт, а дальше в планах еще больше постов и видео с интересными гостями.
👯♀️ Графики - это хорошо, но Ваша обратная связь намного важнее: жду ваших мнений и предложений!
#аналитика
🧙♀️ Хотел поделиться аналитикой с ее главной составляющей - подписчиками. Думаю, что будет интересно рассмотреть группу с точки зрения «продуктовой» аналитики, а она в Telegram есть.
🧑💼 Это будет ежемесячной рубрикой, где вместе будем обсуждать результаты работы «продукта», выдвигать гипотезы, следить за динамикой и спорить, все как в жизни.
🏁 Основные достижения за апрель: 425 + подписчиков, три поста набрали более 1000 просмотров, 4 видео, 30 постов. Спасибо Вам огромное!
🎬 Начнем с небольшого ликбеза по разделам.
📈 Статистика начинается с секции «Общая», где отображается количество подписчиков, процент включивших уведомления (спасибо), среднее количество просмотров поста, и количество пересылок. Справа видим процентное изменение за период. Задержка данных - 1 день.
📊 Далее идет линейный график «Рост», где показывается изменение общего количества подписчиков. Следом показывается приток и отток подписчиков, а также изменение по включению уведомлений.
🕰 «Просмотры по часам» демонстрирует количество просмотров в зависимости от времени суток и сравнивает два недельных периода. Помогает выбрать оптимальное время выпуска контента.
🚰 Источники просмотров и подписчиков отображают откуда Вы сюда пришли. Что значит «Другое», не знаю, жду Ваших идей.
👅 «Языки» наименее интересный из всех разделов, так как скорее всего показывает локацию, а не язык пользователя.
🤸♀️ «Активность» агрегирует событие просмотр и поделиться по дням. Странно, что находится в самом внизу, хотя для меня один из самых интересных, так как помогает отслеживать пульс группы.
⌛️ В «недавних постах» выведен список постов с количеством просмотров и поделившихся.
🫢 В статистике не хватает общего рейтинга постов, процентов просмотра подписчиков и не подписчиков.
🥳 Подводя итоги месяца, скажу, что это был потрясающий старт, а дальше в планах еще больше постов и видео с интересными гостями.
👯♀️ Графики - это хорошо, но Ваша обратная связь намного важнее: жду ваших мнений и предложений!
#аналитика
🔥11❤7👍4
🫡 Всем привет!
🙋 Самый частый вопрос после «Кто сильнее Python или SQL?» - это «Как/какой/когда/зачем пет-проект сделать?». Поэтому будет серия статей, в первой мы разберем мотивацию и определение, а также поделюсь списком возможных источников данных.
🦊 Пет-проект в первую очередь - это личный проект специалиста на тему, которая ему интересна, а уже потом строчка в резюме, на которую обратит внимание HR.
👨🏫 Исходя из определения, необходимо решить, что Вам интересно, иначе проект обречен на провал, не успев начаться.
🧑💻 Далее выбираем стек технологий, который будет релевантен в вашей области. Это может быть даже Excel, ведь идея намного важнее инструмента реализации.
🧞♂️ Например, я начинал digital web аналитиком, поэтому я выбрал пет-проект на тему: повторить Google Analytics дэшборды с использованием Python и BigQuery, в качестве платформы я использовал kaggle, так как там были необходимые датасеты и среда разработки.
🎁 Подготовил для Вас небольшую подборку по платформам с открытыми данными и категоризировал их.
🌍 Общие наборы данных:
Kaggle: много наборов данных по широкому кругу тем.
Репозиторий машинного обучения UCI: коллекция наборов данных для исследований в области машинного обучения, включая данные по финансам, медицине и социальным наукам.
Google Dataset Search: поисковая система для поиска наборов данных, размещенных на различных веб-сайтах.
DataHub: платформа для обнаружения, обмена и публикации открытых данных.
Коллекция общедоступных наборов данных, размещенных на Amazon Web Services.
📈 Экономические и финансовые наборы данных:
Данные Федерального резервного банка Сент-Луиса.
Quandl: финансовые и экономические данные.
Yahoo Finance: данные финансового рынка, включая исторические курсы акций.
Данные Всемирного банка и других международных организаций по ряду тем, включая бедность, гендер и окружающую среду.
Данные Международного валютного фонда по целому ряду тем, включая экономический рост и международную торговлю.
🌡 Наборы климатических и экологических данных:
NASA Earth Observations: данные об окружающей среде и спутниковые изображения.
Данные о погоде и климате от Национального управления океанических и атмосферных исследований (NOAA).
Global Forest Watch: данные о лесах по всему миру.
Данные Организации Объединенных Наций по целому ряду тем, включая окружающую среду и устойчивое развитие.
🏠 Наборы социальных и демографических данных:
Pew Research Center: данные о социальных и демографических тенденциях в США.
Open Data Soft: данные по целому ряду тем, включая здравоохранение, транспорт и общественную безопасность.
Данные UNICEF о здоровье и благополучии детей во всем мире.
Данные о гуманитарных кризисах и мерах реагирования по всему миру.
💊 Понимаю, что не самый удобный формат, поэтому оформил еще и в табличном виде с дополнительными полями: API, регистрация, форматы и прочее!
🖊 А какие еще источники Вы знаете? В ближайшее время планирую список расширять и добавить отечественные платформы.
#петпроект #подборка
🙋 Самый частый вопрос после «Кто сильнее Python или SQL?» - это «Как/какой/когда/зачем пет-проект сделать?». Поэтому будет серия статей, в первой мы разберем мотивацию и определение, а также поделюсь списком возможных источников данных.
🦊 Пет-проект в первую очередь - это личный проект специалиста на тему, которая ему интересна, а уже потом строчка в резюме, на которую обратит внимание HR.
👨🏫 Исходя из определения, необходимо решить, что Вам интересно, иначе проект обречен на провал, не успев начаться.
🧑💻 Далее выбираем стек технологий, который будет релевантен в вашей области. Это может быть даже Excel, ведь идея намного важнее инструмента реализации.
🧞♂️ Например, я начинал digital web аналитиком, поэтому я выбрал пет-проект на тему: повторить Google Analytics дэшборды с использованием Python и BigQuery, в качестве платформы я использовал kaggle, так как там были необходимые датасеты и среда разработки.
🎁 Подготовил для Вас небольшую подборку по платформам с открытыми данными и категоризировал их.
🌍 Общие наборы данных:
Kaggle: много наборов данных по широкому кругу тем.
Репозиторий машинного обучения UCI: коллекция наборов данных для исследований в области машинного обучения, включая данные по финансам, медицине и социальным наукам.
Google Dataset Search: поисковая система для поиска наборов данных, размещенных на различных веб-сайтах.
DataHub: платформа для обнаружения, обмена и публикации открытых данных.
Коллекция общедоступных наборов данных, размещенных на Amazon Web Services.
📈 Экономические и финансовые наборы данных:
Данные Федерального резервного банка Сент-Луиса.
Quandl: финансовые и экономические данные.
Yahoo Finance: данные финансового рынка, включая исторические курсы акций.
Данные Всемирного банка и других международных организаций по ряду тем, включая бедность, гендер и окружающую среду.
Данные Международного валютного фонда по целому ряду тем, включая экономический рост и международную торговлю.
🌡 Наборы климатических и экологических данных:
NASA Earth Observations: данные об окружающей среде и спутниковые изображения.
Данные о погоде и климате от Национального управления океанических и атмосферных исследований (NOAA).
Global Forest Watch: данные о лесах по всему миру.
Данные Организации Объединенных Наций по целому ряду тем, включая окружающую среду и устойчивое развитие.
🏠 Наборы социальных и демографических данных:
Pew Research Center: данные о социальных и демографических тенденциях в США.
Open Data Soft: данные по целому ряду тем, включая здравоохранение, транспорт и общественную безопасность.
Данные UNICEF о здоровье и благополучии детей во всем мире.
Данные о гуманитарных кризисах и мерах реагирования по всему миру.
💊 Понимаю, что не самый удобный формат, поэтому оформил еще и в табличном виде с дополнительными полями: API, регистрация, форматы и прочее!
🖊 А какие еще источники Вы знаете? В ближайшее время планирую список расширять и добавить отечественные платформы.
#петпроект #подборка
Kaggle
Find Open Datasets and Machine Learning Projects | Kaggle
Download Open Datasets on 1000s of Projects + Share Projects on One Platform. Explore Popular Topics Like Government, Sports, Medicine, Fintech, Food, More. Flexible Data Ingestion.
🔥21👍7❤5
🚀 Всем привет!
🐼 При работе с данными, используя библиотеку pandas в Python, обычно возникает необходимость применить операцию к каждой строке DataFrame. Один из способов сделать это - использовать итерацию строк. Однако этот подход может быть медленным и неэффективным, особенно для больших наборов данных.
🧭 В этом посте мы рассмотрим, как использовать метод .apply() и векторизацию, которые могут значительно повысить производительность.
👉 Предположим, у нас есть DataFrane с двумя столбцами "x" и "y", и мы хотим создать новый столбец "z", который является суммой "x" и "y" для каждой строки.
👷♀️ Метод
♾️ Теперь давайте посмотрим, как мы можем использоваь векторизацию. Pandas предоставляет множество векторизованных операций, которые могут быть применены сразу ко всему столбцу или DataFrame, что может быть намного быстрее, чем итерация строк.
➕ Создаем новый столбец "z", просто складывая столбцы "x" и "y" вместе с помощью оператора "+". Эта операция применяется сразу ко всему DataFrame, что намного быстрее, чем циклическое прохождение по каждой строке.
🍏 Наконец, давайте используем метод
🐸 Этот код применяет лямбда-функцию к каждой строке DataFrame, чтобы вычислить сумму "x" и "y" и создать новый столбец "z" для сохранения результата.
⚖️ Чтобы сравнить производительность этих трех методов, давайте создадим больший DataFrane со 100 000 строками.
🧮 Теперь давайте подсчитаем, сколько времени потребуется, чтобы создать новый столбец "z", используя итерацию строк, векторизацию и
🛬 На моем компьютере запуск этого кода занимает около 5 секунд при использовании итерации строк, метод
🙇 Как вы думаете, когда использование итерации или метод .apply() оправдано? Какие результаты будут с 1 000 000 строк? Жду Ваших ответов в комментариях!
#pandas
🐼 При работе с данными, используя библиотеку pandas в Python, обычно возникает необходимость применить операцию к каждой строке DataFrame. Один из способов сделать это - использовать итерацию строк. Однако этот подход может быть медленным и неэффективным, особенно для больших наборов данных.
🧭 В этом посте мы рассмотрим, как использовать метод .apply() и векторизацию, которые могут значительно повысить производительность.
👉 Предположим, у нас есть DataFrane с двумя столбцами "x" и "y", и мы хотим создать новый столбец "z", который является суммой "x" и "y" для каждой строки.
import pandas as pd
df = pd.DataFrame({'x': [1, 2, 3], 'y': [4, 5, 6]})
for index, row in df.iterrows():
df.loc[index, 'z'] = row['x'] + row['y']👷♀️ Метод
.iterrows() перебирает каждую строку DataFrame, а затем вычисляет сумму "x" и "y" для каждой строки. Метод .loc используется для установки значения нового столбца "z" для каждой строки.♾️ Теперь давайте посмотрим, как мы можем использоваь векторизацию. Pandas предоставляет множество векторизованных операций, которые могут быть применены сразу ко всему столбцу или DataFrame, что может быть намного быстрее, чем итерация строк.
df['z'] = df['x'] + df['y']➕ Создаем новый столбец "z", просто складывая столбцы "x" и "y" вместе с помощью оператора "+". Эта операция применяется сразу ко всему DataFrame, что намного быстрее, чем циклическое прохождение по каждой строке.
🍏 Наконец, давайте используем метод
.apply() с лямбда-функцией для достижения того же результата.df['z'] = df.apply(lambda row: row['x'] + row['y'], axis=1)🐸 Этот код применяет лямбда-функцию к каждой строке DataFrame, чтобы вычислить сумму "x" и "y" и создать новый столбец "z" для сохранения результата.
⚖️ Чтобы сравнить производительность этих трех методов, давайте создадим больший DataFrane со 100 000 строками.
import numpy as np
df = pd.DataFrame({'x': np.random.randint(0, 10, size=100000), 'y': np.random.randint(0, 10, size=100000)})🧮 Теперь давайте подсчитаем, сколько времени потребуется, чтобы создать новый столбец "z", используя итерацию строк, векторизацию и
.apply()# Итерация строк
start_time = time.time()
for index, row in df.iterrows():
df.loc[index, 'z'] = row['x'] + row['y']
end_time = time.time()
print(f"Time using row iteration: {end_time - start_time:.4f}s")
# Векторизация
start_time = time.time()
df['z'] = df['x'] + df['y']
end_time = time.time()
print(f"Time using vectorisation: {end_time - start_time:.4f}s")
# Apply
start_time = time.time()
df['z'] = df.apply(lambda row: row['x'] + row['y'], axis=1)
end_time = time.time()
print(f"Time using apply with lambda: {end_time - start_time:.4f}s")Time using row iteration: 5.4305s
Time using vectorisation: 0.0021s
Time using apply with lambda: 0.7210s🛬 На моем компьютере запуск этого кода занимает около 5 секунд при использовании итерации строк, метод
.apply() выполняется почти секунду, а векториазция заняла всего 2 тысячных секунды. 🙇 Как вы думаете, когда использование итерации или метод .apply() оправдано? Какие результаты будут с 1 000 000 строк? Жду Ваших ответов в комментариях!
#pandas
👍8❤5
👩🎨 Всем привет!
🐍 В продолжении поста о визуализации данных, которая является неотъемлемой частью любого исследования, делюсь подборкой самых популярных библиотек Python, которые помогут Вам в этом нелегком деле.
⚒️ Matplotlib
Matplotlib - библиотека Python для создания статических, интерактивных и анимированных визуализаций на Python. Легко настраиваемая библиотека, и ее API прост в освоении. Отличный выбор как для начинающих, так и для опытных аналитиков данных.
🌊 Seaborn
Seaborn - это библиотека визуализации данных, основанная на Matplotlib. В Seaborn есть множество встроенных тем и цветовых палитр, которые позволяют делать самые красивые графики.
🦫 Plotly
Plotly - это библиотека визуализации данных на Python, которая создает интерактивные визуализации, готовые к публикации, используя Dash. Plotly поддерживает несколько языков, включая Python, R и Julia.
📸 Bokeh
Bokeh - это библиотека визуализации данных на Python, для создания интерактивных визуализаций для веб-браузеров. Она поддерживает инструменты для очистки и соединения данных. Bokeh предназначен для использования с большими наборами данных и может обрабатывать потоковые данные в режиме реального времени. С помощью Bokeh можно создавать визуализации на основе JavaScript, не используя JavaScript.
🦅 Altair
Altair - это декларативная библиотека визуализации для Python, которая предоставляет простой и лаконичный синтаксис для создания визуализаций. Altair построен поверх Vega-Lite. Может использоваться с большими наборами данных.
📊 Ggplot
Ggplot - это библиотека визуализации данных на Python, которая предоставляет API для создания графиков. Она основана на популярном R-пакете ggplot2 и предоставляет аналогичный синтаксис и функционал. Предоставляет широкий спектр возможностей настройки.
🐼 Pandas
Pandas Visualization - это встроенная библиотека визуализации данных, которая предоставляет простой API для создания диаграмм и графиков из DataFrame Pandas.
🌁 HoloViews
HoloViews - это библиотека визуализации данных на Python, которая предоставляет гибкий и мощный API для создания интерактивных визуализаций данных. HoloViews построен поверх Bokeh и поддерживает несколько бэкендов, включая Matplotlib. Богатые возможности для создания аннотаций к графикам.
🙏 Cufflinks
Cufflinks - это библиотека Python для создания интерактивных графиков из DataFrames Pandas с помощью Plotly. Cufflinks также поддерживает несколько стилей построения, включая темы из Matplotlib и Plotly.
🕊️ Pygal
Pygal - это библиотека визуализации данных на Python. Она построена поверх SVG, что позволяет легко встраивать диаграммы в веб-приложения и документы. Pygal поддерживает целый ряд опций настройки, включая темы и цветовые схемы.
🖼️ Vincent
Vincent - это библиотека визуализации данных на Python с использованием Vega и Vega-Lite. Возможно, самое главное, что у Vincent есть Pandas-Fu, и он создан специально для обеспечения быстрого построения графиков DataFrames и Series Pandas.
🔗 Вот данные в табличном виде.
✒️ А какая Ваша любимая библиотека для визуализации?
#подборка #визуализация
🐍 В продолжении поста о визуализации данных, которая является неотъемлемой частью любого исследования, делюсь подборкой самых популярных библиотек Python, которые помогут Вам в этом нелегком деле.
⚒️ Matplotlib
Matplotlib - библиотека Python для создания статических, интерактивных и анимированных визуализаций на Python. Легко настраиваемая библиотека, и ее API прост в освоении. Отличный выбор как для начинающих, так и для опытных аналитиков данных.
🌊 Seaborn
Seaborn - это библиотека визуализации данных, основанная на Matplotlib. В Seaborn есть множество встроенных тем и цветовых палитр, которые позволяют делать самые красивые графики.
🦫 Plotly
Plotly - это библиотека визуализации данных на Python, которая создает интерактивные визуализации, готовые к публикации, используя Dash. Plotly поддерживает несколько языков, включая Python, R и Julia.
📸 Bokeh
Bokeh - это библиотека визуализации данных на Python, для создания интерактивных визуализаций для веб-браузеров. Она поддерживает инструменты для очистки и соединения данных. Bokeh предназначен для использования с большими наборами данных и может обрабатывать потоковые данные в режиме реального времени. С помощью Bokeh можно создавать визуализации на основе JavaScript, не используя JavaScript.
🦅 Altair
Altair - это декларативная библиотека визуализации для Python, которая предоставляет простой и лаконичный синтаксис для создания визуализаций. Altair построен поверх Vega-Lite. Может использоваться с большими наборами данных.
📊 Ggplot
Ggplot - это библиотека визуализации данных на Python, которая предоставляет API для создания графиков. Она основана на популярном R-пакете ggplot2 и предоставляет аналогичный синтаксис и функционал. Предоставляет широкий спектр возможностей настройки.
🐼 Pandas
Pandas Visualization - это встроенная библиотека визуализации данных, которая предоставляет простой API для создания диаграмм и графиков из DataFrame Pandas.
🌁 HoloViews
HoloViews - это библиотека визуализации данных на Python, которая предоставляет гибкий и мощный API для создания интерактивных визуализаций данных. HoloViews построен поверх Bokeh и поддерживает несколько бэкендов, включая Matplotlib. Богатые возможности для создания аннотаций к графикам.
🙏 Cufflinks
Cufflinks - это библиотека Python для создания интерактивных графиков из DataFrames Pandas с помощью Plotly. Cufflinks также поддерживает несколько стилей построения, включая темы из Matplotlib и Plotly.
🕊️ Pygal
Pygal - это библиотека визуализации данных на Python. Она построена поверх SVG, что позволяет легко встраивать диаграммы в веб-приложения и документы. Pygal поддерживает целый ряд опций настройки, включая темы и цветовые схемы.
🖼️ Vincent
Vincent - это библиотека визуализации данных на Python с использованием Vega и Vega-Lite. Возможно, самое главное, что у Vincent есть Pandas-Fu, и он создан специально для обеспечения быстрого построения графиков DataFrames и Series Pandas.
🔗 Вот данные в табличном виде.
✒️ А какая Ваша любимая библиотека для визуализации?
#подборка #визуализация
Telegram
Only Analyst
Всем привет! Воскресный пост будет без кода! Тем не менее, будет интересно и затронем важный аспект аналитики данных – визуализацию.
Сегодня я посетил выставку в Новом Иерусалиме “Под знаком Рубенса”, в которой представлены работы мастера и его учеников.…
Сегодня я посетил выставку в Новом Иерусалиме “Под знаком Рубенса”, в которой представлены работы мастера и его учеников.…
❤11🔥6
🎨 Всем привет!
😀 В субботу обойдемся без Python и SQL, а обсудим тему, которая на прямую не касается аналитики данных, но тем не менее интересна - авторские права.
🙋♀️Некоторые заметили (на самом деле никто), что название группы созвучно с сайтом OnlyFans - платформой для поддержки создателей контента 😉
👩🎨 С дизайнером @anna_chet_art, когда прорабатывали дизайн, я решил сыграть на этом совпадении, поэтому некоторые элементы стиля были переосмыслены и воплощены с более технической и строгой ноткой. Подробный брендбук можете посмотреть по ссылке.
💌 После согласования и принятия работы, оставался один небольшой штрих - получить разрешение от OnlyFans на использование графических элементов, отдаленно напоминающих их творение! И кто бы мог подумать, но после короткой переписки и предоставления всех материалов, получили от них разрешение на использование (см. фото к посту) 😅
©️ Так что друзья, никогда не забывайте, что живем во время, когда все уже кому-то принадлежит, даже когда занимаешься анализом данных, надо задаваться вопросом откуда эти данные берутся и есть ли у вас разрешение на их использование или под какой лицензией они распространяются.
💻 Такое направление как парсинг довольно привлекательно звучит для начинающего аналитика, который хочет для своего проекта собрать информацию, но необходимо понимать, что многие сайты не сильно обрадуются такому наплыву GET запросов с Вашей стороны. И очень часто напрямую запрещают подобные действия.
🎳 Так что всегда лучше использовать данные, которые специально собраны для анализа. Множество датасетов можно найти в подборке или вот ссылка на мой давнишний набор данных недвижимости Парижа. Usability максимальная и распространяется по лицензии CC BY-NC-SA 4.0.
✒️ А откуда Вы обычно берете данные для исследований?
#авторскиеправа #истории
🙋♀️Некоторые заметили (на самом деле никто), что название группы созвучно с сайтом OnlyFans - платформой для поддержки создателей контента 😉
👩🎨 С дизайнером @anna_chet_art, когда прорабатывали дизайн, я решил сыграть на этом совпадении, поэтому некоторые элементы стиля были переосмыслены и воплощены с более технической и строгой ноткой. Подробный брендбук можете посмотреть по ссылке.
💌 После согласования и принятия работы, оставался один небольшой штрих - получить разрешение от OnlyFans на использование графических элементов, отдаленно напоминающих их творение! И кто бы мог подумать, но после короткой переписки и предоставления всех материалов, получили от них разрешение на использование (см. фото к посту) 😅
©️ Так что друзья, никогда не забывайте, что живем во время, когда все уже кому-то принадлежит, даже когда занимаешься анализом данных, надо задаваться вопросом откуда эти данные берутся и есть ли у вас разрешение на их использование или под какой лицензией они распространяются.
💻 Такое направление как парсинг довольно привлекательно звучит для начинающего аналитика, который хочет для своего проекта собрать информацию, но необходимо понимать, что многие сайты не сильно обрадуются такому наплыву GET запросов с Вашей стороны. И очень часто напрямую запрещают подобные действия.
🎳 Так что всегда лучше использовать данные, которые специально собраны для анализа. Множество датасетов можно найти в подборке или вот ссылка на мой давнишний набор данных недвижимости Парижа. Usability максимальная и распространяется по лицензии CC BY-NC-SA 4.0.
✒️ А откуда Вы обычно берете данные для исследований?
#авторскиеправа #истории
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🥰4
👋 Аналитики, привет!
🐼 В технической секции собесеования на аналитика данных, помимо
📚 Некоторые темы мы уже разбирали в группе, к ним будет приложена ссылка с соответствующим постом.
1️⃣ "Как выбрать определенные строки из фрейма данных в
📚 Разбор
🕵️♂️ Ответ: Использовать методы
2️⃣ "Как сгруппировать данные по столбцам в Pandas и использовать агрегатные функции?" 🤔
🕵️♂️ Ответ: Использовать метод
3️⃣ "Как обработать пропущенные значения во фрейме данных в
🕵️♂️ Ответ: Использовать метод
4️⃣ "Как мне объединить два
📚 Разбор
🕵️♂️ Ответ: Использовать метод
5️⃣ "Как применить функцию к каждому элементу в
📚 Разбор
🕵️♂️ Ответ: Использовать метод
6️⃣ "Как отсортировать
🕵️♂️ Ответ: Использовать метод
7️⃣ "Как создать новый столбец в
🕵️♂️ Ответ: Использовать оператор присваивания для создания нового столбца на основе существующих столбцов в
8️⃣ "Как читать и записывать CSV-файлы с помощью Pandas?" 🤔
🕵️♂️ Ответ: Использовать метод
✒️ Какую из тем хотелось бы подробней обсудить?
#pandas
🐼 В технической секции собесеования на аналитика данных, помимо
SQL и Python, бывает еще отдельный блок вопросов про Pandas! Собрал некоторые из самых популярных вопросов о Pandas со StackOverflow, чтобы не только подготовиться к собеседованию, но и решать реальные рабочие задачи. 📚 Некоторые темы мы уже разбирали в группе, к ним будет приложена ссылка с соответствующим постом.
1️⃣ "Как выбрать определенные строки из фрейма данных в
Pandas?" 🤔📚 Разбор
🕵️♂️ Ответ: Использовать методы
.loc или .iloc для выбора строк на основе условий или индекса.import pandas as pd
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40],
'Gender': ['F', 'M', 'M', 'M']})
male_rows = df.loc[df['Gender'] == 'M']
print(male_rows)2️⃣ "Как сгруппировать данные по столбцам в Pandas и использовать агрегатные функции?" 🤔
🕵️♂️ Ответ: Использовать метод
.groupby для группировки данных по столбцу, а затем применить к группам агрегатные функции: mean, sum и count.import pandas as pd
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40],
'Gender': ['F', 'M', 'M', 'M'],
'Salary': [50000, 60000, 70000, 80000]})
grouped = df.groupby('Gender')
print(grouped['Salary'].mean())
print(grouped['Salary'].sum())3️⃣ "Как обработать пропущенные значения во фрейме данных в
Pandas?" 🤔🕵️♂️ Ответ: Использовать метод
.fillna для заполнения пропущенных значений или используйте метод .dropna для удаления строк или столбцов с пропущенными значениями.import pandas as pd
import numpy as np
df = pd.DataFrame({'Name': [np.nan, 'Bob', 'Charlie', 'David'],
'Age': [25, 30, np.nan, 40],
'Gender': ['F', 'M', 'M', 'M']})
filled = df.fillna(value={'Age': df['Age'].mean()})
print(filled)df.dropna()4️⃣ "Как мне объединить два
DataFrames в Pandas?" 🤔📚 Разбор
🕵️♂️ Ответ: Использовать метод
.merge для объединения двух DataFrames на основе общего столбца или использовать метод .concat для объединения двух фреймов данных вдоль указанной оси.import pandas as pd
df1 = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40]})
df2 = pd.DataFrame({'Name': ['Bob', 'Charlie', 'David', 'Eve'],
'Salary': [60000, 70000, 80000, 90000]})
merged = pd.merge(df1, df2, on='Name')
print(merged)5️⃣ "Как применить функцию к каждому элементу в
DataFrame Pandas?" 🤔📚 Разбор
🕵️♂️ Ответ: Использовать метод
.apply, чтобы применить функцию к каждому элементу во фрейме данных, как по строкам, так и по столбцам.import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
def add_one(x):
return x + 1
result = df.apply(add_one)
print(result)6️⃣ "Как отсортировать
DataFrame Pandas по столбцу?" 🤔🕵️♂️ Ответ: Использовать метод
.sort_values для сортировки фрейма данных по одному или нескольким столбцам.import pandas as pd
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40]})
sorted_df = df.sort_values(by='Age')
print(sorted_df)7️⃣ "Как создать новый столбец в
DataFrame Pandas на основе существующих столбцов?" 🤔🕵️♂️ Ответ: Использовать оператор присваивания для создания нового столбца на основе существующих столбцов в
DataFrame.import pandas as pd
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40],
'Gender': ['F', 'M', 'M', 'M']})
df['IsFemale'] = df['Gender'].apply(lambda x: x == 'F')
print(df)8️⃣ "Как читать и записывать CSV-файлы с помощью Pandas?" 🤔
🕵️♂️ Ответ: Использовать метод
.read_csv для чтения данных из CSV-файла в DataFrame Pandas и использовать метод .to_csv для записи DataFrame в CSV-файл.import pandas as pd
# Reading data from a CSV file
df = pd.read_csv('data.csv')
# Writing data to a CSV file
df.to_csv('output.csv', index=False)✒️ Какую из тем хотелось бы подробней обсудить?
#pandas
Telegram
Only Analyst
😀 Всем привет!
🐼 Я уверен, что вы все использовали методы Pandas .iloc и .loc,которые позволяют нарезать 🔪 данные. Но задумывались ли вы когда-нибудь, какой из них быстрее? Давайте выясним! 🕵️♂️
🦄 Сначала давайте создадим два DataFrame для сравнения методов:…
🐼 Я уверен, что вы все использовали методы Pandas .iloc и .loc,которые позволяют нарезать 🔪 данные. Но задумывались ли вы когда-нибудь, какой из них быстрее? Давайте выясним! 🕵️♂️
🦄 Сначала давайте создадим два DataFrame для сравнения методов:…
❤16🔥8
🧭 В предыдущем посте обсуждали различные источники открытых данных для pet-проектов, но иногда запросы бывают довольно специфические и доступных наборов может не хватить, в таком случае на помощь приходят синтетические данные.
⛩️ В таком случаю помогут как специализированные библиотеки для создания «фэйковых» данных, так и более распространенные в узких кругах решения.
🎰 Библиотека Faker широко используется для создания реалистичных поддельных данных, таких как имена, адреса, номера телефонов и многое другое. Обеспечивает простой способ создания больших наборов данных с различными значениями.
from faker import Faker
import pandas as pd
fake = Faker()
# Generate fake names and addresses
data = {'Name': [fake.name() for _ in range(100)],
'Address': [fake.address() for _ in range(100)]}
df = pd.DataFrame(data)
df.head()
🧮 NumPy - это мощная библиотека для научных вычислений на Python. Он предоставляет функции для генерации массивов случайных чисел в соответствии с различными распределениями.import numpy as np
import pandas as pd
random_integers = np.random.randint(low=1, high=100, size=1000)
random_normal = np.random.normal(loc=0, scale=1, size=1000)
data = {'Random_Integers': random_integers,
'Random_Normal': random_normal}
df = pd.DataFrame(data)
🐼 Pandas - популярная библиотека для обработки и анализа данных. Она включает в себя функции для создания синтетических данных с определенной структурой, таких как временные ряды или категориальные переменные.import pandas as pd
dates = pd.date_range(start='2022-01-01', periods=365)
data = pd.DataFrame({'Date': dates, 'Value': np.random.rand(len(dates))})🙇♂️ Scikit-Learn - это широко используемая библиотека машинного обучения, которая также предлагает инструменты для генерации данных. Функция make_classification() может создавать синтетические наборы данных.
from sklearn.datasets import make_classification
import pandas as pd
X, y = make_classification(n_samples=1000, n_features=5, n_informative=3, n_classes=2)
df = pd.DataFrame(X, columns=[f"Feature_{i+1}" for i in range(X.shape[1])])
df['Label'] = y
📚 Это всего лишь несколько примеров библиотек Python, доступных для генерации синтетических данных. В зависимости от ваших конкретных потребностей вы можете изучить эти библиотеки более подробно и найти ту, которая наилучшим образом соответствует вашим требованиям.🥋 Теперь Вы знаете как создавать синтетические данные для тестирования, прототипирования или заполнения пробелов в ваших наборах данных!
✒️ Какие еще данные хотелось бы Вам создать? Приглашаю в комментарии для обсуждения.
#петпроект
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Only Analyst
🫡 Всем привет!
🙋 Самый частый вопрос после «Кто сильнее Python или SQL?» - это «Как/какой/когда/зачем пет-проект сделать?». Поэтому будет серия статей, в первой мы разберем мотивацию и определение, а также поделюсь списком возможных источников данных. …
🙋 Самый частый вопрос после «Кто сильнее Python или SQL?» - это «Как/какой/когда/зачем пет-проект сделать?». Поэтому будет серия статей, в первой мы разберем мотивацию и определение, а также поделюсь списком возможных источников данных. …
❤13🥰5👍3🔥1
📢 Внимание, аналитики!
🎸 В этой главе о pet-проектах обсудим их оформление.
💆♀️ Помимо того, что неплохо бы было иметь github аккаунт с примерами своей работы, его надо еще привести в привлекательный для HR и удобный для себя вид.
🤖 Хорошо, что не надо в ручном режиме возиться с разметкой, а можно воспользоваться бесплатными сервисами, которые из любого неприметного аккаунта сделают настающую приманку для работодателей.
👩🎨 На скриншоте пример результата использования подобного сервиса GPRM. Вот ссылка на github. Строго не судите, тогда я был молодым веб-разработчиком и мне нужны были деньги 😅
🥇GPRM: Платформа для создания описания на GitHub: о себе, статистика, социальные ссылки, технологии, пожертвования, достижения и даже цитаты (куда же без них).
🏁 В целом, на этом пост можно было и заканчивать, так как GRPM покрывает 99% потребностей. Но было бы несправедливо обойти несколько интересных проектов, которые могут заполнить оставшийся 1 %.
🧹 GitHub Profile Readme Generator: Удобный инструмент, который упрощает процесс создания профиля README. Он предлагает множество настраиваемых шаблонов для демонстрации ваших проектов, навыков и интересов.
📖 Readme: сервис для автоматического создания Readme проектов, что не менее важно, чем описание профиля.
💅 Awesome Github Profile Readme: В этом репозитории размещен список замечательных шаблонов README профиля GitHub. Найдите идеальный шаблон, который соответствует вашему стилю и проектам.
📇 Profile Summary For GitHub: Поможет создать симпатичное саммари Вашего аккаунта.
👯 All Contributor: Этот проект на GitHub предназначен для учета всех участников репозитория. Используя этот инструмент, вы можете автоматически создать профиль README, который демонстрирует всех участников.
📊 GitHub Readme Stats: Создавайте динамическую статистику о ваших репозиториях и активности.
#петпроект
🎸 В этой главе о pet-проектах обсудим их оформление.
💆♀️ Помимо того, что неплохо бы было иметь github аккаунт с примерами своей работы, его надо еще привести в привлекательный для HR и удобный для себя вид.
🤖 Хорошо, что не надо в ручном режиме возиться с разметкой, а можно воспользоваться бесплатными сервисами, которые из любого неприметного аккаунта сделают настающую приманку для работодателей.
👩🎨 На скриншоте пример результата использования подобного сервиса GPRM. Вот ссылка на github. Строго не судите, тогда я был молодым веб-разработчиком и мне нужны были деньги 😅
🥇GPRM: Платформа для создания описания на GitHub: о себе, статистика, социальные ссылки, технологии, пожертвования, достижения и даже цитаты (куда же без них).
🏁 В целом, на этом пост можно было и заканчивать, так как GRPM покрывает 99% потребностей. Но было бы несправедливо обойти несколько интересных проектов, которые могут заполнить оставшийся 1 %.
🧹 GitHub Profile Readme Generator: Удобный инструмент, который упрощает процесс создания профиля README. Он предлагает множество настраиваемых шаблонов для демонстрации ваших проектов, навыков и интересов.
📖 Readme: сервис для автоматического создания Readme проектов, что не менее важно, чем описание профиля.
💅 Awesome Github Profile Readme: В этом репозитории размещен список замечательных шаблонов README профиля GitHub. Найдите идеальный шаблон, который соответствует вашему стилю и проектам.
📇 Profile Summary For GitHub: Поможет создать симпатичное саммари Вашего аккаунта.
👯 All Contributor: Этот проект на GitHub предназначен для учета всех участников репозитория. Используя этот инструмент, вы можете автоматически создать профиль README, который демонстрирует всех участников.
📊 GitHub Readme Stats: Создавайте динамическую статистику о ваших репозиториях и активности.
#петпроект
❤10🔥6
👨🎤 Аналитики, привет!
🤰 Продолжая тему обучения, которую мы уже подробно разобрали в предыдущих частях ( 1, 2, 3 ), хотелось добавить немного меда в бочку курсов и поделиться своим позитивным опытом.
🧑🏫 Единственный курс, который я прошел перед устройством на работу - это Google Data Analytics Professional Certificate, который состоит из 8 частей, общей продолжительность 187 часов.
⌛️ За это время Вы:
👷♂️Получите полное представление о практиках и процессах, используемых аналитиком данных в своей повседневной работе.
⚒ Изучите ключевые аналитические навыки (очистка данных, анализ и визуализация) и инструменты (таблицы, SQL, программирование на R, Tableau).
🛀 Поймете, как очищать и упорядочивать данные, а также выполнять анализ и вычисления с использованием таблиц, SQL и R-программирования.
👩🎨 Узнаете, как визуализировать и представлять полученные данные в дэшбордах и презентациях.
📚 Отдельно хочу отметить свою любимую часть «Share Data Through the Art of Visualization», которую ведет Kevin Hartman, на тот момент Director of Analytics в Google.
🧐 Что удивительно, у этой главы самый низкий рейтинг и количество оценок.
🧑🔬 Кевин научит:
🎆 Использовать визуализацию данных для демонстрации результатов.
📊 Работать с Tableau.
🧙 Объяснит как рассказать историю с помощью данных.
🧑🏫 Объяснит принципы эффективной презентации.
🥷 Как итог, получился прекрасный образовательный продукт от известного бренда, в сердце которого по сути вся современная аналитика и зародилась. Сделано все с любовью и чувством своего дела. Нам с Вами этот подарок предоставляется совершенно бесплатно, хотя на самом деле он стоит всех курсов по анализу данных вместе взятых.
🥇Вот такой простой рецепт успеха.
✒️ А какой Ваш любимый курс?
#курсы #истории
🤰 Продолжая тему обучения, которую мы уже подробно разобрали в предыдущих частях ( 1, 2, 3 ), хотелось добавить немного меда в бочку курсов и поделиться своим позитивным опытом.
🧑🏫 Единственный курс, который я прошел перед устройством на работу - это Google Data Analytics Professional Certificate, который состоит из 8 частей, общей продолжительность 187 часов.
⌛️ За это время Вы:
👷♂️Получите полное представление о практиках и процессах, используемых аналитиком данных в своей повседневной работе.
⚒ Изучите ключевые аналитические навыки (очистка данных, анализ и визуализация) и инструменты (таблицы, SQL, программирование на R, Tableau).
🛀 Поймете, как очищать и упорядочивать данные, а также выполнять анализ и вычисления с использованием таблиц, SQL и R-программирования.
👩🎨 Узнаете, как визуализировать и представлять полученные данные в дэшбордах и презентациях.
📚 Отдельно хочу отметить свою любимую часть «Share Data Through the Art of Visualization», которую ведет Kevin Hartman, на тот момент Director of Analytics в Google.
🧐 Что удивительно, у этой главы самый низкий рейтинг и количество оценок.
🧑🔬 Кевин научит:
🎆 Использовать визуализацию данных для демонстрации результатов.
📊 Работать с Tableau.
🧙 Объяснит как рассказать историю с помощью данных.
🧑🏫 Объяснит принципы эффективной презентации.
🥷 Как итог, получился прекрасный образовательный продукт от известного бренда, в сердце которого по сути вся современная аналитика и зародилась. Сделано все с любовью и чувством своего дела. Нам с Вами этот подарок предоставляется совершенно бесплатно, хотя на самом деле он стоит всех курсов по анализу данных вместе взятых.
🥇Вот такой простой рецепт успеха.
✒️ А какой Ваш любимый курс?
#курсы #истории
Telegram
Only Analyst
😀 Привет!
📚 Астрологи объявили годы курсов по аналитике данных, поэтому если Вы только планируете записаться на один из них или уже учитесь, то Вам это будет как минимум - любопытно, а как максимум - полезно. Возможно, позволит Вам избежать ошибок или узнать…
📚 Астрологи объявили годы курсов по аналитике данных, поэтому если Вы только планируете записаться на один из них или уже учитесь, то Вам это будет как минимум - любопытно, а как максимум - полезно. Возможно, позволит Вам избежать ошибок или узнать…
❤15🔥7👍5
🎲 Для аналитика данных встроенная библиотека "random" в Python предлагает несколько полезных методов для работы со случайными числами.
⚒️ Рассмотрим самые полезные методы и примеры их использования.
🎬 Для начала необходимо импортировать библиотеку:
1️⃣
⚒️ Пример: Имитация результата подбрасывания монетки, где вероятность выпадения орла и решки 0.5.
⚒️ Пример: Генерация случайных идентификаторов клиентов в пределах заданного диапазона.
⚒️ Пример: Случайный выбор числа в рамках интервала для генерации синтетических данных.
⚒️ Пример: Имитация случайного выбора в пределах заданного диапазона.
⚒️ Пример: Проведение опроса с использованием метода стратифицированной выборки.
⚒️ Пример: Создание случайной выборки данных из большого набора данных для предварительного анализа.
⚒️ Пример: Произвольное изменение порядка строк набора данных или перемешивание карт в колоде.
⚒️ Пример: Генерирование случайных цен в пределах заданного диапазона для моделирования ценообразования или создание синтетических данных с непрерывными переменными.
⚒️ Рассмотрим самые полезные методы и примеры их использования.
🎬 Для начала необходимо импортировать библиотеку:
import random1️⃣
random(): Возвращает случайное число с плавающей запятой в диапазоне от 0 до 1.⚒️ Пример: Имитация результата подбрасывания монетки, где вероятность выпадения орла и решки 0.5.
coin_toss = random.random()
if coin_toss < 0.5:
outcome = 'Heads'
else:
outcome = 'Tails'
print(outcome)
Output: Tails
2️⃣ randint(a, b): Возвращает случайное целое число между a и b (включительно).⚒️ Пример: Генерация случайных идентификаторов клиентов в пределах заданного диапазона.
random_integer = random.randint(1, 10)
print(random_integer)
output: 8
3️⃣ randrange(start, stop[, step]): Возвращает случайно выбранный элемент из диапазона(start, stop, step). ⚒️ Пример: Случайный выбор числа в рамках интервала для генерации синтетических данных.
random_element = random.randrange(0, 100, 5)
print(random_element)
output: 70
4️⃣ choice(seq): Возвращает случайно выбранный элемент из последовательности.⚒️ Пример: Имитация случайного выбора в пределах заданного диапазона.
fruits = ['apple', 'banana', 'cherry', 'durian']
random_fruit = random.choice(fruits)
print(random_fruit)
output: durian
5️⃣ choices(population, weights=None, k=1): Возвращает список из k случайно выбранных элементов из совокупности с необязательным взвешиванием.⚒️ Пример: Проведение опроса с использованием метода стратифицированной выборки.
subgroups = ['A', 'B', 'C', 'D']
weights = [0.2, 0.3, 0.3, 0.2]
random_sample = random.choices(subgroups, weights=weights, k=100)
print(random_sample)
output: ['B', 'B', 'B', 'C', 'B', 'C'…
6️⃣ sample(population, k): Возвращает список с k уникальными случайно выбранными элементами из совокупности.⚒️ Пример: Создание случайной выборки данных из большого набора данных для предварительного анализа.
numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
random_sample = random.sample(numbers, k=4)
print(random_sample)
output: [10, 5, 3, 1]
7️⃣ shuffle(x): Случайным образом перетасовывает элементы в списке x. Список изменяется. ⚒️ Пример: Произвольное изменение порядка строк набора данных или перемешивание карт в колоде.
cards = ['A', '2', '3', '4', '5', '6', '7', '8', '9', '10', 'J', 'Q', 'K']
random.shuffle(cards)
print(cards)
output: ['3', '8', '2', '10', 'K', '7', 'Q', '9', 'J', 'A', '6', '4', '5']
8️⃣ uniform(a, b): Возвращает случайное число с плавающей запятой между a и b, где a - нижняя граница, а b - верхняя граница.⚒️ Пример: Генерирование случайных цен в пределах заданного диапазона для моделирования ценообразования или создание синтетических данных с непрерывными переменными.
random_float = random.uniform(0.0, 1.0)
print(random_float)
output: 0.294
✒️ А как вы еще использовали использовали библиотеку random?
#python❤7👍6🔥6
🔬 На правах пятничного поста к данному событию подготовил небольшой текст о А/Б тестировании, которое будет очень подробно разбираться на мероприятии.
🎬 Сразу предупрежу, что формат новый, любые совпадения с реальными событиями и персонажами случайны.
🏢 Давным-давно, в оживленном городе Дейтавилль, жил опытный аналитик по работе с клиентами по имени Макс. Вооруженный аналитическим складом ума и тягой к приключениям, Макс обнаружил, что погружается в мир A/B-тестирования.
🕵️♀️ Последней задачей Макса было раскрыть секреты поведения пользователей при сравнении медицинских товаров. Видите ли, у пользователей был доступ к отличному инструменту, который позволял им сравнивать различные медицинские препараты. Однако, к ужасу Макса, оказалось, что эти пользователи и в таком простом деле смогли все испортить, добавляя только один элемент для сравнения, что делало процесс сравнения практически бесполезным.
🧑🔬 Преисполненный решимости разгадать эту загадку, Макс собрал команду экспертов и разработал хитроумный план. Они проведут A/B-тест, где одной группе будет предлагаться рекомендованные товары к сравнению, а вторая будет вынуждена по старинке добавлять их из общего каталога.
🔪 Разделив пользователей на две группы, контрольную и тестовую, Макс и его команда начали свой эксперимент. Контрольная группа продолжила работу без каких-либо предложений, в то время как тестовая группа получила тщательно подготовленные рекомендации.
🧫 По мере прохождения теста дни превращались в недели, и волнение Макса росло с каждой минутой. Наконец, настал день расплаты — результаты были получены!
📉 Но, увы, данные говорили на другом языке, оставляя Макса в состоянии недоумения. Контрольная группа, в которой не было никаких предложений, продемонстрировала небольшой рост показателей, в то время как тестовая потянула метрики на дно. Казалось, что блестящий план Макса с треском провалился.
👩🎤 Озадаченный и удрученный, Макс отправился на поиски истины, стоящей за этим неожиданным поворотом событий. Было ли это врожденное сопротивление изменениям или упрямая зависимость пользователей от собственного суждения? Ответы оставались неуловимыми.
🧖♂️ Тем не менее, среди этого хаоса Макс извлек ценный урок о сложностях человеческого поведения. Иногда даже самые благонамеренные эксперименты могут привести к непредвиденным результатам. И когда пошли титры этого захватывающего A / B теста, прошедшего неудачно, Макс поклялся подходить с еще более пристальным вниманием к непредсказуемым хитросплетениям человеческого разума.
🦸♂️ Итак, наш бесстрашный аналитик данных двинулся вперед, вооруженный новообретенным пониманием и решимостью покорить тайны, которые ждали его в области анализа данных.
👍 Прошу поддержать реакцией, если понравился формат, если нет, то приглашаю в комментарии для обсуждения.
#матемаркетинг #aha23
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14👍6🔥4
📚 Сегодня поделюсь подборкой инструментов для автоматического исследоватльского анализа данных (EDA).
🙋♀️ EDA является важным этапом для аналитиков данных, поскольку он позволяет получить всестороннее представление о наборе данных. Используя статистические методы и визуализацию, можно выявлять закономерности, тенденции и аномалии в данных. EDA помогает находить проблемы с качеством данных, такие как пропущенные значения или выбросы, обеспечивая надежность последующего анализа.
🦸♂️ Этап важный, но довольно рутинный, поэтому автоматизированных инструментов хватает:
🐼 pandas-profiling
🥇 Я его использую сам, но есть и другие достойные альтернативы, если нужен упор на визуализации или автономность.
Предоставляет возможность проводить EDA в одну строку. Можно экспортировать анализ в различные форматы, такие как html и json.
📊 AutoViz
С помощью AutoViz вы можете легко и быстро создавать визуализации для ваших данных. AutoViz может помочь изучить данные и получить ценную информацию.
🍬 sweetviz
Библиотека Python с открытым исходным кодом, которая генерирует визуализации для EDA всего двумя строками кода. На выходе получаете полностью автономное HTML-приложение.
🧖♂️ dtale
Библиотека на Flask и React, которая предоставляет вам простой способ просмотра и анализа структур данных Pandas. Интегрируется с ноутбуками ipython и терминалами python / ipython.
🧑🍳 dataprep
Позволяет проводить EDA данных Pandas / Dask с помощью нескольких строк кода за считанные секунды.
🏋️♀️ AutoProfiler
Автоматически визуализирует DataFrame Pandas после каждого выполнения ячейки, никакого дополнительного кода не требуется.
✒️ А вы доверяете EDA автоматизированным инструментам или все делаете сами? Хотели бы подробный разбор одного из инструментов?
#подборка
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - ydataai/ydata-profiling: 1 Line of code data quality profiling & exploratory data analysis for Pandas and Spark DataFrames.
1 Line of code data quality profiling & exploratory data analysis for Pandas and Spark DataFrames. - GitHub - ydataai/ydata-profiling: 1 Line of code data quality profiling & explo...
❤8🔥8
🧑🔬 Аналитики, привет
👩❤️💋👨 Приглашаю всех принять участие в моем новом Open Source проекте Synthetic Data Generator.
👫 Мы с Вами сделаем свой собственный генератор синтетических DataFrame, который можно будет использовать для пет-проектов.
🗼Для Вас отличная возможность:
👫 поработать в команде и сделать интересный data-product
⚒ получить реальный опыт с Git
📂 добавить в резюме Open Source проект, что выгодно выделит Вас среди кандидатов
😊 просто хорошо провести время.
🍼 Так что если еще не зарегистрировались на GitHub, то самое время это сделать и начать отслеживать проект.
🙋 Всех участников добавлю в Contributors в описание проекта, даже если просто исправили орфографическую ошибку в описании (там есть 🙃)
👷 Теперь немного о самом проекте, с функцией можете ознакомиться в исходном коде, все необходимые комментарии присутствуют.
🌈 Изначально создаем список, с название столбцов и их типом, пока поддерживаются
⁉️ Если есть вопросы по работе с Git или по функциям, то смело пишите в комментариях к посту. Жду Ваших
#проект #петпроект #opensource
👩❤️💋👨 Приглашаю всех принять участие в моем новом Open Source проекте Synthetic Data Generator.
👫 Мы с Вами сделаем свой собственный генератор синтетических DataFrame, который можно будет использовать для пет-проектов.
🗼Для Вас отличная возможность:
👫 поработать в команде и сделать интересный data-product
⚒ получить реальный опыт с Git
📂 добавить в резюме Open Source проект, что выгодно выделит Вас среди кандидатов
😊 просто хорошо провести время.
🍼 Так что если еще не зарегистрировались на GitHub, то самое время это сделать и начать отслеживать проект.
🙋 Всех участников добавлю в Contributors в описание проекта, даже если просто исправили орфографическую ошибку в описании (там есть 🙃)
👷 Теперь немного о самом проекте, с функцией можете ознакомиться в исходном коде, все необходимые комментарии присутствуют.
🌈 Изначально создаем список, с название столбцов и их типом, пока поддерживаются
int, float, str и date:
column_specs = [
('Column1', 'int'),
('Column2', 'float'),
('Column3', 'str'),
('Column4', 'date')
]
📜 Далее указываем необходимое количество строк:num_rows = 10
🪫 Выбираем False или True для параметра, которые отвечает за наличие в DataFrame Null. include_nulls = False
📖 Передаем список категорий, которые будут использоваться в категориальном слолбце: str_categories = ['apple', 'banana', 'cherry', 'orange']
⌛️ Для столба с временем задаем диапазон дат: start_date = '2022-01-01'
end_date = '2022-12-31'
🚋 Вызываем функцию со всеми необходимыми параметрами и на выходе получаем готовый DataFrame. df = generate_synthetic_data(column_specs, num_rows, include_nulls, str_categories, start_date, end_date)
print(df)
🛟 Идей по развитию очень много: добавить возможность контроля распределения численных колонок, добавлять Null значения не ко всему DataFrame, а определенными колонкам. ⁉️ Если есть вопросы по работе с Git или по функциям, то смело пишите в комментариях к посту. Жду Ваших
pull request 🥰#проект #петпроект #opensource
🔥15❤6👍3
🏴☠️ Меньше месяца прошло с прошлого мероприятия и Хабр.Карьера снова радует интересным проектом «Неделя Аналитиков», где компании рекламируют себя, а аналитики могут голосовать за лучшую и откликаться на вакансии, далее будет IT митап, а завершится все статьей с ответами на вопросы участников. Вот пример с прошлого года.
📺 Каждая компания сняла короткое видео о себе (питч), где рассказывает о себе, аналитике и плюшках. Я посмотрел все питчи за Вас. В некоторые компании я проходил собеседование или даже работал, поэтому интересно будет как реклама соотносится с реальностью. Написал пару слов про каждый питч с оценками по параметрам:
📽 операторская работа
🎭 игра актеров
🎬 сценарий
📃 описания работы аналитика
🎁 плюшки от компании
🛒 X5 Tech (Перекресток):
📽 снято отлично, переходы понравились
🎭 главный герой хорошо держится в кадре
🎬 много смиЩных шуток и рваное повествование
📃 конкретики ноль, что делать непонятно
🎁 плюшки расписали плотно, но ничем особым не выделяются
🏠 Дом.Клик:
📽 снято в формате интервью, так что скромненько, хотя бы ракурсы меняли
🎭 ребята смотрятся живо, но проскальзывает небольшое волнение
🎬 сюжет простой, но понятный
📃 подробно и с примерами расписали проекты и стек
🎁 про плюшки рассказали мало (рассказы про внутренний университет и «плойку после работы» не считаются), что странно, так как есть более внушительные «бонусы»
🏦 МТС Банк:
📽 хорошая, даже есть подсъемы и разные ракурсы
🎭 рассказывают уверенно, но пафоса много
🎬 обычный формат интервью, но есть субтитры
📃 рассказ очень поверхностный, про аналитику пара слов, больше похоже на «агитку»
🎁 пара слов про плюшки, но тут никого не удивить
💸 Альфа Банк:
📽 отличная, подсъемы и разные ракурсы
🎭 девушка молодец, очень искренне рассказывает
🎬 обычное интервью
📃 рассказали подробно про аналитику и с примерами, но не хватило стека технологий, больше упор на системных аналитиков
🎁 про полюшки ничего не сказали, но думаю, что в банке не обидят
🏝 РНКБ:
📽 Переходы из iMovies, смотреть тяжело, но под конец переходит в стандартный интервью формат
🎭 сложилось ощущение, что снимали после работы все
🎬 нарезка кадров Крыма под хвалебные отзывы, текст слабый
📃 подробностей никаких и упор на системных аналитиков
🎁 из плюшек: санаторий и релокация в Крым. Зато подсветили благотворительные программы.
🐝 Билайн:
📽 картинка не поправилась, хотя были неплохие ракурсы
🎭 понимаю, что не мне говорить, но можно было переснять 3 минуты видео с «эээ»
🎬 интервью, но довольно скучное и нет целостности
📃 скудно и с упором на системный анализ
🎁 ничего, но это не самая большая проблема
✈️ Самолет:
📽 просто «Вау», сразу видно, что делали профессионалы
🎭 смотрятся естественно и даже есть настоящие актеры
🎬 сюжет классный, в кадре постоянно что-то происходит
📃 хоть в одной компании расписали разные виды аналитик и все довольно подробно без лишней воды
🎁 хорошо подсветили плюшки: скидки на квартиру и благотворительные проекты.
🏁 Мне понравился 🏠 Дом.Клик и ✈️ Самолет, остальные компании даже близко к ним не приблизились. Сразу видно, что старались и делали с пониманием дела.
✒️ Какая компания понравилась Вам больше всего? Как Вам такие мероприятия? Будете участвовать?
#поискработы
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Only Analyst
Всем привет! 😀
🥷 Сегодня узнал о коллаборации Хабр Карьера ✖️ VK с громким и наболевшим названием «Как найти первую работу в IT», которая началась сегодня вчера 24 апреля и продлится до 5 мая.
🖼 В рамках сотрудничества организаторы задались вопросами,…
🥷 Сегодня узнал о коллаборации Хабр Карьера ✖️ VK с громким и наболевшим названием «Как найти первую работу в IT», которая началась сегодня вчера 24 апреля и продлится до 5 мая.
🖼 В рамках сотрудничества организаторы задались вопросами,…
🔥14❤7
🙋♀️ Важное напоминание!
👩💻 Для того, чтобы начать откликаться на вакансии аналитика данных, вам нужно лишь одно - резюме.
🧐 А вот для решения технической части собеседования, придется свои ясные мысли переложить на язык двух инструментов: SQL и Python и решить несколько задач.
📰 Хорошие новости, что для этого Вам не нужны платные курсы или еще один год опыта. Вас уже достаточно, осталось лишь научиться.
⚒ Лучший путь изучения - это практика, тем более знание теории Python и SQL далеко не всегда гарантирует умение их применять. Единственным способом приобретения этого навыка является решение задач.
🔐 Для практики советую каждый день решать задачи на leetcode, в котором помимо всевозможных задач по Python и SQL с подробными решениями, есть много интересных функций:
📺 Учебный план состоит из 50 задач по SQL , которые разбиты на темы от простых
📃 Шпаргалка для решения алгоритмических задач на Python с готовыми шаблонами и схемами выбора оптимального решени
📆 «Задача дня» предлагается для решения и отличного подойдет для того, чтобы держать себя в тонусе.
🥁 Или можно просто по фильтрам выбрать интересующие задачи: ссылка на легкие задачи по спискам.
🦾 Как вы видите, возможности безграничны, необходима лишь дисциплина и хорошая компания! А если есть пробелы в теории, то тут подробно описал, как можно их наверстать.
🥳 Приглашаю всех, кто готов присоединиться к «челенеджу» и на протяжении недели решать по 1 задаче! Таким способом сформируем привычку и Вас будет уже не остановить 😅
✒️ Для участия в комментарии присылайте ссылки на аккаунт leetcode
#поискработы #подборка
👩💻 Для того, чтобы начать откликаться на вакансии аналитика данных, вам нужно лишь одно - резюме.
🧐 А вот для решения технической части собеседования, придется свои ясные мысли переложить на язык двух инструментов: SQL и Python и решить несколько задач.
📰 Хорошие новости, что для этого Вам не нужны платные курсы или еще один год опыта. Вас уже достаточно, осталось лишь научиться.
⚒ Лучший путь изучения - это практика, тем более знание теории Python и SQL далеко не всегда гарантирует умение их применять. Единственным способом приобретения этого навыка является решение задач.
🔐 Для практики советую каждый день решать задачи на leetcode, в котором помимо всевозможных задач по Python и SQL с подробными решениями, есть много интересных функций:
📺 Учебный план состоит из 50 задач по SQL , которые разбиты на темы от простых
join до functions 📃 Шпаргалка для решения алгоритмических задач на Python с готовыми шаблонами и схемами выбора оптимального решени
📆 «Задача дня» предлагается для решения и отличного подойдет для того, чтобы держать себя в тонусе.
🥁 Или можно просто по фильтрам выбрать интересующие задачи: ссылка на легкие задачи по спискам.
🦾 Как вы видите, возможности безграничны, необходима лишь дисциплина и хорошая компания! А если есть пробелы в теории, то тут подробно описал, как можно их наверстать.
🥳 Приглашаю всех, кто готов присоединиться к «челенеджу» и на протяжении недели решать по 1 задаче! Таким способом сформируем привычку и Вас будет уже не остановить 😅
✒️ Для участия в комментарии присылайте ссылки на аккаунт leetcode
#поискработы #подборка
Leetcode
LeetCode - The World's Leading Online Programming Learning Platform
Level up your coding skills and quickly land a job. This is the best place to expand your knowledge and get prepared for your next interview.
🔥14❤5👍2🥰1