Only Analyst

🧑‍💻 Аналитики, привет!

🚯 Можете смело бросать изучение Python, SQL и статистики, потому что вышел временно бесплатный курс по ChatGTP от DeepLearning.AI в партнерстве с OpenAI.

🧑‍🏫 Небольшой ликбез:

👅 Большая языковая модель (LLM) - это тип искусственного интеллекта (AI), которая может понимать и генерировать человеческий язык. Она создается путем обучения нейронной сети на огромном наборе данных текста, что позволяет ей изучать закономерности и взаимосвязи языка.

🧑‍🏫 После обучения LLM может выполнять различные задачи по обработке естественного языка (NLP), такие как перевод, обобщение и генерация текста. Одним из примеров LLM является модель GPT-3 (Generative Pre-trained Transformer 3).

🤖 ChatGPT - это компьютерная программа, предназначенная для общения с людьми. Она использует искусственный интеллект, чтобы понимать, что пишут люди, и генерировать соответствующие ответы.

📕 Promt - это набор команд для ChatGTP.

📚 У меня прохождение курса заняло один вечер, хотя в описании написано, что он рассчитан на 1 час.

🏆 Вы научитесь лучшим практикам по написанию «промтов», создадите чат бота и узнаете как использовать OpenAI API.

⚒ Уверен, что умение использовать ChatGTP или любой другой LLM будет отличным дополнением любого резюме, особенно аналитика, так как ChatGTP не просто заменяет junior специалиста, а еще и на работу не опаздывает.

🐡 DeepLearning.AI, во главе с Andrew Ng, на протяжении 6 лет создают потрясающие курсы на тему AI. Их профессиональный сертификат по TensorFlow стал одним из первых, который я полностью прошел.

🍾 OpenAI в рекламе не нуждаются, собственно они эту LLM и разработали.

✒️ А вы уже используете ChatGTP или другие ИИ в своей работе?

#chatgtp #курсы

Please open Telegram to view this post

VIEW IN TELEGRAM

DeepLearning.AI - Learning Platform

ChatGPT Prompt Engineering for Developers

Learn the fundamentals of prompt engineering for ChatGPT. Learn effective prompting, and how to use LLMs for summarizing, inferring, transforming, and expanding.

❤14🔥9👎3👍1

993 viewsAlexey Gavrilov, edited 17:06

Only Analyst

🧜‍♂️ Всем привет!

🤯 Сейчас в процессе подготовки с @dianakoloda, Head of HR DataGo, два проекта: ответы на вопросы и «Прожарка» 🔥 резюме.

🧖 Если кто-то хотел задать вопрос или поделиться своим резюме, то у Вас еще есть время!

🙋‍♀️ Вопросы могут касаться любого этапа трудоустройства: поиск и смена работы, прохождение HR и технической части, выбор профессионального пути.

🚒 «Прожарка» заключается в разборе вашего резюме с точки зрения HR и технической. По итогу получите достаточно подробную обратную связь, которую сразу же сможете применить. Зрителям будет тоже интересно, так как проблемы обычно +- похожи.

✒️ Вопросы и резюме присылайте в комментарии под постом. Можете ставить пометку на сколько сильную «Прожарку» 👩‍🚒 хотите.

👯 Если есть друзья, которым это может быть интересно, то зовите - вместе веселее.

#прожарка #резюме #поискработы

👍5🔥5🥰3

907 viewsAlexey Gavrilov, edited 17:17

Only Analyst

🖖 Всем привет!

🧙‍♀️ Хотел поделиться аналитикой с ее главной составляющей - подписчиками. Думаю, что будет интересно рассмотреть группу с точки зрения «продуктовой» аналитики, а она в Telegram есть.

🧑‍💼 Это будет ежемесячной рубрикой, где вместе будем обсуждать результаты работы «продукта», выдвигать гипотезы, следить за динамикой и спорить, все как в жизни.

🏁 Основные достижения за апрель: 425 + подписчиков, три поста набрали более 1000 просмотров, 4 видео, 30 постов. Спасибо Вам огромное!

🎬 Начнем с небольшого ликбеза по разделам.

📈 Статистика начинается с секции «Общая», где отображается количество подписчиков, процент включивших уведомления (спасибо), среднее количество просмотров поста, и количество пересылок. Справа видим процентное изменение за период. Задержка данных - 1 день.

📊 Далее идет линейный график «Рост», где показывается изменение общего количества подписчиков. Следом показывается приток и отток подписчиков, а также изменение по включению уведомлений.

🕰 «Просмотры по часам» демонстрирует количество просмотров в зависимости от времени суток и сравнивает два недельных периода. Помогает выбрать оптимальное время выпуска контента.

🚰 Источники просмотров и подписчиков отображают откуда Вы сюда пришли. Что значит «Другое», не знаю, жду Ваших идей.

👅 «Языки» наименее интересный из всех разделов, так как скорее всего показывает локацию, а не язык пользователя.

🤸‍♀️ «Активность» агрегирует событие просмотр и поделиться по дням. Странно, что находится в самом внизу, хотя для меня один из самых интересных, так как помогает отслеживать пульс группы.

⌛️ В «недавних постах» выведен список постов с количеством просмотров и поделившихся.

🫢 В статистике не хватает общего рейтинга постов, процентов просмотра подписчиков и не подписчиков.

🥳 Подводя итоги месяца, скажу, что это был потрясающий старт, а дальше в планах еще больше постов и видео с интересными гостями.

👯‍♀️ Графики - это хорошо, но Ваша обратная связь намного важнее: жду ваших мнений и предложений!

#аналитика

🔥11❤7👍4

907 viewsAlexey Gavrilov, 18:52

Only Analyst

🫡 Всем привет!

🙋 Самый частый вопрос после «Кто сильнее Python или SQL?» - это «Как/какой/когда/зачем пет-проект сделать?». Поэтому будет серия статей, в первой мы разберем мотивацию и определение, а также поделюсь списком возможных источников данных.

🦊 Пет-проект в первую очередь - это личный проект специалиста на тему, которая ему интересна, а уже потом строчка в резюме, на которую обратит внимание HR.

👨‍🏫 Исходя из определения, необходимо решить, что Вам интересно, иначе проект обречен на провал, не успев начаться.

🧑‍💻 Далее выбираем стек технологий, который будет релевантен в вашей области. Это может быть даже Excel, ведь идея намного важнее инструмента реализации.

🧞‍♂️ Например, я начинал digital web аналитиком, поэтому я выбрал пет-проект на тему: повторить Google Analytics дэшборды с использованием Python и BigQuery, в качестве платформы я использовал kaggle, так как там были необходимые датасеты и среда разработки.

🎁 Подготовил для Вас небольшую подборку по платформам с открытыми данными и категоризировал их.

🌍 Общие наборы данных:

Kaggle: много наборов данных по широкому кругу тем.
Репозиторий машинного обучения UCI: коллекция наборов данных для исследований в области машинного обучения, включая данные по финансам, медицине и социальным наукам.
Google Dataset Search: поисковая система для поиска наборов данных, размещенных на различных веб-сайтах.
DataHub: платформа для обнаружения, обмена и публикации открытых данных.
Коллекция общедоступных наборов данных, размещенных на Amazon Web Services.

📈 Экономические и финансовые наборы данных:

Данные Федерального резервного банка Сент-Луиса.
Quandl: финансовые и экономические данные.
Yahoo Finance: данные финансового рынка, включая исторические курсы акций.
Данные Всемирного банка и других международных организаций по ряду тем, включая бедность, гендер и окружающую среду.
Данные Международного валютного фонда по целому ряду тем, включая экономический рост и международную торговлю.

🌡 Наборы климатических и экологических данных:

NASA Earth Observations: данные об окружающей среде и спутниковые изображения.
Данные о погоде и климате от Национального управления океанических и атмосферных исследований (NOAA).
Global Forest Watch: данные о лесах по всему миру.
Данные Организации Объединенных Наций по целому ряду тем, включая окружающую среду и устойчивое развитие.

🏠 Наборы социальных и демографических данных:

Pew Research Center: данные о социальных и демографических тенденциях в США.
Open Data Soft: данные по целому ряду тем, включая здравоохранение, транспорт и общественную безопасность.
Данные UNICEF о здоровье и благополучии детей во всем мире.
Данные о гуманитарных кризисах и мерах реагирования по всему миру.

💊 Понимаю, что не самый удобный формат, поэтому оформил еще и в табличном виде с дополнительными полями: API, регистрация, форматы и прочее!

🖊 А какие еще источники Вы знаете? В ближайшее время планирую список расширять и добавить отечественные платформы.

#петпроект #подборка

Kaggle

Find Open Datasets and Machine Learning Projects | Kaggle

Download Open Datasets on 1000s of Projects + Share Projects on One Platform. Explore Popular Topics Like Government, Sports, Medicine, Fintech, Food, More. Flexible Data Ingestion.

🔥21👍7❤5

1.19K viewsAlexey Gavrilov, edited 19:35

Only Analyst

🚀 Всем привет!

🐼 При работе с данными, используя библиотеку pandas в Python, обычно возникает необходимость применить операцию к каждой строке DataFrame. Один из способов сделать это - использовать итерацию строк. Однако этот подход может быть медленным и неэффективным, особенно для больших наборов данных.

🧭 В этом посте мы рассмотрим, как использовать метод .apply() и векторизацию, которые могут значительно повысить производительность.

👉 Предположим, у нас есть DataFrane с двумя столбцами "x" и "y", и мы хотим создать новый столбец "z", который является суммой "x" и "y" для каждой строки.

import pandas as pd

df = pd.DataFrame({'x': [1, 2, 3], 'y': [4, 5, 6]})

for index, row in df.iterrows():
    df.loc[index, 'z'] = row['x'] + row['y']

👷‍♀️ Метод .iterrows() перебирает каждую строку DataFrame, а затем вычисляет сумму "x" и "y" для каждой строки. Метод .loc используется для установки значения нового столбца "z" для каждой строки.

♾️ Теперь давайте посмотрим, как мы можем использоваь векторизацию. Pandas предоставляет множество векторизованных операций, которые могут быть применены сразу ко всему столбцу или DataFrame, что может быть намного быстрее, чем итерация строк.

df['z'] = df['x'] + df['y']

➕ Создаем новый столбец "z", просто складывая столбцы "x" и "y" вместе с помощью оператора "+". Эта операция применяется сразу ко всему DataFrame, что намного быстрее, чем циклическое прохождение по каждой строке.

🍏 Наконец, давайте используем метод .apply() с лямбда-функцией для достижения того же результата.

df['z'] = df.apply(lambda row: row['x'] + row['y'], axis=1)

🐸 Этот код применяет лямбда-функцию к каждой строке DataFrame, чтобы вычислить сумму "x" и "y" и создать новый столбец "z" для сохранения результата.

⚖️ Чтобы сравнить производительность этих трех методов, давайте создадим больший DataFrane со 100 000 строками.

import numpy as np

df = pd.DataFrame({'x': np.random.randint(0, 10, size=100000), 'y': np.random.randint(0, 10, size=100000)})

🧮 Теперь давайте подсчитаем, сколько времени потребуется, чтобы создать новый столбец "z", используя итерацию строк, векторизацию и .apply()

# Итерация строк
start_time = time.time()
for index, row in df.iterrows():
    df.loc[index, 'z'] = row['x'] + row['y']
end_time = time.time()
print(f"Time using row iteration: {end_time - start_time:.4f}s")

# Векторизация
start_time = time.time()
df['z'] = df['x'] + df['y']
end_time = time.time()
print(f"Time using vectorisation: {end_time - start_time:.4f}s")

# Apply 
start_time = time.time()
df['z'] = df.apply(lambda row: row['x'] + row['y'], axis=1)
end_time = time.time()
print(f"Time using apply with lambda: {end_time - start_time:.4f}s")

Time using row iteration: 5.4305s
Time using vectorisation: 0.0021s
Time using apply with lambda: 0.7210s

🛬 На моем компьютере запуск этого кода занимает около 5 секунд при использовании итерации строк, метод .apply() выполняется почти секунду, а векториазция заняла всего 2 тысячных секунды.

🙇 Как вы думаете, когда использование итерации или метод .apply() оправдано? Какие результаты будут с 1 000 000 строк? Жду Ваших ответов в комментариях!

#pandas

👍8❤5

778 viewsAlexey Gavrilov, 19:39

Only Analyst

👩‍🎨 Всем привет!

🐍 В продолжении поста о визуализации данных, которая является неотъемлемой частью любого исследования, делюсь подборкой самых популярных библиотек Python, которые помогут Вам в этом нелегком деле.

⚒️ Matplotlib

Matplotlib - библиотека Python для создания статических, интерактивных и анимированных визуализаций на Python. Легко настраиваемая библиотека, и ее API прост в освоении. Отличный выбор как для начинающих, так и для опытных аналитиков данных.

🌊 Seaborn

Seaborn - это библиотека визуализации данных, основанная на Matplotlib. В Seaborn есть множество встроенных тем и цветовых палитр, которые позволяют делать самые красивые графики.

🦫 Plotly

Plotly - это библиотека визуализации данных на Python, которая создает интерактивные визуализации, готовые к публикации, используя Dash. Plotly поддерживает несколько языков, включая Python, R и Julia.

📸 Bokeh

Bokeh - это библиотека визуализации данных на Python, для создания интерактивных визуализаций для веб-браузеров. Она поддерживает инструменты для очистки и соединения данных. Bokeh предназначен для использования с большими наборами данных и может обрабатывать потоковые данные в режиме реального времени. С помощью Bokeh можно создавать визуализации на основе JavaScript, не используя JavaScript.

🦅 Altair

Altair - это декларативная библиотека визуализации для Python, которая предоставляет простой и лаконичный синтаксис для создания визуализаций. Altair построен поверх Vega-Lite. Может использоваться с большими наборами данных.

📊 Ggplot

Ggplot - это библиотека визуализации данных на Python, которая предоставляет API для создания графиков. Она основана на популярном R-пакете ggplot2 и предоставляет аналогичный синтаксис и функционал. Предоставляет широкий спектр возможностей настройки.

🐼 Pandas

Pandas Visualization - это встроенная библиотека визуализации данных, которая предоставляет простой API для создания диаграмм и графиков из DataFrame Pandas.

🌁 HoloViews

HoloViews - это библиотека визуализации данных на Python, которая предоставляет гибкий и мощный API для создания интерактивных визуализаций данных. HoloViews построен поверх Bokeh и поддерживает несколько бэкендов, включая Matplotlib. Богатые возможности для создания аннотаций к графикам.

🙏 Cufflinks

Cufflinks - это библиотека Python для создания интерактивных графиков из DataFrames Pandas с помощью Plotly. Cufflinks также поддерживает несколько стилей построения, включая темы из Matplotlib и Plotly.

🕊️ Pygal

Pygal - это библиотека визуализации данных на Python. Она построена поверх SVG, что позволяет легко встраивать диаграммы в веб-приложения и документы. Pygal поддерживает целый ряд опций настройки, включая темы и цветовые схемы.

🖼️ Vincent

Vincent - это библиотека визуализации данных на Python с использованием Vega и Vega-Lite. Возможно, самое главное, что у Vincent есть Pandas-Fu, и он создан специально для обеспечения быстрого построения графиков DataFrames и Series Pandas.

🔗 Вот данные в табличном виде.

✒️ А какая Ваша любимая библиотека для визуализации?

#подборка #визуализация

Only Analyst

Всем привет! Воскресный пост будет без кода! Тем не менее, будет интересно и затронем важный аспект аналитики данных – визуализацию.

Сегодня я посетил выставку в Новом Иерусалиме “Под знаком Рубенса”, в которой представлены работы мастера и его учеников.…

❤11🔥6

780 viewsAlexey Gavrilov, 18:08

Only Analyst

🎨 Всем привет!

😀 В субботу обойдемся без Python и SQL, а обсудим тему, которая на прямую не касается аналитики данных, но тем не менее интересна - авторские права.

🙋‍♀️Некоторые заметили (на самом деле никто), что название группы созвучно с сайтом OnlyFans - платформой для поддержки создателей контента 😉

👩‍🎨 С дизайнером @anna_chet_art, когда прорабатывали дизайн, я решил сыграть на этом совпадении, поэтому некоторые элементы стиля были переосмыслены и воплощены с более технической и строгой ноткой. Подробный брендбук можете посмотреть по ссылке.

💌 После согласования и принятия работы, оставался один небольшой штрих - получить разрешение от OnlyFans на использование графических элементов, отдаленно напоминающих их творение! И кто бы мог подумать, но после короткой переписки и предоставления всех материалов, получили от них разрешение на использование (см. фото к посту) 😅

©️ Так что друзья, никогда не забывайте, что живем во время, когда все уже кому-то принадлежит, даже когда занимаешься анализом данных, надо задаваться вопросом откуда эти данные берутся и есть ли у вас разрешение на их использование или под какой лицензией они распространяются.

💻 Такое направление как парсинг довольно привлекательно звучит для начинающего аналитика, который хочет для своего проекта собрать информацию, но необходимо понимать, что многие сайты не сильно обрадуются такому наплыву GET запросов с Вашей стороны. И очень часто напрямую запрещают подобные действия.

🎳 Так что всегда лучше использовать данные, которые специально собраны для анализа. Множество датасетов можно найти в подборке или вот ссылка на мой давнишний набор данных недвижимости Парижа. Usability максимальная и распространяется по лицензии CC BY-NC-SA 4.0.

✒️ А откуда Вы обычно берете данные для исследований?

#авторскиеправа #истории

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13🥰4

738 viewsAlexey Gavrilov, edited 16:04

Only Analyst

👋 Аналитики, привет!

🐼 В технической секции собесеования на аналитика данных, помимо SQL и Python, бывает еще отдельный блок вопросов про Pandas! Собрал некоторые из самых популярных вопросов о Pandas со StackOverflow, чтобы не только подготовиться к собеседованию, но и решать реальные рабочие задачи.

📚 Некоторые темы мы уже разбирали в группе, к ним будет приложена ссылка с соответствующим постом.

1️⃣ "Как выбрать определенные строки из фрейма данных в Pandas?" 🤔

📚 Разбор

🕵️‍♂️ Ответ: Использовать методы .loc или .iloc для выбора строк на основе условий или индекса.

import pandas as pd

df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40],
'Gender': ['F', 'M', 'M', 'M']})

male_rows = df.loc[df['Gender'] == 'M']
print(male_rows)

2️⃣ "Как сгруппировать данные по столбцам в Pandas и использовать агрегатные функции?" 🤔

🕵️‍♂️ Ответ: Использовать метод .groupby для группировки данных по столбцу, а затем применить к группам агрегатные функции: mean, sum и count.

import pandas as pd

df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40],
'Gender': ['F', 'M', 'M', 'M'],
'Salary': [50000, 60000, 70000, 80000]})

grouped = df.groupby('Gender')
print(grouped['Salary'].mean())
print(grouped['Salary'].sum())

3️⃣ "Как обработать пропущенные значения во фрейме данных в Pandas?" 🤔

🕵️‍♂️ Ответ: Использовать метод .fillna для заполнения пропущенных значений или используйте метод .dropna для удаления строк или столбцов с пропущенными значениями.

import pandas as pd
import numpy as np

df = pd.DataFrame({'Name': [np.nan, 'Bob', 'Charlie', 'David'],
'Age': [25, 30, np.nan, 40],
'Gender': ['F', 'M', 'M', 'M']})

filled = df.fillna(value={'Age': df['Age'].mean()})
print(filled)

df.dropna()

4️⃣ "Как мне объединить два DataFrames в Pandas?" 🤔

📚 Разбор

🕵️‍♂️ Ответ: Использовать метод .merge для объединения двух DataFrames на основе общего столбца или использовать метод .concat для объединения двух фреймов данных вдоль указанной оси.

import pandas as pd

df1 = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40]})
df2 = pd.DataFrame({'Name': ['Bob', 'Charlie', 'David', 'Eve'],
'Salary': [60000, 70000, 80000, 90000]})

merged = pd.merge(df1, df2, on='Name')
print(merged)

5️⃣ "Как применить функцию к каждому элементу в DataFrame Pandas?" 🤔

📚 Разбор

🕵️‍♂️ Ответ: Использовать метод .apply, чтобы применить функцию к каждому элементу во фрейме данных, как по строкам, так и по столбцам.

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

def add_one(x):
    return x + 1

result = df.apply(add_one)
print(result)

6️⃣ "Как отсортировать DataFrame Pandas по столбцу?" 🤔

🕵️‍♂️ Ответ: Использовать метод .sort_values для сортировки фрейма данных по одному или нескольким столбцам.

import pandas as pd

df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40]})

sorted_df = df.sort_values(by='Age')
print(sorted_df)

7️⃣ "Как создать новый столбец в DataFrame Pandas на основе существующих столбцов?" 🤔

🕵️‍♂️ Ответ: Использовать оператор присваивания для создания нового столбца на основе существующих столбцов в DataFrame.

import pandas as pd

df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40],
'Gender': ['F', 'M', 'M', 'M']})

df['IsFemale'] = df['Gender'].apply(lambda x: x == 'F')
print(df)

8️⃣ "Как читать и записывать CSV-файлы с помощью Pandas?" 🤔

🕵️‍♂️ Ответ: Использовать метод .read_csv для чтения данных из CSV-файла в DataFrame Pandas и использовать метод .to_csv для записи DataFrame в CSV-файл.

import pandas as pd

# Reading data from a CSV file
df = pd.read_csv('data.csv')

# Writing data to a CSV file
df.to_csv('output.csv', index=False)

✒️ Какую из тем хотелось бы подробней обсудить?

#pandas

Only Analyst

😀 Всем привет!

🐼 Я уверен, что вы все использовали методы Pandas .iloc и .loc,которые позволяют нарезать 🔪 данные. Но задумывались ли вы когда-нибудь, какой из них быстрее? Давайте выясним! 🕵️‍♂️

🦄 Сначала давайте создадим два DataFrame для сравнения методов:…

❤16🔥8

726 viewsAlexey Gavrilov, edited 18:20

Only Analyst

😀 Всем привет!

🧭 В предыдущем посте обсуждали различные источники открытых данных для pet-проектов, но иногда запросы бывают довольно специфические и доступных наборов может не хватить, в таком случае на помощь приходят синтетические данные.

⛩️ В таком случаю помогут как специализированные библиотеки для создания «фэйковых» данных, так и более распространенные в узких кругах решения.

🎰 Библиотека Faker широко используется для создания реалистичных поддельных данных, таких как имена, адреса, номера телефонов и многое другое. Обеспечивает простой способ создания больших наборов данных с различными значениями.

from faker import Faker
import pandas as pd

fake = Faker()

# Generate fake names and addresses
data = {'Name': [fake.name() for _ in range(100)],
        'Address': [fake.address() for _ in range(100)]}

df = pd.DataFrame(data)

df.head()

🧮

NumPy - это мощная библиотека для научных вычислений на Python. Он предоставляет функции для генерации массивов случайных чисел в соответствии с различными распределениями.

import numpy as np
import pandas as pd

random_integers = np.random.randint(low=1, high=100, size=1000)

random_normal = np.random.normal(loc=0, scale=1, size=1000)

data = {'Random_Integers': random_integers,
        'Random_Normal': random_normal}

df = pd.DataFrame(data)

🐼

Pandas - популярная библиотека для обработки и анализа данных. Она включает в себя функции для создания синтетических данных с определенной структурой, таких как временные ряды или категориальные переменные.

import pandas as pd

dates = pd.date_range(start='2022-01-01', periods=365)

data = pd.DataFrame({'Date': dates, 'Value': np.random.rand(len(dates))})

🙇‍♂️ Scikit-Learn - это широко используемая библиотека машинного обучения, которая также предлагает инструменты для генерации данных. Функция make_classification() может создавать синтетические наборы данных.

from sklearn.datasets import make_classification
import pandas as pd

X, y = make_classification(n_samples=1000, n_features=5, n_informative=3, n_classes=2)

df = pd.DataFrame(X, columns=[f"Feature_{i+1}" for i in range(X.shape[1])])
df['Label'] = y

📚

Это всего лишь несколько примеров библиотек Python, доступных для генерации синтетических данных. В зависимости от ваших конкретных потребностей вы можете изучить эти библиотеки более подробно и найти ту, которая наилучшим образом соответствует вашим требованиям.

🥋 Теперь Вы знаете как создавать синтетические данные для тестирования, прототипирования или заполнения пробелов в ваших наборах данных!

✒️ Какие еще данные хотелось бы Вам создать? Приглашаю в комментарии для обсуждения.

#петпроект

Please open Telegram to view this post

VIEW IN TELEGRAM

Only Analyst

❤13🥰5👍3🔥1

764 viewsAlexey Gavrilov, 18:23

Only Analyst

📢 Внимание, аналитики!

🎸 В этой главе о pet-проектах обсудим их оформление.

💆‍♀️ Помимо того, что неплохо бы было иметь github аккаунт с примерами своей работы, его надо еще привести в привлекательный для HR и удобный для себя вид.

🤖 Хорошо, что не надо в ручном режиме возиться с разметкой, а можно воспользоваться бесплатными сервисами, которые из любого неприметного аккаунта сделают настающую приманку для работодателей.

👩‍🎨 На скриншоте пример результата использования подобного сервиса GPRM. Вот ссылка на github. Строго не судите, тогда я был молодым веб-разработчиком и мне нужны были деньги 😅

🥇GPRM: Платформа для создания описания на GitHub: о себе, статистика, социальные ссылки, технологии, пожертвования, достижения и даже цитаты (куда же без них).

🏁 В целом, на этом пост можно было и заканчивать, так как GRPM покрывает 99% потребностей. Но было бы несправедливо обойти несколько интересных проектов, которые могут заполнить оставшийся 1 %.

🧹 GitHub Profile Readme Generator: Удобный инструмент, который упрощает процесс создания профиля README. Он предлагает множество настраиваемых шаблонов для демонстрации ваших проектов, навыков и интересов.

📖 Readme: сервис для автоматического создания Readme проектов, что не менее важно, чем описание профиля.

💅 Awesome Github Profile Readme: В этом репозитории размещен список замечательных шаблонов README профиля GitHub. Найдите идеальный шаблон, который соответствует вашему стилю и проектам.

📇 Profile Summary For GitHub: Поможет создать симпатичное саммари Вашего аккаунта.

👯 All Contributor: Этот проект на GitHub предназначен для учета всех участников репозитория. Используя этот инструмент, вы можете автоматически создать профиль README, который демонстрирует всех участников.

📊 GitHub Readme Stats: Создавайте динамическую статистику о ваших репозиториях и активности.

#петпроект

❤10🔥6

889 viewsAlexey Gavrilov, 16:19

Only Analyst

👨‍🎤 Аналитики, привет!

🤰 Продолжая тему обучения, которую мы уже подробно разобрали в предыдущих частях ( 1, 2, 3 ), хотелось добавить немного меда в бочку курсов и поделиться своим позитивным опытом.

🧑‍🏫 Единственный курс, который я прошел перед устройством на работу - это Google Data Analytics Professional Certificate, который состоит из 8 частей, общей продолжительность 187 часов.

⌛️ За это время Вы:

👷‍♂️Получите полное представление о практиках и процессах, используемых аналитиком данных в своей повседневной работе.

⚒ Изучите ключевые аналитические навыки (очистка данных, анализ и визуализация) и инструменты (таблицы, SQL, программирование на R, Tableau).

🛀 Поймете, как очищать и упорядочивать данные, а также выполнять анализ и вычисления с использованием таблиц, SQL и R-программирования.

👩‍🎨 Узнаете, как визуализировать и представлять полученные данные в дэшбордах и презентациях.

📚 Отдельно хочу отметить свою любимую часть «Share Data Through the Art of Visualization», которую ведет Kevin Hartman, на тот момент Director of Analytics в Google.

🧐 Что удивительно, у этой главы самый низкий рейтинг и количество оценок.

🧑‍🔬 Кевин научит:

🎆 Использовать визуализацию данных для демонстрации результатов.

📊 Работать с Tableau.

🧙 Объяснит как рассказать историю с помощью данных.

🧑‍🏫 Объяснит принципы эффективной презентации.

🥷 Как итог, получился прекрасный образовательный продукт от известного бренда, в сердце которого по сути вся современная аналитика и зародилась. Сделано все с любовью и чувством своего дела. Нам с Вами этот подарок предоставляется совершенно бесплатно, хотя на самом деле он стоит всех курсов по анализу данных вместе взятых.

🥇Вот такой простой рецепт успеха.

✒️ А какой Ваш любимый курс?

#курсы #истории

Only Analyst

😀 Привет!

📚 Астрологи объявили годы курсов по аналитике данных, поэтому если Вы только планируете записаться на один из них или уже учитесь, то Вам это будет как минимум - любопытно, а как максимум - полезно. Возможно, позволит Вам избежать ошибок или узнать…

❤15🔥7👍5

940 viewsAlexey Gavrilov, edited 17:11

Only Analyst

🎲 Для аналитика данных встроенная библиотека "random" в Python предлагает несколько полезных методов для работы со случайными числами.

⚒️ Рассмотрим самые полезные методы и примеры их использования.

🎬 Для начала необходимо импортировать библиотеку:

import random

1️⃣ random(): Возвращает случайное число с плавающей запятой в диапазоне от 0 до 1.

⚒️ Пример: Имитация результата подбрасывания монетки, где вероятность выпадения орла и решки 0.5.

coin_toss = random.random()

if coin_toss < 0.5:
    outcome = 'Heads'
else:
    outcome = 'Tails'

print(outcome)

Output: Tails


2️⃣ randint(a, b)

: Возвращает случайное целое число между a и b (включительно).

⚒️ Пример: Генерация случайных идентификаторов клиентов в пределах заданного диапазона.

random_integer = random.randint(1, 10)

print(random_integer)

output: 8

3️⃣ randrange(start, stop[, step]): Возвращает случайно выбранный элемент из диапазона(start, stop, step).

⚒️ Пример: Случайный выбор числа в рамках интервала для генерации синтетических данных.

random_element = random.randrange(0, 100, 5)

print(random_element)

output:

4️⃣ choice(seq): Возвращает случайно выбранный элемент из последовательности.

⚒️ Пример: Имитация случайного выбора в пределах заданного диапазона.

fruits = ['apple', 'banana', 'cherry', 'durian']

random_fruit = random.choice(fruits)

print(random_fruit)

output: durian

5️⃣ choices(population, weights=None, k=1):

Возвращает список из k случайно выбранных элементов из совокупности с необязательным взвешиванием.

⚒️ Пример: Проведение опроса с использованием метода стратифицированной выборки.

subgroups = ['A', 'B', 'C', 'D']

weights = [0.2, 0.3, 0.3, 0.2]

random_sample = random.choices(subgroups, weights=weights, k=100)

print(random_sample)

output: ['B', 'B', 'B', 'C', 'B', 'C'

…


6️⃣ sample(population, k)

: Возвращает список с k уникальными случайно выбранными элементами из совокупности.

⚒️ Пример: Создание случайной выборки данных из большого набора данных для предварительного анализа.

numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

random_sample = random.sample(numbers, k=4)

print(random_sample)

output: [10, 5, 3, 1]

7️⃣ shuffle(x): Случайным образом перетасовывает элементы в списке x. Список изменяется.

⚒️ Пример: Произвольное изменение порядка строк набора данных или перемешивание карт в колоде.

cards = ['A', '2', '3', '4', '5', '6', '7', '8', '9', '10', 'J', 'Q', 'K']

random.shuffle(cards)

print(cards)

output: ['3', '8', '2', '10', 'K', '7', 'Q', '9', 'J', 'A', '6', '4', '5']

8️⃣ uniform(a, b)

: Возвращает случайное число с плавающей запятой между a и b, где a - нижняя граница, а b - верхняя граница.

⚒️ Пример: Генерирование случайных цен в пределах заданного диапазона для моделирования ценообразования или создание синтетических данных с непрерывными переменными.

random_float = random.uniform(0.0, 1.0)

print(random_float)

output: 0.294

✒️

А как вы еще использовали использовали библиотеку

random?

#python

❤7👍6🔥6

684 viewsAlexey Gavrilov, 18:10

Only Analyst

😀 Всем привет!

👍 Ни для кого не секрет, что 30 мая пройдет техническая конференция по продуктовой аналитике Aha!'23, которая обязательна к посещению не только опытным специалистам, но и начинающим, чтобы влиться в "аналитическую" тусовку.

🔬 На правах пятничного поста к данному событию подготовил небольшой текст о А/Б тестировании, которое будет очень подробно разбираться на мероприятии.

🎬 Сразу предупрежу, что формат новый, любые совпадения с реальными событиями и персонажами случайны.

🏢 Давным-давно, в оживленном городе Дейтавилль, жил опытный аналитик по работе с клиентами по имени Макс. Вооруженный аналитическим складом ума и тягой к приключениям, Макс обнаружил, что погружается в мир A/B-тестирования.

🕵️‍♀️ Последней задачей Макса было раскрыть секреты поведения пользователей при сравнении медицинских товаров. Видите ли, у пользователей был доступ к отличному инструменту, который позволял им сравнивать различные медицинские препараты. Однако, к ужасу Макса, оказалось, что эти пользователи и в таком простом деле смогли все испортить, добавляя только один элемент для сравнения, что делало процесс сравнения практически бесполезным.

🧑‍🔬 Преисполненный решимости разгадать эту загадку, Макс собрал команду экспертов и разработал хитроумный план. Они проведут A/B-тест, где одной группе будет предлагаться рекомендованные товары к сравнению, а вторая будет вынуждена по старинке добавлять их из общего каталога.

🔪 Разделив пользователей на две группы, контрольную и тестовую, Макс и его команда начали свой эксперимент. Контрольная группа продолжила работу без каких-либо предложений, в то время как тестовая группа получила тщательно подготовленные рекомендации.

🧫 По мере прохождения теста дни превращались в недели, и волнение Макса росло с каждой минутой. Наконец, настал день расплаты — результаты были получены!

📉 Но, увы, данные говорили на другом языке, оставляя Макса в состоянии недоумения. Контрольная группа, в которой не было никаких предложений, продемонстрировала небольшой рост показателей, в то время как тестовая потянула метрики на дно. Казалось, что блестящий план Макса с треском провалился.

👩‍🎤 Озадаченный и удрученный, Макс отправился на поиски истины, стоящей за этим неожиданным поворотом событий. Было ли это врожденное сопротивление изменениям или упрямая зависимость пользователей от собственного суждения? Ответы оставались неуловимыми.

🧖‍♂️ Тем не менее, среди этого хаоса Макс извлек ценный урок о сложностях человеческого поведения. Иногда даже самые благонамеренные эксперименты могут привести к непредвиденным результатам. И когда пошли титры этого захватывающего A / B теста, прошедшего неудачно, Макс поклялся подходить с еще более пристальным вниманием к непредсказуемым хитросплетениям человеческого разума.

🦸‍♂️ Итак, наш бесстрашный аналитик данных двинулся вперед, вооруженный новообретенным пониманием и решимостью покорить тайны, которые ждали его в области анализа данных.

👍 Прошу поддержать реакцией, если понравился формат, если нет, то приглашаю в комментарии для обсуждения.

#матемаркетинг #aha23

Please open Telegram to view this post

VIEW IN TELEGRAM

❤14👍6🔥4

855 viewsAlexey Gavrilov, edited 15:33

About

Blog

Apps

Platform