👋 Аналитики, привет!
🐼 В технической секции собесеования на аналитика данных, помимо
📚 Некоторые темы мы уже разбирали в группе, к ним будет приложена ссылка с соответствующим постом.
1️⃣ "Как выбрать определенные строки из фрейма данных в
📚 Разбор
🕵️♂️ Ответ: Использовать методы
2️⃣ "Как сгруппировать данные по столбцам в Pandas и использовать агрегатные функции?" 🤔
🕵️♂️ Ответ: Использовать метод
3️⃣ "Как обработать пропущенные значения во фрейме данных в
🕵️♂️ Ответ: Использовать метод
4️⃣ "Как мне объединить два
📚 Разбор
🕵️♂️ Ответ: Использовать метод
5️⃣ "Как применить функцию к каждому элементу в
📚 Разбор
🕵️♂️ Ответ: Использовать метод
6️⃣ "Как отсортировать
🕵️♂️ Ответ: Использовать метод
7️⃣ "Как создать новый столбец в
🕵️♂️ Ответ: Использовать оператор присваивания для создания нового столбца на основе существующих столбцов в
8️⃣ "Как читать и записывать CSV-файлы с помощью Pandas?" 🤔
🕵️♂️ Ответ: Использовать метод
✒️ Какую из тем хотелось бы подробней обсудить?
#pandas
🐼 В технической секции собесеования на аналитика данных, помимо
SQL и Python, бывает еще отдельный блок вопросов про Pandas! Собрал некоторые из самых популярных вопросов о Pandas со StackOverflow, чтобы не только подготовиться к собеседованию, но и решать реальные рабочие задачи. 📚 Некоторые темы мы уже разбирали в группе, к ним будет приложена ссылка с соответствующим постом.
1️⃣ "Как выбрать определенные строки из фрейма данных в
Pandas?" 🤔📚 Разбор
🕵️♂️ Ответ: Использовать методы
.loc или .iloc для выбора строк на основе условий или индекса.import pandas as pd
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40],
'Gender': ['F', 'M', 'M', 'M']})
male_rows = df.loc[df['Gender'] == 'M']
print(male_rows)2️⃣ "Как сгруппировать данные по столбцам в Pandas и использовать агрегатные функции?" 🤔
🕵️♂️ Ответ: Использовать метод
.groupby для группировки данных по столбцу, а затем применить к группам агрегатные функции: mean, sum и count.import pandas as pd
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40],
'Gender': ['F', 'M', 'M', 'M'],
'Salary': [50000, 60000, 70000, 80000]})
grouped = df.groupby('Gender')
print(grouped['Salary'].mean())
print(grouped['Salary'].sum())3️⃣ "Как обработать пропущенные значения во фрейме данных в
Pandas?" 🤔🕵️♂️ Ответ: Использовать метод
.fillna для заполнения пропущенных значений или используйте метод .dropna для удаления строк или столбцов с пропущенными значениями.import pandas as pd
import numpy as np
df = pd.DataFrame({'Name': [np.nan, 'Bob', 'Charlie', 'David'],
'Age': [25, 30, np.nan, 40],
'Gender': ['F', 'M', 'M', 'M']})
filled = df.fillna(value={'Age': df['Age'].mean()})
print(filled)df.dropna()4️⃣ "Как мне объединить два
DataFrames в Pandas?" 🤔📚 Разбор
🕵️♂️ Ответ: Использовать метод
.merge для объединения двух DataFrames на основе общего столбца или использовать метод .concat для объединения двух фреймов данных вдоль указанной оси.import pandas as pd
df1 = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40]})
df2 = pd.DataFrame({'Name': ['Bob', 'Charlie', 'David', 'Eve'],
'Salary': [60000, 70000, 80000, 90000]})
merged = pd.merge(df1, df2, on='Name')
print(merged)5️⃣ "Как применить функцию к каждому элементу в
DataFrame Pandas?" 🤔📚 Разбор
🕵️♂️ Ответ: Использовать метод
.apply, чтобы применить функцию к каждому элементу во фрейме данных, как по строкам, так и по столбцам.import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
def add_one(x):
return x + 1
result = df.apply(add_one)
print(result)6️⃣ "Как отсортировать
DataFrame Pandas по столбцу?" 🤔🕵️♂️ Ответ: Использовать метод
.sort_values для сортировки фрейма данных по одному или нескольким столбцам.import pandas as pd
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40]})
sorted_df = df.sort_values(by='Age')
print(sorted_df)7️⃣ "Как создать новый столбец в
DataFrame Pandas на основе существующих столбцов?" 🤔🕵️♂️ Ответ: Использовать оператор присваивания для создания нового столбца на основе существующих столбцов в
DataFrame.import pandas as pd
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40],
'Gender': ['F', 'M', 'M', 'M']})
df['IsFemale'] = df['Gender'].apply(lambda x: x == 'F')
print(df)8️⃣ "Как читать и записывать CSV-файлы с помощью Pandas?" 🤔
🕵️♂️ Ответ: Использовать метод
.read_csv для чтения данных из CSV-файла в DataFrame Pandas и использовать метод .to_csv для записи DataFrame в CSV-файл.import pandas as pd
# Reading data from a CSV file
df = pd.read_csv('data.csv')
# Writing data to a CSV file
df.to_csv('output.csv', index=False)✒️ Какую из тем хотелось бы подробней обсудить?
#pandas
Telegram
Only Analyst
😀 Всем привет!
🐼 Я уверен, что вы все использовали методы Pandas .iloc и .loc,которые позволяют нарезать 🔪 данные. Но задумывались ли вы когда-нибудь, какой из них быстрее? Давайте выясним! 🕵️♂️
🦄 Сначала давайте создадим два DataFrame для сравнения методов:…
🐼 Я уверен, что вы все использовали методы Pandas .iloc и .loc,которые позволяют нарезать 🔪 данные. Но задумывались ли вы когда-нибудь, какой из них быстрее? Давайте выясним! 🕵️♂️
🦄 Сначала давайте создадим два DataFrame для сравнения методов:…
❤16🔥8
🧭 В предыдущем посте обсуждали различные источники открытых данных для pet-проектов, но иногда запросы бывают довольно специфические и доступных наборов может не хватить, в таком случае на помощь приходят синтетические данные.
⛩️ В таком случаю помогут как специализированные библиотеки для создания «фэйковых» данных, так и более распространенные в узких кругах решения.
🎰 Библиотека Faker широко используется для создания реалистичных поддельных данных, таких как имена, адреса, номера телефонов и многое другое. Обеспечивает простой способ создания больших наборов данных с различными значениями.
from faker import Faker
import pandas as pd
fake = Faker()
# Generate fake names and addresses
data = {'Name': [fake.name() for _ in range(100)],
'Address': [fake.address() for _ in range(100)]}
df = pd.DataFrame(data)
df.head()
🧮 NumPy - это мощная библиотека для научных вычислений на Python. Он предоставляет функции для генерации массивов случайных чисел в соответствии с различными распределениями.import numpy as np
import pandas as pd
random_integers = np.random.randint(low=1, high=100, size=1000)
random_normal = np.random.normal(loc=0, scale=1, size=1000)
data = {'Random_Integers': random_integers,
'Random_Normal': random_normal}
df = pd.DataFrame(data)
🐼 Pandas - популярная библиотека для обработки и анализа данных. Она включает в себя функции для создания синтетических данных с определенной структурой, таких как временные ряды или категориальные переменные.import pandas as pd
dates = pd.date_range(start='2022-01-01', periods=365)
data = pd.DataFrame({'Date': dates, 'Value': np.random.rand(len(dates))})🙇♂️ Scikit-Learn - это широко используемая библиотека машинного обучения, которая также предлагает инструменты для генерации данных. Функция make_classification() может создавать синтетические наборы данных.
from sklearn.datasets import make_classification
import pandas as pd
X, y = make_classification(n_samples=1000, n_features=5, n_informative=3, n_classes=2)
df = pd.DataFrame(X, columns=[f"Feature_{i+1}" for i in range(X.shape[1])])
df['Label'] = y
📚 Это всего лишь несколько примеров библиотек Python, доступных для генерации синтетических данных. В зависимости от ваших конкретных потребностей вы можете изучить эти библиотеки более подробно и найти ту, которая наилучшим образом соответствует вашим требованиям.🥋 Теперь Вы знаете как создавать синтетические данные для тестирования, прототипирования или заполнения пробелов в ваших наборах данных!
✒️ Какие еще данные хотелось бы Вам создать? Приглашаю в комментарии для обсуждения.
#петпроект
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Only Analyst
🫡 Всем привет!
🙋 Самый частый вопрос после «Кто сильнее Python или SQL?» - это «Как/какой/когда/зачем пет-проект сделать?». Поэтому будет серия статей, в первой мы разберем мотивацию и определение, а также поделюсь списком возможных источников данных. …
🙋 Самый частый вопрос после «Кто сильнее Python или SQL?» - это «Как/какой/когда/зачем пет-проект сделать?». Поэтому будет серия статей, в первой мы разберем мотивацию и определение, а также поделюсь списком возможных источников данных. …
❤13🥰5👍3🔥1
📢 Внимание, аналитики!
🎸 В этой главе о pet-проектах обсудим их оформление.
💆♀️ Помимо того, что неплохо бы было иметь github аккаунт с примерами своей работы, его надо еще привести в привлекательный для HR и удобный для себя вид.
🤖 Хорошо, что не надо в ручном режиме возиться с разметкой, а можно воспользоваться бесплатными сервисами, которые из любого неприметного аккаунта сделают настающую приманку для работодателей.
👩🎨 На скриншоте пример результата использования подобного сервиса GPRM. Вот ссылка на github. Строго не судите, тогда я был молодым веб-разработчиком и мне нужны были деньги 😅
🥇GPRM: Платформа для создания описания на GitHub: о себе, статистика, социальные ссылки, технологии, пожертвования, достижения и даже цитаты (куда же без них).
🏁 В целом, на этом пост можно было и заканчивать, так как GRPM покрывает 99% потребностей. Но было бы несправедливо обойти несколько интересных проектов, которые могут заполнить оставшийся 1 %.
🧹 GitHub Profile Readme Generator: Удобный инструмент, который упрощает процесс создания профиля README. Он предлагает множество настраиваемых шаблонов для демонстрации ваших проектов, навыков и интересов.
📖 Readme: сервис для автоматического создания Readme проектов, что не менее важно, чем описание профиля.
💅 Awesome Github Profile Readme: В этом репозитории размещен список замечательных шаблонов README профиля GitHub. Найдите идеальный шаблон, который соответствует вашему стилю и проектам.
📇 Profile Summary For GitHub: Поможет создать симпатичное саммари Вашего аккаунта.
👯 All Contributor: Этот проект на GitHub предназначен для учета всех участников репозитория. Используя этот инструмент, вы можете автоматически создать профиль README, который демонстрирует всех участников.
📊 GitHub Readme Stats: Создавайте динамическую статистику о ваших репозиториях и активности.
#петпроект
🎸 В этой главе о pet-проектах обсудим их оформление.
💆♀️ Помимо того, что неплохо бы было иметь github аккаунт с примерами своей работы, его надо еще привести в привлекательный для HR и удобный для себя вид.
🤖 Хорошо, что не надо в ручном режиме возиться с разметкой, а можно воспользоваться бесплатными сервисами, которые из любого неприметного аккаунта сделают настающую приманку для работодателей.
👩🎨 На скриншоте пример результата использования подобного сервиса GPRM. Вот ссылка на github. Строго не судите, тогда я был молодым веб-разработчиком и мне нужны были деньги 😅
🥇GPRM: Платформа для создания описания на GitHub: о себе, статистика, социальные ссылки, технологии, пожертвования, достижения и даже цитаты (куда же без них).
🏁 В целом, на этом пост можно было и заканчивать, так как GRPM покрывает 99% потребностей. Но было бы несправедливо обойти несколько интересных проектов, которые могут заполнить оставшийся 1 %.
🧹 GitHub Profile Readme Generator: Удобный инструмент, который упрощает процесс создания профиля README. Он предлагает множество настраиваемых шаблонов для демонстрации ваших проектов, навыков и интересов.
📖 Readme: сервис для автоматического создания Readme проектов, что не менее важно, чем описание профиля.
💅 Awesome Github Profile Readme: В этом репозитории размещен список замечательных шаблонов README профиля GitHub. Найдите идеальный шаблон, который соответствует вашему стилю и проектам.
📇 Profile Summary For GitHub: Поможет создать симпатичное саммари Вашего аккаунта.
👯 All Contributor: Этот проект на GitHub предназначен для учета всех участников репозитория. Используя этот инструмент, вы можете автоматически создать профиль README, который демонстрирует всех участников.
📊 GitHub Readme Stats: Создавайте динамическую статистику о ваших репозиториях и активности.
#петпроект
❤10🔥6
👨🎤 Аналитики, привет!
🤰 Продолжая тему обучения, которую мы уже подробно разобрали в предыдущих частях ( 1, 2, 3 ), хотелось добавить немного меда в бочку курсов и поделиться своим позитивным опытом.
🧑🏫 Единственный курс, который я прошел перед устройством на работу - это Google Data Analytics Professional Certificate, который состоит из 8 частей, общей продолжительность 187 часов.
⌛️ За это время Вы:
👷♂️Получите полное представление о практиках и процессах, используемых аналитиком данных в своей повседневной работе.
⚒ Изучите ключевые аналитические навыки (очистка данных, анализ и визуализация) и инструменты (таблицы, SQL, программирование на R, Tableau).
🛀 Поймете, как очищать и упорядочивать данные, а также выполнять анализ и вычисления с использованием таблиц, SQL и R-программирования.
👩🎨 Узнаете, как визуализировать и представлять полученные данные в дэшбордах и презентациях.
📚 Отдельно хочу отметить свою любимую часть «Share Data Through the Art of Visualization», которую ведет Kevin Hartman, на тот момент Director of Analytics в Google.
🧐 Что удивительно, у этой главы самый низкий рейтинг и количество оценок.
🧑🔬 Кевин научит:
🎆 Использовать визуализацию данных для демонстрации результатов.
📊 Работать с Tableau.
🧙 Объяснит как рассказать историю с помощью данных.
🧑🏫 Объяснит принципы эффективной презентации.
🥷 Как итог, получился прекрасный образовательный продукт от известного бренда, в сердце которого по сути вся современная аналитика и зародилась. Сделано все с любовью и чувством своего дела. Нам с Вами этот подарок предоставляется совершенно бесплатно, хотя на самом деле он стоит всех курсов по анализу данных вместе взятых.
🥇Вот такой простой рецепт успеха.
✒️ А какой Ваш любимый курс?
#курсы #истории
🤰 Продолжая тему обучения, которую мы уже подробно разобрали в предыдущих частях ( 1, 2, 3 ), хотелось добавить немного меда в бочку курсов и поделиться своим позитивным опытом.
🧑🏫 Единственный курс, который я прошел перед устройством на работу - это Google Data Analytics Professional Certificate, который состоит из 8 частей, общей продолжительность 187 часов.
⌛️ За это время Вы:
👷♂️Получите полное представление о практиках и процессах, используемых аналитиком данных в своей повседневной работе.
⚒ Изучите ключевые аналитические навыки (очистка данных, анализ и визуализация) и инструменты (таблицы, SQL, программирование на R, Tableau).
🛀 Поймете, как очищать и упорядочивать данные, а также выполнять анализ и вычисления с использованием таблиц, SQL и R-программирования.
👩🎨 Узнаете, как визуализировать и представлять полученные данные в дэшбордах и презентациях.
📚 Отдельно хочу отметить свою любимую часть «Share Data Through the Art of Visualization», которую ведет Kevin Hartman, на тот момент Director of Analytics в Google.
🧐 Что удивительно, у этой главы самый низкий рейтинг и количество оценок.
🧑🔬 Кевин научит:
🎆 Использовать визуализацию данных для демонстрации результатов.
📊 Работать с Tableau.
🧙 Объяснит как рассказать историю с помощью данных.
🧑🏫 Объяснит принципы эффективной презентации.
🥷 Как итог, получился прекрасный образовательный продукт от известного бренда, в сердце которого по сути вся современная аналитика и зародилась. Сделано все с любовью и чувством своего дела. Нам с Вами этот подарок предоставляется совершенно бесплатно, хотя на самом деле он стоит всех курсов по анализу данных вместе взятых.
🥇Вот такой простой рецепт успеха.
✒️ А какой Ваш любимый курс?
#курсы #истории
Telegram
Only Analyst
😀 Привет!
📚 Астрологи объявили годы курсов по аналитике данных, поэтому если Вы только планируете записаться на один из них или уже учитесь, то Вам это будет как минимум - любопытно, а как максимум - полезно. Возможно, позволит Вам избежать ошибок или узнать…
📚 Астрологи объявили годы курсов по аналитике данных, поэтому если Вы только планируете записаться на один из них или уже учитесь, то Вам это будет как минимум - любопытно, а как максимум - полезно. Возможно, позволит Вам избежать ошибок или узнать…
❤15🔥7👍5
🎲 Для аналитика данных встроенная библиотека "random" в Python предлагает несколько полезных методов для работы со случайными числами.
⚒️ Рассмотрим самые полезные методы и примеры их использования.
🎬 Для начала необходимо импортировать библиотеку:
1️⃣
⚒️ Пример: Имитация результата подбрасывания монетки, где вероятность выпадения орла и решки 0.5.
⚒️ Пример: Генерация случайных идентификаторов клиентов в пределах заданного диапазона.
⚒️ Пример: Случайный выбор числа в рамках интервала для генерации синтетических данных.
⚒️ Пример: Имитация случайного выбора в пределах заданного диапазона.
⚒️ Пример: Проведение опроса с использованием метода стратифицированной выборки.
⚒️ Пример: Создание случайной выборки данных из большого набора данных для предварительного анализа.
⚒️ Пример: Произвольное изменение порядка строк набора данных или перемешивание карт в колоде.
⚒️ Пример: Генерирование случайных цен в пределах заданного диапазона для моделирования ценообразования или создание синтетических данных с непрерывными переменными.
⚒️ Рассмотрим самые полезные методы и примеры их использования.
🎬 Для начала необходимо импортировать библиотеку:
import random1️⃣
random(): Возвращает случайное число с плавающей запятой в диапазоне от 0 до 1.⚒️ Пример: Имитация результата подбрасывания монетки, где вероятность выпадения орла и решки 0.5.
coin_toss = random.random()
if coin_toss < 0.5:
outcome = 'Heads'
else:
outcome = 'Tails'
print(outcome)
Output: Tails
2️⃣ randint(a, b): Возвращает случайное целое число между a и b (включительно).⚒️ Пример: Генерация случайных идентификаторов клиентов в пределах заданного диапазона.
random_integer = random.randint(1, 10)
print(random_integer)
output: 8
3️⃣ randrange(start, stop[, step]): Возвращает случайно выбранный элемент из диапазона(start, stop, step). ⚒️ Пример: Случайный выбор числа в рамках интервала для генерации синтетических данных.
random_element = random.randrange(0, 100, 5)
print(random_element)
output: 70
4️⃣ choice(seq): Возвращает случайно выбранный элемент из последовательности.⚒️ Пример: Имитация случайного выбора в пределах заданного диапазона.
fruits = ['apple', 'banana', 'cherry', 'durian']
random_fruit = random.choice(fruits)
print(random_fruit)
output: durian
5️⃣ choices(population, weights=None, k=1): Возвращает список из k случайно выбранных элементов из совокупности с необязательным взвешиванием.⚒️ Пример: Проведение опроса с использованием метода стратифицированной выборки.
subgroups = ['A', 'B', 'C', 'D']
weights = [0.2, 0.3, 0.3, 0.2]
random_sample = random.choices(subgroups, weights=weights, k=100)
print(random_sample)
output: ['B', 'B', 'B', 'C', 'B', 'C'…
6️⃣ sample(population, k): Возвращает список с k уникальными случайно выбранными элементами из совокупности.⚒️ Пример: Создание случайной выборки данных из большого набора данных для предварительного анализа.
numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
random_sample = random.sample(numbers, k=4)
print(random_sample)
output: [10, 5, 3, 1]
7️⃣ shuffle(x): Случайным образом перетасовывает элементы в списке x. Список изменяется. ⚒️ Пример: Произвольное изменение порядка строк набора данных или перемешивание карт в колоде.
cards = ['A', '2', '3', '4', '5', '6', '7', '8', '9', '10', 'J', 'Q', 'K']
random.shuffle(cards)
print(cards)
output: ['3', '8', '2', '10', 'K', '7', 'Q', '9', 'J', 'A', '6', '4', '5']
8️⃣ uniform(a, b): Возвращает случайное число с плавающей запятой между a и b, где a - нижняя граница, а b - верхняя граница.⚒️ Пример: Генерирование случайных цен в пределах заданного диапазона для моделирования ценообразования или создание синтетических данных с непрерывными переменными.
random_float = random.uniform(0.0, 1.0)
print(random_float)
output: 0.294
✒️ А как вы еще использовали использовали библиотеку random?
#python❤7👍6🔥6
🔬 На правах пятничного поста к данному событию подготовил небольшой текст о А/Б тестировании, которое будет очень подробно разбираться на мероприятии.
🎬 Сразу предупрежу, что формат новый, любые совпадения с реальными событиями и персонажами случайны.
🏢 Давным-давно, в оживленном городе Дейтавилль, жил опытный аналитик по работе с клиентами по имени Макс. Вооруженный аналитическим складом ума и тягой к приключениям, Макс обнаружил, что погружается в мир A/B-тестирования.
🕵️♀️ Последней задачей Макса было раскрыть секреты поведения пользователей при сравнении медицинских товаров. Видите ли, у пользователей был доступ к отличному инструменту, который позволял им сравнивать различные медицинские препараты. Однако, к ужасу Макса, оказалось, что эти пользователи и в таком простом деле смогли все испортить, добавляя только один элемент для сравнения, что делало процесс сравнения практически бесполезным.
🧑🔬 Преисполненный решимости разгадать эту загадку, Макс собрал команду экспертов и разработал хитроумный план. Они проведут A/B-тест, где одной группе будет предлагаться рекомендованные товары к сравнению, а вторая будет вынуждена по старинке добавлять их из общего каталога.
🔪 Разделив пользователей на две группы, контрольную и тестовую, Макс и его команда начали свой эксперимент. Контрольная группа продолжила работу без каких-либо предложений, в то время как тестовая группа получила тщательно подготовленные рекомендации.
🧫 По мере прохождения теста дни превращались в недели, и волнение Макса росло с каждой минутой. Наконец, настал день расплаты — результаты были получены!
📉 Но, увы, данные говорили на другом языке, оставляя Макса в состоянии недоумения. Контрольная группа, в которой не было никаких предложений, продемонстрировала небольшой рост показателей, в то время как тестовая потянула метрики на дно. Казалось, что блестящий план Макса с треском провалился.
👩🎤 Озадаченный и удрученный, Макс отправился на поиски истины, стоящей за этим неожиданным поворотом событий. Было ли это врожденное сопротивление изменениям или упрямая зависимость пользователей от собственного суждения? Ответы оставались неуловимыми.
🧖♂️ Тем не менее, среди этого хаоса Макс извлек ценный урок о сложностях человеческого поведения. Иногда даже самые благонамеренные эксперименты могут привести к непредвиденным результатам. И когда пошли титры этого захватывающего A / B теста, прошедшего неудачно, Макс поклялся подходить с еще более пристальным вниманием к непредсказуемым хитросплетениям человеческого разума.
🦸♂️ Итак, наш бесстрашный аналитик данных двинулся вперед, вооруженный новообретенным пониманием и решимостью покорить тайны, которые ждали его в области анализа данных.
👍 Прошу поддержать реакцией, если понравился формат, если нет, то приглашаю в комментарии для обсуждения.
#матемаркетинг #aha23
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14👍6🔥4
📚 Сегодня поделюсь подборкой инструментов для автоматического исследоватльского анализа данных (EDA).
🙋♀️ EDA является важным этапом для аналитиков данных, поскольку он позволяет получить всестороннее представление о наборе данных. Используя статистические методы и визуализацию, можно выявлять закономерности, тенденции и аномалии в данных. EDA помогает находить проблемы с качеством данных, такие как пропущенные значения или выбросы, обеспечивая надежность последующего анализа.
🦸♂️ Этап важный, но довольно рутинный, поэтому автоматизированных инструментов хватает:
🐼 pandas-profiling
🥇 Я его использую сам, но есть и другие достойные альтернативы, если нужен упор на визуализации или автономность.
Предоставляет возможность проводить EDA в одну строку. Можно экспортировать анализ в различные форматы, такие как html и json.
📊 AutoViz
С помощью AutoViz вы можете легко и быстро создавать визуализации для ваших данных. AutoViz может помочь изучить данные и получить ценную информацию.
🍬 sweetviz
Библиотека Python с открытым исходным кодом, которая генерирует визуализации для EDA всего двумя строками кода. На выходе получаете полностью автономное HTML-приложение.
🧖♂️ dtale
Библиотека на Flask и React, которая предоставляет вам простой способ просмотра и анализа структур данных Pandas. Интегрируется с ноутбуками ipython и терминалами python / ipython.
🧑🍳 dataprep
Позволяет проводить EDA данных Pandas / Dask с помощью нескольких строк кода за считанные секунды.
🏋️♀️ AutoProfiler
Автоматически визуализирует DataFrame Pandas после каждого выполнения ячейки, никакого дополнительного кода не требуется.
✒️ А вы доверяете EDA автоматизированным инструментам или все делаете сами? Хотели бы подробный разбор одного из инструментов?
#подборка
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - ydataai/ydata-profiling: 1 Line of code data quality profiling & exploratory data analysis for Pandas and Spark DataFrames.
1 Line of code data quality profiling & exploratory data analysis for Pandas and Spark DataFrames. - GitHub - ydataai/ydata-profiling: 1 Line of code data quality profiling & explo...
❤8🔥8
🧑🔬 Аналитики, привет
👩❤️💋👨 Приглашаю всех принять участие в моем новом Open Source проекте Synthetic Data Generator.
👫 Мы с Вами сделаем свой собственный генератор синтетических DataFrame, который можно будет использовать для пет-проектов.
🗼Для Вас отличная возможность:
👫 поработать в команде и сделать интересный data-product
⚒ получить реальный опыт с Git
📂 добавить в резюме Open Source проект, что выгодно выделит Вас среди кандидатов
😊 просто хорошо провести время.
🍼 Так что если еще не зарегистрировались на GitHub, то самое время это сделать и начать отслеживать проект.
🙋 Всех участников добавлю в Contributors в описание проекта, даже если просто исправили орфографическую ошибку в описании (там есть 🙃)
👷 Теперь немного о самом проекте, с функцией можете ознакомиться в исходном коде, все необходимые комментарии присутствуют.
🌈 Изначально создаем список, с название столбцов и их типом, пока поддерживаются
⁉️ Если есть вопросы по работе с Git или по функциям, то смело пишите в комментариях к посту. Жду Ваших
#проект #петпроект #opensource
👩❤️💋👨 Приглашаю всех принять участие в моем новом Open Source проекте Synthetic Data Generator.
👫 Мы с Вами сделаем свой собственный генератор синтетических DataFrame, который можно будет использовать для пет-проектов.
🗼Для Вас отличная возможность:
👫 поработать в команде и сделать интересный data-product
⚒ получить реальный опыт с Git
📂 добавить в резюме Open Source проект, что выгодно выделит Вас среди кандидатов
😊 просто хорошо провести время.
🍼 Так что если еще не зарегистрировались на GitHub, то самое время это сделать и начать отслеживать проект.
🙋 Всех участников добавлю в Contributors в описание проекта, даже если просто исправили орфографическую ошибку в описании (там есть 🙃)
👷 Теперь немного о самом проекте, с функцией можете ознакомиться в исходном коде, все необходимые комментарии присутствуют.
🌈 Изначально создаем список, с название столбцов и их типом, пока поддерживаются
int, float, str и date:
column_specs = [
('Column1', 'int'),
('Column2', 'float'),
('Column3', 'str'),
('Column4', 'date')
]
📜 Далее указываем необходимое количество строк:num_rows = 10
🪫 Выбираем False или True для параметра, которые отвечает за наличие в DataFrame Null. include_nulls = False
📖 Передаем список категорий, которые будут использоваться в категориальном слолбце: str_categories = ['apple', 'banana', 'cherry', 'orange']
⌛️ Для столба с временем задаем диапазон дат: start_date = '2022-01-01'
end_date = '2022-12-31'
🚋 Вызываем функцию со всеми необходимыми параметрами и на выходе получаем готовый DataFrame. df = generate_synthetic_data(column_specs, num_rows, include_nulls, str_categories, start_date, end_date)
print(df)
🛟 Идей по развитию очень много: добавить возможность контроля распределения численных колонок, добавлять Null значения не ко всему DataFrame, а определенными колонкам. ⁉️ Если есть вопросы по работе с Git или по функциям, то смело пишите в комментариях к посту. Жду Ваших
pull request 🥰#проект #петпроект #opensource
🔥15❤6👍3
🏴☠️ Меньше месяца прошло с прошлого мероприятия и Хабр.Карьера снова радует интересным проектом «Неделя Аналитиков», где компании рекламируют себя, а аналитики могут голосовать за лучшую и откликаться на вакансии, далее будет IT митап, а завершится все статьей с ответами на вопросы участников. Вот пример с прошлого года.
📺 Каждая компания сняла короткое видео о себе (питч), где рассказывает о себе, аналитике и плюшках. Я посмотрел все питчи за Вас. В некоторые компании я проходил собеседование или даже работал, поэтому интересно будет как реклама соотносится с реальностью. Написал пару слов про каждый питч с оценками по параметрам:
📽 операторская работа
🎭 игра актеров
🎬 сценарий
📃 описания работы аналитика
🎁 плюшки от компании
🛒 X5 Tech (Перекресток):
📽 снято отлично, переходы понравились
🎭 главный герой хорошо держится в кадре
🎬 много смиЩных шуток и рваное повествование
📃 конкретики ноль, что делать непонятно
🎁 плюшки расписали плотно, но ничем особым не выделяются
🏠 Дом.Клик:
📽 снято в формате интервью, так что скромненько, хотя бы ракурсы меняли
🎭 ребята смотрятся живо, но проскальзывает небольшое волнение
🎬 сюжет простой, но понятный
📃 подробно и с примерами расписали проекты и стек
🎁 про плюшки рассказали мало (рассказы про внутренний университет и «плойку после работы» не считаются), что странно, так как есть более внушительные «бонусы»
🏦 МТС Банк:
📽 хорошая, даже есть подсъемы и разные ракурсы
🎭 рассказывают уверенно, но пафоса много
🎬 обычный формат интервью, но есть субтитры
📃 рассказ очень поверхностный, про аналитику пара слов, больше похоже на «агитку»
🎁 пара слов про плюшки, но тут никого не удивить
💸 Альфа Банк:
📽 отличная, подсъемы и разные ракурсы
🎭 девушка молодец, очень искренне рассказывает
🎬 обычное интервью
📃 рассказали подробно про аналитику и с примерами, но не хватило стека технологий, больше упор на системных аналитиков
🎁 про полюшки ничего не сказали, но думаю, что в банке не обидят
🏝 РНКБ:
📽 Переходы из iMovies, смотреть тяжело, но под конец переходит в стандартный интервью формат
🎭 сложилось ощущение, что снимали после работы все
🎬 нарезка кадров Крыма под хвалебные отзывы, текст слабый
📃 подробностей никаких и упор на системных аналитиков
🎁 из плюшек: санаторий и релокация в Крым. Зато подсветили благотворительные программы.
🐝 Билайн:
📽 картинка не поправилась, хотя были неплохие ракурсы
🎭 понимаю, что не мне говорить, но можно было переснять 3 минуты видео с «эээ»
🎬 интервью, но довольно скучное и нет целостности
📃 скудно и с упором на системный анализ
🎁 ничего, но это не самая большая проблема
✈️ Самолет:
📽 просто «Вау», сразу видно, что делали профессионалы
🎭 смотрятся естественно и даже есть настоящие актеры
🎬 сюжет классный, в кадре постоянно что-то происходит
📃 хоть в одной компании расписали разные виды аналитик и все довольно подробно без лишней воды
🎁 хорошо подсветили плюшки: скидки на квартиру и благотворительные проекты.
🏁 Мне понравился 🏠 Дом.Клик и ✈️ Самолет, остальные компании даже близко к ним не приблизились. Сразу видно, что старались и делали с пониманием дела.
✒️ Какая компания понравилась Вам больше всего? Как Вам такие мероприятия? Будете участвовать?
#поискработы
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Only Analyst
Всем привет! 😀
🥷 Сегодня узнал о коллаборации Хабр Карьера ✖️ VK с громким и наболевшим названием «Как найти первую работу в IT», которая началась сегодня вчера 24 апреля и продлится до 5 мая.
🖼 В рамках сотрудничества организаторы задались вопросами,…
🥷 Сегодня узнал о коллаборации Хабр Карьера ✖️ VK с громким и наболевшим названием «Как найти первую работу в IT», которая началась сегодня вчера 24 апреля и продлится до 5 мая.
🖼 В рамках сотрудничества организаторы задались вопросами,…
🔥14❤7
🙋♀️ Важное напоминание!
👩💻 Для того, чтобы начать откликаться на вакансии аналитика данных, вам нужно лишь одно - резюме.
🧐 А вот для решения технической части собеседования, придется свои ясные мысли переложить на язык двух инструментов: SQL и Python и решить несколько задач.
📰 Хорошие новости, что для этого Вам не нужны платные курсы или еще один год опыта. Вас уже достаточно, осталось лишь научиться.
⚒ Лучший путь изучения - это практика, тем более знание теории Python и SQL далеко не всегда гарантирует умение их применять. Единственным способом приобретения этого навыка является решение задач.
🔐 Для практики советую каждый день решать задачи на leetcode, в котором помимо всевозможных задач по Python и SQL с подробными решениями, есть много интересных функций:
📺 Учебный план состоит из 50 задач по SQL , которые разбиты на темы от простых
📃 Шпаргалка для решения алгоритмических задач на Python с готовыми шаблонами и схемами выбора оптимального решени
📆 «Задача дня» предлагается для решения и отличного подойдет для того, чтобы держать себя в тонусе.
🥁 Или можно просто по фильтрам выбрать интересующие задачи: ссылка на легкие задачи по спискам.
🦾 Как вы видите, возможности безграничны, необходима лишь дисциплина и хорошая компания! А если есть пробелы в теории, то тут подробно описал, как можно их наверстать.
🥳 Приглашаю всех, кто готов присоединиться к «челенеджу» и на протяжении недели решать по 1 задаче! Таким способом сформируем привычку и Вас будет уже не остановить 😅
✒️ Для участия в комментарии присылайте ссылки на аккаунт leetcode
#поискработы #подборка
👩💻 Для того, чтобы начать откликаться на вакансии аналитика данных, вам нужно лишь одно - резюме.
🧐 А вот для решения технической части собеседования, придется свои ясные мысли переложить на язык двух инструментов: SQL и Python и решить несколько задач.
📰 Хорошие новости, что для этого Вам не нужны платные курсы или еще один год опыта. Вас уже достаточно, осталось лишь научиться.
⚒ Лучший путь изучения - это практика, тем более знание теории Python и SQL далеко не всегда гарантирует умение их применять. Единственным способом приобретения этого навыка является решение задач.
🔐 Для практики советую каждый день решать задачи на leetcode, в котором помимо всевозможных задач по Python и SQL с подробными решениями, есть много интересных функций:
📺 Учебный план состоит из 50 задач по SQL , которые разбиты на темы от простых
join до functions 📃 Шпаргалка для решения алгоритмических задач на Python с готовыми шаблонами и схемами выбора оптимального решени
📆 «Задача дня» предлагается для решения и отличного подойдет для того, чтобы держать себя в тонусе.
🥁 Или можно просто по фильтрам выбрать интересующие задачи: ссылка на легкие задачи по спискам.
🦾 Как вы видите, возможности безграничны, необходима лишь дисциплина и хорошая компания! А если есть пробелы в теории, то тут подробно описал, как можно их наверстать.
🥳 Приглашаю всех, кто готов присоединиться к «челенеджу» и на протяжении недели решать по 1 задаче! Таким способом сформируем привычку и Вас будет уже не остановить 😅
✒️ Для участия в комментарии присылайте ссылки на аккаунт leetcode
#поискработы #подборка
Leetcode
LeetCode - The World's Leading Online Programming Learning Platform
Level up your coding skills and quickly land a job. This is the best place to expand your knowledge and get prepared for your next interview.
🔥14❤5👍2🥰1
📃 Сегодня наткнулся на интересную статью, рассказывающую о сравнении значений с
None в Python и Pandas. Это требуется для нахождения пропущенных данных. 🧃 Кто хочет подробно изучить тему, то может ознакомиться в статье, а в посте сразу перейду к выводам и немного разберем понятия.
🐍 В
Python при сравнении с None используйте is или is not.🐼 В Pandas при поиске пропущенных значений используйте методы
isna или isnull. 🤥 В
Python есть понятие "истинных" и "ложных" значений. Благодаря этому различные небулевы типы данных могут интерпретироваться в логических контекстах. Важно различать:😇 Буквальные значения
True или False: они являются логическими.😈 Истинные или ложные значения: любой логический или небулевой тип данных.
🗓️ В
Python следующее считается "ложным":1️⃣ Константы:
None и False.2️⃣ Ноль любого числового типа: 0, 0.0, 0j,
Decimal(0), Fraction(0, 1). 3️⃣ Пустые последовательности и коллекции:
", (), [], {}, set(), range(0).
🤗 Любое другое значение считается "истинным"
✒️ А что вы делаете с пропущенными данными?
#pandas #python
Please open Telegram to view this post
VIEW IN TELEGRAM
sourcery.ai
Comparing to None in Python and Pandas
Truthy and falsy values, None, and comparison in Python and Pandas.
❤9🔥3
👨⚕️ В новом видео обсуждаем как современное общение в онлайн пространстве влияют на человека и его окружение
📢 Видео поможет подготовиться тем, кто только планирует перейти на удаленную работу, «удаленщикам» подскажет как сделать онлайн среду безопаснее для себя и окружающих, а работодателям предложит мероприятия для минимизации негативного влияния от «удаленки» и как повысить удержание сотрудников в цифровую эпоху.
#видео
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Вред и польза онлайн общения для человека и работы
У нас в гостях Юрий Четвертаков, врач-психотерапевт. Обсуждаем влияние цифровой коммуникации на человека. Видео будет интересно тем, кто ищет работу в IT и планирует начать работать удаленно, а также тем, кто уже работает и хочет избежать негативного влияния…
❤6🔥4🥰1
🔄 Чтобы получить работу аналитика данных, вам нужен опыт. Чтобы набраться опыта, вам нужна работа аналитика данных.
🚀 Думаю, что многие знакомы с этим парадоксом, который был описан Дзофефом Хеллером в одноименном романе «Уловка-22» еще в далеком в 1961 году.
📖 В этом посте обсудим это противоречие и я поделюсь ссылками, которые помогут начинающим аналитикам данных выйти из этого порочного круга.
🔐 «Уловка-22» коренится в спросе на опытных аналитиков данных. Работодатели ищут кандидатов с практическим опытом, чтобы быть уверенными в том, что они смогут справиться с реальными задачами, даже начального уровня.
♻️ Парадоксальный цикл начинается с должностей junior уровня, требующих опыта работы от одного до двух лет, что фактически закрывает двери для выпускников или тех, кто переходит из других областей.
⚖️ О возможных выходах из этого цикла я уже подробно писал, но давайте еще раз пройдемся по ссылкам:
💼 Стажировки и фриланс: Хабр.Карьера раз, два
💻 Личные проекты и вклады в OpenSource: наш проект SDG, как оформить свой GitHub, подборка датасетов
🤝 Налаживание связей и наставничество: техническая конференция Aha!’23
🧑🏫 Непрерывное образование: leetcode, курс от Google, Kaggle
🎓 Даже если удается приобрести некоторый опыт, то часто трудно продемонстрировать свои навыки потенциальным работодателям, поэтому можете отправлять резюме на «Прожарку» или задавать вопросы в комментариях
🐏 При настойчивости, планировании и проактивном подходе можно разорвать порочный круг и приобрести необходимый опыт.
✒️ А какие еще есть способы выйти из этого парадокса? Приглашаю в комментарии
#подборка #истории #поискработы
🚀 Думаю, что многие знакомы с этим парадоксом, который был описан Дзофефом Хеллером в одноименном романе «Уловка-22» еще в далеком в 1961 году.
📖 В этом посте обсудим это противоречие и я поделюсь ссылками, которые помогут начинающим аналитикам данных выйти из этого порочного круга.
🔐 «Уловка-22» коренится в спросе на опытных аналитиков данных. Работодатели ищут кандидатов с практическим опытом, чтобы быть уверенными в том, что они смогут справиться с реальными задачами, даже начального уровня.
♻️ Парадоксальный цикл начинается с должностей junior уровня, требующих опыта работы от одного до двух лет, что фактически закрывает двери для выпускников или тех, кто переходит из других областей.
⚖️ О возможных выходах из этого цикла я уже подробно писал, но давайте еще раз пройдемся по ссылкам:
💼 Стажировки и фриланс: Хабр.Карьера раз, два
💻 Личные проекты и вклады в OpenSource: наш проект SDG, как оформить свой GitHub, подборка датасетов
🤝 Налаживание связей и наставничество: техническая конференция Aha!’23
🧑🏫 Непрерывное образование: leetcode, курс от Google, Kaggle
🎓 Даже если удается приобрести некоторый опыт, то часто трудно продемонстрировать свои навыки потенциальным работодателям, поэтому можете отправлять резюме на «Прожарку» или задавать вопросы в комментариях
🐏 При настойчивости, планировании и проактивном подходе можно разорвать порочный круг и приобрести необходимый опыт.
✒️ А какие еще есть способы выйти из этого парадокса? Приглашаю в комментарии
#подборка #истории #поискработы
Telegram
Only Analyst
😀 Всем привет!
🏴☠️ Меньше месяца прошло с прошлого мероприятия и Хабр.Карьера снова радует интересным проектом «Неделя Аналитиков», где компании рекламируют себя, а аналитики могут голосовать за лучшую и откликаться на вакансии, далее будет IT митап, а…
🏴☠️ Меньше месяца прошло с прошлого мероприятия и Хабр.Карьера снова радует интересным проектом «Неделя Аналитиков», где компании рекламируют себя, а аналитики могут голосовать за лучшую и откликаться на вакансии, далее будет IT митап, а…
❤13👍3🔥2
🧑🏫 Делюсь своей подборкой докладов, которые я выбрал на основе потенциальной пользы для работы, ориентируясь на схожие проблемы и стек технологий
🏁 В итоге получился полноценный bootcamp по аналитике:
🖼️ 12:00 Наглядная визуализация для ELT-процессов в DWH от СберМаркет.
🚕 12:45 Сколько должен стоить тариф доставки? от Яндекса
🐍 13:30 Улучшаем пользовательский опыт с Python-библиотекой Retentioneering
🤑 15:00 Как мы автоматизируем оценку экономического эффекта фичей в СберМаркете
❤️ 15:45 Смена источника данных для сквозной аналитики: миграция веб-стриминга крупного проекта от DataGo
🩺 16:30 Разметка-событий-как-код от SberHealth
💼 17:15 Как научиться проходить технические интервью (но в итоге облажаться)
👨🍳 Конференция преподносит нам «на блюдечке» дистиллированный опыт команд опытнейших аналитиков индустрии, который стоит на много дороже любых курсов и отражает реальное положение дел.
🤔 Думаю, что начинающим аналитикам будет очень полезно посмотреть на кухню изнутри и ознакомиться с какими проблемами сталкивается команда и главное: как и к какому решению они пришли.
✒️ Какие доклады интересны Вам? Что хотели бы обсудить?
#матемаркетинг #aha23
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🐶 Расскажу про свой мини пет-проект:
🏦 Извлекаем (extract) данные ВВП стран из открытых данных с пощью библиотеки
requests🐼 Используя библиотеку
Pandas преобразуем (transform) данные в нужный формат 🐎 Визуализируем данные библиотекой
bar_chart_race ⚒️ Это простой пример ETL процесса, который продемонстрирует работодателю Ваши навыки по работе с популярными библиотеками (
requests, pandas), понимание работы с открытыми API и зацепит нескучной визуализацией. ✒️ Кому интересно, то пишите в комментариях ,что хотели бы добавить к проекту, и делитесь с друзьями.
🧑🏫 А я в следующих постах подробно расскажу как самим сделать такой pet-проект и добавить к себе в резюме
#петпроект
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29❤6
☀️ Сегодня первое июня, а значит день отчета по метрикам канала за май перед моими главными стейкхолдерами - подписчиками, то есть Вами.
🥬 Для начинающих продуктовых аналитиков - это отличный шанс «поиграть» в продукт: в комментариях жду ваши выводы/гипотезы/инсайты
🤰 Напомню, что канал стартовал в апреле 2023 и каждый месяц я делюсь аналитикой. Подробную статистику, которую предоставляет телеграмм, и результаты первого месяца можно посмотреть тут.
📊 Основные достижения за месяц:
🌱 +108 подписчиков, +25%
📺 512 просмотров в среднем на пост, 99% подписчиков читают посты (но это не точно)
🥳 10% вовлеченности (ставят реакции, комментарии и пересылают посты), хотя только у 30% включены уведомления
🏆 Рейтинг постов:
🫣 1350 просмотров у поста про техническую конференцию Aha!23
📦 36 пересылок у поста с подборкой источников датасетов для пет-проектов
👍 28 реакций у поста с новым пет-проектом и нескучным видео
🕵️♀️ Инсайты:
📚 Подборки заходят, так как они плотно наполнены информацией и полезны для людей
🖼 Визуальная часть не менее важна, чем наполнение
🎎 Смежные по тематике мероприятия повышают интерес
🖋 Если хотите повлиять на развитие канала, то попрошу Вас в свободной форме написать, что нравится/не нравится и какой контент хотелось бы видеть
#аналитика
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16👍7🔥4