Only Analyst
2.55K subscribers
140 photos
20 videos
157 links
Канал для всех, кто интересуется аналитикой данных и хочет изучить данную профессию
@onlyanalyst
Download Telegram
👋 Аналитики, привет!

🐼 В технической секции собесеования на аналитика данных, помимо SQL и Python, бывает еще отдельный блок вопросов про Pandas! Собрал некоторые из самых популярных вопросов о Pandas со StackOverflow, чтобы не только подготовиться к собеседованию, но и решать реальные рабочие задачи.

📚 Некоторые темы мы уже разбирали в группе, к ним будет приложена ссылка с соответствующим постом.

1️⃣ "Как выбрать определенные строки из фрейма данных в Pandas?" 🤔

📚 Разбор

🕵️‍♂️ Ответ: Использовать методы .loc или .iloc для выбора строк на основе условий или индекса.

import pandas as pd

df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40],
'Gender': ['F', 'M', 'M', 'M']})

male_rows = df.loc[df['Gender'] == 'M']
print(male_rows)


2️⃣ "Как сгруппировать данные по столбцам в Pandas и использовать агрегатные функции?" 🤔

🕵️‍♂️ Ответ: Использовать метод .groupby для группировки данных по столбцу, а затем применить к группам агрегатные функции: mean, sum и count.

import pandas as pd

df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40],
'Gender': ['F', 'M', 'M', 'M'],
'Salary': [50000, 60000, 70000, 80000]})

grouped = df.groupby('Gender')
print(grouped['Salary'].mean())
print(grouped['Salary'].sum())


3️⃣ "Как обработать пропущенные значения во фрейме данных в Pandas?" 🤔

🕵️‍♂️ Ответ: Использовать метод .fillna для заполнения пропущенных значений или используйте метод .dropna для удаления строк или столбцов с пропущенными значениями.

import pandas as pd
import numpy as np

df = pd.DataFrame({'Name': [np.nan, 'Bob', 'Charlie', 'David'],
'Age': [25, 30, np.nan, 40],
'Gender': ['F', 'M', 'M', 'M']})

filled = df.fillna(value={'Age': df['Age'].mean()})
print(filled)


df.dropna()

4️⃣ "Как мне объединить два DataFrames в Pandas?" 🤔

📚 Разбор

🕵️‍♂️ Ответ: Использовать метод .merge для объединения двух DataFrames на основе общего столбца или использовать метод .concat для объединения двух фреймов данных вдоль указанной оси.

import pandas as pd

df1 = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40]})
df2 = pd.DataFrame({'Name': ['Bob', 'Charlie', 'David', 'Eve'],
'Salary': [60000, 70000, 80000, 90000]})

merged = pd.merge(df1, df2, on='Name')
print(merged)


5️⃣ "Как применить функцию к каждому элементу в DataFrame Pandas?" 🤔

📚 Разбор

🕵️‍♂️ Ответ: Использовать метод .apply, чтобы применить функцию к каждому элементу во фрейме данных, как по строкам, так и по столбцам.

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

def add_one(x):
return x + 1

result = df.apply(add_one)
print(result)


6️⃣ "Как отсортировать DataFrame Pandas по столбцу?" 🤔

🕵️‍♂️ Ответ: Использовать метод .sort_values для сортировки фрейма данных по одному или нескольким столбцам.

import pandas as pd

df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40]})

sorted_df = df.sort_values(by='Age')
print(sorted_df)


7️⃣ "Как создать новый столбец в DataFrame Pandas на основе существующих столбцов?" 🤔

🕵️‍♂️ Ответ: Использовать оператор присваивания для создания нового столбца на основе существующих столбцов в DataFrame.

import pandas as pd

df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40],
'Gender': ['F', 'M', 'M', 'M']})

df['IsFemale'] = df['Gender'].apply(lambda x: x == 'F')
print(df)


8️⃣ "Как читать и записывать CSV-файлы с помощью Pandas?" 🤔

🕵️‍♂️ Ответ: Использовать метод .read_csv для чтения данных из CSV-файла в DataFrame Pandas и использовать метод .to_csv для записи DataFrame в CSV-файл.

import pandas as pd

# Reading data from a CSV file
df = pd.read_csv('data.csv')

# Writing data to a CSV file
df.to_csv('output.csv', index=False)


✒️ Какую из тем хотелось бы подробней обсудить?

#pandas
16🔥8
😀 Всем привет!

🧭 В предыдущем посте обсуждали различные источники открытых данных для pet-проектов, но иногда запросы бывают довольно специфические и доступных наборов может не хватить, в таком случае на помощь приходят синтетические данные.

⛩️ В таком случаю помогут как специализированные библиотеки для создания «фэйковых» данных, так и более распространенные в узких кругах решения.

🎰 Библиотека Faker широко используется для создания реалистичных поддельных данных, таких как имена, адреса, номера телефонов и многое другое. Обеспечивает простой способ создания больших наборов данных с различными значениями.

from faker import Faker
import pandas as pd

fake = Faker()

# Generate fake names and addresses
data = {'Name': [fake.name() for _ in range(100)],
'Address': [fake.address() for _ in range(100)]}

df = pd.DataFrame(data)

df.head()

🧮
NumPy - это мощная библиотека для научных вычислений на Python. Он предоставляет функции для генерации массивов случайных чисел в соответствии с различными распределениями.

import numpy as np
import pandas as pd

random_integers = np.random.randint(low=1, high=100, size=1000)

random_normal = np.random.normal(loc=0, scale=1, size=1000)

data = {'Random_Integers': random_integers,
'Random_Normal': random_normal}

df = pd.DataFrame(data)

🐼
Pandas - популярная библиотека для обработки и анализа данных. Она включает в себя функции для создания синтетических данных с определенной структурой, таких как временные ряды или категориальные переменные.

import pandas as pd

dates = pd.date_range(start='2022-01-01', periods=365)

data = pd.DataFrame({'Date': dates, 'Value': np.random.rand(len(dates))})


🙇‍♂️ Scikit-Learn - это широко используемая библиотека машинного обучения, которая также предлагает инструменты для генерации данных. Функция make_classification() может создавать синтетические наборы данных.

from sklearn.datasets import make_classification
import pandas as pd

X, y = make_classification(n_samples=1000, n_features=5, n_informative=3, n_classes=2)

df = pd.DataFrame(X, columns=[f"Feature_{i+1}" for i in range(X.shape[1])])
df['Label'] = y

📚
Это всего лишь несколько примеров библиотек Python, доступных для генерации синтетических данных. В зависимости от ваших конкретных потребностей вы можете изучить эти библиотеки более подробно и найти ту, которая наилучшим образом соответствует вашим требованиям.

🥋 Теперь Вы знаете как создавать синтетические данные для тестирования, прототипирования или заполнения пробелов в ваших наборах данных!

✒️ Какие еще данные хотелось бы Вам создать? Приглашаю в комментарии для обсуждения.

#петпроект
Please open Telegram to view this post
VIEW IN TELEGRAM
13🥰5👍3🔥1
📢 Внимание, аналитики!

🎸 В этой главе о pet-проектах обсудим их оформление.

💆‍♀️ Помимо того, что неплохо бы было иметь github аккаунт с примерами своей работы, его надо еще привести в привлекательный для HR и удобный для себя вид.

🤖 Хорошо, что не надо в ручном режиме возиться с разметкой, а можно воспользоваться бесплатными сервисами, которые из любого неприметного аккаунта сделают настающую приманку для работодателей.

👩‍🎨 На скриншоте пример результата использования подобного сервиса GPRM. Вот ссылка на github. Строго не судите, тогда я был молодым веб-разработчиком и мне нужны были деньги 😅

🥇GPRM: Платформа для создания описания на GitHub: о себе, статистика, социальные ссылки, технологии, пожертвования, достижения и даже цитаты (куда же без них).

🏁 В целом, на этом пост можно было и заканчивать, так как GRPM покрывает 99% потребностей. Но было бы несправедливо обойти несколько интересных проектов, которые могут заполнить оставшийся 1 %.

🧹 GitHub Profile Readme Generator: Удобный инструмент, который упрощает процесс создания профиля README. Он предлагает множество настраиваемых шаблонов для демонстрации ваших проектов, навыков и интересов.

📖 Readme: сервис для автоматического создания Readme проектов, что не менее важно, чем описание профиля.

💅 Awesome Github Profile Readme: В этом репозитории размещен список замечательных шаблонов README профиля GitHub. Найдите идеальный шаблон, который соответствует вашему стилю и проектам.

📇 Profile Summary For GitHub: Поможет создать симпатичное саммари Вашего аккаунта.

👯 All Contributor: Этот проект на GitHub предназначен для учета всех участников репозитория. Используя этот инструмент, вы можете автоматически создать профиль README, который демонстрирует всех участников.

📊 GitHub Readme Stats: Создавайте динамическую статистику о ваших репозиториях и активности.

#петпроект
10🔥6
👨‍🎤 Аналитики, привет!

🤰 Продолжая тему обучения, которую мы уже подробно разобрали в предыдущих частях ( 1, 2, 3 ), хотелось добавить немного меда в бочку курсов и поделиться своим позитивным опытом.

🧑‍🏫 Единственный курс, который я прошел перед устройством на работу - это Google Data Analytics Professional Certificate, который состоит из 8 частей, общей продолжительность 187 часов.

⌛️ За это время Вы:

👷‍♂️Получите полное представление о практиках и процессах, используемых аналитиком данных в своей повседневной работе.

Изучите ключевые аналитические навыки (очистка данных, анализ и визуализация) и инструменты (таблицы, SQL, программирование на R, Tableau).

🛀 Поймете, как очищать и упорядочивать данные, а также выполнять анализ и вычисления с использованием таблиц, SQL и R-программирования.

👩‍🎨 Узнаете, как визуализировать и представлять полученные данные в дэшбордах и презентациях.

📚 Отдельно хочу отметить свою любимую часть «Share Data Through the Art of Visualization», которую ведет Kevin Hartman, на тот момент Director of Analytics в Google.

🧐 Что удивительно, у этой главы самый низкий рейтинг и количество оценок.

🧑‍🔬 Кевин научит:

🎆 Использовать визуализацию данных для демонстрации результатов.

📊 Работать с Tableau.

🧙 Объяснит как рассказать историю с помощью данных.

🧑‍🏫 Объяснит принципы эффективной презентации.

🥷 Как итог, получился прекрасный образовательный продукт от известного бренда, в сердце которого по сути вся современная аналитика и зародилась. Сделано все с любовью и чувством своего дела. Нам с Вами этот подарок предоставляется совершенно бесплатно, хотя на самом деле он стоит всех курсов по анализу данных вместе взятых.

🥇Вот такой простой рецепт успеха.

✒️ А какой Ваш любимый курс?

#курсы #истории
15🔥7👍5
🎲 Для аналитика данных встроенная библиотека "random" в Python предлагает несколько полезных методов для работы со случайными числами.

⚒️ Рассмотрим самые полезные методы и примеры их использования.

🎬 Для начала необходимо импортировать библиотеку:

import random

1️⃣ random(): Возвращает случайное число с плавающей запятой в диапазоне от 0 до 1.

⚒️ Пример: Имитация результата подбрасывания монетки, где вероятность выпадения орла и решки 0.5.

coin_toss = random.random()

if coin_toss < 0.5:
outcome = 'Heads'
else:
outcome = 'Tails'

print(outcome)

Output: Tails


2️⃣ randint(a, b)
: Возвращает случайное целое число между a и b (включительно).

⚒️ Пример: Генерация случайных идентификаторов клиентов в пределах заданного диапазона.

random_integer = random.randint(1, 10)

print(random_integer)

output: 8

3️⃣ randrange(start, stop[, step]): Возвращает случайно выбранный элемент из диапазона(start, stop, step).

⚒️ Пример: Случайный выбор числа в рамках интервала для генерации синтетических данных.

random_element = random.randrange(0, 100, 5)

print(random_element)

output:
70

4️⃣ choice(seq): Возвращает случайно выбранный элемент из последовательности.

⚒️ Пример: Имитация случайного выбора в пределах заданного диапазона.

fruits = ['apple', 'banana', 'cherry', 'durian']

random_fruit = random.choice(fruits)

print(random_fruit)

output: durian

5️⃣ choices(population, weights=None, k=1):
Возвращает список из k случайно выбранных элементов из совокупности с необязательным взвешиванием.

⚒️ Пример: Проведение опроса с использованием метода стратифицированной выборки.

subgroups = ['A', 'B', 'C', 'D']

weights = [0.2, 0.3, 0.3, 0.2]

random_sample = random.choices(subgroups, weights=weights, k=100)

print(random_sample)

output: ['B', 'B', 'B', 'C', 'B', 'C'


6️⃣ sample(population, k)
: Возвращает список с k уникальными случайно выбранными элементами из совокупности.

⚒️ Пример: Создание случайной выборки данных из большого набора данных для предварительного анализа.

numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

random_sample = random.sample(numbers, k=4)

print(random_sample)

output: [10, 5, 3, 1]

7️⃣ shuffle(x): Случайным образом перетасовывает элементы в списке x. Список изменяется.

⚒️ Пример: Произвольное изменение порядка строк набора данных или перемешивание карт в колоде.

cards = ['A', '2', '3', '4', '5', '6', '7', '8', '9', '10', 'J', 'Q', 'K']

random.shuffle(cards)

print(cards)

output: ['3', '8', '2', '10', 'K', '7', 'Q', '9', 'J', 'A', '6', '4', '5']

8️⃣ uniform(a, b)
: Возвращает случайное число с плавающей запятой между a и b, где a - нижняя граница, а b - верхняя граница.

⚒️ Пример: Генерирование случайных цен в пределах заданного диапазона для моделирования ценообразования или создание синтетических данных с непрерывными переменными.

random_float = random.uniform(0.0, 1.0)

print(random_float)

output: 0.294

✒️
А как вы еще использовали использовали библиотеку random?

#python
7👍6🔥6
😀 Всем привет!

👍 Ни для кого не секрет, что 30 мая пройдет техническая конференция по продуктовой аналитике Aha!'23, которая обязательна к посещению не только опытным специалистам, но и начинающим, чтобы влиться в "аналитическую" тусовку.

🔬 На правах пятничного поста к данному событию подготовил небольшой текст о А/Б тестировании, которое будет очень подробно разбираться на мероприятии.

🎬 Сразу предупрежу, что формат новый, любые совпадения с реальными событиями и персонажами случайны.

🏢 Давным-давно, в оживленном городе Дейтавилль, жил опытный аналитик по работе с клиентами по имени Макс. Вооруженный аналитическим складом ума и тягой к приключениям, Макс обнаружил, что погружается в мир A/B-тестирования.

🕵️‍♀️ Последней задачей Макса было раскрыть секреты поведения пользователей при сравнении медицинских товаров. Видите ли, у пользователей был доступ к отличному инструменту, который позволял им сравнивать различные медицинские препараты. Однако, к ужасу Макса, оказалось, что эти пользователи и в таком простом деле смогли все испортить, добавляя только один элемент для сравнения, что делало процесс сравнения практически бесполезным.

🧑‍🔬 Преисполненный решимости разгадать эту загадку, Макс собрал команду экспертов и разработал хитроумный план. Они проведут A/B-тест, где одной группе будет предлагаться рекомендованные товары к сравнению, а вторая будет вынуждена по старинке добавлять их из общего каталога.

🔪 Разделив пользователей на две группы, контрольную и тестовую, Макс и его команда начали свой эксперимент. Контрольная группа продолжила работу без каких-либо предложений, в то время как тестовая группа получила тщательно подготовленные рекомендации.

🧫 По мере прохождения теста дни превращались в недели, и волнение Макса росло с каждой минутой. Наконец, настал день расплаты — результаты были получены!

📉 Но, увы, данные говорили на другом языке, оставляя Макса в состоянии недоумения. Контрольная группа, в которой не было никаких предложений, продемонстрировала небольшой рост показателей, в то время как тестовая потянула метрики на дно. Казалось, что блестящий план Макса с треском провалился.

👩‍🎤 Озадаченный и удрученный, Макс отправился на поиски истины, стоящей за этим неожиданным поворотом событий. Было ли это врожденное сопротивление изменениям или упрямая зависимость пользователей от собственного суждения? Ответы оставались неуловимыми.

🧖‍♂️ Тем не менее, среди этого хаоса Макс извлек ценный урок о сложностях человеческого поведения. Иногда даже самые благонамеренные эксперименты могут привести к непредвиденным результатам. И когда пошли титры этого захватывающего A / B теста, прошедшего неудачно, Макс поклялся подходить с еще более пристальным вниманием к непредсказуемым хитросплетениям человеческого разума.

🦸‍♂️ Итак, наш бесстрашный аналитик данных двинулся вперед, вооруженный новообретенным пониманием и решимостью покорить тайны, которые ждали его в области анализа данных.

👍 Прошу поддержать реакцией, если понравился формат, если нет, то приглашаю в комментарии для обсуждения.

#матемаркетинг #aha23
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍6🔥4
😀 Всем привет!

📚 Сегодня поделюсь подборкой инструментов для автоматического исследоватльского анализа данных (EDA).

🙋‍♀️ EDA является важным этапом для аналитиков данных, поскольку он позволяет получить всестороннее представление о наборе данных. Используя статистические методы и визуализацию, можно выявлять закономерности, тенденции и аномалии в данных. EDA помогает находить проблемы с качеством данных, такие как пропущенные значения или выбросы, обеспечивая надежность последующего анализа.

🦸‍♂️ Этап важный, но довольно рутинный, поэтому автоматизированных инструментов хватает:

🐼 pandas-profiling

🥇 Я его использую сам, но есть и другие достойные альтернативы, если нужен упор на визуализации или автономность.

Предоставляет возможность проводить EDA в одну строку. Можно экспортировать анализ в различные форматы, такие как html и json.

📊 AutoViz

С помощью AutoViz вы можете легко и быстро создавать визуализации для ваших данных. AutoViz может помочь изучить данные и получить ценную информацию.

🍬 sweetviz

Библиотека Python с открытым исходным кодом, которая генерирует визуализации для EDA всего двумя строками кода. На выходе получаете полностью автономное HTML-приложение.

🧖♂️ dtale

Библиотека на Flask и React, которая предоставляет вам простой способ просмотра и анализа структур данных Pandas. Интегрируется с ноутбуками ipython и терминалами python / ipython.

🧑‍🍳 dataprep

Позволяет проводить EDA данных Pandas / Dask с помощью нескольких строк кода за считанные секунды.

🏋️♀️ AutoProfiler

Автоматически визуализирует DataFrame Pandas после каждого выполнения ячейки, никакого дополнительного кода не требуется.

✒️ А вы доверяете EDA автоматизированным инструментам или все делаете сами? Хотели бы подробный разбор одного из инструментов?

#подборка
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥8
🧑‍🔬 Аналитики, привет

👩‍❤️‍💋‍👨 Приглашаю всех принять участие в моем новом Open Source проекте Synthetic Data Generator.

👫 Мы с Вами сделаем свой собственный генератор синтетических DataFrame, который можно будет использовать для пет-проектов.

🗼Для Вас отличная возможность:

👫 поработать в команде и сделать интересный data-product

получить реальный опыт с Git

📂 добавить в резюме Open Source проект, что выгодно выделит Вас среди кандидатов

😊 просто хорошо провести время.

🍼 Так что если еще не зарегистрировались на GitHub, то самое время это сделать и начать отслеживать проект.

🙋 Всех участников добавлю в Contributors в описание проекта, даже если просто исправили орфографическую ошибку в описании (там есть 🙃)

👷 Теперь немного о самом проекте, с функцией можете ознакомиться в исходном коде, все необходимые комментарии присутствуют.

🌈 Изначально создаем список, с название столбцов и их типом, пока поддерживаются int, float, str и date:

column_specs = [
('Column1', 'int'),
('Column2', 'float'),
('Column3', 'str'),
('Column4', 'date')
]

📜 Далее указываем необходимое количество строк:

num_rows = 10

🪫 Выбираем False или True для параметра, которые отвечает за наличие в DataFrame Null.

include_nulls = False

📖
Передаем список категорий, которые будут использоваться в категориальном слолбце:

str_categories = ['apple', 'banana', 'cherry', 'orange']

⌛️ Для столба с временем задаем диапазон дат:

start_date = '2022-01-01'
end_date = '2022-12-31'

🚋
Вызываем функцию со всеми необходимыми параметрами и на выходе получаем готовый DataFrame.

df = generate_synthetic_data(column_specs, num_rows, include_nulls, str_categories, start_date, end_date)

print(df)

🛟
Идей по развитию очень много: добавить возможность контроля распределения численных колонок, добавлять Null значения не ко всему DataFrame, а определенными колонкам.

⁉️ Если есть вопросы по работе с Git или по функциям, то смело пишите в комментариях к посту. Жду Ваших pull request 🥰

#проект #петпроект #opensource
🔥156👍3
😀 Всем привет!

🏴‍☠️ Меньше месяца прошло с прошлого мероприятия и Хабр.Карьера снова радует интересным проектом «Неделя Аналитиков», где компании рекламируют себя, а аналитики могут голосовать за лучшую и откликаться на вакансии, далее будет IT митап, а завершится все статьей с ответами на вопросы участников. Вот пример с прошлого года.

📺 Каждая компания сняла короткое видео о себе (питч), где рассказывает о себе, аналитике и плюшках. Я посмотрел все питчи за Вас. В некоторые компании я проходил собеседование или даже работал, поэтому интересно будет как реклама соотносится с реальностью. Написал пару слов про каждый питч с оценками по параметрам:

📽 операторская работа
🎭 игра актеров
🎬 сценарий
📃 описания работы аналитика
🎁 плюшки от компании

🛒 X5 Tech (Перекресток):

📽 снято отлично, переходы понравились
🎭 главный герой хорошо держится в кадре
🎬 много смиЩных шуток и рваное повествование
📃 конкретики ноль, что делать непонятно
🎁 плюшки расписали плотно, но ничем особым не выделяются

🏠 Дом.Клик:

📽 снято в формате интервью, так что скромненько, хотя бы ракурсы меняли
🎭 ребята смотрятся живо, но проскальзывает небольшое волнение
🎬 сюжет простой, но понятный
📃 подробно и с примерами расписали проекты и стек
🎁 про плюшки рассказали мало (рассказы про внутренний университет и «плойку после работы» не считаются), что странно, так как есть более внушительные «бонусы»

🏦 МТС Банк:

📽 хорошая, даже есть подсъемы и разные ракурсы
🎭 рассказывают уверенно, но пафоса много
🎬 обычный формат интервью, но есть субтитры
📃 рассказ очень поверхностный, про аналитику пара слов, больше похоже на «агитку»
🎁 пара слов про плюшки, но тут никого не удивить

💸 Альфа Банк:

📽 отличная, подсъемы и разные ракурсы
🎭 девушка молодец, очень искренне рассказывает
🎬 обычное интервью
📃 рассказали подробно про аналитику и с примерами, но не хватило стека технологий, больше упор на системных аналитиков
🎁 про полюшки ничего не сказали, но думаю, что в банке не обидят

🏝 РНКБ:

📽 Переходы из iMovies, смотреть тяжело, но под конец переходит в стандартный интервью формат
🎭 сложилось ощущение, что снимали после работы все
🎬 нарезка кадров Крыма под хвалебные отзывы, текст слабый
📃 подробностей никаких и упор на системных аналитиков
🎁 из плюшек: санаторий и релокация в Крым. Зато подсветили благотворительные программы.

🐝 Билайн:

📽 картинка не поправилась, хотя были неплохие ракурсы
🎭 понимаю, что не мне говорить, но можно было переснять 3 минуты видео с «эээ»
🎬 интервью, но довольно скучное и нет целостности
📃 скудно и с упором на системный анализ
🎁 ничего, но это не самая большая проблема

✈️ Самолет:

📽 просто «Вау», сразу видно, что делали профессионалы
🎭 смотрятся естественно и даже есть настоящие актеры
🎬 сюжет классный, в кадре постоянно что-то происходит
📃 хоть в одной компании расписали разные виды аналитик и все довольно подробно без лишней воды
🎁 хорошо подсветили плюшки: скидки на квартиру и благотворительные проекты.

🏁 Мне понравился 🏠 Дом.Клик и ✈️ Самолет, остальные компании даже близко к ним не приблизились. Сразу видно, что старались и делали с пониманием дела.

✒️ Какая компания понравилась Вам больше всего? Как Вам такие мероприятия? Будете участвовать?

#поискработы
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥147
🙋‍♀️ Важное напоминание!

👩‍💻 Для того, чтобы начать откликаться на вакансии аналитика данных, вам нужно лишь одно - резюме.

🧐 А вот для решения технической части собеседования, придется свои ясные мысли переложить на язык двух инструментов: SQL и Python и решить несколько задач.

📰 Хорошие новости, что для этого Вам не нужны платные курсы или еще один год опыта. Вас уже достаточно, осталось лишь научиться.

Лучший путь изучения - это практика, тем более знание теории Python и SQL далеко не всегда гарантирует умение их применять. Единственным способом приобретения этого навыка является решение задач.

🔐 Для практики советую каждый день решать задачи на leetcode, в котором помимо всевозможных задач по Python и SQL с подробными решениями, есть много интересных функций:

📺 Учебный план состоит из 50 задач по SQL , которые разбиты на темы от простых join до functions

📃 Шпаргалка для решения алгоритмических задач на Python с готовыми шаблонами и схемами выбора оптимального решени

📆 «Задача дня» предлагается для решения и отличного подойдет для того, чтобы держать себя в тонусе.

🥁 Или можно просто по фильтрам выбрать интересующие задачи: ссылка на легкие задачи по спискам.

🦾 Как вы видите, возможности безграничны, необходима лишь дисциплина и хорошая компания! А если есть пробелы в теории, то тут подробно описал, как можно их наверстать.

🥳 Приглашаю всех, кто готов присоединиться к «челенеджу» и на протяжении недели решать по 1 задаче! Таким способом сформируем привычку и Вас будет уже не остановить 😅

✒️ Для участия в комментарии присылайте ссылки на аккаунт leetcode

#поискработы #подборка
🔥145👍2🥰1
😀 Всем привет!

📃 Сегодня наткнулся на интересную статью, рассказывающую о сравнении значений с None в Python и Pandas. Это требуется для нахождения пропущенных данных.

🧃 Кто хочет подробно изучить тему, то может ознакомиться в статье, а в посте сразу перейду к выводам и немного разберем понятия.

🐍 В Python при сравнении с None используйте is или is not.

🐼 В Pandas при поиске пропущенных значений используйте методы isna или isnull.

🤥 В Python есть понятие "истинных" и "ложных" значений. Благодаря этому различные небулевы типы данных могут интерпретироваться в логических контекстах. Важно различать:

😇 Буквальные значения True или False: они являются логическими.

😈 Истинные или ложные значения: любой логический или небулевой тип данных.

🗓️ В Python следующее считается "ложным":

1️⃣ Константы: None и False.

2️⃣ Ноль любого числового типа: 0, 0.0, 0j, Decimal(0), Fraction(0, 1).

3️⃣ Пустые последовательности и коллекции: ", (), [], {}, set(), range(0).

🤗 Любое другое значение считается "истинным"

✒️ А что вы делаете с пропущенными данными?

#pandas #python
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥3
😀 Всем привет!

👨‍⚕️ В новом видео обсуждаем как современное общение в онлайн пространстве влияют на человека и его окружение

📢 Видео поможет подготовиться тем, кто только планирует перейти на удаленную работу, «удаленщикам» подскажет как сделать онлайн среду безопаснее для себя и окружающих, а работодателям предложит мероприятия для минимизации негативного влияния от «удаленки» и как повысить удержание сотрудников в цифровую эпоху.

#видео
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥4🥰1
🔄 Чтобы получить работу аналитика данных, вам нужен опыт. Чтобы набраться опыта, вам нужна работа аналитика данных.

🚀 Думаю, что многие знакомы с этим парадоксом, который был описан Дзофефом Хеллером в одноименном романе «Уловка-22» еще в далеком в 1961 году.

📖 В этом посте обсудим это противоречие и я поделюсь ссылками, которые помогут начинающим аналитикам данных выйти из этого порочного круга.

🔐 «Уловка-22» коренится в спросе на опытных аналитиков данных. Работодатели ищут кандидатов с практическим опытом, чтобы быть уверенными в том, что они смогут справиться с реальными задачами, даже начального уровня.

♻️ Парадоксальный цикл начинается с должностей junior уровня, требующих опыта работы от одного до двух лет, что фактически закрывает двери для выпускников или тех, кто переходит из других областей.

⚖️ О возможных выходах из этого цикла я уже подробно писал, но давайте еще раз пройдемся по ссылкам:

💼 Стажировки и фриланс: Хабр.Карьера раз, два

💻 Личные проекты и вклады в OpenSource: наш проект SDG, как оформить свой GitHub, подборка датасетов

🤝 Налаживание связей и наставничество: техническая конференция Aha!’23

🧑‍🏫 Непрерывное образование: leetcode, курс от Google, Kaggle

🎓 Даже если удается приобрести некоторый опыт, то часто трудно продемонстрировать свои навыки потенциальным работодателям, поэтому можете отправлять резюме на «Прожарку» или задавать вопросы в комментариях

🐏 При настойчивости, планировании и проактивном подходе можно разорвать порочный круг и приобрести необходимый опыт.

✒️ А какие еще есть способы выйти из этого парадокса? Приглашаю в комментарии

#подборка #истории #поискработы
13👍3🔥2
😀 Всем привет!

👍 Уже завтра пойдет техническая конференция для аналитиков Aha’23.

🧑‍🏫 Делюсь своей подборкой докладов, которые я выбрал на основе потенциальной пользы для работы, ориентируясь на схожие проблемы и стек технологий

🏁 В итоге получился полноценный bootcamp по аналитике:

🖼️ 12:00 Наглядная визуализация для ELT-процессов в DWH от СберМаркет.

🚕 12:45 Сколько должен стоить тариф доставки? от Яндекса

🐍 13:30 Улучшаем пользовательский опыт с Python-библиотекой Retentioneering

🤑 15:00 Как мы автоматизируем оценку экономического эффекта фичей в СберМаркете

❤️ 15:45 Смена источника данных для сквозной аналитики: миграция веб-стриминга крупного проекта от DataGo

🩺 16:30 Разметка-событий-как-код от SberHealth

💼 17:15 Как научиться проходить технические интервью (но в итоге облажаться)

👨‍🍳 Конференция преподносит нам «на блюдечке» дистиллированный опыт команд опытнейших аналитиков индустрии, который стоит на много дороже любых курсов и отражает реальное положение дел.

🤔 Думаю, что начинающим аналитикам будет очень полезно посмотреть на кухню изнутри и ознакомиться с какими проблемами сталкивается команда и главное: как и к какому решению они пришли.

✒️ Какие доклады интересны Вам? Что хотели бы обсудить?

#матемаркетинг #aha23
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
😀 Всем привет!

🐶 Расскажу про свой мини пет-проект:

🏦 Извлекаем (extract) данные ВВП стран из открытых данных с пощью библиотеки requests

🐼 Используя библиотеку Pandas преобразуем (transform) данные в нужный формат

🐎 Визуализируем данные библиотекой bar_chart_race

⚒️ Это простой пример ETL процесса, который продемонстрирует работодателю Ваши навыки по работе с популярными библиотеками (requests, pandas), понимание работы с открытыми API и зацепит нескучной визуализацией.

✒️ Кому интересно, то пишите в комментариях ,что хотели бы добавить к проекту, и делитесь с друзьями.

🧑‍🏫 А я в следующих постах подробно расскажу как самим сделать такой pet-проект и добавить к себе в резюме

#петпроект
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥296
😀 Всем привет!

☀️ Сегодня первое июня, а значит день отчета по метрикам канала за май перед моими главными стейкхолдерами - подписчиками, то есть Вами.

🥬 Для начинающих продуктовых аналитиков - это отличный шанс «поиграть» в продукт: в комментариях жду ваши выводы/гипотезы/инсайты

🤰 Напомню, что канал стартовал в апреле 2023 и каждый месяц я делюсь аналитикой. Подробную статистику, которую предоставляет телеграмм, и результаты первого месяца можно посмотреть тут.

📊 Основные достижения за месяц:

🌱 +108 подписчиков, +25%

📺 512 просмотров в среднем на пост, 99% подписчиков читают посты (но это не точно)

🥳 10% вовлеченности (ставят реакции, комментарии и пересылают посты), хотя только у 30% включены уведомления

🏆 Рейтинг постов:

🫣 1350 просмотров у поста про техническую конференцию Aha!23

📦 36 пересылок у поста с подборкой источников датасетов для пет-проектов

👍 28 реакций у поста с новым пет-проектом и нескучным видео

🕵️‍♀️ Инсайты:

📚 Подборки заходят, так как они плотно наполнены информацией и полезны для людей

🖼 Визуальная часть не менее важна, чем наполнение

🎎 Смежные по тематике мероприятия повышают интерес

🖋 Если хотите повлиять на развитие канала, то попрошу Вас в свободной форме написать, что нравится/не нравится и какой контент хотелось бы видеть

#аналитика
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍7🔥4