Data Science | Machinelearning [ru]
17.9K subscribers
459 photos
14 videos
29 files
3.32K links
Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence)

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
⚙️ Работай с ошибками, а не просто чини их

Когда исправляешь баг, проверь, не скрывается ли за ним системная проблема.

👉 Совет: если баг появился — подумай, почему он вообще стал возможен. Можно ли было предотвратить его тестами? Нужно ли пересмотреть архитектуру? Хорошие разработчики не просто чинят ошибки, а учатся на них.
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍1
🔎 Подборка зарубежных вакансий

Product Analyst
🟢Metabase, Grafana, SQL, Python, A/B тесты, PostgreSQL, Google BigQuery
🟢от 3 500 $ | 3–6 лет

Data Quality Analyst (Financial Data)
🟢SQL, Python, REST API, JSON, интерпретация данных
🟢от 200 000 до 500 000 ₽ | 3–6 лет

Senior Python Developer
🟢Python, Django, MySQL, Redis, Kafka, ClickHouse, Grafana
🟢от 3 000 $ | 6+ лет
Please open Telegram to view this post
VIEW IN TELEGRAM
3🐳1
🤖 Как мы сделали клиентскую поддержку интернет-магазина действительно умной: опыт внедрения RAG-бота

Статья описывает разработку «умного» помощника для клиентской поддержки интернет-магазина. Рассматриваются проблемы, с которыми сталкивался клиент, и пути их решения с помощью ИИ.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82
👩‍💻 Удаление выбросов из набора данных

Напишите функцию, которая принимает pandas.DataFrame и название столбца, а затем возвращает новый DataFrame, в котором выбросы (значения, выходящие за пределы 1.5 межквартильного размаха) удалены.

Пример:

import pandas as pd

data = pd.DataFrame({
"values": [10, 12, 15, 100, 14, 13, 11, 102, 16]
})

cleaned_data = remove_outliers(data, "values")
print(cleaned_data)
# Ожидаемый результат:
# values
# 0 10
# 1 12
# 2 15
# 4 14
# 5 13
# 6 11
# 8 16


Решение задачи🔽

import pandas as pd

def remove_outliers(df, column):
Q1 = df[column].quantile(0.25)
Q3 = df[column].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]

# Пример использования:
data = pd.DataFrame({
"values": [10, 12, 15, 100, 14, 13, 11, 102, 16]
})

cleaned_data = remove_outliers(data, "values")
print(cleaned_data)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍123🐳2🔥1
⚙️ Пишем сервис инференса ML-модели на go, на примере BERT-а

Статья объясняет, как внедрить ML-модель, обученную на Python, в сервис на Go, используя ONNX. Рассматривается пример работы с моделью seara/rubert-tiny2-russian-sentiment для анализа сентимента текста.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
👩‍💻 Заполнение пропущенных значений медианой в числовых столбцах

Напишите функцию, которая принимает pandas.DataFrame и возвращает новый DataFrame, где все пропущенные значения (NaN) в числовых столбцах заменены на медиану соответствующего столбца.

Пример:

import pandas as pd

data = pd.DataFrame({
'age': [25, 30, None, 45, 50],
'salary': [50000, 60000, 55000, None, 65000],
'city': ['NY', 'LA', 'NY', 'SF', 'LA']
})

cleaned_data = fill_missing_with_median(data)
print(cleaned_data)


     age    salary city
0 25.0 50000.0 NY
1 30.0 60000.0 LA
2 37.5 55000.0 NY
3 45.0 57500.0 SF
4 50.0 65000.0 LA


Решение задачи🔽

import pandas as pd

def fill_missing_with_median(df):
df_filled = df.copy()
for col in df_filled.select_dtypes(include='number').columns:
median = df_filled[col].median()
df_filled[col].fillna(median, inplace=True)
return df_filled

# Пример использования:
data = pd.DataFrame({
'age': [25, 30, None, 45, 50],
'salary': [50000, 60000, 55000, None, 65000],
'city': ['NY', 'LA', 'NY', 'SF', 'LA']
})

cleaned_data = fill_missing_with_median(data)
print(cleaned_data)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62
🔎 Подборка вакансий для джунов

Junior/Middle Data Engineer
🟢Oracle, ClickHouse, Airflow, Pentaho DE, Streamsets, Debezium, Spark, Python
🟢до 360 000 ₽ | 1–3 года

Junior Data Engineer
🟢Python, PostgreSQL, SQL, pandas, NumPy, Jupyter Notebook, NoSQL, Data Mining, Big Data
🟢от 150 000 до 200 000 ₽ | 1–3 года

Специалист по сбору данных/ Junior data analyst
🟢Excel, Google Sheets, анализ данных, маркетинговые данные
🟢от 50 000 до 60 000 ₽ | 1–3 года
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
⚙️ Машинное обучение: Логистическая регрессия. Теория и реализация. С нуля

В этой статье я привел базовые сведения о логистической регрессии и показал как сделать модель с нуля на чистом Python. Логистическая функция, обучение, метрики качества для модели классификации, реализация и небольшой разбор обучения весов.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1
⚙️ Что такое модуль shutil в Python и зачем он используется?

Модуль shutil предоставляет функции для работы с файлами и директориями, такие как копирование, перемещение и удаление. Он полезен для автоматизации задач управления файлами.

➡️ Пример:

import shutil

# Копирование файла
shutil.copy('source.txt', 'destination.txt')

# Перемещение файла
shutil.move('destination.txt', 'folder/destination.txt')


🗣️ В этом примере shutil.copy копирует файл, а shutil.move перемещает его в другую директорию. Это облегчает выполнение операций с файлами и папками.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🐳21
📝 Подборка вакансий для мидлов

Data Scientist
Python, SQL, MS SQL Server, PostgreSQL, A/B тестирование, ML-модели, Ad-Hoc аналитика
Уровень дохода не указан | Средний (Middle)

Data Scientist (Моделирование РБ)
Python, Spark, SQL, ML, DL, NLP, Apache Spark
Уровень дохода не указан | Средний (Middle)

ML Engineer / Инженер машинного обучения
Python, PyTorch, PostgreSQL, FastAPI, LLM, MLOps, Git, Docker, AirFlow
Уровень дохода не указан | Средний (Middle)

Python разработчик
Python, FastAPI, PostgreSQL, React
от 150 000 ₽ | Средний (Middle)

Python разработчик
Python, Flask, FastAPI, PostgreSQL, MySQL
Уровень дохода не указан | Средний (Middle)
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
👀 Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

Компания OpenAI представила свою ИИ-модель для генерации видео — Sora. В статье обсуждаются ожидания, доступность и сравнительный анализ с конкурентами, такими как Kling AI и Runway Gen-3.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2
👩‍💻 Поиск наиболее часто встречающегося слова в тексте

Напишите функцию, которая принимает текстовую строку и возвращает наиболее часто встречающееся слово и количество его вхождений. Игнорируйте регистр и знаки препинания.

Пример:

text = "Python is great, and Python is fun! Learning Python is rewarding."
result = most_common_word(text)
print(result)
# Ожидаемый результат: ('python', 3)


Решение задачи🔽

import re
from collections import Counter

def most_common_word(text):
words = re.findall(r'\b\w+\b', text.lower())
counter = Counter(words)
return counter.most_common(1)[0]

# Пример использования:
text = "Python is great, and Python is fun! Learning Python is rewarding."
result = most_common_word(text)
print(result)
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2👎1
⚙️ ML в промышленности: как построить систему управления процессом окомкования железорудных окатышей

Статья расскажет, как машинное обучение помогает улучшить процесс производства железорудных окатышей, снизив зависимость от человеческого фактора, и о примерах, когда технологии сталкиваются с реальными проблемами.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳51
🎁 Динамическая адаптация награды с помощью Pydantic

Статья рассказывает, как Pydantic помогает бизнесу гибко управлять наградами для пользователей. Описаны преимущества Pydantic в валидации и преобразовании данных по сравнению с dataclass.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥1
💾 Онлайн-доски теперь в on-premise!

Яндекс 360 для бизнеса выкатил корпоративный сервис для совместной работы. Можно строить схемы, вести проекты, разбирать user flow и визуализировать данные.

🛠 Что под капотом?
• On-premise-развертывание — все данные остаются внутри компании.
• Гибкое управление доступами — настройка через админку.
• Безопасность — данные зашифрованы, работают в закрытом контуре.

📡 В будущем добавят облачную версию, но пока онли self-hosted. Лицензия уже доступна.
3🔥3🐳3👎2👍1
💬 Голосовая аутентификация через GPT

Статья исследует возможность аутентификации пользователей GPT-чата во внешних приложениях. Рассматривается голосовое взаимодействие и альтернативный способ аутентификации через пароли вместо OAuth 2.0.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1🐳1
🥽 Инфраструктура для Data-Engineer виртуальные окружения

Статья объясняет, как управлять зависимостями и изолировать проекты в Python. Рассматриваются виртуальные окружения, работа с разными версиями Python, примеры из практики и лучшие подходы для разработки.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
4
⚙️ Запускаем 8B LLM в браузере: AQLM.rs

Как запустить Llama 3.1 8B в браузере без GPU? В статье рассказывается о проекте AQLM.rs: инференс на WebAssembly, сжатие модели и запуск на обычном ПК или мобильном устройстве.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👎21