Data Science | Machinelearning [ru]
17.9K subscribers
460 photos
14 videos
29 files
3.32K links
Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence)

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
➡️ Машинное обучение: Линейная регрессия. Теория и реализация. С нуля. На чистом Python

В этой статье я рассказываю про линейную регрессию, свойства, которыми должны обладать данные для модели, процесс обучения, регуляризацию, метрики качества. Кроме чистой теории я показываю как это все реализовать. Я рассказываю все в своем стиле и понимании - с инженерной точки зрения, с точки зрения того, как реализовывать с нуля.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍124
📝 Подборка вакансий для сеньоров

Инженер по данным / Data Scientist (Senior Data Engineer, удалённо)
Git, SQL, Python, PostgreSQL, Docker, Nginx, Elasticsearch
от 300 000 до 450 000 ₽ | 3+ года

Data Engineer
MongoDB, SQL, Python, Pandas
Уровень дохода не указан | 5+ лет

Senior Data analyst
SQL, Apache Airflow, Python, BI
Уровень дохода не указан | 3+ года
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1🐳1
🚗 Еще несколько лет назад лидары были громоздкими приборами, которые произвели революцию в беспилотном транспорте. Как любая технология, LiDar прошла стадии от НИОКР до массового внедрения и снижения стоимости. Сегодня лидары используются в большинстве видов беспилотного транспорта: от автомобилей и самолетов до роботов-доставщиков.

📈 Компания Hesai сообщила о взрывном росте производительности: в декабре 2024 года Hesai стала первым в мире производителем лидаров, который выпускает 100 000 устройств в месяц. За месяц Hesai выпустила 10 тыс. флагманских лидаров AT128. Такой производительности удалось достичь после запуска автоматизированной линии, объединившей 100 технологических процессов, 90% из которых выполняют роботы. Это только начало роста компании, лидера на рынке «бытовых» лидаров.

Весной прошлого года компания представила первый в истории компактный лидар для автомобилей — модель ET25, толщина которого составляет всего 48 мм, вдвое меньше габаритов флагманского AT128. Главное преимущество новинки в том, что ET25 располагается за лобовым стеклом и не портит экстерьер автомобиля внешним модулем, что является недостатком предыдущих моделей. Такое решение стало возможным благодаря сотрудничеству Hesai с производителем высокопрозрачных автомобильных стекол Fuyao: эффективность прибора снизилась всего на 10%, несмотря на возможные помехи от лобового стекла, а дальность действия по-прежнему составляет 225 м, что достаточно для мониторинга дорожной обстановки.

Наконец, на середину 2025 года намечен старт производства модели ATX. Это компактный лидар, который фильтрует естественные помехи (дождь, туман, смог и т.д.) с точностью до 99,9%. Дальность его действия составляет 300 м.

Подписывайтесь 👉Технологические конкурсы НТИ Up Great

#Зарубежный_опыт
3👍1
➡️ DeepSeek AI: От инъекции промпта до захвата аккаунта

Статья рассказывает о новой AI-модели DeepSeek-R1-Lite, созданной для логических рассуждений. Рассматриваются её возможности, тестирование и перспективы применения в задачах анализа и вычислений.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👎43
⚙️ Что такое argparse в Python?

argparse — это стандартный модуль Python для работы с аргументами командной строки. Он позволяет удобно разбирать, валидировать и документировать входные параметры.

➡️ Пример:

import argparse

# Создаём парсер аргументов
parser = argparse.ArgumentParser(description="Пример работы с argparse")
parser.add_argument("--name", type=str, help="Имя пользователя")
parser.add_argument("--age", type=int, help="Возраст пользователя")

# Разбираем аргументы
args = parser.parse_args()

# Используем аргументы
print(f"Привет, {args.name}! Тебе {args.age} лет.")


🗣️ В этом примере argparse разбирает аргументы --name и --age, переданные через командную строку. Это упрощает создание CLI-приложений.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42
Машинное обучение для начинающих: Введение в нейронные сети

Этот пост предназначен для абсолютных новичков и предполагает НУЛЕВЫЕ предварительные знания машинного обучения. Мы разберемся, как работают нейронные сети, и реализуем одну из них с нуля на Python.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍173
🗣️ «Будущее за узкой специализацией»: судьбоносное интервью Ляна Вэньфэна, основателя DeepSeek, посвящённое v2

Интервью с основателем DeepSeek о том, как их модель v2 бросила вызов OpenAI, сделав Китай лидером в гонке ИИ. Как стартапу удалось обойти гигантов и что ждёт индустрию дальше?

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👎7👍31🔥1
⚙️ Работай с ошибками, а не просто чини их

Когда исправляешь баг, проверь, не скрывается ли за ним системная проблема.

👉 Совет: если баг появился — подумай, почему он вообще стал возможен. Можно ли было предотвратить его тестами? Нужно ли пересмотреть архитектуру? Хорошие разработчики не просто чинят ошибки, а учатся на них.
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍1
🔎 Подборка зарубежных вакансий

Product Analyst
🟢Metabase, Grafana, SQL, Python, A/B тесты, PostgreSQL, Google BigQuery
🟢от 3 500 $ | 3–6 лет

Data Quality Analyst (Financial Data)
🟢SQL, Python, REST API, JSON, интерпретация данных
🟢от 200 000 до 500 000 ₽ | 3–6 лет

Senior Python Developer
🟢Python, Django, MySQL, Redis, Kafka, ClickHouse, Grafana
🟢от 3 000 $ | 6+ лет
Please open Telegram to view this post
VIEW IN TELEGRAM
3🐳1
🤖 Как мы сделали клиентскую поддержку интернет-магазина действительно умной: опыт внедрения RAG-бота

Статья описывает разработку «умного» помощника для клиентской поддержки интернет-магазина. Рассматриваются проблемы, с которыми сталкивался клиент, и пути их решения с помощью ИИ.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82
👩‍💻 Удаление выбросов из набора данных

Напишите функцию, которая принимает pandas.DataFrame и название столбца, а затем возвращает новый DataFrame, в котором выбросы (значения, выходящие за пределы 1.5 межквартильного размаха) удалены.

Пример:

import pandas as pd

data = pd.DataFrame({
"values": [10, 12, 15, 100, 14, 13, 11, 102, 16]
})

cleaned_data = remove_outliers(data, "values")
print(cleaned_data)
# Ожидаемый результат:
# values
# 0 10
# 1 12
# 2 15
# 4 14
# 5 13
# 6 11
# 8 16


Решение задачи🔽

import pandas as pd

def remove_outliers(df, column):
Q1 = df[column].quantile(0.25)
Q3 = df[column].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]

# Пример использования:
data = pd.DataFrame({
"values": [10, 12, 15, 100, 14, 13, 11, 102, 16]
})

cleaned_data = remove_outliers(data, "values")
print(cleaned_data)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍123🐳2🔥1
⚙️ Пишем сервис инференса ML-модели на go, на примере BERT-а

Статья объясняет, как внедрить ML-модель, обученную на Python, в сервис на Go, используя ONNX. Рассматривается пример работы с моделью seara/rubert-tiny2-russian-sentiment для анализа сентимента текста.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
👩‍💻 Заполнение пропущенных значений медианой в числовых столбцах

Напишите функцию, которая принимает pandas.DataFrame и возвращает новый DataFrame, где все пропущенные значения (NaN) в числовых столбцах заменены на медиану соответствующего столбца.

Пример:

import pandas as pd

data = pd.DataFrame({
'age': [25, 30, None, 45, 50],
'salary': [50000, 60000, 55000, None, 65000],
'city': ['NY', 'LA', 'NY', 'SF', 'LA']
})

cleaned_data = fill_missing_with_median(data)
print(cleaned_data)


     age    salary city
0 25.0 50000.0 NY
1 30.0 60000.0 LA
2 37.5 55000.0 NY
3 45.0 57500.0 SF
4 50.0 65000.0 LA


Решение задачи🔽

import pandas as pd

def fill_missing_with_median(df):
df_filled = df.copy()
for col in df_filled.select_dtypes(include='number').columns:
median = df_filled[col].median()
df_filled[col].fillna(median, inplace=True)
return df_filled

# Пример использования:
data = pd.DataFrame({
'age': [25, 30, None, 45, 50],
'salary': [50000, 60000, 55000, None, 65000],
'city': ['NY', 'LA', 'NY', 'SF', 'LA']
})

cleaned_data = fill_missing_with_median(data)
print(cleaned_data)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62
🔎 Подборка вакансий для джунов

Junior/Middle Data Engineer
🟢Oracle, ClickHouse, Airflow, Pentaho DE, Streamsets, Debezium, Spark, Python
🟢до 360 000 ₽ | 1–3 года

Junior Data Engineer
🟢Python, PostgreSQL, SQL, pandas, NumPy, Jupyter Notebook, NoSQL, Data Mining, Big Data
🟢от 150 000 до 200 000 ₽ | 1–3 года

Специалист по сбору данных/ Junior data analyst
🟢Excel, Google Sheets, анализ данных, маркетинговые данные
🟢от 50 000 до 60 000 ₽ | 1–3 года
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
⚙️ Машинное обучение: Логистическая регрессия. Теория и реализация. С нуля

В этой статье я привел базовые сведения о логистической регрессии и показал как сделать модель с нуля на чистом Python. Логистическая функция, обучение, метрики качества для модели классификации, реализация и небольшой разбор обучения весов.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1
⚙️ Что такое модуль shutil в Python и зачем он используется?

Модуль shutil предоставляет функции для работы с файлами и директориями, такие как копирование, перемещение и удаление. Он полезен для автоматизации задач управления файлами.

➡️ Пример:

import shutil

# Копирование файла
shutil.copy('source.txt', 'destination.txt')

# Перемещение файла
shutil.move('destination.txt', 'folder/destination.txt')


🗣️ В этом примере shutil.copy копирует файл, а shutil.move перемещает его в другую директорию. Это облегчает выполнение операций с файлами и папками.


🖥 Подробнее тут
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🐳21
📝 Подборка вакансий для мидлов

Data Scientist
Python, SQL, MS SQL Server, PostgreSQL, A/B тестирование, ML-модели, Ad-Hoc аналитика
Уровень дохода не указан | Средний (Middle)

Data Scientist (Моделирование РБ)
Python, Spark, SQL, ML, DL, NLP, Apache Spark
Уровень дохода не указан | Средний (Middle)

ML Engineer / Инженер машинного обучения
Python, PyTorch, PostgreSQL, FastAPI, LLM, MLOps, Git, Docker, AirFlow
Уровень дохода не указан | Средний (Middle)

Python разработчик
Python, FastAPI, PostgreSQL, React
от 150 000 ₽ | Средний (Middle)

Python разработчик
Python, Flask, FastAPI, PostgreSQL, MySQL
Уровень дохода не указан | Средний (Middle)
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
👀 Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

Компания OpenAI представила свою ИИ-модель для генерации видео — Sora. В статье обсуждаются ожидания, доступность и сравнительный анализ с конкурентами, такими как Kling AI и Runway Gen-3.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2