Data Science | Machinelearning [ru] – Telegram

Data Science | Machinelearning [ru]

17.9K subscribers

459 photos

14 videos

29 files

3.32K links

Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence)

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

17.9K subscribers

Data Science | Machinelearning [ru]

⚙️

Работай с ошибками, а не просто чини их

Когда исправляешь баг, проверь, не скрывается ли за ним системная проблема.

👉 Совет: если баг появился — подумай, почему он вообще стал возможен. Можно ли было предотвратить его тестами? Нужно ли пересмотреть архитектуру? Хорошие разработчики не просто чинят ошибки, а учатся на них.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍1

3.74K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка зарубежных вакансий

Product Analyst
🟢Metabase, Grafana, SQL, Python, A/B тесты, PostgreSQL, Google BigQuery
🟢от 3 500 $ | 3–6 лет

Data Quality Analyst (Financial Data)
🟢SQL, Python, REST API, JSON, интерпретация данных
🟢от 200 000 до 500 000 ₽ | 3–6 лет

Senior Python Developer
🟢Python, Django, MySQL, Redis, Kafka, ClickHouse, Grafana
🟢от 3 000 $ | 6+ лет

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🐳1

3.66K views18:07

Data Science | Machinelearning [ru]

🤖

Как мы сделали клиентскую поддержку интернет-магазина действительно умной: опыт внедрения RAG-бота

Статья описывает разработку «умного» помощника для клиентской поддержки интернет-магазина. Рассматриваются проблемы, с которыми сталкивался клиент, и пути их решения с помощью ИИ.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤2

3.7K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Удаление выбросов из набора данных

Напишите функцию, которая принимает pandas.DataFrame и название столбца, а затем возвращает новый DataFrame, в котором выбросы (значения, выходящие за пределы 1.5 межквартильного размаха) удалены.

Пример:

import pandas as pd

data = pd.DataFrame({
    "values": [10, 12, 15, 100, 14, 13, 11, 102, 16]
})

cleaned_data = remove_outliers(data, "values")
print(cleaned_data)
# Ожидаемый результат:
#    values
# 0      10
# 1      12
# 2      15
# 4      14
# 5      13
# 6      11
# 8      16

Решение задачи🔽

import pandas as pd

def remove_outliers(df, column):
Q1 = df[column].quantile(0.25)
Q3 = df[column].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]

# Пример использования:
data = pd.DataFrame({
"values": [10, 12, 15, 100, 14, 13, 11, 102, 16]
})

cleaned_data = remove_outliers(data, "values")
print(cleaned_data)

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤3🐳2🔥1

3.57K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Построение базы знаний компании и поиска документов на LLM и RAG

• Что побуждает LLM врать и как этого избежать в своих продуктах

• Ломаем капчу 4Chan

• На чём учатся современные модели машинного перевода: опыт команды Яндекс Переводчика

• Gemini вырывается вперед, Китай спамит моделями, в Minecraft запустили AI-агентов: главные события ноября в сфере ИИ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🔥1

3.52K views18:07

Data Science | Machinelearning [ru]

⚙️

Пишем сервис инференса ML-модели на go, на примере BERT-а

Статья объясняет, как внедрить ML-модель, обученную на Python, в сервис на Go, используя ONNX. Рассматривается пример работы с моделью seara/rubert-tiny2-russian-sentiment для анализа сентимента текста.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

3.48K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Заполнение пропущенных значений медианой в числовых столбцах

Напишите функцию, которая принимает pandas.DataFrame и возвращает новый DataFrame, где все пропущенные значения (NaN) в числовых столбцах заменены на медиану соответствующего столбца.

Пример:

import pandas as pd

data = pd.DataFrame({
    'age': [25, 30, None, 45, 50],
    'salary': [50000, 60000, 55000, None, 65000],
    'city': ['NY', 'LA', 'NY', 'SF', 'LA']
})

cleaned_data = fill_missing_with_median(data)
print(cleaned_data)

     age    salary city
0   25.0  50000.0   NY
1   30.0  60000.0   LA
2   37.5  55000.0   NY
3   45.0  57500.0   SF
4   50.0  65000.0   LA

Решение задачи🔽

import pandas as pd

def fill_missing_with_median(df):
df_filled = df.copy()
for col in df_filled.select_dtypes(include='number').columns:
median = df_filled[col].median()
df_filled[col].fillna(median, inplace=True)
return df_filled

# Пример использования:
data = pd.DataFrame({
'age': [25, 30, None, 45, 50],
'salary': [50000, 60000, 55000, None, 65000],
'city': ['NY', 'LA', 'NY', 'SF', 'LA']
})

cleaned_data = fill_missing_with_median(data)
print(cleaned_data)

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2

3.68K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для джунов

Junior/Middle Data Engineer
🟢Oracle, ClickHouse, Airflow, Pentaho DE, Streamsets, Debezium, Spark, Python
🟢до 360 000 ₽ | 1–3 года

Junior Data Engineer
🟢Python, PostgreSQL, SQL, pandas, NumPy, Jupyter Notebook, NoSQL, Data Mining, Big Data
🟢от 150 000 до 200 000 ₽ | 1–3 года

Специалист по сбору данных/ Junior data analyst
🟢Excel, Google Sheets, анализ данных, маркетинговые данные
🟢от 50 000 до 60 000 ₽ | 1–3 года

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

3.57K views18:07

Data Science | Machinelearning [ru]

⚙️

Машинное обучение: Логистическая регрессия. Теория и реализация. С нуля

В этой статье я привел базовые сведения о логистической регрессии и показал как сделать модель с нуля на чистом Python. Логистическая функция, обучение, метрики качества для модели классификации, реализация и небольшой разбор обучения весов.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍1

3.7K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое модуль shutil в Python и зачем он используется?

Модуль shutil предоставляет функции для работы с файлами и директориями, такие как копирование, перемещение и удаление. Он полезен для автоматизации задач управления файлами.

➡️

Пример:

import shutil

# Копирование файла
shutil.copy('source.txt', 'destination.txt')

# Перемещение файла
shutil.move('destination.txt', 'folder/destination.txt')

🗣️ В этом примере shutil.copy копирует файл, а shutil.move перемещает его в другую директорию. Это облегчает выполнение операций с файлами и папками.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🐳2❤1

3.49K views14:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для мидлов

Data Scientist
• Python, SQL, MS SQL Server, PostgreSQL, A/B тестирование, ML-модели, Ad-Hoc аналитика
• Уровень дохода не указан | Средний (Middle)

Data Scientist (Моделирование РБ)
• Python, Spark, SQL, ML, DL, NLP, Apache Spark
• Уровень дохода не указан | Средний (Middle)

ML Engineer / Инженер машинного обучения
• Python, PyTorch, PostgreSQL, FastAPI, LLM, MLOps, Git, Docker, AirFlow
• Уровень дохода не указан | Средний (Middle)

Python разработчик
• Python, FastAPI, PostgreSQL, React
• от 150 000 ₽ | Средний (Middle)

Python разработчик
• Python, Flask, FastAPI, PostgreSQL, MySQL
• Уровень дохода не указан | Средний (Middle)

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

3.57K views18:07

Data Science | Machinelearning [ru]

👀

Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

Компания OpenAI представила свою ИИ-модель для генерации видео — Sora. В статье обсуждаются ожидания, доступность и сравнительный анализ с конкурентами, такими как Kling AI и Runway Gen-3.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2

3.54K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Поиск наиболее часто встречающегося слова в тексте

Напишите функцию, которая принимает текстовую строку и возвращает наиболее часто встречающееся слово и количество его вхождений. Игнорируйте регистр и знаки препинания.

Пример:

text = "Python is great, and Python is fun! Learning Python is rewarding."
result = most_common_word(text)
print(result)
# Ожидаемый результат: ('python', 3)

Решение задачи🔽

import re
from collections import Counter

def most_common_word(text):
words = re.findall(r'\b\w+\b', text.lower())
counter = Counter(words)
return counter.most_common(1)[0]

# Пример использования:
text = "Python is great, and Python is fun! Learning Python is rewarding."
result = most_common_word(text)
print(result)

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍2👎1

3.51K views14:07

Data Science | Machinelearning [ru]

⚙️ ML в промышленности: как построить систему управления процессом окомкования железорудных окатышей

Статья расскажет, как машинное обучение помогает улучшить процесс производства железорудных окатышей, снизив зависимость от человеческого фактора, и о примерах, когда технологии сталкиваются с реальными проблемами.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳5❤1

3.75K views18:07

Data Science | Machinelearning [ru]

🎁

Динамическая адаптация награды с помощью Pydantic

Статья рассказывает, как Pydantic помогает бизнесу гибко управлять наградами для пользователей. Описаны преимущества Pydantic в валидации и преобразовании данных по сравнению с dataclass.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🔥1

3.44K views10:07

Data Science | Machinelearning [ru]

💾 Онлайн-доски теперь в on-premise!

Яндекс 360 для бизнеса выкатил корпоративный сервис для совместной работы. Можно строить схемы, вести проекты, разбирать user flow и визуализировать данные.

🛠 Что под капотом?
• On-premise-развертывание — все данные остаются внутри компании.
• Гибкое управление доступами — настройка через админку.
• Безопасность — данные зашифрованы, работают в закрытом контуре.

📡 В будущем добавят облачную версию, но пока онли self-hosted. Лицензия уже доступна.

❤3🔥3🐳3👎2👍1

3.36K views14:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Эволюция архитектур нейросетей в компьютерном зрении: сегментация изображений

• Заяц не вырастет в акулу. Или секреты гибкой инженерной культуры от Александра Бындю

• Все, пора увольняться: что я поняла после работы в токсичных командах

• Базовое программирование, или Почему джуны не могут пройти к нам собеседование

• Я стал аналитиком, потому что не смог быть программистом

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2🐳2

3.43K views18:07

Data Science | Machinelearning [ru]

💬

Голосовая аутентификация через GPT

Статья исследует возможность аутентификации пользователей GPT-чата во внешних приложениях. Рассматривается голосовое взаимодействие и альтернативный способ аутентификации через пароли вместо OAuth 2.0.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1🐳1

3.48K views10:07

Data Science | Machinelearning [ru]

🥽

Инфраструктура для Data-Engineer виртуальные окружения

Статья объясняет, как управлять зависимостями и изолировать проекты в Python. Рассматриваются виртуальные окружения, работа с разными версиями Python, примеры из практики и лучшие подходы для разработки.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

3.48K views18:07

Data Science | Machinelearning [ru]

⚙️

Запускаем 8B LLM в браузере: AQLM.rs

Как запустить Llama 3.1 8B в браузере без GPU? В статье рассказывается о проекте AQLM.rs: инференс на WebAssembly, сжатие модели и запуск на обычном ПК или мобильном устройстве.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6👎2❤1

3.66K views10:07