Data Science | Machinelearning [ru] – Telegram

Data Science | Machinelearning [ru]

17.9K subscribers

461 photos

14 videos

29 files

3.33K links

Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence)

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

17.9K subscribers

Data Science | Machinelearning [ru]

📝

Подборка вакансий для сеньоров

Системный аналитик (Data Office)
• SQL, BPMN, REST, анализ требований
• Уровень дохода не указан | опыт не указан

Senior Data Scientist в команду антифрода
• Python, SQL, TensorFlow, PyTorch, машинное обучение
• Уровень дохода не указан | от 2 лет

Продуктовый аналитик
• Yandex DataLens, Python, Amplitude, ClickHouse, Oracle, Microsoft Excel, Tableau, Metabase, PowerBI, анализ данных
• Уровень дохода не указан | от 2 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.79K views20:07

Data Science | Machinelearning [ru]

🚀

Оптимизируй свой AI: разоблачение 6 мифов о работе с векторами в Pgvector

Шесть заблуждений, которые мешают тебе использовать всю мощь векторных баз данных в AI. Развенчав эти мифы, ты сможешь раскрыть истинный потенциал векторов и значительно повысить эффективность твоих AI-проектов.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1🔥1

2.85K views10:07

Data Science | Machinelearning [ru]

❓

Как работает кросс-валидация в ML?

Кросс-валидация — это техника оценки модели, которая помогает избежать переобучения и лучше оценить её обобщающую способность. В классической k-блочной кросс-валидации данные разбиваются на k равных частей, и модель обучается k раз, каждый раз используя одну часть для тестирования и остальные для обучения.

➡️ Пример применения кросс-валидации с использованием библиотеки scikit-learn:

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

data = load_iris()
X, y = data.data, data.target
clf = RandomForestClassifier()

scores = cross_val_score(clf, X, y, cv=5)
print(f'Средняя точность: {scores.mean()}')

Здесь модель обучается 5 раз (5-fold) на разных частях данных, и вычисляется средняя точность.

🗣️ Кросс-валидация помогает лучше понять, как модель будет работать на новых данных, улучшая её обобщение.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1

3K views18:07

Data Science | Machinelearning [ru]

👩‍💻

7 малоизвестных возможностей стандартной библиотеки Python

Стандартная библиотека Python – это кладезь возможностей. Мы представляем семь недооцененных модулей, которые помогут вам улучшить организацию данных, оптимизировать производительность и упростить распространение ваших программ.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8

3.21K views10:07

Data Science | Machinelearning [ru]

📉

Иногда нужно сознательно писать меньше кода

Чем больше кода — тем больше точек отказа, багов и времени на поддержку. А мы здесь не ради фич ради фич.

👉 Совет: прежде чем что-то реализовать — подумай, а нужно ли это вообще? Может, задачу можно решить конфигом, сторонним инструментом или просто выкинуть. Самый чистый код — тот, которого не пришлось писать.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥5

3.28K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка зарубежных вакансий

Data Analyst
🟢SQL, Python, ClickHouse, MySQL, Snowflake, Tableau, Power BI
🟢Уровень дохода не указан | 3–6 лет

E-commerce Data Analyst (Amazon, Walmart)
🟢Excel, Google Sheets, Looker Studio, Power BI, Tableau
🟢от 1 000 до 1 300 $ | 1–3 года

AI Game Designer (UE)
🟢Unreal Engine, Blueprints, Gameplay Ability System
🟢Уровень дохода не указан | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

3.3K views18:07

Data Science | Machinelearning [ru]

➡️

Самые интересные статьи за последние дни:

• Эксперимент: даём ChatGPT полный доступ к компьютеру

• Правильный путь создания python-библиотеки: от создания до публикации

• Запускаем Yolo на пятирублёвой монете или Luckfox Pico Mini

• Более мощное семейство моделей YandexGPT 4: рост качества ответов, длинный контекст, пошаговые рассуждения

• Как мы обучили Mistral 7B русскому языку и адаптировали для объявлений Авито

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥1

3.05K views14:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Напишите Python-скрипт, который принимает путь к большому CSV-файлу и подсчитывает количество строк (записей) в файле без загрузки его целиком в память. Скрипт должен быть оптимизирован для работы с большими файлами.

➡️ Пример:

python count_rows.py large_file.csv
Количество строк: 3

Решение задачи ⬇️

import csv
import sys

def count_rows(file_path):
with open(file_path, 'r', encoding='utf-8') as file:
reader = csv.reader(file)
# Используем enumerate для подсчёта строк, исключая заголовок
row_count = sum(1 for _ in reader) - 1 # Минус 1 для исключения заголовка
return row_count

if __name__ == "__main__":
if len(sys.argv) < 2:
print("Использование: python count_rows.py <file_path>")
sys.exit(1)

file_path = sys.argv[1]
try:
result = count_rows(file_path)
print(f"Количество строк: {result}")
except Exception as e:
print(f"Ошибка: {e}")

Please open Telegram to view this post

VIEW IN TELEGRAM

👎6👍4❤2

3.01K views18:07

Data Science | Machinelearning [ru]

🤔

Grok-2 в деле: Способен ли ИИ от Илона Маска превзойти конкурентов?

В середине августа мы видели анонс бета-версий Grok-2 и Grok-2 mini от стартапа Илона Маска xAI. Что ж, на дворе осень, как пел Anacondaz "на улице дубак, на сердце тлен и мрак", так пусть же Grok 2 сегодня станет тем самым, кто укроет зацензуренным пледом наши тела. Предлагаю начинать.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥1

2.89K views10:07

Data Science | Machinelearning [ru]

❓

Как работает метод feature_importances_ в Python и зачем он нужен в Machine Learning?

Метод feature_importances_ — это атрибут некоторых моделей машинного обучения в библиотеке scikit-learn, который позволяет определить, какие признаки (фичи) наиболее влияют на предсказания модели.

Этот метод возвращает значение важности для каждого признака, показывая, как сильно он влияет на конечный результат. Его использование особенно полезно для деревьев решений и ансамблевых моделей, таких как RandomForest и GradientBoosting.

➡️ В примере ниже мы используем RandomForest для анализа важности признаков и визуализации результатов.

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
import pandas as pd

# Загрузка данных
data = load_iris()
X, y = data.data, data.target

# Создание и обучение модели
model = RandomForestClassifier()
model.fit(X, y)

# Получение и визуализация важности признаков
feature_importances = pd.Series(model.feature_importances_, index=data.feature_names)
feature_importances.sort_values(ascending=False).plot(kind='bar')

🗣 Использование feature_importances_ помогает определить, какие признаки стоит использовать, исключить малозначимые фичи и сделать модель более интерпретируемой.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🔥1🐳1

3.12K views14:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для мидлов

Бизнес-аналитик / Системный аналитик
• BPMN, Анализ данных, UML, Анализ требований, Проектирование, Разработка ТЗ, BI
• до 150 000 ₽ | от 3 лет

Data Analyst
• Python, Apache Spark, SQL, Apache Hadoop
• Уровень дохода не указан | от 2 лет

Data Scientist (риски)
• Машинное обучение, SQL, Python
• Уровень дохода не указан | от 3 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

2.73K views18:07

Data Science | Machinelearning [ru]

⚙️

Оценка LLM: метрики, фреймворки и лучшие практики

Статья объясняет, почему оценка LLM важна для бизнеса: модели ИИ не всегда достигают цели и нуждаются в доработке. Разбираются ключевые метрики, инструменты и лучшие практики для повышения надежности и точности.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🔥1🐳1

2.75K views11:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Создайте Python-скрипт для обработки данных. Задача состоит в том, чтобы построить ETL-процесс, который очищает и агрегирует данные из CSV-файлов о продажах, а затем сохраняет агрегированные данные в новом файле.

Очистка данных: удаление записей с пустыми значениями в столбцах price или quantity.

Агрегация: подсчет общего количества проданных товаров и общей суммы по каждому продукту.

➡️ Пример:

• python app.py sales_data.csv — создает новый файл aggregated_data.csv с общей суммой и количеством проданных товаров по каждому продукту.

Решение задачи ⬇️

import pandas as pd
import sys

def clean_and_aggregate(file_path):
# Загружаем данные
data = pd.read_csv(file_path)

# Удаляем строки с пустыми значениями в колонках 'price' и 'quantity'
data.dropna(subset=['price', 'quantity'], inplace=True)

# Преобразуем колонки в числовой формат, ошибки игнорируем
data['price'] = pd.to_numeric(data['price'], errors='coerce')
data['quantity'] = pd.to_numeric(data['quantity'], errors='coerce')

# Удаляем строки с некорректными значениями
data.dropna(subset=['price', 'quantity'], inplace=True)

# Агрегируем данные
aggregated_data = data.groupby('product_id').agg(
total_quantity=('quantity', 'sum'),
total_sales=('price', 'sum')
).reset_index()

# Сохраняем в новый CSV
aggregated_data.to_csv('aggregated_data.csv', index=False)
print("Агрегация завершена. Данные сохранены в 'aggregated_data.csv'.")

if __name__ == "__main__":
if len(sys.argv) != 2:
print("Использование: python app.py <путь к файлу CSV>")
sys.exit(1)

file_path = sys.argv[1]
clean_and_aggregate(file_path)

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3

2.8K views14:07

Data Science | Machinelearning [ru]

⚙️

Как мы создаём Visionatrix: упрощая ComfyUI

В этой статье мы расскажем о нашем опыте работы с ComfyUI и разработке Visionatrix — надстройки, которая упрощает генерацию медиа. Мы обсудим ключевые проблемы, с которыми сталкиваются пользователи, наш подход к их решению, а также вкратце поделимся тем, как мы использовали ChatGPT и Claude для ускорения разработки в условиях ограниченного времени.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.72K views18:07

Data Science | Machinelearning [ru]

🤔

Насколько хороши LLM?

Статья описывает создание и адаптацию бенчмарка для оценки русскоязычных LLM в российском контексте. Основное внимание уделено подбору вопросов, актуализации содержания и корректировке оценок для соответствия современным общественным реалиям.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1🔥1

2.79K views10:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для сеньоров

Senior Data Engineer
🟢ClickHouse, Aerospike, TiDB, Grafana, Kafka
🟢до 5 000 $ | 3–6 лет

Senior Data Engineer / Data Platform Architect
🟢S3, MinIO, Parquet, DeltaLake, PostgreSQL, ClickHouse, Python, Airflow, dbt, Docker, Kubernetes, Kafka, RabbitMQ
🟢до 350 000 ₽ | 3–6 лет

Senior Data Scientist (LLM)
🟢Python, глубокое обучение, LLM, чат-боты
🟢от 350 000 до 450 000 ₽ | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

2.65K views14:07

Data Science | Machinelearning [ru]

⚙️

Под микроскопом: AI Product Hack

Статья анализирует результаты AI Product Hack, рассматривая спорное судейство и кейс компании Raft по мониторингу токсичного контента в AI-продуктах. Исследуются риски и последствия неконтролируемого поведения LLM в реальных проектах.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🔥1

2.73K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Как работает __name__ == "__main__" в Python?

Конструкция if __name__ == "__main__" определяет, выполняется ли скрипт как основная программа или импортируется в качестве модуля. Это позволяет запускать код только при непосредственном запуске скрипта, исключая его выполнение при импорте.

➡️ Пример:

def greet():
    print("Hello from greet!")

if __name__ == "__main__":
    greet()  # Этот вызов выполнится только при запуске скрипта напрямую

🗣 В этом примере greet() будет вызвана, если файл запускается напрямую. Если скрипт импортируется как модуль, greet() не вызовется, сохраняя модульную структуру кода.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2

3.08K viewsedited 14:07

Data Science | Machinelearning [ru]

👀

Распознавание ж/д пикетных столбиков по фотографиям с беспилотника на основе PyTorch и YOLOv5

Статья раскрывает процесс использования БПЛА и нейросетей для точного распознавания объектов на ортофотопланах. Описаны этапы подготовки данных, разметки и обучения сети на примере поиска пикетных столбиков на ж/д перегонах. Исходный код доступен на GitHub.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

3.17K views18:07

Data Science | Machinelearning [ru]

✔️ Простой и быстрый тест LLM для прототипа: сравниваем 16 open-source-моделей на запросе с разной температурой

В статье рассказывается, как быстро протестировать 16 LLM для создания текстовых прототипов, даже если вы не в теме ML. Берём несколько моделей, сравниваем результаты, оцениваем, подходит ли под задачу.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥1

2.97K views10:07