Data Science | Machinelearning [ru] – Telegram

Data Science | Machinelearning [ru]

17.9K subscribers

461 photos

14 videos

29 files

3.33K links

Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence)

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

17.9K subscribers

Data Science | Machinelearning [ru]

➡️

Объяснимый ИИ в ML и DL

Разбираемся, зачем нужен объяснимый ИИ, как подступиться к интерпретации моделей и что с этим делать на практике — от EDA до XAI на примере. Всё на русском, без магии.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡2❤1🔥1

1.91K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Вычисление “стабильных” признаков

Вам дана матрица признаков — список списков, где каждая строка представляет собой объект, а каждый столбец — отдельный числовой признак.
Ваша задача — определить, какие признаки можно считать стабильными.

Стабильный признак — это признак, у которого стандартное отклонение по всем объектам меньше заданного порога threshold.

Реализуйте функцию find_stable_features(matrix, threshold), которая возвращает список индексов признаков (столбцов), удовлетворяющих этому условию.

Решение задачи🔽

import numpy as np

def find_stable_features(matrix, threshold=0.1):
data = np.array(matrix)
stds = np.std(data, axis=0)
stable_indices = [i for i, std in enumerate(stds) if std < threshold]
return stable_indices

# Пример входных данных
X = [
[1.0, 0.5, 3.2],
[1.0, 0.49, 3.1],
[1.0, 0.52, 3.0],
[1.0, 0.5, 3.3],
]

print(find_stable_features(X, threshold=0.05))
# Ожидаемый результат: [0, 1]

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2⚡1

1.84K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Всё, что вы хотели знать о Django Channels

• Сборка Python проекта с uv и Docker

• DE-1. DIY ассистент на LLM

• Ваши генераторные выражения сломаны: чиним и разбираемся

• Всё, что вы хотели знать о Django Channels

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡1

1.89K views18:07

Data Science | Machinelearning [ru]

➡️

Что забирает до 90% времени на созвонах и как перестать проводить их впустую

Когда митапов больше, чем решений, пора что-то менять. Мы выработали способ делать онлайн-созвоны короче, полезнее и без «а что мы вообще решили?». Делюсь, как именно.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡3❤1

1.86K views10:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Эволюция архитектур нейросетей в компьютерном зрении: сегментация изображений

• Заяц не вырастет в акулу. Или секреты гибкой инженерной культуры от Александра Бындю

• Все, пора увольняться: что я поняла после работы в токсичных командах

• Базовое программирование, или Почему джуны не могут пройти к нам собеседование

• Я стал аналитиком, потому что не смог быть программистом

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1⚡1

1.84K views14:07

Data Science | Machinelearning [ru]

⚙️

RAG: борьба с низким качеством ответов в условия экономии памяти на GPU

В статье показали, как делали ИИ-помощника на RAG для юристов внутри компании: с какими проблемами столкнулись, как прокачивали точность ответов и экономили память на видеокартах.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡3❤1

1.91K views18:47

Data Science | Machinelearning [ru]

⚙️

Конфиденциальность мертва: Яндекс и ВК обучают ИИ на ваших личных данных?

В статье проверяют, как Yandex GPT в голосовом ассистенте ведёт себя с персональными данными. Узнают, что он сливает номер телефона и личную инфу, а потом делает вид, что ничего не знает.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡2👎2❤1😁1

1.98K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое StandardScaler в Data Science и зачем он используется?

StandardScaler из библиотеки scikit-learn — это инструмент для нормализации данных. Он приводит признаки (столбцы данных) к одному масштабу со средним значением 0 и стандартным отклонением 1.

Это важно для алгоритмов машинного обучения, чувствительных к масштабу данных — например, линейной регрессии, SVM или KMeans.

➡️

Пример:

from sklearn.preprocessing import StandardScaler
import numpy as np

X = np.array([[10, 200],
              [20, 300],
              [30, 400]])

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(X_scaled)

🗣️ В этом примере значения всех признаков преобразуются так, что каждый столбец имеет среднее значение 0 и одинаковый масштаб. Это ускоряет обучение и повышает качество модели.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3⚡2

1.91K views14:07

Data Science | Machinelearning [ru]

⚙️

Магистратура по ML раньше: либо сухая теоретическая нагрузка, либо практикум без базы.

Центральный университет запустил гибридную магистратуру, где занятия онлайн, но есть и живые буткемпы в Москве, причем ребятам из регионов проживание оплачивает вуз. Студенты будут работать над реальными задачами компаний под руководством экспертов индустрии: ведущих дата сайентистов, профессоров, аналитиков и главных тренеров школьной сборной России, победившей в мировой олимпиаде по ИИ в Болгарии.

📌В программе обучения: актуальные ML-инструменты, командная работа, вечерние занятия в мини-группах. Есть гранты до 75%, очный диплом и отсрочка от армии.

Начало в сентябре, заявки принимаются до 20 августа.

Please open Telegram to view this post

VIEW IN TELEGRAM

👎4❤2🔥2👍1🐳1

1.97K views15:07

Data Science | Machinelearning [ru]

👩‍💻

Разрабатываем первое AI приложение

Статья анализирует роль языка и цифровизации в накоплении и передаче знаний. Обсуждаются вызовы структурирования данных, которые, несмотря на успехи машинного обучения и реляционных баз, всё ещё затрудняют полное понимание накопленной информации.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4⚡1

1.98K views18:07

Data Science | Machinelearning [ru]

🤔

Практика: мой опыт интеграции более 50 нейронных сетей в один проект

Статья основана на полутора годах работы по внедрению нейронных сетей в веб-приложение с открытым исходным кодом. В ней собраны практические лайфхаки для решения реальных задач и преодоления сложностей, с которыми сталкиваются разработчики.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡1

2.07K views10:07

Data Science | Machinelearning [ru]

🧬 Почини одну переменную — и система станет проще

Ты борешься с непонятной логикой, огромными условиями, крошечными багообразными эффектами. Всё сложно.

👉

Совет: не паникуй. Найди одну переменную, одно имя, один формат, который вносит больше всего путаницы — и перепиши его. Часто даже одно улучшение приводит к лавине упрощений. Разбор сложности начинается с одной точки.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

1.89K views14:07

Data Science | Machinelearning [ru]

➡️

Путь разметки данных для NER: от Open Source до Prodigy

Статья посвящена созданию обучающей выборки для NER. Описан опыт разметки данных с использованием Open Source инструментов и Prodigy, профессионального решения для ускорения процесса создания наборов данных.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡1❤1

1.96K views18:07

Data Science | Machinelearning [ru]

🖥

Руководство по созданию приложения для поиска данных на основе агента GraphRAG

Статья описывает приложение, объединяющее GraphRAG и AutoGen-агентов с локальными LLM от Ollama для автономного встраивания и вывода. Рассмотрены ключевые аспекты: интеграция знаний, настройка LLM, вызов функций и интерактивный интерфейс.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡1

1.93K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Напишите Python-скрипт, который принимает путь к большому CSV-файлу и подсчитывает количество строк (записей) в файле без загрузки его целиком в память. Скрипт должен быть оптимизирован для работы с большими файлами.

➡️ Пример:

python count_rows.py large_file.csv
Количество строк: 3

Решение задачи ⬇️

import csv
import sys

def count_rows(file_path):
with open(file_path, 'r', encoding='utf-8') as file:
reader = csv.reader(file)
# Используем enumerate для подсчёта строк, исключая заголовок
row_count = sum(1 for _ in reader) - 1 # Минус 1 для исключения заголовка
return row_count

if __name__ == "__main__":
if len(sys.argv) < 2:
print("Использование: python count_rows.py <file_path>")
sys.exit(1)

file_path = sys.argv[1]
try:
result = count_rows(file_path)
print(f"Количество строк: {result}")
except Exception as e:
print(f"Ошибка: {e}")

Please open Telegram to view this post

VIEW IN TELEGRAM

👎4👍3⚡1

1.91K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Разбей и властвуй: как создать кастомный токенизатор в SpaCy

• Функция property() в Python: добавляем управляемые атрибуты в классы

• Что, если не трансформеры: какие альтернативы главной архитектуре нейросетей у нас есть в 2024 году

• cgroups и namespaces в Linux: как это работает?

• ML-тренды рекомендательных технологий: шесть приёмов, которые помогают угадывать желания пользователя

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡1❤1

1.94K views18:07

Data Science | Machinelearning [ru]

🖥

Как работает Трансформер: очень простое описание

Вот очень простое объяснение для тех, кто не хочет вдаваться в сложную математику, но и не готов принимать эту ключевую технологию как магию, которая просто работает. Конечно, никакого волшебства тут и нет — идея на самом деле довольно проста..

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡1

1.94K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Напишите функцию, которая принимает DataFrame и заменяет отсутствующие значения (NaN) в каждом числовом столбце на среднее значение этого столбца. Если столбец содержит только NaN, оставьте его без изменений.

➡️ Пример:

   feature1  feature2  feature3
0       1.0      10.0       NaN
1       2.0       NaN       NaN
2       NaN      30.0       NaN
3       4.0      40.0       NaN

   feature1  feature2  feature3
0      1.00      10.0       NaN
1      2.00      26.7       NaN
2      2.33      30.0       NaN
3      4.00      40.0       NaN

Решение задачи ⬇️

import pandas as pd

def fill_missing_with_mean(df):
numeric_columns = df.select_dtypes(include=['float', 'int'])
for column in numeric_columns:
if df[column].notna().any(): # Проверяем, есть ли значения не NaN
df[column] = df[column].fillna(df[column].mean())
return df

# Пример использования:
data = pd.DataFrame({
'feature1': [1.0, 2.0, None, 4.0],
'feature2': [10.0, None, 30.0, 40.0],
'feature3': [None, None, None, None]
})

result = fill_missing_with_mean(data)
print(result)

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡1😁1

1.84K views14:07

Data Science | Machinelearning [ru]

⚙️

Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Продолжение

Статья продолжает разбор моделирования температурного временного ряда с двойной сезонностью. Основное внимание уделено подбору оптимальных параметров сезонной модели САРПСС для точного описания данных.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2⚡2

1.82K views18:07

Data Science | Machinelearning [ru]

👩‍💻

FlexiPrompt: Удобное создание динамических промптов в Python

Статья знакомит с FlexiPrompt — лёгкой библиотекой для генерации промптов в Python при работе с языковыми моделями. Рассмотрены её преимущества: быстрая интеграция, гибкая настройка диалога и возможность создания нескольких агентов в одной LLM.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡1

1.81K views10:07