Data Science | Machinelearning [ru] – Telegram

Data Science | Machinelearning [ru]

17.9K subscribers

461 photos

14 videos

29 files

3.32K links

Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence)

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

17.9K subscribers

Data Science | Machinelearning [ru]

🎤

Векторный поиск в YDB: семантический поиск в СУБД

В блоге Яндекса рассказали о запуске векторного поиска в СУБД YDB, полностью разработанная в России с такой функциональностью. Технология позволяет искать по смыслу, а не по ключевым словам: тексты, изображения, аудио и видео переводятся в эмбеддинги и индексируются в базе.

Реализация включает точный и приближенный режимы, подходит для RAG, ИИ-ассистентов и рекомендательных систем. Уже используется в «Алисе», теперь доступна и внешнему бизнесу — в облаке и on-premises.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👎2🔥2

1.8K views16:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Реализация подобия Apple Vision Pro

• Почему LLM так плохо играют в шахматы (и что с этим делать)

• LLM будут врать вечно

• Как мы создали LLM-модель Cotype Nano

• Человек и LLM: как построить метрики для оценки моделей

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡2❤1

1.79K views18:07

Data Science | Machinelearning [ru]

Отбор статей в научный журнал конференции AI Journey 2025: лови миллион за прорывное исследование!

Открыт конкурс научных статей в журнал Международной конференции AI Journey с призовым фондом 1 000 000 рублей!

Ключевые работы будут опубликованы в спецвыпуске журнала «Доклады РАН. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics (индексируется в Scopus/WoS).

Что ждёт автора лучшей статьи?
- Шанс выиграть крутой денежный приз
- Возможность представить исследования на главной AI-площадке страны

Правила жёсткие, но игра стоит свеч:
• Только оригинальные исследования (никакого плагиата!)
• Принимаются работы на русском и английском
• Дедлайн — 20 августа (успей подать заявку!)

Узнать подробности по ссылке: https://aij.ru/science

👎2❤1🐳1

1.78K views10:07

Data Science | Machinelearning [ru]

🤔

3750 дней разработки AI или почему боты всё ещё не захватили покер

Статья рассматривает создание AI для покера (Техасского безлимитного холдема) и анализирует его сложность как модели бизнес-отношений. Обсуждаются метрики и стратегии, которые игроки используют в изменяющемся контексте для принятия решений.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡3

1.7K views13:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Вся правда о еженедельных созвонах, или Зачем переливать из пустого в порожнее?

• Тяжела и неказиста жизнь простого RnD. Часть первая: как работают с новыми технологиями в крупных компаниях

• Прийти на внедренный проект на этапе развития системы: как аналитику быстро погрузиться в процессы

• Как гуманитарию подойти к IT: из переводчика в технические писатели

• Поздравляем, вы DevOps-инженер. Как найти себя в необъятном мире ИТ

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡2🔥1

1.72K views14:07

Data Science | Machinelearning [ru]

➡️

Matrix Reloaded: зачем дата-сайентисту линейная алгебра

Рассказываю, как векторы, матрицы и собственные значения помогают понимать ML-модели. Без теорем и нотаций — только визуалки и живые кейсы с работы.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡6❤1

1.87K views18:07

Data Science | Machinelearning [ru]

🤖

Как развернуть LLM с помощью vLLM и TorchServe

Хочешь запустить большую языковую модель в продакшене, но не знаешь, как совместить простоту развертывания с промышленной надежностью? Комбинация vLLM и TorchServe решает эту задачу. Она обеспечивает как простой запуск, так и продвинутые возможности для масштабирования.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡2❤1🔥1

1.86K views12:07

Data Science | Machinelearning [ru]

⚙️

Что такое декораторы в Python и как они работают?

Декораторы — это функции в Python, которые принимают другую функцию в качестве аргумента и возвращают новую функцию с добавленным поведением. Это удобный способ модификации или расширения функциональности без изменения исходного кода функции.

➡️

Пример:

# Декоратор для логирования вызовов функции
def log_call(func):
    def wrapper(*args, **kwargs):
        print(f"Вызов функции {func.__name__} с аргументами: {args}, {kwargs}")
        result = func(*args, **kwargs)
        print(f"Результат: {result}")
        return result
    return wrapper

# Применение декоратора
@log_call
def add(a, b):
    return a + b

add(3, 5)

🗣️ В этом примере декоратор log_call добавляет логирование вызовов и результатов функции add. Декораторы позволяют делать код более модульным и удобным для повторного использования.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡2❤1

1.94K views14:07

Data Science | Machinelearning [ru]

🤔

Прогнозирование продаж с использованием библиотеки Prophet

Статья посвящена прогнозированию продаж FTTB-FMC для ежедневной отчетности. Рассматриваются подходы к анализу данных, ключевые KPI и методы, используемые для прогнозирования продаж в сегменте ШПД и конвергентных продуктов.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

1.91K views18:07

Data Science | Machinelearning [ru]

✔️

Big Data мертвы, да здравствуют Smart Data

Давайте рассмотрим концепцию Smart Data и выясним, действительно ли Big Data превращаются во что-то более интеллектуальное.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳4⚡1😁1

2.12K views10:07

Data Science | Machinelearning [ru]

🔄 Архитектура — это не схема, а привычка

Ты можешь нарисовать идеальную схему слоёв и связей. Но если каждый в команде её игнорирует — она мертва.

👉 Совет: внедряй архитектуру через повседневные действия: шаблоны PR, линтеры, примеры. Пусть правильный подход становится нормой, а не лекцией. Настоящая архитектура — это то, что работает без напоминания.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8❤1

2.01K views14:07

Data Science | Machinelearning [ru]

🔥

Дообучаем языковую модель GPT2 с помощью Torch

Статья углубляется в дообучение языковых моделей, используя DistilGPT2 на данных QuyenAnhDE/Diseases_Symptoms. Рассматривается процесс настройки модели для генерации симптомов на основе заболеваний, с возможностью расширения логики.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4⚡1

2.04K views18:07

Data Science | Machinelearning [ru]

📊

ИИ в Крипто-Торговле: Возможен ли Успех?

Статья описывает процесс создания успешных ИИ-моделей для автоматизированной крипто-торговли на ByBit. Рассматриваются три стратегии, их разработка, оптимизация и результаты, превысившие убытки.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡5🐳3👎1

1.98K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Напишите функцию, которая принимает текст и возвращает наиболее часто встречающееся слово. Игнорируйте регистр и знаки препинания.

➡️ Пример:

text = "Data science is fun. Science makes data fun, and data makes science better."
print(most_frequent_word(text))  
# Ожидаемый результат: "data"

Решение задачи ⬇️

import re
from collections import Counter

def most_frequent_word(text):
# Убираем знаки препинания и приводим текст к нижнему регистру
words = re.findall(r'\b\w+\b', text.lower())
# Подсчитываем частоту слов
word_counts = Counter(words)
# Возвращаем слово с максимальной частотой
return word_counts.most_common(1)[0][0]

# Пример использования:
text = "Data science is fun. Science makes data fun, and data makes science better."
print(most_frequent_word(text))

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5⚡1

1.93K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Смарт-функции в Алисе: как LLM помогает понять, чего хочет пользователь

• Сбер выкладывает GigaChat Lite в открытый доступ

• История YOLO – самой известной архитектуры компьютерного зрения

• Магия простоты: как мы улучшили отображение общественного транспорта на карте

• Обучение и fine-tuning моделей простым языком: зачем, как, где

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡1

1.88K views18:07

Data Science | Machinelearning [ru]

⚙️

Как я учился писать промпты для RAG пайплайна. Разбор 3-го места на AI Journey 24 E-com AI assistant

Статья описывает опыт создания RAG-пайплайна с использованием Gigachat API для участия в AI Journey. Автор делится инсайтами, полученными в процессе разработки ассистента для рекомендаций товаров, который занял 3-е место.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡3👍1

1.94K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Напишите функцию, которая принимает DataFrame и возвращает имена двух столбцов с наибольшей положительной корреляцией.

➡️ Пример:

data = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [2, 4, 6, 8],
    'C': [1, 0, 1, 0],
    'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data))  
# Ожидаемый результат: ('B', 'D')

Решение задачи ⬇️

def find_highest_correlation(df):
corr_matrix = df.corr()
max_corr = 0
columns = (None, None)

for col1 in corr_matrix.columns:
for col2 in corr_matrix.columns:
if col1 != col2 and corr_matrix[col1][col2] > max_corr:
max_corr = corr_matrix[col1][col2]
columns = (col1, col2)

return columns

# Пример использования:
import pandas as pd

data = pd.DataFrame({
'A': [1, 2, 3, 4],
'B': [2, 4, 6, 8],
'C': [1, 0, 1, 0],
'D': [10, 20, 30, 40]
})

print(find_highest_correlation(data)) # Ожидаемый результат: ('B', 'D')

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡3👎2❤1

1.94K views14:07

Data Science | Machinelearning [ru]

🤔

Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста

Статья изучает применение метода CUPED в A/B-тестах для повышения чувствительности и сокращения выборок. Рассматривается его использование на этапе дизайна эксперимента без потери статистической мощности.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2⚡1🔥1

1.88K views18:07

Data Science | Machinelearning [ru]

⚙️

Как обеспечить Data Quality терабайтов данных и зачем: опыт СИБУРа

Статья посвящена опыту СИБУРа в создании DQ-сервиса для обеспечения качества данных. Рассматриваются задачи DQ, архитектура решения и универсальные подходы, применимые для анализа данных в крупных компаниях.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2⚡1👎1

1.8K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое train_test_split в Scikit-learn и зачем он используется?

train_test_split — это функция из библиотеки Scikit-learn, которая используется для разделения данных на тренировочный и тестовый наборы. Это необходимо для оценки качества модели на данных, которые она не видела во время обучения.

➡️

Пример:

from sklearn.model_selection import train_test_split
import numpy as np

# Данные
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([10, 20, 30, 40, 50])

# Разделение данных (80% на обучение, 20% на тест)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Тренировочные данные:", X_train, y_train)
print("Тестовые данные:", X_test, y_test)

🗣️ В этом примере данные разделяются на тренировочный и тестовый наборы в соотношении 80/20. Это позволяет модели обучаться на одной части данных и проверять точность на другой, что предотвращает переобучение.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3⚡1🔥1

1.89K views14:07