Data Science | Machinelearning [ru] – Telegram

Data Science | Machinelearning [ru]

17.9K subscribers

459 photos

14 videos

29 files

3.32K links

Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence)

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

17.9K subscribers

Data Science | Machinelearning [ru]

📝

Подборка вакансий для сеньоров

Prompt-инженер
• Технический перевод, техническая документация, Python
• до 200 000 ₽ | Старший (Senior) уровень

Аналитик данных / Data Analyst
• SQL, Python, математическая статистика, Jupyter Notebook, A/B тестирование
• от 300 000 до 400 000 ₽ | Старший (Senior) уровень

Database Administrator
• ClickHouse, PostgreSQL, Python
• до 5 000 $ | Старший (Senior) уровень

Please open Telegram to view this post

VIEW IN TELEGRAM

3.76K views14:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Продуктивность и почему «сделать много всего» — это не про неё

• Куда выйти из айти?

• Как я боролся с выгоранием в ИТ: лайфхаки и личный опыт

• ИТ-пенсионеры и где они обитают

• Почему мне нужно, чтобы ты вкатился в айти

Please open Telegram to view this post

VIEW IN TELEGRAM

👎1

3.84K views18:07

Data Science | Machinelearning [ru]

🤖

Как развернуть LLM с помощью vLLM и TorchServe

Хочешь запустить большую языковую модель в продакшене, но не знаешь, как совместить простоту развертывания с промышленной надежностью? Комбинация vLLM и TorchServe решает эту задачу. Она обеспечивает как простой запуск, так и продвинутые возможности для масштабирования.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.83K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое генераторы в Python и зачем они нужны?

Генераторы — это функции в Python, которые возвращают значения по одному с помощью ключевого слова yield, вместо полного возврата всех значений сразу. Они полезны для работы с большими объемами данных, так как сохраняют память, генерируя значения на лету.

➡️

Пример:

# Генератор для получения первых N чисел Фибоначчи
def fibonacci(n):
    a, b = 0, 1
    for _ in range(n):
        yield a
        a, b = b, a + b

# Используем генератор
for num in fibonacci(5):
    print(num)

# Вывод: 0, 1, 1, 2, 3

🗣️ В этом примере генератор fibonacci вычисляет числа по запросу, вместо сохранения всех значений в памяти. Это делает генераторы особенно удобными для работы с потоками данных или бесконечными последовательностями.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

3.8K views14:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для лидов

Team Lead Data Platform
• Python, SQL, Git, Apache Hadoop, Apache Spark, Apache Airflow, Apache Kafka, Управление людьми
• Уровень дохода не указан | Требуемый опыт не указан

Team Lead Data Scientist (кредитный скоринг)
• Python, SQL, MatPlotLib, Pandas, NumPy, Машинное обучение, Математическое моделирование, XML, JSON
• Уровень дохода не указан | от 3 лет опыта

Ведущий аналитик
• Microsoft Excel, Анализ данных, Pandas, Tableau, PowerBI, SQL, Python, NumPy, SQLAlchemy
• от 100 000 ₽ | Требуемый опыт не указан

Please open Telegram to view this post

VIEW IN TELEGRAM

3.76K views18:07

Data Science | Machinelearning [ru]

🔄 Улучши понимание «потока данных»

Порой сложно разобраться, как данные путешествуют через сервисы, API и базу. Это может превращать даже простые задачи в ад.

👉 Совет: нарисуй схему потока данных для ключевых процессов своего проекта. Это может быть даже грубый эскиз в блокноте. Понимание архитектуры даст тебе преимущество: ты будешь видеть узкие места и быстрее разбираться с проблемами.

Please open Telegram to view this post

VIEW IN TELEGRAM

3.73K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка зарубежных вакансий

Senior Data Scientist (ML / NLP / RAG)
🟢Python, SQL, Hugging Face transformers, FastAPI, TensorFlow, NumPy, PostgreSQL, pgVector, AWS ML infrastructure
🟢Уровень дохода не указан | 1–3 года опыта

AI R&D Engineer (Intern)
🟢Python, PyTorch, TensorFlow, Machine Learning, Deep Learning, Английский язык, R&D, Multi-agent systems, MLflow
🟢Уровень дохода не указан | 1–3 года опыта

Data Engineer
🟢DBT, Amazon Redshift, Fivetran, Python, ETL, Amazon Web Services, SQL, Английский язык (Intermediate)
🟢Уровень дохода не указан | 5+ лет опыта

Please open Telegram to view this post

VIEW IN TELEGRAM

3.86K views18:07

Data Science | Machinelearning [ru]

✔️

30k аудиозаписей: наводим порядок

Статья рассказывает, как организовать и обработать огромный архив аудиозаписей дневников, созданных задолго до эпохи современных speech-to-text технологий. Рассматриваются инструменты и подходы для упорядочивания данных.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.89K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Напишите скрипт, который удаляет дублирующиеся строки из CSV-файла на основе указанного столбца и сохраняет результат в новый файл.

➡️ Пример:

python remove_duplicates.py input.csv output.csv column_name
id,name,age
1,John,30
2,Jane,25
4,Bob,35

Решение задачи ⬇️

import pandas as pd
import sys

if len(sys.argv) < 4:
print("Использование: python remove_duplicates.py <input_file> <output_file> <column_name>")
sys.exit(1)

input_file = sys.argv[1]
output_file = sys.argv[2]
column_name = sys.argv[3]

try:
df = pd.read_csv(input_file)
df = df.drop_duplicates(subset=[column_name])
df.to_csv(output_file, index=False)
print(f"Дубликаты удалены. Результат сохранён в {output_file}")
except Exception as e:
print(f"Ошибка: {e}")

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

3.76K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Не бойтесь потоков в Python, они не кусаются

• Рубрика: VPS на пределе возможностей. LLM на CPU с 12Gb RAM

• Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?

• Семантический веб: краткий обзор технологий и инструментов

• Инструмент обеспечения качества данных: от теории к практике

Please open Telegram to view this post

VIEW IN TELEGRAM

3.56K views18:07

Data Science | Machinelearning [ru]

⚙️

Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Продолжение

Статья продолжает разбор моделирования температурного временного ряда с двойной сезонностью. Основное внимание уделено подбору оптимальных параметров сезонной модели САРПСС для точного описания данных.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

3.61K views10:08

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Напишите функцию, которая принимает список email-адресов и возвращает уникальные домены из этого списка. Домен — это часть адреса после символа @.

➡️ Пример:

["user1@example.com", "user2@test.com", "user3@example.com", "user4@sample.com"]

#{"example.com", "test.com", "sample.com"}

Решение задачи ⬇️

def get_unique_domains(emails):
domains = {email.split('@')[1] for email in emails}
return domains

# Пример использования:
emails = ["user1@example.com", "user2@test.com", "user3@example.com", "user4@sample.com"]
result = get_unique_domains(emails)
print(result) # Ожидаемый результат: {'example.com', 'test.com', 'sample.com'}

Please open Telegram to view this post

VIEW IN TELEGRAM

4.11K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для джунов

Data-аналитик в области временных рядов (Junior)
🟢Python, pandas, numpy, scipy, matplotlib, seaborn, SQL
🟢от 40 000 ₽ до вычета налогов | 1–3 года опыта

Продуктовый аналитик/junior product менеджер
🟢SQL, Google Analytics, Tableau, Power BI, BigQuery, Looker, UML, Use Case Analysis
🟢от 100 000 ₽ на руки | 1–3 года опыта

Data-инженер
🟢SQL, C#, MS Visual Studio, Big Data
🟢от 140 000 ₽ на руки | 1–3 года опыта

Please open Telegram to view this post

VIEW IN TELEGRAM

4K views18:07

Data Science | Machinelearning [ru]

🤔

Prompt Me One More Time. Учим LLM строить графы знаний из текстов

Статья описывает метод, разработанный для автоматического наполнения графов знаний с помощью LLM, что снижает вероятность «галлюцинаций» и повышает точность ответов. Решение Prompt Me One More Time подробно представлено на TextGraphs-17 конференции ACL-2024.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

4.17K views10:07

Data Science | Machinelearning [ru]

👩‍💻 Как работает модуль os в Python для работы с файловой системой?

Модуль os в Python предоставляет инструменты для взаимодействия с операционной системой. С его помощью можно управлять файлами и директориями, получать информацию о системе и переменных окружения, а также выполнять системные команды. Этот модуль особенно полезен для кроссплатформенных сценариев.

➡️ Пример:

import os

# Получение текущей директории
current_dir = os.getcwd()
print('Текущая директория:', current_dir)

# Создание новой директории
os.mkdir('new_folder')
print('Создана директория new_folder')

🗣 os позволяет удобно и кроссплатформенно работать с файловой системой, выполнять команды и настраивать окружение.

Please open Telegram to view this post

VIEW IN TELEGRAM

4.1K views14:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для мидлов

Data-аналитик
• Python, SQL, Apache Hadoop, Kubernetes, Docker
• Уровень дохода не указан | от 2 лет опыта

Data-инженер
• Python, Greenplum, Apache Airflow, Apache Spark, ETL, Apache Hadoop, Linux, PostgreSQL, Kubernetes, SQL
• Уровень дохода не указан | от 2 лет опыта

Data Analyst
• Python, Apache Spark, SQL, Apache Hadoop
• Уровень дохода не указан | от 2 лет опыта

Please open Telegram to view this post

VIEW IN TELEGRAM

3.94K views18:07

Data Science | Machinelearning [ru]

🤔

3750 дней разработки AI или почему боты всё ещё не захватили покер

Статья рассматривает создание AI для покера (Техасского безлимитного холдема) и анализирует его сложность как модели бизнес-отношений. Обсуждаются метрики и стратегии, которые игроки используют в изменяющемся контексте для принятия решений.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.88K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Задачка по Python

Напишите функцию, которая принимает список чисел и возвращает все значения, которые являются выбросами. Выбросы определяются как значения, которые находятся ниже первого квартиля (Q1) минус 1.5 * IQR или выше третьего квартиля (Q3) плюс 1.5 * IQR, где IQR — межквартильный размах.

➡️ Пример:

Входной список:
[10, 12, 14, 15, 15, 16, 16, 16, 17, 18, 19, 100]

Ожидаемый вывод:
[100]

Решение задачи ⬇️

import numpy as np

def find_outliers(data):
q1 = np.percentile(data, 25)
q3 = np.percentile(data, 75)
iqr = q3 - q1
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr
return [x for x in data if x < lower_bound or x > upper_bound]

# Пример использования:
input_data = [10, 12, 14, 15, 15, 16, 16, 16, 17, 18, 19, 100]
result = find_outliers(input_data)
print(result) # Ожидаемый результат: [100]

Please open Telegram to view this post

VIEW IN TELEGRAM

3.85K views14:07

Data Science | Machinelearning [ru]

👩‍💻

FlexiPrompt: Удобное создание динамических промптов в Python

Статья знакомит с FlexiPrompt — лёгкой библиотекой для генерации промптов в Python при работе с языковыми моделями. Рассмотрены её преимущества: быстрая интеграция, гибкая настройка диалога и возможность создания нескольких агентов в одной LLM.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.93K views18:07

Data Science | Machinelearning [ru]

🤔

Реальная эффективность Qwen 2.5 Coder против ChatGPT (или можно ли сэкономить 20$?)

В статье будет рассмотрена практическая проверка возможностей модели Qwen 2.5 Coder на основе задачи перевода кода из VB в C#. Узнаем, сможет ли она справиться с нюансами цикла и корректно адаптировать формулу.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.78K views10:17