Data Science | Machinelearning [ru]

Как FELIX экономит время на подготовке фич? И при чём здесь LLM?

Об этом рассказали ребята из финтеха Точка в своём канале .ml

Если вам интересны разборы инструментов, обзоры фреймворков и выжимки из статей — то вот вам ссылка на канал 🙂

Реклама, АО «Точка», ИНН 9705120864, 2Vtzqw3ihJ1, 18 +

3.08K viewsedited 10:07

Forwarded from .ml

Как LLM могут помочь в классическом ML?

По статистике, специалисты по Data Science тратят до 70% рабочего времени на этап Feature Engineering, то есть отбирают наиболее важные признаки в данных и формируют новые, более информативные, датасеты. Кажется, с этой рутинной задачей отлично справится LLM. Но нет — в итоге 64% времени уйдёт на подготовку промптов.

Исследователи предлагают новые решения проблемы, одно из них — FELIX (Feature Engineering with LLMs for Interpretability and Explainability). Всё, что нужно для получения готовых фич — сам датасет и его короткий контекст. Дальше FELIX делает следующее:

✏️ Из случайных групп сэмплов датасета LLM генерирует численных и категориальных кандидатов в новые признаки.
✏️ С помощью кластеризации эмбеддингов похожие признаки отбрасываются.
✏️ Из полученных признаков отбрасываются те, что дают наименьшую объяснимость.

Метод эффективен для текстовых данных и сильно превосходит TF-IDF и трансформерные эмбеддинги от RoBERT. Если вам интересно, расскажем и о преобразовании других типов данных в новых постах!

3.37K views10:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для сеньоров

Senior Data Engineer (MedTech)
🟢Python, SQL, Java, ETL, Docker, Kubernetes, Redshift, BigQuery
🟢до 350 000 ₽ на руки | 3–6 лет

Data Architect (MedTech)
🟢SQL, ETL, PostgreSQL, Docker, Kubernetes, Data Warehousing, BI, Agile
🟢до 450 000 ₽ на руки | Более 6 лет

Senior Data Scientist
🟢Python, SQL, RecSys, Uplift Modeling, Churn Prediction, LTV Prediction, Forecasting, MLOps
🟢от 4 500 до 6 500 $ до вычета налогов | Более 6 лет

Senior Python Dev (AI, Big Data, LLM)
🟢Python, Big Data, ClickHouse, Time Series Analysis, Golang, AI, LLM, WebSocket
🟢от 3 000 $ до вычета налогов | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

3.17K views14:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Вся правда о еженедельных созвонах, или Зачем переливать из пустого в порожнее?

• Тяжела и неказиста жизнь простого RnD. Часть первая: как работают с новыми технологиями в крупных компаниях

• Прийти на внедренный проект на этапе развития системы: как аналитику быстро погрузиться в процессы

• Как гуманитарию подойти к IT: из переводчика в технические писатели

• Поздравляем, вы DevOps-инженер. Как найти себя в необъятном мире ИТ

Please open Telegram to view this post

VIEW IN TELEGRAM

3.21K views18:07

Data Science | Machinelearning [ru]

🔧 ТОП-10 опенсорсных инструментов для работы с ИИ в 2025 году

Детальный разбор 10 самых перспективных инструментов для работы с ИИ в 2025 году. От создания умных ассистентов до построения мощных RAG-систем — разбираем возможности, сравниваем производительность, безопасность и простоту интеграции каждого решения.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.69K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое PCA (Principal Component Analysis) в машинном обучении и зачем он используется?

PCA — это метод снижения размерности, который преобразует исходные переменные в новый набор переменных (компонент), сохраняя как можно больше информации. Он помогает ускорить обучение моделей и уменьшить переобучение.

➡️

Пример:

import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

# Загрузка данных
data = load_iris()
X = data.data

# Применение PCA для снижения размерности до 2 компонент
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

print(X_pca[:5])  # Преобразованные данные

🗣️ В этом примере PCA снижает размерность данных Iris с 4 до 2 компонент. Это позволяет визуализировать данные и ускорить работу моделей, сохраняя основную информацию.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

3.53K views14:07

Data Science | Machinelearning [ru]

Большая языковая модель от MTS AI выйдет уже в первом квартале 2025 года. О завершении бета-теста нейронки упомянул председатель совета директоров МТС Вячеслав Николаев на Дне инвестора.

Это будет LLM для корпоративного использования. В лидерборде бенчмарка MERA она заняла второе место, однако по многим параметрам обошла GPT4o и OpenAI. Например, Cotype лучше связывает факты из предоставленного текста и обладает более глубокими знаниями о мире. Также она помогает сократить до четырех часов рабочего времени, избавляя сотрудников от рутинных задач.

В открытом доступе модель появится в начале 2025 года.

3.55K views17:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для лидов

AI Data Group Lead
🟢Python, TensorFlow, PyTorch, Scikit-learn, Oracle DWH, Hadoop, SQL, Jupyter, Pandas, Matplotlib
🟢Уровень дохода не указан | 1–3 года

Team Lead Data Scientist
🟢Python, SQL, RecSys, Uplift Modeling, Churn Prediction, LTV Prediction, Forecasting, MLOps
🟢Уровень дохода не указан | Более 6 лет

Team Lead Data Analyst
🟢SQL, Python, ClickHouse, Power BI, Redash, Superset, Metabase, dbt, Airflow
🟢от 300 000 до 450 000 ₽ на руки | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

3.49K views20:07

Data Science | Machinelearning [ru]

🤔

Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели

В статье предлагается протестировать новую модель o1 в режиме pro, сравнить её с ChatGPT o1 и ChatGPT 4o. Разберёмся, насколько она оправдывает свою стоимость и как показывает себя на практике.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.74K views10:07

Data Science | Machinelearning [ru]

🔎

Подборка зарубежных вакансий

Data Scientist | Data Analyst
🟢Python, SQL, Power BI, AI (GPT, AutoGPT, Langchain), DWH, BigQuery, Snowflake, Redshift
🟢от 2 000 $ на руки | 1–3 года

Marketing Analyst
🟢SQL, Power BI, Marketing Analysis, Google Analytics, Business English, API
🟢от 2 500 до 4 000 $ до вычета налогов | 1–3 года

Senior Data Scientist
🟢Python, SQL, RecSys, Uplift Modeling, Churn Prediction, LTV Prediction, Forecasting, MLOps
🟢от 4 500 до 6 500 $ до вычета налогов | Более 6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

3.61K views18:07

Data Science | Machinelearning [ru]

🤖

Обзор 4 новых инструментов AI для программирования: v0, Bolt.new, Cursor, Windsurf

Обзор четырёх инструментов для разработчиков: v0, Bolt.new, Cursor и Windsurf. Сравнение функций, сценариев использования и цен поможет выбрать подходящее решение для повышения продуктивности и оптимизации процессов.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.49K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT

• Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей

• Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели

• Возможности LLM и RAG на примере реализации бота для поддержки клиентов

• Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей

Please open Telegram to view this post

VIEW IN TELEGRAM

3.54K views18:07

Data Science | Machinelearning [ru]

🧠

Как нейросети, RL и байесовскую оптимизацию стали использовать на ускорителях заряженных частиц

Как машинное обучение помогает управлять ускорителями частиц? В статье раскрываются примеры применения нейронных сетей, обучения с подкреплением и байесовской оптимизации для стабилизации и настройки пучков частиц.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.64K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Парсинг и подсчёт количества слов в текстовом файле

Напишите функцию на Python, которая принимает путь к текстовому файлу и возвращает словарь с подсчётом количества уникальных слов. Слова должны сравниваться без учёта регистра, а знаки препинания должны быть удалены.

Пример:

# Содержимое файла example.txt:
# "Hello, world! This is a test. Hello again."

result = count_words_in_file("example.txt")
print(result)
# Ожидаемый результат:
# {'hello': 2, 'world': 1, 'this': 1, 'is': 1, 'a': 1, 'test': 1, 'again': 1}

Решение задачи🔽

import string
from collections import Counter

def count_words_in_file(file_path):
with open(file_path, 'r', encoding='utf-8') as f:
text = f.read().lower()
text = text.translate(str.maketrans('', '', string.punctuation))
words = text.split()
return dict(Counter(words))

# Пример использования
result = count_words_in_file("example.txt")
print(result)

Please open Telegram to view this post

VIEW IN TELEGRAM

4.14K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для джунов

Junior Аналитик данных
🟢MySQL, Metabase, Python (pandas, NumPy)
🟢от 30 000 до 50 000 ₽ | 1–3 года опыта

Junior Data Engineer (Analyst)
🟢SQL, Qlik Sense, Grafana, Python, PostgreSQL
🟢от 250 000 ₸ до вычета налогов | Без опыта

Junior Python Backend разработчик
🟢Python, FastAPI, PostgreSQL, SQLAlchemy
🟢от 40 000 ₽ | Без опыта

Please open Telegram to view this post

VIEW IN TELEGRAM

3.89K views18:07

Data Science | Machinelearning [ru]

👩‍💻

Пишем свой PyTorch на NumPy. Часть 1

PyTorch — это мощный и гибкий фреймворк для машинного обучения, широко используемый для создания нейронных сетей. Он особенно популярен благодаря простоте использования, динамическим вычислительным графам и богатой экосистеме инструментов для обучения моделей.

В этой статье мы реализуем собственную библиотеку машинного обучения на NumPy!

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

4.13K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое logging в Python?

logging — это встроенный модуль Python для создания логов, которые помогают отлаживать и мониторить работу приложений.

➡️

Пример:

import logging

# Настройка базового уровня логирования
logging.basicConfig(level=logging.INFO)

# Создание лога
logging.info("Приложение запущено")
logging.warning("Это предупреждение!")
logging.error("Произошла ошибка")

🗣️ В этом примере модуль logging создаёт сообщения разного уровня важности. Логирование позволяет отслеживать работу приложений и находить проблемы в коде.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

4.03K views14:07

Data Science | Machinelearning [ru]

📝

Подборка вакансий для мидлов

Data Scientist (Реком. системы)
• Python, SQL, Keras, PyTorch, Docker, Airflow, ClickHouse, A/B Testing, Recommender Systems
• Уровень дохода не указан | 1–3 года

Data Analyst (F&R)
• SQL, Python, Microsoft Excel, BI, Apache Superset, Математическая статистика, Анализ данных
• Уровень дохода не указан | Более 6 лет

Data Scientist (генерация графических изображений)
• Python, YOLO8, Stable Diffusion 1.5, OpenCV, RASA, NLP, LLMs
• от 200 000 до 500 000 ₽ на руки | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

3.94K views18:07

Data Science | Machinelearning [ru]

🔫

Claude сопротивляется

Исследование Anthropic показывает, как их ИИ Claude мог притворяться злым, чтобы избежать «переобучения». Модель следовала поддельным документам для бесплатных пользователей, но сопротивлялась для премиум-аудитории.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

3.95K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Выявление тренда в временном ряде

Напишите Python-скрипт, который принимает временной ряд в виде pandas.Series и определяет тренд: восходящий, нисходящий или отсутствие тренда. Решение должно быть простым и лаконичным.

➡️ Пример:

import pandas as pd
import numpy as np

# Генерация данных
date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)

result = detect_trend(time_series)
print(result)  # Ожидаемый результат: "Восходящий тренд"

Решение задачи🔽

import numpy as np

def detect_trend(series):
x = np.arange(len(series))
slope = np.polyfit(x, series.values, 1)[0]
if slope > 0:
return "Восходящий тренд"
elif slope < 0:
return "Нисходящий тренд"
else:
return "Тренд отсутствует"

# Пример использования
import pandas as pd
import numpy as np

date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)

print(detect_trend(time_series))

Please open Telegram to view this post

VIEW IN TELEGRAM

4.38K views14:07

Data Science | Machinelearning [ru]

⚙️

Автоматизация верификации кодовых датасетов подрядчиков с помощью LLM: снизили брак на 40% и сократили стоимость на 60%

Статья рассказывает, как автоматизация на основе LLM ускорила верификацию данных и сократила ошибки в производственной цепочке. Узнаете, как это помогло заказчику сэкономить ресурсы и время.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

4.25K views18:07

About

Blog

Apps

Platform