Как FELIX экономит время на подготовке фич? И при чём здесь LLM?
Об этом рассказали ребята из финтеха Точка в своём канале .ml
Если вам интересны разборы инструментов, обзоры фреймворков и выжимки из статей — то вот вам ссылка на канал 🙂
Реклама, АО «Точка», ИНН 9705120864, 2Vtzqw3ihJ1, 18 +
Об этом рассказали ребята из финтеха Точка в своём канале .ml
Если вам интересны разборы инструментов, обзоры фреймворков и выжимки из статей — то вот вам ссылка на канал 🙂
Реклама, АО «Точка», ИНН 9705120864, 2Vtzqw3ihJ1, 18 +
Forwarded from .ml
Как LLM могут помочь в классическом ML?
По статистике, специалисты по Data Science тратят до 70% рабочего времени на этап Feature Engineering, то есть отбирают наиболее важные признаки в данных и формируют новые, более информативные, датасеты. Кажется, с этой рутинной задачей отлично справится LLM. Но нет — в итоге 64% времени уйдёт на подготовку промптов.
Исследователи предлагают новые решения проблемы, одно из них — FELIX (Feature Engineering with LLMs for Interpretability and Explainability). Всё, что нужно для получения готовых фич — сам датасет и его короткий контекст. Дальше FELIX делает следующее:
✏️ Из случайных групп сэмплов датасета LLM генерирует численных и категориальных кандидатов в новые признаки.
✏️ С помощью кластеризации эмбеддингов похожие признаки отбрасываются.
✏️ Из полученных признаков отбрасываются те, что дают наименьшую объяснимость.
Метод эффективен для текстовых данных и сильно превосходит TF-IDF и трансформерные эмбеддинги от RoBERT. Если вам интересно, расскажем и о преобразовании других типов данных в новых постах!
По статистике, специалисты по Data Science тратят до 70% рабочего времени на этап Feature Engineering, то есть отбирают наиболее важные признаки в данных и формируют новые, более информативные, датасеты. Кажется, с этой рутинной задачей отлично справится LLM. Но нет — в итоге 64% времени уйдёт на подготовку промптов.
Исследователи предлагают новые решения проблемы, одно из них — FELIX (Feature Engineering with LLMs for Interpretability and Explainability). Всё, что нужно для получения готовых фич — сам датасет и его короткий контекст. Дальше FELIX делает следующее:
✏️ Из случайных групп сэмплов датасета LLM генерирует численных и категориальных кандидатов в новые признаки.
✏️ С помощью кластеризации эмбеддингов похожие признаки отбрасываются.
✏️ Из полученных признаков отбрасываются те, что дают наименьшую объяснимость.
Метод эффективен для текстовых данных и сильно превосходит TF-IDF и трансформерные эмбеддинги от RoBERT. Если вам интересно, расскажем и о преобразовании других типов данных в новых постах!
Senior Data Engineer (MedTech)
Data Architect (MedTech)
Senior Data Scientist
Senior Python Dev (AI, Big Data, LLM)
Please open Telegram to view this post
VIEW IN TELEGRAM
• Вся правда о еженедельных созвонах, или Зачем переливать из пустого в порожнее?
• Тяжела и неказиста жизнь простого RnD. Часть первая: как работают с новыми технологиями в крупных компаниях
• Прийти на внедренный проект на этапе развития системы: как аналитику быстро погрузиться в процессы
• Как гуманитарию подойти к IT: из переводчика в технические писатели
• Поздравляем, вы DevOps-инженер. Как найти себя в необъятном мире ИТ
Please open Telegram to view this post
VIEW IN TELEGRAM
Детальный разбор 10 самых перспективных инструментов для работы с ИИ в 2025 году. От создания умных ассистентов до построения мощных RAG-систем — разбираем возможности, сравниваем производительность, безопасность и простоту интеграции каждого решения.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
PCA — это метод снижения размерности, который преобразует исходные переменные в новый набор переменных (компонент), сохраняя как можно больше информации. Он помогает ускорить обучение моделей и уменьшить переобучение.
import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
# Загрузка данных
data = load_iris()
X = data.data
# Применение PCA для снижения размерности до 2 компонент
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)
print(X_pca[:5]) # Преобразованные данные
🗣️ В этом примере PCA снижает размерность данных Iris с 4 до 2 компонент. Это позволяет визуализировать данные и ускорить работу моделей, сохраняя основную информацию.
Please open Telegram to view this post
VIEW IN TELEGRAM
Большая языковая модель от MTS AI выйдет уже в первом квартале 2025 года. О завершении бета-теста нейронки упомянул председатель совета директоров МТС Вячеслав Николаев на Дне инвестора.
Это будет LLM для корпоративного использования. В лидерборде бенчмарка MERA она заняла второе место, однако по многим параметрам обошла GPT4o и OpenAI. Например, Cotype лучше связывает факты из предоставленного текста и обладает более глубокими знаниями о мире. Также она помогает сократить до четырех часов рабочего времени, избавляя сотрудников от рутинных задач.
В открытом доступе модель появится в начале 2025 года.
Это будет LLM для корпоративного использования. В лидерборде бенчмарка MERA она заняла второе место, однако по многим параметрам обошла GPT4o и OpenAI. Например, Cotype лучше связывает факты из предоставленного текста и обладает более глубокими знаниями о мире. Также она помогает сократить до четырех часов рабочего времени, избавляя сотрудников от рутинных задач.
В открытом доступе модель появится в начале 2025 года.
AI Data Group Lead
Team Lead Data Scientist
Team Lead Data Analyst
Please open Telegram to view this post
VIEW IN TELEGRAM
В статье предлагается протестировать новую модель o1 в режиме pro, сравнить её с ChatGPT o1 и ChatGPT 4o. Разберёмся, насколько она оправдывает свою стоимость и как показывает себя на практике.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
Data Scientist | Data Analyst
Marketing Analyst
Senior Data Scientist
Please open Telegram to view this post
VIEW IN TELEGRAM
Обзор четырёх инструментов для разработчиков: v0, Bolt.new, Cursor и Windsurf. Сравнение функций, сценариев использования и цен поможет выбрать подходящее решение для повышения продуктивности и оптимизации процессов.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
• Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT
• Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей
• Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели
• Возможности LLM и RAG на примере реализации бота для поддержки клиентов
• Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей
Please open Telegram to view this post
VIEW IN TELEGRAM
Как машинное обучение помогает управлять ускорителями частиц? В статье раскрываются примеры применения нейронных сетей, обучения с подкреплением и байесовской оптимизации для стабилизации и настройки пучков частиц.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
Напишите функцию на Python, которая принимает путь к текстовому файлу и возвращает словарь с подсчётом количества уникальных слов. Слова должны сравниваться без учёта регистра, а знаки препинания должны быть удалены.
Пример:
# Содержимое файла example.txt:
# "Hello, world! This is a test. Hello again."
result = count_words_in_file("example.txt")
print(result)
# Ожидаемый результат:
# {'hello': 2, 'world': 1, 'this': 1, 'is': 1, 'a': 1, 'test': 1, 'again': 1}
Решение задачи
import string
from collections import Counter
def count_words_in_file(file_path):
with open(file_path, 'r', encoding='utf-8') as f:
text =f.read ().lower()
text = text.translate(str.maketrans('', '', string.punctuation))
words = text.split()
return dict(Counter(words))
# Пример использования
result = count_words_in_file("example.txt")
print(result)
Please open Telegram to view this post
VIEW IN TELEGRAM
Junior Аналитик данных
Junior Data Engineer (Analyst)
Junior Python Backend разработчик
Please open Telegram to view this post
VIEW IN TELEGRAM
PyTorch — это мощный и гибкий фреймворк для машинного обучения, широко используемый для создания нейронных сетей. Он особенно популярен благодаря простоте использования, динамическим вычислительным графам и богатой экосистеме инструментов для обучения моделей.
В этой статье мы реализуем собственную библиотеку машинного обучения на NumPy!
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
logging
в Python?logging
— это встроенный модуль Python для создания логов, которые помогают отлаживать и мониторить работу приложений.import logging
# Настройка базового уровня логирования
logging.basicConfig(level=logging.INFO)
# Создание лога
logging.info("Приложение запущено")
logging.warning("Это предупреждение!")
logging.error("Произошла ошибка")
🗣️ В этом примере модуль logging создаёт сообщения разного уровня важности. Логирование позволяет отслеживать работу приложений и находить проблемы в коде.
Please open Telegram to view this post
VIEW IN TELEGRAM
Data Scientist (Реком. системы)
•
Python, SQL, Keras, PyTorch, Docker, Airflow, ClickHouse, A/B Testing, Recommender Systems•
Уровень дохода не указан | 1–3 годаData Analyst (F&R)
•
SQL, Python, Microsoft Excel, BI, Apache Superset, Математическая статистика, Анализ данных•
Уровень дохода не указан | Более 6 летData Scientist (генерация графических изображений)
•
Python, YOLO8, Stable Diffusion 1.5, OpenCV, RASA, NLP, LLMs•
от 200 000 до 500 000 ₽ на руки | 3–6 летPlease open Telegram to view this post
VIEW IN TELEGRAM
👍1
Исследование Anthropic показывает, как их ИИ Claude мог притворяться злым, чтобы избежать «переобучения». Модель следовала поддельным документам для бесплатных пользователей, но сопротивлялась для премиум-аудитории.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Напишите Python-скрипт, который принимает временной ряд в виде
pandas.Series
и определяет тренд: восходящий, нисходящий или отсутствие тренда. Решение должно быть простым и лаконичным.import pandas as pd
import numpy as np
# Генерация данных
date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)
result = detect_trend(time_series)
print(result) # Ожидаемый результат: "Восходящий тренд"
Решение задачи
import numpy as np
def detect_trend(series):
x = np.arange(len(series))
slope = np.polyfit(x, series.values, 1)[0]
if slope > 0:
return "Восходящий тренд"
elif slope < 0:
return "Нисходящий тренд"
else:
return "Тренд отсутствует"
# Пример использования
import pandas as pd
import numpy as np
date_range = pd.date_range(start="2020-01-01", periods=12, freq="M")
values = np.linspace(10, 20, 12) + np.random.normal(0, 0.5, 12)
time_series = pd.Series(data=values, index=date_range)
print(detect_trend(time_series))
Please open Telegram to view this post
VIEW IN TELEGRAM
Статья рассказывает, как автоматизация на основе LLM ускорила верификацию данных и сократила ошибки в производственной цепочке. Узнаете, как это помогло заказчику сэкономить ресурсы и время.
Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM