Data Science | Machinelearning [ru]
18.1K subscribers
448 photos
13 videos
29 files
3.13K links
Статьи на тему data science, machine learning, big data, python, математика, нейронные сети, искусственный интеллект (artificial intelligence)

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
Forwarded from .ml
Как LLM могут помочь в классическом ML?

По статистике, специалисты по Data Science тратят до 70% рабочего времени на этап Feature Engineering, то есть отбирают наиболее важные признаки в данных и формируют новые, более информативные, датасеты. Кажется, с этой рутинной задачей отлично справится LLM. Но нет — в итоге 64% времени уйдёт на подготовку промптов.

Исследователи предлагают новые решения проблемы, одно из них — FELIX (Feature Engineering with LLMs for Interpretability and Explainability). Всё, что нужно для получения готовых фич — сам датасет и его короткий контекст. Дальше FELIX делает следующее:

✏️ Из случайных групп сэмплов датасета LLM генерирует численных и категориальных кандидатов в новые признаки.
✏️ С помощью кластеризации эмбеддингов похожие признаки отбрасываются.
✏️ Из полученных признаков отбрасываются те, что дают наименьшую объяснимость.

Метод эффективен для текстовых данных и сильно превосходит TF-IDF и трансформерные эмбеддинги от RoBERT. Если вам интересно, расскажем и о преобразовании других типов данных в новых постах!
🔎 Подборка вакансий для сеньоров

Senior Data Engineer (MedTech)
🟢Python, SQL, Java, ETL, Docker, Kubernetes, Redshift, BigQuery
🟢до 350 000 ₽ на руки | 3–6 лет

Data Architect (MedTech)
🟢SQL, ETL, PostgreSQL, Docker, Kubernetes, Data Warehousing, BI, Agile
🟢до 450 000 ₽ на руки | Более 6 лет

Senior Data Scientist
🟢Python, SQL, RecSys, Uplift Modeling, Churn Prediction, LTV Prediction, Forecasting, MLOps
🟢от 4 500 до 6 500 $ до вычета налогов | Более 6 лет

Senior Python Dev (AI, Big Data, LLM)
🟢Python, Big Data, ClickHouse, Time Series Analysis, Golang, AI, LLM, WebSocket
🟢от 3 000 $ до вычета налогов | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
🔧 ТОП-10 опенсорсных инструментов для работы с ИИ в 2025 году

Детальный разбор 10 самых перспективных инструментов для работы с ИИ в 2025 году. От создания умных ассистентов до построения мощных RAG-систем — разбираем возможности, сравниваем производительность, безопасность и простоту интеграции каждого решения.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Большая языковая модель от MTS AI выйдет уже в первом квартале 2025 года. О завершении бета-теста нейронки упомянул председатель совета директоров МТС Вячеслав Николаев на Дне инвестора.

Это будет LLM для корпоративного использования. В лидерборде бенчмарка MERA она заняла второе место, однако по многим параметрам обошла GPT4o и OpenAI. Например, Cotype лучше связывает факты из предоставленного текста и обладает более глубокими знаниями о мире. Также она помогает сократить до четырех часов рабочего времени, избавляя сотрудников от рутинных задач.

В открытом доступе модель появится в начале 2025 года.
🔎 Подборка вакансий для лидов

AI Data Group Lead
🟢Python, TensorFlow, PyTorch, Scikit-learn, Oracle DWH, Hadoop, SQL, Jupyter, Pandas, Matplotlib
🟢Уровень дохода не указан | 1–3 года

Team Lead Data Scientist
🟢Python, SQL, RecSys, Uplift Modeling, Churn Prediction, LTV Prediction, Forecasting, MLOps
🟢Уровень дохода не указан | Более 6 лет

Team Lead Data Analyst
🟢SQL, Python, ClickHouse, Power BI, Redash, Superset, Metabase, dbt, Airflow
🟢от 300 000 до 450 000 ₽ на руки | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели

В статье предлагается протестировать новую модель o1 в режиме pro, сравнить её с ChatGPT o1 и ChatGPT 4o. Разберёмся, насколько она оправдывает свою стоимость и как показывает себя на практике.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка зарубежных вакансий

Data Scientist | Data Analyst
🟢Python, SQL, Power BI, AI (GPT, AutoGPT, Langchain), DWH, BigQuery, Snowflake, Redshift
🟢от 2 000 $ на руки | 1–3 года

Marketing Analyst
🟢SQL, Power BI, Marketing Analysis, Google Analytics, Business English, API
🟢от 2 500 до 4 000 $ до вычета налогов | 1–3 года

Senior Data Scientist
🟢Python, SQL, RecSys, Uplift Modeling, Churn Prediction, LTV Prediction, Forecasting, MLOps
🟢от 4 500 до 6 500 $ до вычета налогов | Более 6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Обзор 4 новых инструментов AI для программирования: v0, Bolt.new, Cursor, Windsurf

Обзор четырёх инструментов для разработчиков: v0, Bolt.new, Cursor и Windsurf. Сравнение функций, сценариев использования и цен поможет выбрать подходящее решение для повышения продуктивности и оптимизации процессов.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 Как нейросети, RL и байесовскую оптимизацию стали использовать на ускорителях заряженных частиц

Как машинное обучение помогает управлять ускорителями частиц? В статье раскрываются примеры применения нейронных сетей, обучения с подкреплением и байесовской оптимизации для стабилизации и настройки пучков частиц.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Подборка вакансий для джунов

Junior Аналитик данных
🟢MySQL, Metabase, Python (pandas, NumPy)
🟢от 30 000 до 50 000 ₽ | 1–3 года опыта

Junior Data Engineer (Analyst)
🟢SQL, Qlik Sense, Grafana, Python, PostgreSQL
🟢от 250 000 ₸ до вычета налогов | Без опыта

Junior Python Backend разработчик
🟢Python, FastAPI, PostgreSQL, SQLAlchemy
🟢от 40 000 ₽ | Без опыта
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 Пишем свой PyTorch на NumPy. Часть 1

PyTorch — это мощный и гибкий фреймворк для машинного обучения, широко используемый для создания нейронных сетей. Он особенно популярен благодаря простоте использования, динамическим вычислительным графам и богатой экосистеме инструментов для обучения моделей.

В этой статье мы реализуем собственную библиотеку машинного обучения на NumPy!

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
📝 Подборка вакансий для мидлов

Data Scientist (Реком. системы)
Python, SQL, Keras, PyTorch, Docker, Airflow, ClickHouse, A/B Testing, Recommender Systems
Уровень дохода не указан | 1–3 года

Data Analyst (F&R)
SQL, Python, Microsoft Excel, BI, Apache Superset, Математическая статистика, Анализ данных
Уровень дохода не указан | Более 6 лет

Data Scientist (генерация графических изображений)
Python, YOLO8, Stable Diffusion 1.5, OpenCV, RASA, NLP, LLMs
от 200 000 до 500 000 ₽ на руки | 3–6 лет
Please open Telegram to view this post
VIEW IN TELEGRAM
🔫 Claude сопротивляется

Исследование Anthropic показывает, как их ИИ Claude мог притворяться злым, чтобы избежать «переобучения». Модель следовала поддельным документам для бесплатных пользователей, но сопротивлялась для премиум-аудитории.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚙️ Автоматизация верификации кодовых датасетов подрядчиков с помощью LLM: снизили брак на 40% и сократили стоимость на 60%

Статья рассказывает, как автоматизация на основе LLM ускорила верификацию данных и сократила ошибки в производственной цепочке. Узнаете, как это помогло заказчику сэкономить ресурсы и время.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Добро пожаловать в CAMELoT

В статье рассказывается о новой архитектуре CAMELoT, которая помогает большим языковым моделям обрабатывать длинные последовательности, не требуя повторного обучения. Она использует ассоциативную память для улучшения производительности.

Читать...
Please open Telegram to view this post
VIEW IN TELEGRAM