Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение pinned a photo

19:31

Что посмотреть: интервью с лидерами Google об ИИ, AGI и будущем разума

На Google I/O прошла живая дискуссия с Демисом Хассабисом (CEO DeepMind), Сергеем Брином (сооснователь Google) и Алексом Кантровицем. Темой стало развитие ИИ и возможный путь к AGI — искусственному общему интеллекту.

Обсудили:
— Есть ли предел масштабированию ИИ-моделей
— Как новые методы рассуждений меняют ИИ
— Когда (и будет ли) AGI
— ИИ-агенты Project Astra и подход AlphaEvolve (самообучение ИИ)
— Уроки от Google Glass и проблемы качества данных
— И да: затронули веб, симуляции и сроки появления AGI

🔗

Смотреть видео: https://clc.to/yMl_og

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍3🔥3

1.96K views06:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✉️ Вопрос подписчика: умирает ли традиционная роль Data Scientist?

Недавно подписчик поделился наблюдением:

«Я часто вижу вакансии на Data Analyst/BI (SQL, дашборды), Data Engineer (пайплайны, ETL) и AI/ML Engineer (в основном развёртывание моделей и LLM). А вот классической роли Data Scientist — с фокусом на статистическое моделирование, дизайн экспериментов и комплексное решение задач — всё меньше.

Так компании просто разбивают эту «универсальную» роль на несколько специализированных? Или рынок ушёл от «единорога», который умеет всё сразу?

Как у вас обстоят дела с этой ролью? Всё ещё занимаетесь классической аналитикой и статистикой или перешли в более узкую специализацию?»

💡 Поделитесь наблюдениями и личным опытом в комментариях!
P.S. Если хотите задать вопрос, заполните нашу гугл-форму. Это займет 5 минут.

Библиотека дата-сайентиста #междусобойчик

🤔3❤2👍1😢1

1.85K views18:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Команда дня: einsum или как реализовать multi-head self-attention без единого цикла

Если вы работаете с нейросетями, особенно с трансформерами, то, скорее всего, сталкивались с реализациями self-attention, переполненными циклами. Однако благодаря np.einsum можно выразить всю механику multi-head attention в компактной и векторизованной форме.

Вот пример реализации:

def multi_head_attention(X, W_q, W_k, W_v, W_o):  
    d_k = W_k.shape[-1]  
    Q = np.einsum('si,hij->hsj', X, W_q)  # (n_heads, seq_len, d_k)
    K = np.einsum('si,hik->hsk', X, W_k)  
    V = np.einsum('si,hiv->hsv', X, W_v)  
    scores = Q @ K.transpose(0, 2, 1) / np.sqrt(d_k)  
    weights = softmax(scores, axis=-1)
    output = weights @ V  
    projected = np.einsum('hsv,hvd->hsd', output, W_o)  
    return projected.transpose(1, 0, 2).reshape(seq_len, -1)

💡 einsum — мощный инструмент для выражения сложных операций с многомерными массивами. Особенно полезен, когда нужно точно контролировать свёртки и трансформации осей. В задачах NLP и computer vision это буквально незаменимая вещь.

📌 Почему стоит обратить внимание:
— Полная векторизация — минимум циклов, максимум скорости;
— Код ближе к математике, а значит — легче проверять;
— Можно выразить довольно сложные операции с тензорами в одной строке.

Библиотека дата-сайентиста #буст

👍6❤4🔥1

2K views08:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎯 ТОП-5 структур данных для обработки изображений
⠀
Как компьютеры «видят» изображения?
Какие структуры помогают выделять объекты, экономить память и ускорять алгоритмы?
⠀
В этом посте — ключевые структуры, без которых не обойтись в компьютерном зрении:
🔹 Матрицы
🔹 Цепи
🔹 Графы
🔹 Пирамиды
🔹 Квадродеревья
⠀
✅ Понятные примеры, плюсы и минусы, где применяются — всё на карточках.

Если хотите узнать больше — полная статья по ссылке: https://proglib.io/sh/nitr6FEIjR

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2🔥1

1.86K views17:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

Складывается такое ощущение... 🤔

Библиотека дата-сайентиста #развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁7💯2

1.83K views10:17

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Холивар: scikit-learn — мастодонт ML или пора переходить на что-то посвежее?

🎓 С одной стороны — стабильный и понятный scikit-learn:
• простота API,
• огромная документация,
• идеально подходит для обучения и базовых ML-пайплайнов.

💥 Но многие говорят: «Он уже не тянет продакшн»:
• нет GPU,
• нет удобной работы с пайплайнами в стиле TensorFlow/PyTorch,
• нет AutoML по умолчанию.

И начинают смотреть в сторону LightGBM, XGBoost, CatBoost, PyCaret, H2O, или даже Spark ML.

👀 А кто-то вообще считает, что Scikit-learn — это «велосипед прошлого десятилетия».

Делитесь своим стеком — кто чем пользуется в 2025?
Давайте обсужим в комментариях!

⤵️

Инструкция о том, как оставить комментарий: https://t.me/dsproglib/6244

❤️ — Scikit-learn forever: надёжный, понятный, любимый
👍 — Уже давно перешёл на градиентный бустинг и AutoML
🔥 — Я вообще на PyTorch/TensorFlow, мне склерн не нужен
🤔 — Использую всё понемногу, зависит от задачи

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔35🔥16👍4❤3

1.94K views12:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости из мира AI и Data Science

🔥 Модели, релизы и технологии:
— Codex от OpenAI — облачный инженерный агент, который пишет код сам
— Claude 4 — новая версия от Anthropic, лидер по качеству кода
— Google I/O 2025 — анонсы по «разумному» AI: умнее, персональнее, агентнее

🧠 Статьи, исследования и лучшие практики:
— Мысль не словами, а образами — модель от Google и Кембриджа, меняющая подход к мышлению
— ML-чемпионы: код, железо, стратегия — как побеждают на соревнованиях
— «Что у меня за распределение?» — пошаговый гайд от Tinkoff
— Теневая сторона AutoML — когда no-code мешает

📘 Обучение и развитие:
— To Docker or not to Docker? — как разворачивать JupyterLab правильно
— Scikit-learn 2025 — пайплайны, которые не ломаются
— Я не люблю NumPy — честный разбор альтернатив
— Когда стоит подключать ML? — чтобы не переплатить за автоматизацию

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2🔥1

2.02K views13:56

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

👍1

1.9K views07:35

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

❤2

299 voters1.9K views07:35

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍💻

Топ-вакансий для дата-сайентистов за неделю

Аналитик-разработчик (AliceGPT) —‍ от 300 000 до 450 000 ₽, гибрид (Москва)

Дата Саентист (Data Scientist), офис (Москва)

Data-инженер (команда Data Lake), офис (Москва)

Data Scientist, удалёнка

Инженер по машинному обучению —‍ от 250 000 ₽, удалёнка

Data Analyst —‍ от 80 000 до 100 000 ₽, удалёнка

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2

2K viewsedited 11:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🇦🇪 UAE делает ставку на ИИ — и открывает доступ к ChatGPT Plus для всех

Объединённые Арабские Эмираты стали первой страной в мире, предоставившей бесплатный доступ к ChatGPT Plus всем жителям и гражданам.

Это часть масштабной инициативы Stargate UAE, цель которой — создать крупнейший в мире ИИ-суперкомпьютерный кластер, поддерживаемый такими гигантами, как:

➡️ OpenAI
➡️ Oracle
➡️ Nvidia
➡️ SoftBank
➡️ Cisco
➡️ G42

Кроме того, в Абу-Даби начнётся строительство ИИ-кампуса мощностью 5 гигаватт — самого большого за пределами США. Его мощности хватит для «обслуживания» целого американского штата.

📣 В США мнения разделились: одни считают, что ИИ-экспансия за рубежом несёт риски, другие — что это стратегический шаг в глобальном соперничестве с Китаем.

👉 Подробности: https://clc.to/wN4d5Q

💬 Вы бы пользовались ChatGPT Plus, если доступ был бесплатным?
За что, по-вашему, стоит платить в подписке Plus — и стоит ли вообще?

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10🔥4👍1🎉1

2.23K viewsedited 19:18

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👍

Инструмент недели: `torchao` — лёгкое квантование и оптимизация PyTorch-моделей

`torchao` — это новая экспериментальная библиотека от команды PyTorch, разработанная для простого применения квантования, разреживания и других оптимизаций к нейросетевым моделям.

Основные возможности:

📍

`autoquant` — автоматическое квантование модели по слоям, без ручной настройки
📍 поддержка INT8 квантования, совместимого с torch.ao.quantization
📍 интеграция с PyTorch 2.x (использует torch.compile, dynamo, inductor)
📍 поддержка разреживания (sparsity), структурных трансформаций
📍 работа с предварительно обученными моделями — ResNet, MobileNet, Llama и др
📍 возможность применения на CPU/GPU, включая ускорение inference в ONNX и TorchScript

Если вы хотите:
📍 ускорить инференс без потери качества
📍 уменьшить размер модели для edge-устройств или мобильных приложений
📍 минимизировать latency для real-time задач
📍 подготовить модели к выводу на продакшн с минимальным инженерным оверхедом

то torchao может стать отличной альтернативой более сложным инструментам квантования.

Пример использования:

from torchao.quant import autoquant

# Загружаем обученную модель
model = torchvision.models.resnet18(pretrained=True).eval()

# Применяем автоматическое квантование
model = autoquant(model)

🔴

Подробнее на GitHub: https://clc.to/XUsE5g

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤4❤‍🔥1🔥1

1.83K views06:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😳 Почему дата-сайентисты застревают на уровне «делаю отчеты и строю модельки»

Проблема большинства спецов: вы отлично знаете pandas, sklearn и даже можете настроить нейронку. Но когда дело доходит до создания автономных систем, которые принимают решения без человека — тупик.

При этом большинство курсов по ИИ либо для программистов (и там про API больше, чем про данные), либо академические (теория без практики).

🔥Поэтому мы запускаем курс «AI-агенты для DS-специалистов»

🧐 Что будет на курсе:
— Рассмотрим реализацию памяти в цепочках langchain и создадим пару простых агентов.
— Соберем полный пайплайн RAG-системы с оценкой качества.
— Изучим основные понятия мультиагентных систем (MAS) и библиотеки для их построения.
— Рассмотрим протокол MCP и фреймворк FastMCP, создадим end-to-end приложение.

🎁 В честь запуска курса мы дарим промокод PROGLIBAI на 10 000 ₽ на два других обучения:
— Математика для Data Science
— Алгоритмы и структуры данных

После этих курсов вы перестанете быть «тем, кто делает отчеты» и станете архитектором умных систем. А это совсем другой уровень зарплаты и востребованности.

👉 Успейте использовать промокод и забрать новый курс по приятной цене до 1 июня: https://clc.to/Cttu7A

👍3❤2

1.78K views12:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔍 ML после релиза: почему модель может сломаться — и как это вовремя заметить

Внедрили модель, подтвердили гипотезу, получили эффект — работа сделана? Увы, нет.

После деплоя начинается настоящее испытание:
— данные меняются,
— поведение пользователей эволюционирует,
— а ваша модель может незаметно терять эффективность.

📌 Must-read для тех, кто работает с ML в продакшене и хочет, чтобы решения были устойчивыми, а не разовыми.

👉 Читайте, делитесь и не забывайте наблюдать за своими моделями: https://proglib.io/sh/fjpFLVWn8Z

Библиотека дата-сайентиста

❤4👍4🔥1

1.87K views17:52

About

Blog

Apps

Platform