🏗 Строим нейросети по законам физики
В мире глубокого обучения происходит тихая революция: мы переходим от моделей-«черных ящиков» к системам, которые понимают законы природы.
Вышла обновленная версия книги Physics-based Deep Learning.
Внутри книги вы найдете:
🦾 Дифференцируемые симуляции: когда сама физическая среда помогает нейросети учиться быстрее.
🌊 Физические функции потерь: вы узнаете, как «штрафовать» модель, если её предсказания нарушают закон сохранения массы или энергии.
✨ GenAI в науке: использование диффузионных моделей для генерации сверхточных физических сценариев (от погоды до турбулентности).
🧠 Foundation Models: фундамент для следующего поколения научных открытий.
Авторы сделали упор на формат hands-on: каждая концепция сопровождается интерактивными ноутбуками Jupyter.
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
В мире глубокого обучения происходит тихая революция: мы переходим от моделей-«черных ящиков» к системам, которые понимают законы природы.
Вышла обновленная версия книги Physics-based Deep Learning.
Внутри книги вы найдете:
🦾 Дифференцируемые симуляции: когда сама физическая среда помогает нейросети учиться быстрее.
🌊 Физические функции потерь: вы узнаете, как «штрафовать» модель, если её предсказания нарушают закон сохранения массы или энергии.
✨ GenAI в науке: использование диффузионных моделей для генерации сверхточных физических сценариев (от погоды до турбулентности).
🧠 Foundation Models: фундамент для следующего поколения научных открытий.
Авторы сделали упор на формат hands-on: каждая концепция сопровождается интерактивными ноутбуками Jupyter.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5😢2🤩1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁19😢4👍2❤1🎉1
📄 Docling — мощный инструмент для разбора документов под задачи Data Science
Если вы работаете с RAG, LLM, извлечением данных или документными пайплайнами, Docling — это как «универсальный загрузчик» для неструктурированных данных.
Он не просто конвертирует файлы — он понимает структуру документов.
Работает «plug-and-play» с:
— LangChain
— LlamaIndex
— Haystack
— CrewAI
Плюс есть MCP-сервер, чтобы подключать Docling к агентам.
⚙ Есть CLI, быстрый старт и примеры под реальные кейсы.
🔗 Ссылка на проект
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
Если вы работаете с RAG, LLM, извлечением данных или документными пайплайнами, Docling — это как «универсальный загрузчик» для неструктурированных данных.
Он не просто конвертирует файлы — он понимает структуру документов.
Работает «plug-and-play» с:
— LangChain
— LlamaIndex
— Haystack
— CrewAI
Плюс есть MCP-сервер, чтобы подключать Docling к агентам.
⚙ Есть CLI, быстрый старт и примеры под реальные кейсы.
🔗 Ссылка на проект
📍 Навигация: Вакансии • Задачи • Собесы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1🙏1
Шпаргалка.jpeg
304.9 KB
📈 Шпаргалка по методам регрессии
Краткий обзор популярных методов регрессии, их целевых функций и того, что именно они аппроксимируют.
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
Краткий обзор популярных методов регрессии, их целевых функций и того, что именно они аппроксимируют.
📍 Навигация: Вакансии • Задачи • Собесы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3🔥1🎉1
🤖 Могут ли LLM корректно переводить Polars в SQL
SQL остается стандартом индустрии, но многие из нас (и я в том числе) предпочитают Polars или Pandas за их «человечный» синтаксис.
Казалось бы, в 2026 году можно просто скормить Polars-код нейронке и получить идеальный SQL.
Но не всё так просто. Свежие тесты топовых моделей (GPT-5.1, DeepSeek, Qwen) показали, что они спотыкаются там, где мы меньше всего ждем.
Нейросети отлично выучили синтаксис, но они всё ещё путаются в семантике — то есть в том, как именно работают функции «под капотом».
Вот два классических примера, где LLM стабильно ошибаются:
🔛 n_unique() и NULL:
В Polars этот метод по умолчанию считает
Но когда LLM переводит это в SQL (`COUNT(DISTINCT column)`), пропуски просто игнорируются.
Итог: ваша статистика поплыла, а вы об этом даже не узнали.
🔛 Ранжирование (rank):
При работе с
Нейросети же часто генерируют SQL, который выкидывает пропуски в конец списка.
Есть два пути решения:
✔️ Prompt Engineering: Если вы всё же используете LLM, в промпт нужно зашивать «шпаргалку» по нюансам (например: "Remember, Polars counts nulls in n_unique"). Тогда модели исправляются.
✔️ Библиотека Narwhals: Это open-source слой совместимости. Он переводит код Polars в SQL (через DuckDB) детерминировано. Никаких галлюцинаций — только сухая логика алгоритмов.
🔗 Ссылка на пруфы-эксперементы
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
SQL остается стандартом индустрии, но многие из нас (и я в том числе) предпочитают Polars или Pandas за их «человечный» синтаксис.
Казалось бы, в 2026 году можно просто скормить Polars-код нейронке и получить идеальный SQL.
Но не всё так просто. Свежие тесты топовых моделей (GPT-5.1, DeepSeek, Qwen) показали, что они спотыкаются там, где мы меньше всего ждем.
Нейросети отлично выучили синтаксис, но они всё ещё путаются в семантике — то есть в том, как именно работают функции «под капотом».
Вот два классических примера, где LLM стабильно ошибаются:
В Polars этот метод по умолчанию считает
NULL как отдельное уникальное значение. Но когда LLM переводит это в SQL (`COUNT(DISTINCT column)`), пропуски просто игнорируются.
Итог: ваша статистика поплыла, а вы об этом даже не узнали.
При работе с
rank('dense') Polars сохраняет NULL на своих местах. Нейросети же часто генерируют SQL, который выкидывает пропуски в конец списка.
Есть два пути решения:
🔗 Ссылка на пруфы-эксперементы
📍 Навигация: Вакансии • Задачи • Собесы
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍2🙏1
Шпаргалка.jpeg
166 KB
📊 Как выбрать метод статанализа и не сойти с ума
Чтобы вы больше не мучились вопросом «А тут точно нужна регрессия?», мы подготовили для вас удобный алгоритм.
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
Чтобы вы больше не мучились вопросом «А тут точно нужна регрессия?», мы подготовили для вас удобный алгоритм.
📍 Навигация: Вакансии • Задачи • Собесы
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍5🔥2🎉1
Probability for Data Science.pdf
18.4 MB
📖 Книга: Probability for Data Science
Прикладной гид по теории вероятностей для тех, кто хочет понимать математику «под капотом» ML-моделей.
🦾 Никакой лишней воды: только база распределений, Байес и статистика, необходимые для осознанной работы с данными.
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
Прикладной гид по теории вероятностей для тех, кто хочет понимать математику «под капотом» ML-моделей.
🦾 Никакой лишней воды: только база распределений, Байес и статистика, необходимые для осознанной работы с данными.
📍 Навигация: Вакансии • Задачи • Собесы
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍2😢1
🏗 Agentic RAG — это не чат-бот, это операционная система
В продакшене Agentic RAG больше похож на операционную систему. И вот почему:
1️⃣ Всё держится на «грязной» работе (Data Extraction & Embeddings)
Если вы криво распарсили PDF-ку или сэкономили на модели эмбеддингов — забудьте про результат. Агент будет просто «галлюцинировать на основе мусора».
2️⃣ Память — это не только история чата
Короткая память нужна, чтобы не терять нить задачи в моменте.
Долгая память — чтобы агент не наступал на одни и те же грабли дважды и помнил контекст ваших прошлых факапов.
3️⃣ Мозги vs Система (LLM & Framework)
LLM — это просто «движок рассуждений». Она умеет планировать, но не умеет управлять.
Фреймворк же берет на себя всю рутину: логику циклов, роутинг по инструментам и обработку ошибок. Без нормального фреймворка ваш код быстро превратится в нечитаемое спагетти.
4️⃣ Контроль качества (Evaluation & Alignment)
Тут обычно срезают углы, а зря:
Эвалюация: если вы не замеряете точность поиска и уровень галлюцинаций в цифрах — вы не контролируете систему. Она будет деградировать тихо и незаметно.
Алаймент: это «предохранители». Они нужны, чтобы агент в порыве инициативы не наговорил лишнего и не вышел за рамки бизнес-логики.
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
В продакшене Agentic RAG больше похож на операционную систему. И вот почему:
Если вы криво распарсили PDF-ку или сэкономили на модели эмбеддингов — забудьте про результат. Агент будет просто «галлюцинировать на основе мусора».
Короткая память нужна, чтобы не терять нить задачи в моменте.
Долгая память — чтобы агент не наступал на одни и те же грабли дважды и помнил контекст ваших прошлых факапов.
LLM — это просто «движок рассуждений». Она умеет планировать, но не умеет управлять.
Фреймворк же берет на себя всю рутину: логику циклов, роутинг по инструментам и обработку ошибок. Без нормального фреймворка ваш код быстро превратится в нечитаемое спагетти.
Тут обычно срезают углы, а зря:
Эвалюация: если вы не замеряете точность поиска и уровень галлюцинаций в цифрах — вы не контролируете систему. Она будет деградировать тихо и незаметно.
Алаймент: это «предохранители». Они нужны, чтобы агент в порыве инициативы не наговорил лишнего и не вышел за рамки бизнес-логики.
📍 Навигация: Вакансии • Задачи • Собесы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3🎉2🙏1🥱1
Курс «Разработка ИИ-агентов»: RAG, графы и продакшн
Обучение модели — это половина дела. Вторая половина — заставить её взаимодействовать с внешним миром и инструментами. Курс уже начался, но вы успеваете впрыгнуть в последний вагон.
Мы разбираем не тюнинг весов, а построение агентных систем и пайплайнов вокруг LLM.
В программе:
— продвинутый
— оркестрация агентов через
— мониторинг метрик и отладка через
— реализация мультиагентных паттернов
База Python и опыт работы с данными у вас уже есть, так что порог входа будет комфортным.
Записаться на курс
Смотреть первую лекцию
Обучение модели — это половина дела. Вторая половина — заставить её взаимодействовать с внешним миром и инструментами. Курс уже начался, но вы успеваете впрыгнуть в последний вагон.
Мы разбираем не тюнинг весов, а построение агентных систем и пайплайнов вокруг LLM.
В программе:
— продвинутый
RAG: интеграция с векторными БД и оптимизация поиска;— оркестрация агентов через
LangGraph и AutoGen;— мониторинг метрик и отладка через
AgentOps;— реализация мультиагентных паттернов
Map-Reduce и иерархических команд.База Python и опыт работы с данными у вас уже есть, так что порог входа будет комфортным.
Записаться на курс
Смотреть первую лекцию
🔥2😁1😢1
💾 Отличный репозиторий, где собраны Google Colab ноутбуки с реализацией всех классических алгоритмов ML с абсолютного нуля.
🔗 Github
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
🔗 Github
📍 Навигация: Вакансии • Задачи • Собесы
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍4🤩4🔥1🥰1🙏1
RAG и Fine-tuning — это база. А как насчёт Agentic Workflow?
В Data Science стеке 2026 года умение строить автономных агентов стало обязательным хард-скиллом. Просто дообучить модель уже недостаточно — нужно заставить её взаимодействовать с внешним миром.
На вебинаре со студентами мы разбирали реальные боли продакшна: как валидировать действия агентов, интегрировать векторные БД в высоконагруженные системы и избегать зацикливания логики. Это разбор кейсов, с которыми вы сталкиваетесь в работе прямо сейчас.
Технический стек курса:
— Архитектура:
— Инструменты:
— Векторные БД:
— AgentOps: трассировка и мониторинг метрик.
Перейти к программе курса
В Data Science стеке 2026 года умение строить автономных агентов стало обязательным хард-скиллом. Просто дообучить модель уже недостаточно — нужно заставить её взаимодействовать с внешним миром.
На вебинаре со студентами мы разбирали реальные боли продакшна: как валидировать действия агентов, интегрировать векторные БД в высоконагруженные системы и избегать зацикливания логики. Это разбор кейсов, с которыми вы сталкиваетесь в работе прямо сейчас.
Технический стек курса:
— Архитектура:
ReAct, Plan-and-Execute, Advanced RAG.— Инструменты:
LangChain, LlamaIndex, LangGraph.— Векторные БД:
ChromaDB, Milvus/FAISS.— AgentOps: трассировка и мониторинг метрик.
Перейти к программе курса
🔥2
Please open Telegram to view this post
VIEW IN TELEGRAM
😁10🔥3👍1🥰1🎉1
Voxtral Transcribe 2 от Mistral
Новая версия STT-модели с задержкой меньше 200 мс и open-weight релизом для realtime-версии.
GPT-5.3-Codex
OpenAI расширяет линейку Codex в сторону «агентного» кодинга — модель заточена под длительные рабочие цепочки, рефакторинги и реальную работу с компьютером, а не генерацию функций на 20 строк.
Q, K, V — разбор матриц внимания
Хороший материал, который по attention.
Исследование рынка ESB-решений 2025
Сравнение 20+ ESB/iPaaS-платформ — от Apache Camel и Kafka до отечественных проприетарных решений.
Математические основы RNN — неудобные вопросы
Разбор рекуррентных сетей: что на самом деле происходит, где ограничения и почему всё так сложно с долгосрочной памятью.
AI-ассистент на бесплатном CPU (Qwen2.5 + Gradio + HF Spaces)
Практический гайд по запуску AI-приложения без GPU и бюджета.
MLOps — дитя DevOps и ML
Хорошее объяснение, почему «обучили модель» — это только начало. Про пайплайны, мониторинг и всё то, что делает ML системой.
💼 Вакансии
ML-аналитик (Дзен) — от 230 000 до 350 000 ₽, гибрид (Москва)
Data архитектор — от 280 000 ₽, удалёнка
GIS Data Analyst — от 3 000 €, удалёнка
📍 Навигация: Вакансии • Задачи • Собесы
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🔥2😢1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎰 Contextual Multi-Armed Bandits — это «чит-код» для рекомендаций в реальном времени
В отличие от классического ML, этот алгоритм учится на лету, балансируя между проверкой новых идей и показом проверенного контента.
В первой части статьи — прототип на Python: симулируем поведение юзеров и настраиваем логику обучения, чтобы победить проблему «холодного старта».
🔗 Читать статью: https://clc.to/rP20Lg
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
В отличие от классического ML, этот алгоритм учится на лету, балансируя между проверкой новых идей и показом проверенного контента.
В первой части статьи — прототип на Python: симулируем поведение юзеров и настраиваем логику обучения, чтобы победить проблему «холодного старта».
🔗 Читать статью: https://clc.to/rP20Lg
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍4🥰2
handout-tips.pdf
74.3 KB
🔥 Matplotlib Cheatsheets — набор шпаргалок
Внутри всё: от анатомии графика до настройки цветовых палитр и сложных 3D-проекций.
Разложено по уровням — от новичка до профи.
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Внутри всё: от анатомии графика до настройки цветовых палитр и сложных 3D-проекций.
Разложено по уровням — от новичка до профи.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🎉3🙏3👍2🥰1😢1
🤖 RoboVerse: Единая ОС для обучения роботов
Если вы занимаетесь Robot Learning, то знаете, какая это боль: один симулятор не дружит с другим, а перенос навыков с одного робота на другого требует переписывания половины кода.
RoboVerse — это новая опенсорсная экосистема, которая объединяет разные симуляторы и типы роботов под одним капотом.
🔗 Github
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Если вы занимаетесь Robot Learning, то знаете, какая это боль: один симулятор не дружит с другим, а перенос навыков с одного робота на другого требует переписывания половины кода.
RoboVerse — это новая опенсорсная экосистема, которая объединяет разные симуляторы и типы роботов под одним капотом.
🔗 Github
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1
🚀 Как ускорить NumPy: комбо из Numba и параллелизма
Стандартный код
Решение №1: Параллелизм (ThreadPool)
Разбиваем массив на чанки и обрабатываем в потоках. Это не только ускоряет процесс, но и в разы снижает потребление памяти, так как временные объекты создаются только для маленьких кусочков данных.
Решение №2: Numba (JIT-компиляция)
Numba превращает Python-код в машинный. Главный плюс — мы считаем всё в один проход (циклом), не создавая промежуточных массивов вообще.
⚠️ Важный нюанс про Numba `prange`
В Numba есть встроенный
🔗 Источник: https://clc.to/ZWhF6g
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Стандартный код
np.sum((a - b)**2) создает временные массивы в памяти для каждой операции. На больших данных это убивает кэш процессора.Решение №1: Параллелизм (ThreadPool)
Разбиваем массив на чанки и обрабатываем в потоках. Это не только ускоряет процесс, но и в разы снижает потребление памяти, так как временные объекты создаются только для маленьких кусочков данных.
from concurrent.futures import ThreadPoolExecutor
import numpy as np
POOL = ThreadPoolExecutor(max_workers=8)
def parallel_squared_diff(a, b):
chunks_a = np.array_split(a, 8)
chunks_b = np.array_split(b, 8)
# Считаем кусочки параллельно и суммируем
return sum(POOL.map(lambda ca, cb: np.sum((ca - cb)**2), chunks_a, chunks_b))
Решение №2: Numba (JIT-компиляция)
Numba превращает Python-код в машинный. Главный плюс — мы считаем всё в один проход (циклом), не создавая промежуточных массивов вообще.
from numba import jit
@jit(nogil=True)
def numba_squared_diff(a, b):
res = 0
for i in range(len(a)):
res += (a[i] - b[i]) ** 2
return res
⚠️ Важный нюанс про Numba `prange`
В Numba есть встроенный
parallel=True, но лучше его не использовать. Он часто ловит race conditions и выдает неверные результаты без всяких ошибок. Безопаснее запускать обычный @jit внутри своего ThreadPoolExecutor.🔗 Источник: https://clc.to/ZWhF6g
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍4🤩1🙏1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁14❤4
ML_cheatsheets.pdf
7.6 MB
🗂 Большая подборка шпаргалок по ML и DS
Делимся базой шпаргалок, которые закрывают 90% вопросов в жизни дата-сайентиста.
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Делимся базой шпаргалок, которые закрывают 90% вопросов в жизни дата-сайентиста.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3🔥1🎉1