Forwarded from Библиотека собеса по Data Science | вопросы с собеседований
Что такое токен в NLP и какие существуют методы токенизации
🔹 Токен —это наименьшая единица текста, которая может быть словом, подсловом (например, «un-», «friend») или знаком препинания.
🔹 Популярные методы токенизации:
1. Токенизация на уровне слов — делит текст на отдельные слова.
2. Токенизация на уровне подслов — разбивает слова на более мелкие единицы (например, BPE, WordPiece).
3. Токенизация на уровне символов — превращает текст в последовательность отдельных символов.
⚡ Выбор метода зависит от задачи:для морфологически сложных языков часто используют подсловную токенизацию, а для обработки именованных сущностей — посимвольную.
Библиотека собеса по Data Science
🔹 Токен —
🔹 Популярные методы токенизации:
⚡ Выбор метода зависит от задачи:
Библиотека собеса по Data Science
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Что выведет код?
Anonymous Quiz
15%
[[0, 1, 2, 3, 4, 5, 6, 7, 8]]
26%
[0, 1, 2, 3, 4, 5, 6, 7, 8]
29%
[0, 3, 6, 1, 4, 7, 2, 5, 8]
30%
None of the above
Кем является разработчик в 2025 году? Свежий анализ IT-сферы: зарплаты, востребованные технологии, специализации и демография специалистов.
Библиотека дата-сайентиста #Свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄 Изменения в схеме данных: как избежать проблем для дата-команд
Мы рассмотрим четыре стратегии адаптации к изменениям и их возможные комбинации.
1. Встречи — самый простой подход
📌 Только коммуникация: команды источника данных и аналитики заранее обсуждают изменения, согласовывают сроки и схему данных перед внесением изменений в исходные наборы данных.
▪️ Плюсы:
— Самый простой подход
— Документирование в Confluence, Google Docs и т. д.
— Договоренность между командами
▪️ Минусы:
— Подвержен ошибкам
— Встречи замедляют процесс разработки
— Невозможно учесть все нюансы данных
🎯 Как реализовать:
— Фиксируйте договоренности в Confluence или Google Docs
— Включайте конкретные задачи и шаги для реализации изменений
2. Источник просто сбрасывает данные, а дата-команда разбирается
📌 Dump & Forget: команда источника просто выгружает данные, а дата-команда работает с тем, что получает. Этот метод наиболее распространен в индустрии.
▪️Плюсы:
— Самый удобный способ для команды источника
— Позволяет источнику работать быстро
— Достаточно для большинства бизнес-кейсов
▪️Минусы:
— Дата-команда постоянно догоняет изменения
— Плохие данные, сбои конвейеров и технический долг
— Дата-команда теряет концептуальное понимание данных
🎯 Как реализовать:
— Используйте Apache Iceberg и Spark’s mergeSchema
— Для инструментов типа dbt включайте on_schema_change
3. Дата-команда участвует в ревью изменений схемы данных
📌 Upstream Review: дата-команда участвует в моделировании данных источником. Как правило, дата-команды более внимательно относятся к проработке моделей данных.
▪️Плюсы:
— Предотвращает появление плохих данных
— Обеспечивает качественную схему данных
— Улучшает понимание данных между командами
▪️Минусы:
— Замедляет работу команды источника
— Не позволяет предотвратить агрегированные ошибки (например, несоответствие средней выручки за разные дни)
🎯 Как реализовать:
— Ускорьте процесс с помощью data contracts
— Используйте CODEOWNERS в GitHub, чтобы дата-команды участвовали в ревью
4. Валидация входных данных перед обработкой
📌 Input Validation: дата-команда проверяет входные данные перед их использованием. Если обнаруживается проблема, необходимо взаимодействовать с командой источника, чтобы исправить данные и повторно их обработать.
▪️ Плюсы:
— Быстрое обнаружение проблем
— Автоматизация отладки ошибок и уведомление команды источника
▪️ Минусы:
— Необходимо согласовывать проверки данных между командами
— Множественные проверки увеличивают время обработки данных
🎯 Как реализовать:
— Используйте любой инструмент контроля качества данных
— В потоковых системах применяйте DLQ (Dead Letter Queue) и реконсиляционные паттерны
Библиотека дата-сайентиста #буст
Мы рассмотрим четыре стратегии адаптации к изменениям и их возможные комбинации.
1. Встречи — самый простой подход
📌 Только коммуникация: команды источника данных и аналитики заранее обсуждают изменения, согласовывают сроки и схему данных перед внесением изменений в исходные наборы данных.
▪️ Плюсы:
— Самый простой подход
— Документирование в Confluence, Google Docs и т. д.
— Договоренность между командами
▪️ Минусы:
— Подвержен ошибкам
— Встречи замедляют процесс разработки
— Невозможно учесть все нюансы данных
🎯 Как реализовать:
— Фиксируйте договоренности в Confluence или Google Docs
— Включайте конкретные задачи и шаги для реализации изменений
2. Источник просто сбрасывает данные, а дата-команда разбирается
📌 Dump & Forget: команда источника просто выгружает данные, а дата-команда работает с тем, что получает. Этот метод наиболее распространен в индустрии.
▪️Плюсы:
— Самый удобный способ для команды источника
— Позволяет источнику работать быстро
— Достаточно для большинства бизнес-кейсов
▪️Минусы:
— Дата-команда постоянно догоняет изменения
— Плохие данные, сбои конвейеров и технический долг
— Дата-команда теряет концептуальное понимание данных
🎯 Как реализовать:
— Используйте Apache Iceberg и Spark’s mergeSchema
— Для инструментов типа dbt включайте on_schema_change
3. Дата-команда участвует в ревью изменений схемы данных
📌 Upstream Review: дата-команда участвует в моделировании данных источником. Как правило, дата-команды более внимательно относятся к проработке моделей данных.
▪️Плюсы:
— Предотвращает появление плохих данных
— Обеспечивает качественную схему данных
— Улучшает понимание данных между командами
▪️Минусы:
— Замедляет работу команды источника
— Не позволяет предотвратить агрегированные ошибки (например, несоответствие средней выручки за разные дни)
🎯 Как реализовать:
— Ускорьте процесс с помощью data contracts
— Используйте CODEOWNERS в GitHub, чтобы дата-команды участвовали в ревью
4. Валидация входных данных перед обработкой
📌 Input Validation: дата-команда проверяет входные данные перед их использованием. Если обнаруживается проблема, необходимо взаимодействовать с командой источника, чтобы исправить данные и повторно их обработать.
▪️ Плюсы:
— Быстрое обнаружение проблем
— Автоматизация отладки ошибок и уведомление команды источника
▪️ Минусы:
— Необходимо согласовывать проверки данных между командами
— Множественные проверки увеличивают время обработки данных
🎯 Как реализовать:
— Используйте любой инструмент контроля качества данных
— В потоковых системах применяйте DLQ (Dead Letter Queue) и реконсиляционные паттерны
Библиотека дата-сайентиста #буст
Готовишься к интервью? Мы собрали 10 каверзных вопросов, которые любят задавать тимлиды. Здесь нет банальных задач — только те, на которых спотыкаются 80% кандидатов. Проверь себя и узнай, готов ли ты к следующему собесу!
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
Зимний режим OFF. Весна начинается с апгрейда.
Если чувствуешь, что за зиму навыки подзастыли — пора их разморозить.
📦 Включили весеннюю распродажу: скидка –35% на курсы до конца марта.
Выбирай направление и выходи из спячки:
— Алгоритмы и структуры данных — чтобы собеседования в Яндекс, Ozon и другие были как уровень easy
— Математика для Data Science — для тех, кто не хочет просто «жать на кнопки», а понимать, что под капотом
— Архитектуры и шаблоны — если хочется мыслить как senior и прокачать системное мышление
— Python, Frontend, основы IT — для тех, кто стартует путь в разработке
👾 Proglib Academy — это как старая добрая 8-битная игра, но вместо врагов — практические задачи и собеседования.
Мы просто упаковали сложное обучение в пиксельную обёртку, чтобы тебе было чуть веселее прокачиваться.
🧠 Отогревай мозги, прокачивай скиллы и хватай свой power-up до конца марта.
👉 Выбрать курс
Если чувствуешь, что за зиму навыки подзастыли — пора их разморозить.
📦 Включили весеннюю распродажу: скидка –35% на курсы до конца марта.
Выбирай направление и выходи из спячки:
— Алгоритмы и структуры данных — чтобы собеседования в Яндекс, Ozon и другие были как уровень easy
— Математика для Data Science — для тех, кто не хочет просто «жать на кнопки», а понимать, что под капотом
— Архитектуры и шаблоны — если хочется мыслить как senior и прокачать системное мышление
— Python, Frontend, основы IT — для тех, кто стартует путь в разработке
👾 Proglib Academy — это как старая добрая 8-битная игра, но вместо врагов — практические задачи и собеседования.
Мы просто упаковали сложное обучение в пиксельную обёртку, чтобы тебе было чуть веселее прокачиваться.
🧠 Отогревай мозги, прокачивай скиллы и хватай свой power-up до конца марта.
👉 Выбрать курс
Forwarded from Библиотека шарписта | C#, F#, .NET, ASP.NET
💾 Как выбрать стратегию кэширования: разбор 7 популярных алгоритмов
Кешировать нужно с умом. И нет, LRU — не серебряная пуля.
В статье вас ждёт разбор алгоритмов: LRU, LFU, FIFO и другие
– Примеры, где каждый работает лучше
– Плюсы и минусы подходов
– Практические советы по выбору стратегии
Если проектируете систему с большими нагрузками или оптимизируете производительность — материал будет как раз.
➡️ Читать статью
🐸 Библиотека шарписта
Кешировать нужно с умом. И нет, LRU — не серебряная пуля.
В статье вас ждёт разбор алгоритмов: LRU, LFU, FIFO и другие
– Примеры, где каждый работает лучше
– Плюсы и минусы подходов
– Практические советы по выбору стратегии
Если проектируете систему с большими нагрузками или оптимизируете производительность — материал будет как раз.
Please open Telegram to view this post
VIEW IN TELEGRAM
Иначе как объяснить, что все релизы случились вчера?
1. OpenAI обновили GPT-4o — теперь нейросеть не только распознаёт изображения, но и может редактировать их по любому запросу.
🌳 «Свежие зелёные луга» теперь в каждом районе страны...
2. DeepSeek V3 обновился, обогнав на бенчмарках все нерезонящие модели, включая GPT-4.5.
3. Gemini 2.5 Pro рванул вперёд, взяв лидерство почти во всём.
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
⭐ Инструмент недели: Shapash
Shapash — это библиотека для Python, предназначенная для интерпретируемого и понятного машинного обучения. Она предлагает различные визуализации с четкими и понятными метками, которые легко воспринимаются как специалистами по данным, так и пользователями без технического бэкграунда.
▪️ Что умеет Shapash?
— Генерирует Web-приложение для анализа взаимодействий между признаками модели.
— Позволяет переключаться между локальной и глобальной интерпретируемостью модели.
— Упрощает аудит моделей и данных, создавая подробные отчеты.
▪️ Shapash подходит для:
— Регрессии
— Бинарной классификации
— Мультиклассовой классификации
▪️ Совместим с моделями:
— CatBoost, XGBoost, LightGBM
— Sklearn Ensemble, линейные модели, SVM
— Другие модели также можно интегрировать (подробности в документации).
✔️ Ссылка на репозиторий: https://clc.to/Y1mkYA
Библиотека дата-сайентиста #буст
Shapash — это библиотека для Python, предназначенная для интерпретируемого и понятного машинного обучения. Она предлагает различные визуализации с четкими и понятными метками, которые легко воспринимаются как специалистами по данным, так и пользователями без технического бэкграунда.
▪️ Что умеет Shapash?
— Генерирует Web-приложение для анализа взаимодействий между признаками модели.
— Позволяет переключаться между локальной и глобальной интерпретируемостью модели.
— Упрощает аудит моделей и данных, создавая подробные отчеты.
▪️ Shapash подходит для:
— Регрессии
— Бинарной классификации
— Мультиклассовой классификации
▪️ Совместим с моделями:
— CatBoost, XGBoost, LightGBM
— Sklearn Ensemble, линейные модели, SVM
— Другие модели также можно интегрировать (подробности в документации).
✔️ Ссылка на репозиторий: https://clc.to/Y1mkYA
Библиотека дата-сайентиста #буст
☕ Что посмотреть: Fabric Espresso
Команда Microsoft Fabric запускает новую серию блог-постов о Data Science и Machine Learning в Microsoft Fabric.
За последние 1,5 года продакт-менеджеры выпустили 80+ эпизодов на YouTube, где:
▪️ разбирают фичи продукта,
▪️ делятся дорожной картой,
▪️ показывают реальные кейсы.
Теперь следить за новинками стало еще проще! Они начали публиковать тематические подборки эпизодов с ключевыми инсайтами и пояснениями.
📌 В фокусе этой недели: данные, модели, AutoML и возможности ML в Fabric.
🎥 Смотреть плейлист: https://clc.to/NAT8FQ
Библиотека дата-сайентиста #буст
Команда Microsoft Fabric запускает новую серию блог-постов о Data Science и Machine Learning в Microsoft Fabric.
За последние 1,5 года продакт-менеджеры выпустили 80+ эпизодов на YouTube, где:
▪️ разбирают фичи продукта,
▪️ делятся дорожной картой,
▪️ показывают реальные кейсы.
Теперь следить за новинками стало еще проще! Они начали публиковать тематические подборки эпизодов с ключевыми инсайтами и пояснениями.
📌 В фокусе этой недели: данные, модели, AutoML и возможности ML в Fabric.
🎥 Смотреть плейлист: https://clc.to/NAT8FQ
Библиотека дата-сайентиста #буст
Forwarded from Библиотека девопса | DevOps, SRE, Sysadmin
☸️ CKAD 2025. Самый свежий гайд по сдаче сертификации Certified Kubernetes Application Developer
CKAD стал более строгим к деталям — без системной подготовки можно завалить даже на банальных заданиях. Если хочется разобраться, что важно для получения сертификации — эта статья сэкономит часы.
➡️ Читать статью
🐸 Библиотека devops'a
CKAD стал более строгим к деталям — без системной подготовки можно завалить даже на банальных заданиях. Если хочется разобраться, что важно для получения сертификации — эта статья сэкономит часы.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня делимся вопросом от нашего подписчика, который уже 3,5 года работает Data Scientist, но хочет выйти на новый уровень и попасть в топовые компании.
Общаясь с опытными DS, я получил важный фидбэк по своему резюме:— У меня недостаточно опыта в NLP, Deep Learning и LLMs.— У меня нет проектов, которые демонстрируют эти навыки.— По оформлению резюме мнения сильно разнятся.
Теперь передо мной стоит вопрос: как эффективно прокачать эти навыки и повысить шансы на новую работу?
🔹 Как развить понимание NLP, DL и LLMs на уровне, достаточном для перехода в новую компанию?
🔹 Из-за разных форматов обучения (курсы, проекты и т. д.) ощущаю перегруз. Как организовать процесс, чтобы не распыляться?
🔹 Как объективно оценить свою подготовку перед собеседованием?
💡 Делитесь своими советами и личным опытом в комментариях!
P.S. Если хотите задать вопрос, заполните нашу гугл-форму. Это займет 5 минут.
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
aiopandas
— асинхронная магия для PandasТеперь обработка данных в Pandas может быть асинхронной!
aiopandas
— это лёгкий monkey-patch, который добавляет поддержку async в map
, apply
, applymap
, aggregate
и transform
. Это позволяет параллельно выполнять асинхронные функции без лишних сложностей. 🔺 Что умеет aiopandas?
— Поддерживает асинхронные функции без изменений в коде
— Управляет количеством параллельных задач через
max_parallel
— Встроенная обработка ошибок: можно прерывать, игнорировать или логировать
— Поддержка
tqdm
для отслеживания прогресса 🔺 Быстрый старт:
import aiopandas as pd # Monkey-патчим Pandas
import asyncio
df = pd.DataFrame({'x': range(10)})
async def f(x):
await asyncio.sleep(0.1 x) # Симуляция асинхронной задачи
return x 2 # Преобразование данных
df['y'] = await df.x.amap(f, max_parallel=5) # Асинхронный map
print(df)
🔺 Кому пригодится aiopandas?
— Запросы к API (LLMs, веб-скрапинг, базы данных)
— Ускорение работы с асинхронными задачами в Pandas
— Минимальные изменения кода:
.map()
→ .amap()
, .apply()
→ .aapply()
Ссылка на репозиторий aiopandas: https://clc.to/Pf_xow
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🎯 Устали от вопросов типа «Ну и что это значит для бизнеса?» после презентации отчетов?
Bullet-chart — мощный инструмент, который сразу показывает, насколько фактические показатели соответствуют целевым. В этой статье разберем, как правильно читать такой график и шаг за шагом создадим его в Power BI.
Готовы визуализировать данные так, чтобы они говорили сами за себя?
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM