Forwarded from Proglib.academy | IT-курсы
🧮🔠 Математика в действии: решаем хитрые задачи по прогнозированию, оптимизации и логике 
Статья, которая поможет развить навыки решения задач с помощью математики.
➡️  Вот что вас ждет
1️⃣  Прогнозирование численности населения — используем цепи Маркова для предсказания миграций между городом и пригородами.
2️⃣  Минимизация затрат — находим минимальное скалярное произведение векторов для оптимального распределения задач между работниками.
3️⃣  Машина времени — решаем задачу максимального числа пересекающихся временных интервалов с помощью заметающей прямой.
4️⃣  Алгоритм Целлера — вычисляем день недели по дате. Проверка на практике.
🔵  Хочешь прокачаться в математике для ML? Тогда разбирайся с этими задачами и не упусти вебинар: «Математика для ML: от теории к практике».
👉 Читать статью
Статья, которая поможет развить навыки решения задач с помощью математики.
👉 Читать статью
Please open Telegram to view this post
    VIEW IN TELEGRAM
  👍1
  Какие технические навыки нужны для перехода от небольшого анализа данных к крупным проектам в Data Science?
🔹 Хранение данных
1. Распределенные системы хранения:Hadoop HDFS, AWS S3, Azure Blob Storage, NoSQL 
2.Data Lakes  для обработки неструктурированных и сырых данных
🔹 Обработка данных
1. Фреймворки для работы с big data:MapReduce, Apache Spark 
2.Методы параллельных вычислений  для ускорения анализа
🔹 Реализация системы
1. Построение надежных data pipelines
2. Мониторинг и логирование моделей
3. Контейнеризация (Docker, Kubernetes ) для развертывания и масштабирования
Библиотека собеса по Data Science
🔹 Хранение данных
1. Распределенные системы хранения:
2.
🔹 Обработка данных
1. Фреймворки для работы с big data:
2.
🔹 Реализация системы
1. Построение надежных data pipelines
2. Мониторинг и логирование моделей
3. Контейнеризация (
Библиотека собеса по Data Science
❤2👍2
  Как защитить модели от атак в машинном обучении?
✅Аугментация данных и робастное обучение  — добавление случайных шумов в данные для повышения устойчивости модели.
✅Adversarial Training  — специальное обучение модели на данных с атаками, чтобы она их распознавала.
✅Дифференциальная приватность  — техники, предотвращающие утечку информации о тренировочных данных.
✅Мониторинг аномалий  — выявление подозрительных входных данных и реагирование на них.
Библиотека собеса по Data Science
✅
✅
✅
✅
Библиотека собеса по Data Science
❤2👍1
  Какова вероятность распределения количества подбрасываний монеты до первого выпадения орла
✅ Ответ:
Количество бросков, необходимых до появления первого орла, подчиняется геометрическому распределению. 
Библиотека собеса по Data Science
✅ Ответ:
Библиотека собеса по Data Science
❤3👍1
  В чем разница между Linear Regression, Random Forest и GBDT? Как их реализовать в распределенных вычислениях
🔹 В чем разница между Linear Regression, Random Forest и GBDT?
Linear Regression (LR) — простой и быстрый, ноработает только с линейными зависимостями . 
Random Forest (RF) — устойчив к выбросам и переобучению, номожет быть медленным . 
Gradient Boosting Decision Trees (GBDT) — обеспечивает высокую точность, нотребует тонкой настройки и больше времени на обучение .
🔹 Как реализовать эти алгоритмы в распределенных системах?
RF —легко распараллеливается,  так как деревья строятся независимо. 
GBDT —сложнее,  но можно ускорить построение деревьев в каждой итерации. 
LR —можно параллелить  через parameter server и асинхронные обновления.
Библиотека собеса по Data Science
  
  🔹 В чем разница между Linear Regression, Random Forest и GBDT?
Linear Regression (LR) — простой и быстрый, но
Random Forest (RF) — устойчив к выбросам и переобучению, но
Gradient Boosting Decision Trees (GBDT) — обеспечивает высокую точность, но
🔹 Как реализовать эти алгоритмы в распределенных системах?
RF —
GBDT —
LR —
Библиотека собеса по Data Science
Telegram
  
  Библиотека собеса по Data Science | вопросы с собеседований
  Вопросы с собеседований по Data Science и ответы на них.
По рекламе: @proglib_adv
Учиться у нас: https://proglib.io/w/7dfb7235
Для обратной связи: @proglibrary_feeedback_bot
Наши каналы: https://t.me/proglibrary/9197
По рекламе: @proglib_adv
Учиться у нас: https://proglib.io/w/7dfb7235
Для обратной связи: @proglibrary_feeedback_bot
Наши каналы: https://t.me/proglibrary/9197
❤1👍1
  Media is too big
    VIEW IN TELEGRAM
  Proglib рассказывает базу в формате рилса
Please open Telegram to view this post
    VIEW IN TELEGRAM
  Что такое функции активации и как они различаются по вычислительной сложности, разреженности и поведению градиента
Функция активации нейрона определяетвыходной сигнал, который определяется входным сигналом или набором входных сигналов. 
▪️ Sigmoid
Преобразует входы в диапазон 0-1 (бинарная классификация).
Проблемы:исчезающие градиенты при экстремальных значениях. 
Разреженность:низкая. 
▪️ Tanh
Преобразует входы в диапазон -1 до 1.
Проблемы:исчезающие градиенты, но менее выраженные, чем у сигмоиды. 
Разреженность:средняя. 
▪️ ReLU (Rectified Linear Unit)
Устанавливает отрицательные значения в 0, оставляя положительные.
Проблемы:«умирающий ReLU» — нейроны становятся неактивными. 
Разреженность:высокая. 
▪️ Leaky ReLU
Модификация ReLU с малым наклоном для отрицательных значений.
Проблемы: «умирающий ReLU» минимизируется. 
Разреженность:ниже, чем у ReLU. 
Библиотека собеса по Data Science
Функция активации нейрона определяет
▪️ Sigmoid
Преобразует входы в диапазон 0-1 (бинарная классификация).
Проблемы:
Разреженность:
▪️ Tanh
Преобразует входы в диапазон -1 до 1.
Проблемы:
Разреженность:
▪️ ReLU (Rectified Linear Unit)
Устанавливает отрицательные значения в 0, оставляя положительные.
Проблемы:
Разреженность:
▪️ Leaky ReLU
Модификация ReLU с малым наклоном для отрицательных значений.
Проблемы:
Разреженность:
Библиотека собеса по Data Science
❤2
  Отобрали для вас полезные и проверенные каналы для программистов — в них вы найдете все самое интересное, от технических новостей до практических гайдов.
IT Job Hub | Работа и вакансии в IT — избранные IT-вакансии
Библиотека программиста — новости из мира IT и технологий
Книги для программистов — самые годные книги по любым языкам и стекам
IT-мемы — мемы про жизу айтишника
Proglib Academy — обучение и курсы, чтобы стать топовым специалистом
Азбука айтишника — азы из мира разработки
Библиотека нейросетей — лайфхаки и промпты для разных задач, баттлы нейронок и новости из мира ИИ
Библиотека фронтендера — все о JS, React, Angular и не только
Библиотека мобильного разработчика — лайфхаки и новости из мира Swift и Kotlin
Библиотека хакера — уязвимости, атаки, бэкдоры и как от них защититься
Библиотека тестировщика — самое интересное о том, как крашить код
🦫 Go
Библиотека Go-разработчика
Библиотека задач по Go
Библиотека Go для собеса
Вакансии по Go
#️⃣ C#
Библиотека шарписта
Библиотека задач по C#
Библиотека собеса по C#
Вакансии по C#
🔧 DevOps
Библиотека devops’а
Библиотека задач по DevOps
Библиотека собеса по DevOps
Вакансии по DevOps & SRE
🐘 PHP
Библиотека пхпшника
Библиотека задач по PHP
Библиотека PHP для собеса
Вакансии по PHP, Symfony, Laravel
🐍 Python
Библиотека питониста
Библиотека Python для собеса
Библиотека задач по Python
Вакансии по питону, Django, Flask
☕️ Java
Библиотека джависта
Библиотека задач по Java
Библиотека Java для собеса
Вакансии по Java
📊 Data Science
Библиотека дата-сайентиста
Библиотека задач по Data Science
Библиотека Data Science для собеса
Вакансии по Data Science
🎮 C++
Библиотека C/C++ разработчика
Библиотека задач по C++
Библиотека C++ для собеса
Вакансии по C++
Подписывайтесь на интересные вам каналы и сохраняйте пост в закладки, чтобы не потерять 🔑
Please open Telegram to view this post
    VIEW IN TELEGRAM
  ❤1👍1
  Применение различных конфигураций слоев ввода и вывода в Рекуррентных Нейронных Сетях (RNN)
✔️ One-to-One:
• Описание: один вход — один выход. 
• Пример: классификация изображений. В этой задаче, нейронная сеть получает изображение как вход, а затем генерирует один результат (класс изображения) на выходе. 
✔️ One-to-Many:
• Описание: один вход — несколько выходов. 
• Пример: преобразование изображений в текст (image-to-text). Здесь сеть принимает одно изображение как вход и генерирует последовательность выходных данных, например, описание изображения в виде текста. 
✔️ Many-to-Many:
• Описание: несколько входов — несколько выходов. 
• Пример: перевод текста (например, машинный перевод). Модель принимает последовательность слов (вход) и генерирует соответствующую последовательность слов на другом языке (выход). 
Библиотека собеса по Data Science
✔️ One-to-One:
✔️ One-to-Many:
✔️ Many-to-Many:
Библиотека собеса по Data Science
❤1👍1
  Почему трансформеры справляются с большими объемами данных лучше, чем рекуррентные нейронные сети
Это связано с их возможностямипараллельной обработки , лучшим моделированием дальнодействующих зависимостей  и устойчивостью к исчезающим и взрывающимся градиентам.  
Дополнительно, слойнормализации  в трансформерах помогает справляться с проблемой взрыва градиента , что делает их еще более надежными для работы с крупными наборами данных.
Библиотека собеса по Data Science
Это связано с их возможностями
Дополнительно, слой
Библиотека собеса по Data Science
❤3👍1🔥1
  Как можно разбить непрерывные признаки на интервалы на основе распределения данных, и каковы плюсы и минусы такого подхода
Один из распространенных методов — разбиениена интервалы по квантилям . Такой способ обеспечивает равномерное распределение наблюдений по группам , но при этом границы интервалов могут быть нецелыми числами, а также метод чувствителен к изменению распределения данных со временем .
Библиотека собеса по Data Science
Один из распространенных методов — разбиение
Библиотека собеса по Data Science
❤5❤🔥1
  Какие методы сбора данных вам приходилось использовать в работе
Некоторые распространенные методы:
🔹 Транзакционные данные — сбор информации с терминалов и платежных систем. 
🔹 Веб-скрейпинг — извлечение данных из открытых интернет-источников. 
🔹 Логирование пользовательских действий — анализ поведения в приложениях и на сайтах. 
🔹 Данные с датчиков — отслеживание параметров работы устройств, автомобилей, IoT-систем. 
Библиотека собеса по Data Science
Некоторые распространенные методы:
Библиотека собеса по Data Science
👍3❤1
  Какие методы выборки чаще всего используются для отбора подмножества из конечной популяции
🔹Выборка с возвращением  — каждый элемент может быть выбран несколько раз.
🔹Выборка без возвращения  — элемент может быть выбран только один раз.
🔹Стратифицированная выборка  — данные делятся на группы (страты), из которых берутся случайные образцы.
🔹Многоступенчатая выборка  — отбор проводится в несколько этапов, последовательно уменьшая выборку.
🔹Систематическая выборка  — отбор элементов через равные интервалы в отсортированном списке.
Библиотека собеса по Data Science
🔹
🔹
🔹
🔹
🔹
Библиотека собеса по Data Science
👍4
  Forwarded from Proglib.academy | IT-курсы
Можно ли стать разработчиком, если в школе ненавидел математику? А если наоборот — тащился от алгебры и геометрии, но кодить не умеешь? Эта статья раскладывает всё по полочкам: где без математики никуда, а где можно и без неё.
✓ Почему все считают, что программисты — математики
✓ В каких сферах разработки можно вообще не знать математику
✓ Где хватит готовых библиотек, а где придётся разбираться в формулах
✓ Какие области программирования требуют мощного математического бэкграунда
✓ Что делать, если математика — это боль, но хочется освоить ML или Data Science
✓ Топ книг, которые помогут понять и даже полюбить математику
Proglib Academy
Please open Telegram to view this post
    VIEW IN TELEGRAM
  Какие существуют методы обнаружения выбросов
Методы делятся настатистические  и плотностные .
📊Статистические  методы: 
✓Правило 3σ  — предполагает нормальное распределение, выбросы находятся за границами ±3 стандартных отклонений. 
✓Метод box-plot  — выбросы определяются на основе квартилей и 1.5 межквартильного размаха. 
✓Z-оценка  — стандартизация данных, точки с высоким Z-score считаются выбросами.
📈Плотностные  методы: 
✓DBSCAN  — алгоритм кластеризации, который помечает шумовые точки как выбросы. 
✓LOF (Local Outlier Factor)  — анализирует локальную плотность точки и её отличие от соседей.
Библиотека собеса по Data Science
Методы делятся на
📊
✓
✓
✓
📈
✓
✓
Библиотека собеса по Data Science
👍2
  Как выбрать между ручным и автоматизированным созданием признаков
Выбор зависит от количества признаков и уровня знания предметной области.
🔹 Когда лучше использовать ручное создание признаков?
✔ Понимание области исследований и данных.  
✔ Количество признаков управляемо.  
✔ Важна интерпретируемость модели. 
🔹 Когда предпочтительнее автоматизированное создание признаков?
✔️ Ограниченные знания о данных.  
✔️ Большие наборы данных с высокой размерностью.  
✔️ Дорого разрабатывать признаки вручную.  
✔️ Интерпретируемость модели не является ключевым фактором. 
Библиотека собеса по Data Science
Выбор зависит от количества признаков и уровня знания предметной области.
🔹 Когда лучше использовать ручное создание признаков?
🔹 Когда предпочтительнее автоматизированное создание признаков?
Библиотека собеса по Data Science
❤2
  Forwarded from Библиотека питониста | Python, Django, Flask
  
🐍 Твой Python-код жрёт память? 11 способов это исправить!
Высокая производительность и масштабируемость невозможны, если приложение неэффективно расходует RAM. Разберём лучшие техники оптимизации памяти в Python, которые помогут сократить потребление ресурсов и ускорить работу кода.
👉 Читать статью
Библиотека питониста
  Высокая производительность и масштабируемость невозможны, если приложение неэффективно расходует RAM. Разберём лучшие техники оптимизации памяти в Python, которые помогут сократить потребление ресурсов и ускорить работу кода.
👉 Читать статью
Библиотека питониста
Зачем использовать векторную базу данных, если есть пакеты для векторного поиска
Векторные пакеты и базы данных решают похожие задачи, но ориентированы на разные сценарии использования.
📌 Ключевые различия:
🔹 Векторные пакеты —подходят для локального поиска на небольших объемах данных, но не обеспечивают долговременное хранение и масштабируемость. 
🔹 Векторные базы данных — разработаны для работы с большими объемами данных, поддерживают хранение, быстрый поиск и обработку в распределенной среде.
⚡ Когда что использовать:
🔹 Если данных мало и важна простота —подойдет векторный пакет . 
🔹 Если требуется хранение, высокая скорость поиска и масштабируемость —нужна векторная база .
Библиотека собеса по Data Science
Векторные пакеты и базы данных решают похожие задачи, но ориентированы на разные сценарии использования.
📌 Ключевые различия:
🔹 Векторные пакеты —
🔹 Векторные базы данных — разработаны для работы с большими объемами данных, поддерживают хранение, быстрый поиск и обработку в распределенной среде.
⚡ Когда что использовать:
🔹 Если данных мало и важна простота —
🔹 Если требуется хранение, высокая скорость поиска и масштабируемость —
Библиотека собеса по Data Science
👍2❤1
  Как развернуть модель XGBoost в продакшн
1.Сериализация модели  — сохранение модели с помощью XGBoost, Pickle или Joblib.
2.Загрузка модели  — использование соответствующей библиотеки для загрузки модели в продакшн-среду.
3.Выбор платформы  — развертывание модели локально, в облаке или в контейнере.
4.Обслуживание модели  — настройка API (REST, gRPC) для предоставления предсказаний.
Библиотека собеса по Data Science
1.
2.
3.
4.
Библиотека собеса по Data Science
❤1
  Какие типы галлюцинаций бывают в LLM и как их можно минимизировать
Существует два основных типа галлюцинаций в больших языковых моделях (LLM):
1. Intrinsic Hallucinations:
Модель генерирует текст, который противоречит предоставленному вводу. Это может происходить, когда модель «выдумывает» факты или не следуют контексту. 
2. Extrinsic Hallucinations:
Модель генерирует текст, который фактически неверен или не подтверждается входными данными. Например, создание неверных статистических данных или ссылок на несуществующие источники. 
Как уменьшить галлюцинации?
1. Оптимизация стратегии декодирования:
Использование таких методов, как beam search или top-k sampling, может помочь улучшить качество вывода, избегая нелогичных или противоречивых утверждений. 
2. Генерация с дополнительным поисковым механизмом (retrieval-augmented generation):
Этот подход использует внешние базы данных или поисковые системы для получения точной и релевантной информации перед тем, как сгенерировать окончательный ответ, что помогает избежать фактических ошибок. 
Библиотека собеса по Data Science
Существует два основных типа галлюцинаций в больших языковых моделях (LLM):
1. Intrinsic Hallucinations:
2. Extrinsic Hallucinations:
Как уменьшить галлюцинации?
1. Оптимизация стратегии декодирования:
2. Генерация с дополнительным поисковым механизмом (retrieval-augmented generation):
Библиотека собеса по Data Science
👍6❤1