🔄🔄🔄Читаем статьи за Вас №19:
📚Основы NLP и векторизации
Векторизация - это процесс преобразования текста в числовые векторы для машинного обучения.
📚Методы векторизации
"Мешок слов" - простой метод, основанный на частоте слов в тексте.
TF-IDF - более сложный метод, учитывающий важность слова для документа.
Word2Vec - подход, использующий нейронные сети для создания векторов, учитывающих контекст.
📚Применение векторизации
Векторизация используется для извлечения признаков из текста и обучения моделей машинного обучения.
TF-IDF применяется в поисковых технологиях и чат-ботах для определения релевантности слов.
Word2Vec используется для создания векторов, отображающих слова в n-мерном пространстве, что позволяет учитывать контекст.
📚Метод Skip-Gram
Метод Skip-Gram используется для предсказания контекста слов в предложении.
Нейросеть состоит из входного, скрытого и выходного слоев.
Обучение происходит путем корректировки весов скрытого слоя.
Веса скрытого слоя являются эмбеддингами слов.
📚CBOW
CBOW - это метод, который добавляет контекстные слова в модель и вычисляет текущее слово.
Отличается от skip-gram тем, что на вход подаются слова контекста.
Веса между скрытым и выходным слоями усредняются для получения эмбеддингов.
📚Выбор между skip-gram и CBOW
Skip-gram лучше работает с небольшими наборами данных и редкими словами.
CBOW быстрее обучается и лучше представляет часто встречающиеся слова.
📚Практическое применение word2vec
Можно использовать предварительно обученную модель Google или обучить собственную модель.
Модель Google предоставляет векторные представления для слов и синонимы.
Собственная модель требует обработки предложений и может не превзойти Google.
📚GloVe
GloVe - это метод, который учитывает глобальную и локальную статистику для создания векторных представлений слов.
GloVe извлекает семантику из матрицы совместной встречаемости слов.
📚Основы эмбеддингов
Эмбеддинги используются для представления слов в виде векторов, что облегчает их обработку в нейросетях.
GloVe - это метод, который минимизирует разницу между произведением эмбеддингов и логарифмом частоты их совместного появления.
GloVe эффективен для задач распознавания похожих слов и именованных сущностей, а также для обработки редких слов.
📚Использование GloVe
Для получения векторов слов необходимо загрузить файл эмбеддингов и создать словарь.
Можно использовать функцию для получения списка похожих слов на основе данных модели.
Векторы можно преобразовать в матрицу NumPy для обработки в нейросетях или для задач поиска похожих слов.
📚FastText
FastText - это метод, который обобщает неизвестные слова, используя буквы вместо слов.
Обучение FastText происходит на уровне символов, что позволяет использовать меньше данных.
Модель FastText может быть обучена в режимах CBOW и skip-gram.
📚Применение FastText
FastText может использоваться для классификации текстов на основе упоминаемых видов препаратов.
Для обучения модели необходимо подготовить входные данные в формате, соответствующем задаче.
Модель выдает прогнозы метки и вероятности, но ее производительность зависит от множества факторов.
https://habr.com/ru/articles/778048/
#articles #analysis #model #eda #vectorization #db
📚Основы NLP и векторизации
Векторизация - это процесс преобразования текста в числовые векторы для машинного обучения.
📚Методы векторизации
"Мешок слов" - простой метод, основанный на частоте слов в тексте.
TF-IDF - более сложный метод, учитывающий важность слова для документа.
Word2Vec - подход, использующий нейронные сети для создания векторов, учитывающих контекст.
📚Применение векторизации
Векторизация используется для извлечения признаков из текста и обучения моделей машинного обучения.
TF-IDF применяется в поисковых технологиях и чат-ботах для определения релевантности слов.
Word2Vec используется для создания векторов, отображающих слова в n-мерном пространстве, что позволяет учитывать контекст.
📚Метод Skip-Gram
Метод Skip-Gram используется для предсказания контекста слов в предложении.
Нейросеть состоит из входного, скрытого и выходного слоев.
Обучение происходит путем корректировки весов скрытого слоя.
Веса скрытого слоя являются эмбеддингами слов.
📚CBOW
CBOW - это метод, который добавляет контекстные слова в модель и вычисляет текущее слово.
Отличается от skip-gram тем, что на вход подаются слова контекста.
Веса между скрытым и выходным слоями усредняются для получения эмбеддингов.
📚Выбор между skip-gram и CBOW
Skip-gram лучше работает с небольшими наборами данных и редкими словами.
CBOW быстрее обучается и лучше представляет часто встречающиеся слова.
📚Практическое применение word2vec
Можно использовать предварительно обученную модель Google или обучить собственную модель.
Модель Google предоставляет векторные представления для слов и синонимы.
Собственная модель требует обработки предложений и может не превзойти Google.
📚GloVe
GloVe - это метод, который учитывает глобальную и локальную статистику для создания векторных представлений слов.
GloVe извлекает семантику из матрицы совместной встречаемости слов.
📚Основы эмбеддингов
Эмбеддинги используются для представления слов в виде векторов, что облегчает их обработку в нейросетях.
GloVe - это метод, который минимизирует разницу между произведением эмбеддингов и логарифмом частоты их совместного появления.
GloVe эффективен для задач распознавания похожих слов и именованных сущностей, а также для обработки редких слов.
📚Использование GloVe
Для получения векторов слов необходимо загрузить файл эмбеддингов и создать словарь.
Можно использовать функцию для получения списка похожих слов на основе данных модели.
Векторы можно преобразовать в матрицу NumPy для обработки в нейросетях или для задач поиска похожих слов.
📚FastText
FastText - это метод, который обобщает неизвестные слова, используя буквы вместо слов.
Обучение FastText происходит на уровне символов, что позволяет использовать меньше данных.
Модель FastText может быть обучена в режимах CBOW и skip-gram.
📚Применение FastText
FastText может использоваться для классификации текстов на основе упоминаемых видов препаратов.
Для обучения модели необходимо подготовить входные данные в формате, соответствующем задаче.
Модель выдает прогнозы метки и вероятности, но ее производительность зависит от множества факторов.
https://habr.com/ru/articles/778048/
#articles #analysis #model #eda #vectorization #db
📚Метод сопряжённых градиентов
Использует спуск в сопряжённых направлениях, что позволяет избежать зигзагообразных траекторий.
Направления выбираются с учётом предыдущего значения, что гарантирует поиск минимума за ограниченное число итераций.
В нелинейном случае выполняется процедура рестарта для лучшей адаптации к изменениям в ландшафте функции потерь.
📚BFGS (Broyden–Fletcher–Goldfarb–Shanno)
Основан на аппроксимации обратного гессиана матрицей, которая итеративно уточняется.
Уравнение секущей позволяет найти решение, которое можно упростить с помощью взвешенной нормы Фробениуса.
BFGS использует аппроксимацию гессиана, что делает его более эффективным, но требует больше памяти.
📚SR1 (Symmetric Rank-1)
Использует обновление ранга 1, что сохраняет симметрию матрицы, но не гарантирует её положительную определённость.
Полезен при невыполнении стандартных предположений BFGS или для методов определения доверительной области.
📚L-BFGS (Limited-memory BFGS)
Использует последние пары векторов и начальное приближение для аппроксимации гессиана.
Имеет линейные затраты на память и итерацию.
Метод выбора матрицы позволяет оценить размер истинного гессиана.
https://habr.com/ru/articles/813221/
#articles #analysis #model #eda #vectorization #db
Использует спуск в сопряжённых направлениях, что позволяет избежать зигзагообразных траекторий.
Направления выбираются с учётом предыдущего значения, что гарантирует поиск минимума за ограниченное число итераций.
В нелинейном случае выполняется процедура рестарта для лучшей адаптации к изменениям в ландшафте функции потерь.
📚BFGS (Broyden–Fletcher–Goldfarb–Shanno)
Основан на аппроксимации обратного гессиана матрицей, которая итеративно уточняется.
Уравнение секущей позволяет найти решение, которое можно упростить с помощью взвешенной нормы Фробениуса.
BFGS использует аппроксимацию гессиана, что делает его более эффективным, но требует больше памяти.
📚SR1 (Symmetric Rank-1)
Использует обновление ранга 1, что сохраняет симметрию матрицы, но не гарантирует её положительную определённость.
Полезен при невыполнении стандартных предположений BFGS или для методов определения доверительной области.
📚L-BFGS (Limited-memory BFGS)
Использует последние пары векторов и начальное приближение для аппроксимации гессиана.
Имеет линейные затраты на память и итерацию.
Метод выбора матрицы позволяет оценить размер истинного гессиана.
https://habr.com/ru/articles/813221/
#articles #analysis #model #eda #vectorization #db
Хабр
Методы оптимизации в машинном и глубоком обучении. От простого к сложному
В данной статье представлен обзор различных популярных (и не только) оптимизаторов, которые применяются в машинном и глубоком обучении, в частности для обучения нейронных сетей. Мы рассмотрим их...
Мониторинг важен для понимания поведения сервисов и выявления проблем.
Каждый должен иметь свой собственный мониторинг, универсальных метрик не существует.
Определите, кто будет смотреть на дашборд, в каком случае и с какой целью.
Изучите инструмент: метрики, DSL, готовые шаблоны.
Начните с малого, дорабатывайте и автоматизируйте.
USE: мониторинг железа, сетевых интерфейсов, контроллеров.
RED: мониторинг приложений, метрики по запросам, ошибкам и времени выполнения.
4 Golden Signals: мониторинг задержек, объема трафика, ошибок и насыщения.
Базовая настройка: UTC timezone, отсутствие автоапдейта, небольшой time range при открытии.
Работа с панелями: repeat по переменным, переменные для интервалов агрегации, период агрегации в названии графика.
Отображение: используйте весь набор метрик, учитывайте порядок значений, устанавливайте абсолютные границы вертикальной оси.
Stacked time series: настройка Stacked для суммирования значений всех подов/пулов/серверов.
Shared Crosshair и Shared Tooltip позволяют видеть значения на разных графиках одновременно.
Shared Crosshair tooltip можно включить с помощью hot key.
Сортировка значений на графике важна для анализа данных.
Сравнение перцентилей и медианы упрощает анализ данных.
Гистограммы по бакетам могут быть неточными из-за конфигурации бакетов.
Отклонения от среднего помогают найти аномалии в нагрузке.
Метрики должны соответствовать формату Prometheus.
Имена метрик должны быть простыми и понятными.
Высокая кардиналити метрик может быть проблемой.
Используйте редактор json для массового изменения графиков.
Аннотации помогают отслеживать деплои и другие события.
Добавляйте ссылки на детальные дашборды и логи для удобства.
Проводите командное ревью дашбордов.
Используйте логи и трейсы для мониторинга.
Собирайте дашборды под конкретные цели.
Делитесь информацией о командных мониторингах.
https://habr.com/ru/companies/karuna/articles/771134/
#articles #analysis #model #eda #vectorization #graphana
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Мониторинг с Grafana. Best practices
Сборная солянка из существующих best practices по работе с Grafana и немного с Prometheus, проверенных мной лично. Можно просто положить в закладки — когда-нибудь да пригодится. Александр Груздев Head...
Мониторинг позволяет выявлять проблемы в ИТ инфраструктуре и оценивать тренды использования ресурсов.
Включает сбор данных, обработку данных, рассылку уведомлений и пользовательский интерфейс.
Существуют системы для мониторинга сети, серверной инфраструктуры, производительности приложений и безопасности.
PingInfoView, SolarWinds pingdom: проверка доступности узлов.
Zabbix: сбор данных из различных источников, анализ данных, рассылка уведомлений.
PRTG: сбор данных без агентов, анализ данных, рассылка уведомлений.
Nagios Core / Nagios XI: сбор данных с помощью агентов и без них, анализ данных, рассылка уведомлений.
Icinga: форк Nagios, сбор данных с помощью агентов, анализ данных, рассылка уведомлений.
Prometheus: ядро — БД временных рядов, сбор данных, анализ данных, рассылка уведомлений.
VictoriaMetrics: ядро — БД временных рядов, сбор данных, анализ данных, рассылка уведомлений.
Grafana: система визуализации и анализа данных, интеграция с Prometheus и другими системами.
Базовая конфигурация: экспортеры, Prometheus, Alertmanager.
VictoriaMetrics: получение метрик из Prometheus, оптимизированное хранение данных.
Grafana: визуализация и анализ данных из Prometheus и VictoriaMetrics.
Развертывание экспортеров: node, cadvisor, blackbox.
Создание и запуск сервисов.
Проверка работы экспортеров.
Экспортеры реализованы под распространенное ПО.
Поиск через GitHub, DockerHub или поисковую систему
Возможность написания собственного экспортера на Go или Python
Развертывание не требует больших аппаратных ресурсов
Подготовка каталога для конфигурационного файла
Создание /etc/alertmanager/alertmanager.yml
Настройка уведомлений на почту и API
Создание /etc/systemd/system/alertmanager.service
Запуск сервиса и проверка работы
Поддержка кластерной конфигурации для высокой доступности
Потребление ресурсов зависит от количества экспортеров и метрик
Для небольшой инсталляции достаточно 1 ядра ЦПУ, 2 ГБ ОЗУ и 20 ГБ дискового пространства
Подготовка каталога для хранения данных
Создание /etc/systemd/system/victoriametrics.service
Создание пользователя и каталогов для конфигурационных файлов и хранения данных
Создание конфигурационного файла /etc/prometheus/prometheus.yml
Создание правил уведомлений /etc/prometheus/rule_files/main.yml
Создание /etc/systemd/system/prometheus.service
Возможность развертывания в нескольких экземплярах для высокой доступности
Grafana не требовательна к ресурсам, достаточно 1 ядра ЦПУ и 1 ГБ ОЗУ
Создание файлов декларативного описания источников данных и дашбордов
Добавление дашборда Node Exporter Full
Создание /etc/systemd/system/grafana.service
https://habr.com/ru/articles/709204/
#articles #analysis #model #eda #vectorization #graphana
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Основы мониторинга (обзор Prometheus и Grafana)
Привет, Хабр! Мониторинг сегодня – фактически обязательная «часть программы» для компании любых размеров. В данной статье мы попробуем разобраться в многообразии программного обеспечения для...
👍1🤯1