DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
🔄🔄🔄Читаем статьи за Вас №19:

📚Основы NLP и векторизации
Векторизация - это процесс преобразования текста в числовые векторы для машинного обучения.

📚Методы векторизации
"Мешок слов" - простой метод, основанный на частоте слов в тексте.
TF-IDF - более сложный метод, учитывающий важность слова для документа.
Word2Vec - подход, использующий нейронные сети для создания векторов, учитывающих контекст.

📚Применение векторизации
Векторизация используется для извлечения признаков из текста и обучения моделей машинного обучения.
TF-IDF применяется в поисковых технологиях и чат-ботах для определения релевантности слов.
Word2Vec используется для создания векторов, отображающих слова в n-мерном пространстве, что позволяет учитывать контекст.

📚Метод Skip-Gram
Метод Skip-Gram используется для предсказания контекста слов в предложении.
Нейросеть состоит из входного, скрытого и выходного слоев.
Обучение происходит путем корректировки весов скрытого слоя.
Веса скрытого слоя являются эмбеддингами слов.

📚CBOW
CBOW - это метод, который добавляет контекстные слова в модель и вычисляет текущее слово.
Отличается от skip-gram тем, что на вход подаются слова контекста.
Веса между скрытым и выходным слоями усредняются для получения эмбеддингов.

📚Выбор между skip-gram и CBOW
Skip-gram лучше работает с небольшими наборами данных и редкими словами.
CBOW быстрее обучается и лучше представляет часто встречающиеся слова.

📚Практическое применение word2vec
Можно использовать предварительно обученную модель Google или обучить собственную модель.
Модель Google предоставляет векторные представления для слов и синонимы.
Собственная модель требует обработки предложений и может не превзойти Google.

📚GloVe
GloVe - это метод, который учитывает глобальную и локальную статистику для создания векторных представлений слов.
GloVe извлекает семантику из матрицы совместной встречаемости слов.

📚Основы эмбеддингов
Эмбеддинги используются для представления слов в виде векторов, что облегчает их обработку в нейросетях.
GloVe - это метод, который минимизирует разницу между произведением эмбеддингов и логарифмом частоты их совместного появления.
GloVe эффективен для задач распознавания похожих слов и именованных сущностей, а также для обработки редких слов.

📚Использование GloVe
Для получения векторов слов необходимо загрузить файл эмбеддингов и создать словарь.
Можно использовать функцию для получения списка похожих слов на основе данных модели.
Векторы можно преобразовать в матрицу NumPy для обработки в нейросетях или для задач поиска похожих слов.

📚FastText
FastText - это метод, который обобщает неизвестные слова, используя буквы вместо слов.
Обучение FastText происходит на уровне символов, что позволяет использовать меньше данных.
Модель FastText может быть обучена в режимах CBOW и skip-gram.

📚Применение FastText
FastText может использоваться для классификации текстов на основе упоминаемых видов препаратов.
Для обучения модели необходимо подготовить входные данные в формате, соответствующем задаче.
Модель выдает прогнозы метки и вероятности, но ее производительность зависит от множества факторов.

https://habr.com/ru/articles/778048/
#articles #analysis #model #eda #vectorization #db
📚Метод сопряжённых градиентов
Использует спуск в сопряжённых направлениях, что позволяет избежать зигзагообразных траекторий.
Направления выбираются с учётом предыдущего значения, что гарантирует поиск минимума за ограниченное число итераций.
В нелинейном случае выполняется процедура рестарта для лучшей адаптации к изменениям в ландшафте функции потерь.

📚BFGS (Broyden–Fletcher–Goldfarb–Shanno)
Основан на аппроксимации обратного гессиана матрицей, которая итеративно уточняется.
Уравнение секущей позволяет найти решение, которое можно упростить с помощью взвешенной нормы Фробениуса.
BFGS использует аппроксимацию гессиана, что делает его более эффективным, но требует больше памяти.

📚SR1 (Symmetric Rank-1)
Использует обновление ранга 1, что сохраняет симметрию матрицы, но не гарантирует её положительную определённость.
Полезен при невыполнении стандартных предположений BFGS или для методов определения доверительной области.

📚L-BFGS (Limited-memory BFGS)
Использует последние пары векторов и начальное приближение для аппроксимации гессиана.
Имеет линейные затраты на память и итерацию.
Метод выбора матрицы позволяет оценить размер истинного гессиана.

https://habr.com/ru/articles/813221/
#articles #analysis #model #eda #vectorization #db
🍀Читаем статьи за Вас №21:

🤓Мониторинг с Grafana. Best practices

🥺Введение в мониторинг
Мониторинг важен для понимания поведения сервисов и выявления проблем.
Каждый должен иметь свой собственный мониторинг, универсальных метрик не существует.

🥺Универсальный алгоритм создания дашборда
Определите, кто будет смотреть на дашборд, в каком случае и с какой целью.
Изучите инструмент: метрики, DSL, готовые шаблоны.
Начните с малого, дорабатывайте и автоматизируйте.

🥺Стратегии мониторинга
USE: мониторинг железа, сетевых интерфейсов, контроллеров.
RED: мониторинг приложений, метрики по запросам, ошибкам и времени выполнения.
4 Golden Signals: мониторинг задержек, объема трафика, ошибок и насыщения.

🥺Best practices
Базовая настройка: UTC timezone, отсутствие автоапдейта, небольшой time range при открытии.
Работа с панелями: repeat по переменным, переменные для интервалов агрегации, период агрегации в названии графика.
Отображение: используйте весь набор метрик, учитывайте порядок значений, устанавливайте абсолютные границы вертикальной оси.
Stacked time series: настройка Stacked для суммирования значений всех подов/пулов/серверов.

🥺Общие настройки и инструменты
Shared Crosshair и Shared Tooltip позволяют видеть значения на разных графиках одновременно.
Shared Crosshair tooltip можно включить с помощью hot key.
Сортировка значений на графике важна для анализа данных.

🥺Анализ данных
Сравнение перцентилей и медианы упрощает анализ данных.
Гистограммы по бакетам могут быть неточными из-за конфигурации бакетов.
Отклонения от среднего помогают найти аномалии в нагрузке.

🥺Нейминг метрик
Метрики должны соответствовать формату Prometheus.
Имена метрик должны быть простыми и понятными.
Высокая кардиналити метрик может быть проблемой.

🥺Редактирование и аннотации
Используйте редактор json для массового изменения графиков.
Аннотации помогают отслеживать деплои и другие события.
Добавляйте ссылки на детальные дашборды и логи для удобства.

🥺Общие советы по мониторингу
Проводите командное ревью дашбордов.
Используйте логи и трейсы для мониторинга.
Собирайте дашборды под конкретные цели.
Делитесь информацией о командных мониторингах.

https://habr.com/ru/companies/karuna/articles/771134/
#articles #analysis #model #eda #vectorization #graphana
Please open Telegram to view this post
VIEW IN TELEGRAM
🍀Читаем статьи за Вас №22:

🥺Современные системы мониторинга
Мониторинг позволяет выявлять проблемы в ИТ инфраструктуре и оценивать тренды использования ресурсов.
Включает сбор данных, обработку данных, рассылку уведомлений и пользовательский интерфейс.
Существуют системы для мониторинга сети, серверной инфраструктуры, производительности приложений и безопасности.

🥺Примеры систем мониторинга
PingInfoView, SolarWinds pingdom: проверка доступности узлов.
Zabbix: сбор данных из различных источников, анализ данных, рассылка уведомлений.
PRTG: сбор данных без агентов, анализ данных, рассылка уведомлений.
Nagios Core / Nagios XI: сбор данных с помощью агентов и без них, анализ данных, рассылка уведомлений.
Icinga: форк Nagios, сбор данных с помощью агентов, анализ данных, рассылка уведомлений.
Prometheus: ядро — БД временных рядов, сбор данных, анализ данных, рассылка уведомлений.
VictoriaMetrics: ядро — БД временных рядов, сбор данных, анализ данных, рассылка уведомлений.
Grafana: система визуализации и анализа данных, интеграция с Prometheus и другими системами.

🥺Работа с Prometheus и Grafana
Базовая конфигурация: экспортеры, Prometheus, Alertmanager.
VictoriaMetrics: получение метрик из Prometheus, оптимизированное хранение данных.
Grafana: визуализация и анализ данных из Prometheus и VictoriaMetrics.

🥺Практическое применение
Развертывание экспортеров: node, cadvisor, blackbox.
Создание и запуск сервисов.
Проверка работы экспортеров.
Экспортеры реализованы под распространенное ПО.

🥺Поиск и развертывание Alertmanager
Поиск через GitHub, DockerHub или поисковую систему
Возможность написания собственного экспортера на Go или Python
Развертывание не требует больших аппаратных ресурсов
Подготовка каталога для конфигурационного файла
Создание /etc/alertmanager/alertmanager.yml
Настройка уведомлений на почту и API
Создание /etc/systemd/system/alertmanager.service
Запуск сервиса и проверка работы
Поддержка кластерной конфигурации для высокой доступности

🥺Развертывание VictoriaMetrics
Потребление ресурсов зависит от количества экспортеров и метрик
Для небольшой инсталляции достаточно 1 ядра ЦПУ, 2 ГБ ОЗУ и 20 ГБ дискового пространства
Подготовка каталога для хранения данных
Создание /etc/systemd/system/victoriametrics.service

🥺Развертывание Prometheus
Создание пользователя и каталогов для конфигурационных файлов и хранения данных
Создание конфигурационного файла /etc/prometheus/prometheus.yml
Создание правил уведомлений /etc/prometheus/rule_files/main.yml
Создание /etc/systemd/system/prometheus.service
Возможность развертывания в нескольких экземплярах для высокой доступности

🥺Развертывание Grafana
Grafana не требовательна к ресурсам, достаточно 1 ядра ЦПУ и 1 ГБ ОЗУ
Создание файлов декларативного описания источников данных и дашбордов
Добавление дашборда Node Exporter Full
Создание /etc/systemd/system/grafana.service

https://habr.com/ru/articles/709204/
#articles #analysis #model #eda #vectorization #graphana
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🤯1