DenoiseLAB
486 subscribers
1.33K photos
160 videos
3 files
1.58K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
​​🛞Читаем статьи за Вас №21:

Система визуализации и мониторинга. Grafana + Prometheus

✔️Установка Grafana на Windows
• Скачиваем и устанавливаем Grafana
• Устанавливаем Prometheus для сбора метрик
• Устанавливаем Windows_exporter для сбора статистики с системы
• Устанавливаем Blackbox_exporter для мониторинга доступности URL

✔️Настройка Grafana
• Изменяем значение в файле defaults.ini для включения SMTP
• Запускаем службу Grafana и проверяем интерфейс

✔️Настройка Prometheus
• Вносим изменения в файл prometheus.yml для подключения Windows_exporter и Blackbox_exporter
• Запускаем Prometheus и проверяем статус сервисов

✔️Настройка панелей мониторинга
• Подключаем источник данных Prometheus в Grafana
• Настраиваем панели мониторинга для метрик Windows_exporter
• Добавляем новые ПК для мониторинга, изменяя файл Prometheus.yml

✔️Настройка конкретных метрик
• Создаем панели для отображения конкретных служб и метрик
• Настраиваем Value mappings для удобства восприятия

✔️Завершение настройки
• Проверяем статус метрик и настраиваем нужные под свои задачи
• Базовая настройка завершена, можно приступать к использованию

#graphana #prometheus #analytics
​​🛞Читаем статьи за Вас №22:

Введение в мониторинг серверов с помощью Prometheus и Grafana

✔️Основы мониторинга с Prometheus, Node Exporter и Grafana
• Мониторинг необходим для контроля состояния серверов и своевременного реагирования на проблемы.
• Prometheus собирает метрики из разных сервисов, Node Exporter предоставляет метрики ОС, а Grafana визуализирует данные в виде графиков.
• В статье рассматривается настройка мониторинга на примере Ubuntu, но инструменты поддерживают и другие ОС.

✔️Установка и настройка компонентов
• Node Exporter устанавливается через GitHub и предоставляет метрики через HTTP.
• Prometheus требует файл конфигурации и папку для хранения данных, настраивается на сбор метрик от Node Exporter.
• Grafana подключается к Prometheus и отображает собранные метрики на графиках.

✔️Настройка Grafana
• Настройка источника данных (datasource) с использованием Prometheus.
• Создание дашборда с помощью импорта готовых панелей или создания собственных.
• Установка плагинов для расширения функциональности дашборда, например, для отображения круговых диаграмм.

Ссылка: https://habr.com/ru/articles/652185/
#graphana #prometheus #analytics
https://github.com/Helicone/helicone - open-source LLM developer platform
​​🛞Читаем статьи за Вас №23:

Clickhouse, Grafana и 3000 графиков. Как построить систему быстрых дашбордов

✔️Проблема производительности дашбордов
• Вопросы по типу "где данные" возникают часто и требуют быстрого ответа.
• Дашборды помогают получать ответы на разные вопросы в любой момент времени.
• Дашборды объединяют в системы для комплексного обзора данных.

✔️Инструменты и данные
• Clickhouse используется для хранения данных.
• Grafana используется для визуализации данных.
• Altinity Plugin соединяет Clickhouse с Grafana.

✔️Требования к дашбордам
• Графики должны быть читаемыми и интуитивно понятными.
• Дашборды должны загружаться стабильно и быстро.
• Данные должны быть согласованы между разными дашбордами.

✔️Методы оптимизации производительности
• Мониторинг за мониторингом для выявления проблем.
• Правильное проектирование дашбордов для избежания ошибок.
• Разделение ответственности и введение квот на запросы.

✔️Работа с Clickhouse
• Определение оптимальных запросов для ускорения графиков.
• Оптимальное хранение данных для быстрых запросов.
• Кэширование результатов запросов для экономии ресурсов.

✔️Мониторинг и алерты
• Работа с системными таблицами для анализа запросов.
• Настройка алертов на скорость выполнения запросов.
• Разметка запросов в Grafana для разделения по дашбордам.

✔️Инструменты внешнего мониторинга
• Использование sitespeed для регулярного открытия дашбордов.
• Логирование метрик с Grafana для анализа причин проблем.

✔️Правильное проектирование дашбордов
• Внимательное отношение к переменным в дашбордах.
• Избегание хранения всех графиков в одной строке для оптимизации запросов.

✔️Проблемы с нагрузкой на БД
• Раскрытие строк создаёт нагрузку на БД, что замедляет работу системы.
• Несколько быстрых запросов лучше, чем один медленный.

✔️Разделение ответственности
• Дашборды делятся на общие и внутренние.
• Общие дашборды должны быть стабильными, внутренние — быстрыми.
• Для подключения Clickhouse к Grafana нужен сервисный пользователь с квотами.

✔️Оптимизация запросов
• Чем меньше колонок в запросе, тем лучше.
• Используйте колонки из ключа сортировки.
• Динамическое семплирование для чтения меньшего объёма данных.
• Используйте макрос $unescape() для скрытия ненужных колонок.
• Выполняйте приближенные вычисления на больших данных.
• Агрегируйте данные заранее и используйте агрегаты в графиках.

✔️Показатели оптимальности запросов
• Время выполнения, количество прочитанных строк и байт.
• Фиксируйте эти показатели и сравнивайте с прошлыми замерами.

✔️Оптимальное хранение данных
• Используйте правильные типы данных.
• Подберите ключ сортировки и ключ партицирования.
• Экспериментируйте с гранулярностью и смешанной политикой хранения.

✔️Оптимизация медленных таблиц
• Перекопировать данные или сделать Materialized View.
• Кэшируйте результаты запросов с помощью use_query_cache = True.

✔️Проблема согласованности данных
• Данные должны быть одинаковыми на всех дашбордах
• Ежедневно добавляются/удаляются графики и создаются новые дашборды
• Ошибки возникают из-за множества условий и ограничений на данные

✔️Решение проблемы
• Проведена системная работа по определению набора условий и метрик
• Создана таблица с анонимными событиями без урлов и идентификаторов пользователя
• Таблица наполняется Materialized View, использующими все условия
• Основные таблицы названы «холодными», таблица с анонимными событиями — «горячей»

✔️Единая точка для фильтров
• Создан View для хранения набора условий
• Создана переменная в Grafana для обращения к View
• Мультивыбор включает All для скрытия SQL-кода в урлах
• Вызов переменной в запросах с использованием csv-форматирования

✔️Итоги
• Собраны советы по оптимизации графиков
• Следить за стабильностью и скоростью загрузки графиков
• Учитывать специфичную нагрузку при проектировании хранилища
• Кэшировать результаты запросов и ограничивать запросы квотами
• Минимизировать количество источников данных
• Делать дашборды не только красивыми, но и быстрыми

https://habr.com/ru/companies/ozontech/articles/774712/
#graphana #prometheus #analytics
Поставщики синтетических данных, может кому-то пригодится
- https://gretel.ai/
- https://synthesis.ai/
- https://www.aiforia.com/ (медицина, биомедицина)
- https://www.sogeti.com/ (инжиринг и облачные данные)
- https://epistemix.com/
- https://www.facteus.com/mimic (финансы);

тут еще целый список: https://www.questionpro.com/blog/synthetic-data-companies/
👀2
В этой новости прекрасно все ))) ахахах
​​🛞Читаем статьи за Вас №24

Вас много, а я одна: обзорная система мониторинга на Prometheus и Grafana

Сбор метрик
• Prometheus собирает метрики с серверов через экспортеры
• Для Nginx используется prometheus-nginxlog-экспортер
• Для серверов используется prometheus/node_exporter

Визуализация данных
• Дашборды в Grafana отображают метрики в реальном времени
• Главный дашборд показывает состояние серверов и приложений
• Дашборды приложений показывают RPS, время ответа и другие метрики

Дашборды серверов
• Дашборд серверов показывает нагрузку на ЦПУ, память и диск
• Используются метрики node_cpu_seconds_total, node_memory_MemAvailable_bytes и node_filesystem_avail_bytes

Дашборды приложений
• Дашборды приложений показывают состояние, RPS, время ответа и другие метрики
• Используются метрики nginx_http_response_count_total и nginx_http_upstream_time_seconds_hist_bucket

Общие выводы
• Мониторинг серверных приложений важен для предотвращения поломок
• Prometheus и Grafana используются для сбора и визуализации метрик
• Дашборды помогают быстро оценить состояние проектов и приложений

Настройка панели дискового пространства
• График свободного дискового пространства: node_filesystem_avail_bytes
• График использованного дискового пространства: node_filesystem_size_bytes - node_filesystem_avail_bytes

Настройка панели памяти
• Аналогично панели дискового пространства

Настройка панели процессорных ядер
• 100 * (1 - (разгневанный(node_cpu_seconds_total{режим='idle',экземпляр=~'$instance.*'}[1m])))
• Использование PromQL для оптимизации данных

Использование нескольких процессорных ядер
• Визуализация данных как графическая

Хранение данных и дашборды
• Локальная база данных sqlite3 для хранения конфигурации
• Дашборды лучше всего разбираются в форматах JSON

Уведомления и Alertmanager
• Механизм алертов для обнаружения критических ситуаций
• Настройка уведомлений на основные критические ситуации
• Использование Alertmanager для отправки уведомлений в различные каналы связи

Использование Телеграм для оповещений
• Alertmanager отправляет пост-запросы в Телеграм
• Приложение-вебхук форматирует сообщения и отправляет их в Телеграм
• Создание отдельных телеграм-каналов для каждого проекта

Опрос пользователей
• Вопросы о мониторинге проектов
• Результаты опроса пользователей

https://habr.com/ru/companies/doubletapp/articles/736602/
#graphana #prometheus #analytics
Сегодня мне задарили футболку )))) самая топовая, какую я вообще получал )))
🔥3👍2
​​🛞Читаем статьи за Вас №25

Как мы выстроили систему визуализации ошибок с помощью Grafana и снизили время на их отработку с 2 часов до 15 секунд

✔️Проблемы с данными
• Данные берутся из 43 официальных источников, часто меняющих формат массивов.
• Один из источников изменил поле «name» на «firstname», что могло привести к ошибкам.
• Ошибки могут быть связаны с неполной выгрузкой данных, периодичностью обновления, разными форматами данных и их структурой.

✔️Система мониторинга
• Ранее использовался телеграм-бот для контроля работоспособности.
• Количество источников росло, что усложняло мониторинг.
• Внедрена система контроля обновления данных с использованием Grafana и Prometheus.

✔️Процесс обновления данных
• Данные проходят несколько этапов: скачивание, загрузка в БД, загрузка в Elastic Search.
• В Grafana отслеживаются 4 метрики: статус обновления, процент загруженных файлов, объем полученных данных, время обновления.
• Планируется добавить метрику «Количество ошибок» для парсинга записей.

✔️Технические детали
• Сбор, хранение и отображение метрик выполнены на основе Grafana и Prometheus.
• Prometheus опрашивает API Datanewton каждые 10 секунд и сохраняет значения метрик.
• Grafana отображает метрики на дашборде по запросу пользователя.

✔️Будущие планы
• Планируется внедрить метрику по тестам, запускаемым TeamCity.
• Тесты будут имитировать поведение реального пользователя и показывать ошибки в режиме реального времени.

✔️Заключение
• Стартап приглашает к обсуждению и улучшению системы мониторинга.
• Призывы делиться личным опытом использования Графаны и других инструментов.

https://habr.com/ru/articles/803527/
#graphana #prometheus #analytics
https://notebooklm.google.com/?pli=1 - новая тулза, очень затейная, всем кто не пробовал советую попробовать, весьма интересная вещь.
​​🚀Читаем статьи за Вас №23:

Обзор использования синтетических данных в машинном обучении
• Синтетические данные используются для обучения моделей, когда реальных данных недостаточно.
• Синтетические данные могут быть созданы с помощью генеративных моделей, таких как GAN.
• Примеры использования включают генерацию изображений, аудио и текстовых данных.

Применение синтетических данных в различных сферах
• В медицине синтетические данные используются для создания биофизических симуляций.
• В области безопасности и распознавания лиц синтетические данные помогают в обучении моделей.
• В сфере финансов и чат-ботов синтетические данные применяются для создания обучающих наборов.
• В страховании синтетические данные используются для моделирования оттока клиентов.
• В автомобильной промышленности синтетические данные применяются для обучения беспилотных автомобилей.

Преимущества и ограничения синтетических данных
• Синтетические данные позволяют быстро и эффективно обучать модели, но могут содержать ошибки.
• Реальные данные ценны, но их сбор может быть сложным и затратным, в то время как синтетические данные могут быть более доступными.

Примеры использования синтетических данных
• American Express использовала синтетические данные для борьбы с мошенничеством.
• Charité Lab использовала синтетические данные для прогнозирования результатов инсультов.
• Microsoft обучила модели компьютерного зрения на синтетических данных.
• Moveworks разработал чат-бота на основе синтетических данных.
• La Mobilière использовала синтетические данные для соблюдения требований по конфиденциальности.
• NVIDIA создала виртуальное пространство для тестирования роботов.
• Amazon применила синтетические данные для улучшения понимания естественного языка Alexa.
• Waymo использует синтетические данные для обучения беспилотных автомобилей.

👉Ссылка: https://habr.com/ru/articles/721170/

#syntetic #data #pipline #analysis
💯Новая книжка по оптимизации на больших данных в Python. Кто занимается оптимизацией и рефакторингом, советую глянуть.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Будущий офис китайского техногиганта Tencent в Гуанчжоу — это небоскреб с построенными прямо внутри него домиками.

Башню высотой 207 м спроектировал французский архитектор Жан Нувель и она уже близка к завершению.

Часть из 39 этажей занимают террасы с как бы отдельными зданиями: в них будут рестораны, спортзалы, сады, магазины и т.д.

У меня только один вопрос - зачем домики внутри домика ?)))
Cotype Nano - русскоязычная SLM от МТС.

MTS AI опубликовала в открытый доступ легковесную модель генерации текста C otype Nano и ее квантованные вариации.

Cotype Nano построена на базе Qwen2.5-1.5B и обучалась методом SFT на датасете объемом 1 млн. инструкций из областей: математика, программирование, обобщение текста и текстовые диалоги. В создании датасета использовалась большая модель Cotype Pro 32k.

На первой стадии обучался слой MLP с LoRa на датасетах по математике и программированию. На второй стадии обучалась вся модель на инструктивных датасетах. Завершающим этапом стал alignment (DPO) на отдельно сгенерированном датасете.

Оценка модели проводилась автоматическим side-by-side с gpt-3.5-turbo и gpt-4 на внутреннем датасете и в бенчмарках RuGeneralArena, где Cotype-Nano показала лучший результат в своей весовой категории.

▶️Набор моделей:

🟢Cotype-Nano - 1.54 млрд. параметров;

🟠Cotype‑Nano-4bit - 403 млн. параметров, квантованная методом AWQ версия;

🟠Cotype‑Nano‑CPU - оптимизированная с помощью openVINO версия под CPU Intel;

🟠Cotype Nano GGUF - 1.54 млрд параметров, две версии в разрядности 16-bit (3. 09 Gb) и 8-bit (1.65 GB) под llama.cpp.

📌Лицензирование: Apache 2.0 License.

🟡Статья на Habr
🟡Набор моделей на HF

#AI #ML #SLM #RuLLM #MTS
Please open Telegram to view this post
VIEW IN TELEGRAM
Чистим Google от мусора — вышло лучшее расширение для ЧИСТОГО поиска.

Bad Website Blocklist убирает из выдачи все мусорные сайты, спам, рекламу и сгенерированные нейронками статьи. Всё прозрачно — каждый сайт в списке имеет понятную причину для блока. А если этого мало — можете добавить сервисы, которые бесят вас.

Убираем всю грязь из поиска — здесь.
ChatGPT поставил правильный диагноз больному, которому не помогли 30 (!) больниц — реддитор потратил 5 лет и 100 000 долларов на поиск причины постоянной усталости и болей в суставах.

В какой-то момент парень психанул и просто закинул в o1-Pro свои симптомы и результаты анализов — ИИ предположил, что у бедолаги редкое генетическое заболевание осевой спондилоартроз.

Пару дней до этого он сделал анализ, который подтвердил диагноз — врачи все пять лет искали не там.

Такими темпами подписка на ChatGPT станет обязательной частью страховки.
Отличная новость из одного знакомого канала.
https://useconsensus.io/ - аналог гугл, система бегает по Redit и ищет все ответы в коментах.
👍3
Война Китая и США в области ИИ началась, официально

Китай выделил $137 млрд за 5 лет на развитие нейросетей — в ответ на проект Трампа «Звёздные врата».

Для контекста: в первые дни в должности президента США Трамп сходу выделил $100 млрд в проект Stargate, связанный с развитием ИИ. А в планах — вложить все 500 млрд.

Несмотря на то, что ChatGPT уже позади DeepSeek и Qwen2.5, Поднебесная хочет ещё больше. Ведь тот, кто создаст мощнейший искусственный интеллект — получит новое мощнейшее оружие и власть.
Этой ночью Китай сломал экономику США своим новым ИИ DeepSeek.

Чат-бот сразу после релиза взлетел на первую строчку популярности среди смартфонов, обогнав ChatGPT. Причина - он дешевле в разработке и в разы быстрее OpenAI.

В то время как OpenAI закупает тонны видеокарт у Nvidia, стоимость тренировки DeepSeek обошлась дешевле премии Сэма Альтмана - в $5,6 миллионов. Китай показал что тренировать ИИ не так уж и дорого если есть желание сделать эффективную модель.

Итог - акции Nvidia торпедят на 7%, ChatGPT упал с лидирующей строчки. А жители России рады - для DeepSeek не нужен ни специальное подключение ни зарубежный номер ни подписка.
👍4