DenoiseLAB – Telegram

DenoiseLAB

486 subscribers

1.33K photos

160 videos

3 files

1.58K links

Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.

Download Telegram

About

Blog

Apps

Platform

486 subscribers

🛞Читаем статьи за Вас №21:

Система визуализации и мониторинга. Grafana + Prometheus

✔️Установка Grafana на Windows
• Скачиваем и устанавливаем Grafana
• Устанавливаем Prometheus для сбора метрик
• Устанавливаем Windows_exporter для сбора статистики с системы
• Устанавливаем Blackbox_exporter для мониторинга доступности URL

✔️Настройка Grafana
• Изменяем значение в файле defaults.ini для включения SMTP
• Запускаем службу Grafana и проверяем интерфейс

✔️Настройка Prometheus
• Вносим изменения в файл prometheus.yml для подключения Windows_exporter и Blackbox_exporter
• Запускаем Prometheus и проверяем статус сервисов

✔️Настройка панелей мониторинга
• Подключаем источник данных Prometheus в Grafana
• Настраиваем панели мониторинга для метрик Windows_exporter
• Добавляем новые ПК для мониторинга, изменяя файл Prometheus.yml

✔️Настройка конкретных метрик
• Создаем панели для отображения конкретных служб и метрик
• Настраиваем Value mappings для удобства восприятия

✔️Завершение настройки
• Проверяем статус метрик и настраиваем нужные под свои задачи
• Базовая настройка завершена, можно приступать к использованию

#graphana #prometheus #analytics

93 views07:00

👍 2 👎🤔

🛞Читаем статьи за Вас №22:

Введение в мониторинг серверов с помощью Prometheus и Grafana

✔️Основы мониторинга с Prometheus, Node Exporter и Grafana
• Мониторинг необходим для контроля состояния серверов и своевременного реагирования на проблемы.
• Prometheus собирает метрики из разных сервисов, Node Exporter предоставляет метрики ОС, а Grafana визуализирует данные в виде графиков.
• В статье рассматривается настройка мониторинга на примере Ubuntu, но инструменты поддерживают и другие ОС.

✔️Установка и настройка компонентов
• Node Exporter устанавливается через GitHub и предоставляет метрики через HTTP.
• Prometheus требует файл конфигурации и папку для хранения данных, настраивается на сбор метрик от Node Exporter.
• Grafana подключается к Prometheus и отображает собранные метрики на графиках.

✔️Настройка Grafana
• Настройка источника данных (datasource) с использованием Prometheus.
• Создание дашборда с помощью импорта готовых панелей или создания собственных.
• Установка плагинов для расширения функциональности дашборда, например, для отображения круговых диаграмм.

Ссылка: https://habr.com/ru/articles/652185/
#graphana #prometheus #analytics

109 views07:00

https://github.com/Helicone/helicone - open-source LLM developer platform

87 views08:00

👍 2 👎🤔

🛞Читаем статьи за Вас №23:

Clickhouse, Grafana и 3000 графиков. Как построить систему быстрых дашбордов

✔️Проблема производительности дашбордов
• Вопросы по типу "где данные" возникают часто и требуют быстрого ответа.
• Дашборды помогают получать ответы на разные вопросы в любой момент времени.
• Дашборды объединяют в системы для комплексного обзора данных.

✔️Инструменты и данные
• Clickhouse используется для хранения данных.
• Grafana используется для визуализации данных.
• Altinity Plugin соединяет Clickhouse с Grafana.

✔️Требования к дашбордам
• Графики должны быть читаемыми и интуитивно понятными.
• Дашборды должны загружаться стабильно и быстро.
• Данные должны быть согласованы между разными дашбордами.

✔️Методы оптимизации производительности
• Мониторинг за мониторингом для выявления проблем.
• Правильное проектирование дашбордов для избежания ошибок.
• Разделение ответственности и введение квот на запросы.

✔️Работа с Clickhouse
• Определение оптимальных запросов для ускорения графиков.
• Оптимальное хранение данных для быстрых запросов.
• Кэширование результатов запросов для экономии ресурсов.

✔️Мониторинг и алерты
• Работа с системными таблицами для анализа запросов.
• Настройка алертов на скорость выполнения запросов.
• Разметка запросов в Grafana для разделения по дашбордам.

✔️Инструменты внешнего мониторинга
• Использование sitespeed для регулярного открытия дашбордов.
• Логирование метрик с Grafana для анализа причин проблем.

✔️Правильное проектирование дашбордов
• Внимательное отношение к переменным в дашбордах.
• Избегание хранения всех графиков в одной строке для оптимизации запросов.

✔️Проблемы с нагрузкой на БД
• Раскрытие строк создаёт нагрузку на БД, что замедляет работу системы.
• Несколько быстрых запросов лучше, чем один медленный.

✔️Разделение ответственности
• Дашборды делятся на общие и внутренние.
• Общие дашборды должны быть стабильными, внутренние — быстрыми.
• Для подключения Clickhouse к Grafana нужен сервисный пользователь с квотами.

✔️Оптимизация запросов
• Чем меньше колонок в запросе, тем лучше.
• Используйте колонки из ключа сортировки.
• Динамическое семплирование для чтения меньшего объёма данных.
• Используйте макрос $unescape() для скрытия ненужных колонок.
• Выполняйте приближенные вычисления на больших данных.
• Агрегируйте данные заранее и используйте агрегаты в графиках.

✔️Показатели оптимальности запросов
• Время выполнения, количество прочитанных строк и байт.
• Фиксируйте эти показатели и сравнивайте с прошлыми замерами.

✔️Оптимальное хранение данных
• Используйте правильные типы данных.
• Подберите ключ сортировки и ключ партицирования.
• Экспериментируйте с гранулярностью и смешанной политикой хранения.

✔️Оптимизация медленных таблиц
• Перекопировать данные или сделать Materialized View.
• Кэшируйте результаты запросов с помощью use_query_cache = True.

✔️Проблема согласованности данных
• Данные должны быть одинаковыми на всех дашбордах
• Ежедневно добавляются/удаляются графики и создаются новые дашборды
• Ошибки возникают из-за множества условий и ограничений на данные

✔️Решение проблемы
• Проведена системная работа по определению набора условий и метрик
• Создана таблица с анонимными событиями без урлов и идентификаторов пользователя
• Таблица наполняется Materialized View, использующими все условия
• Основные таблицы названы «холодными», таблица с анонимными событиями — «горячей»

✔️Единая точка для фильтров
• Создан View для хранения набора условий
• Создана переменная в Grafana для обращения к View
• Мультивыбор включает All для скрытия SQL-кода в урлах
• Вызов переменной в запросах с использованием csv-форматирования

✔️Итоги
• Собраны советы по оптимизации графиков
• Следить за стабильностью и скоростью загрузки графиков
• Учитывать специфичную нагрузку при проектировании хранилища
• Кэшировать результаты запросов и ограничивать запросы квотами
• Минимизировать количество источников данных
• Делать дашборды не только красивыми, но и быстрыми

https://habr.com/ru/companies/ozontech/articles/774712/
#graphana #prometheus #analytics

88 views07:00

👍 1 👎🤔

Поставщики синтетических данных, может кому-то пригодится
- https://gretel.ai/
- https://synthesis.ai/
- https://www.aiforia.com/ (медицина, биомедицина)
- https://www.sogeti.com/ (инжиринг и облачные данные)
- https://epistemix.com/
- https://www.facteus.com/mimic (финансы);

тут еще целый список: https://www.questionpro.com/blog/synthetic-data-companies/

Use Case: Synthetic Data Generation for Agentic AI

Build SDG pipelines to power conversational AI, benchmarks, and agentic AI workflows with NVIDIA NeMo synthetic data tools. Read the use case for more details.

👀2

123 views12:37

В этой новости прекрасно все ))) ахахах

107 views18:42

🛞Читаем статьи за Вас №24

Вас много, а я одна: обзорная система мониторинга на Prometheus и Grafana

Сбор метрик
• Prometheus собирает метрики с серверов через экспортеры
• Для Nginx используется prometheus-nginxlog-экспортер
• Для серверов используется prometheus/node_exporter

Визуализация данных
• Дашборды в Grafana отображают метрики в реальном времени
• Главный дашборд показывает состояние серверов и приложений
• Дашборды приложений показывают RPS, время ответа и другие метрики

Дашборды серверов
• Дашборд серверов показывает нагрузку на ЦПУ, память и диск
• Используются метрики node_cpu_seconds_total, node_memory_MemAvailable_bytes и node_filesystem_avail_bytes

Дашборды приложений
• Дашборды приложений показывают состояние, RPS, время ответа и другие метрики
• Используются метрики nginx_http_response_count_total и nginx_http_upstream_time_seconds_hist_bucket

Общие выводы
• Мониторинг серверных приложений важен для предотвращения поломок
• Prometheus и Grafana используются для сбора и визуализации метрик
• Дашборды помогают быстро оценить состояние проектов и приложений

Настройка панели дискового пространства
• График свободного дискового пространства: node_filesystem_avail_bytes
• График использованного дискового пространства: node_filesystem_size_bytes - node_filesystem_avail_bytes

Настройка панели памяти
• Аналогично панели дискового пространства

Настройка панели процессорных ядер
• 100 * (1 - (разгневанный(node_cpu_seconds_total{режим='idle',экземпляр=~'$instance.*'}[1m])))
• Использование PromQL для оптимизации данных

Использование нескольких процессорных ядер
• Визуализация данных как графическая

Хранение данных и дашборды
• Локальная база данных sqlite3 для хранения конфигурации
• Дашборды лучше всего разбираются в форматах JSON

Уведомления и Alertmanager
• Механизм алертов для обнаружения критических ситуаций
• Настройка уведомлений на основные критические ситуации
• Использование Alertmanager для отправки уведомлений в различные каналы связи

Использование Телеграм для оповещений
• Alertmanager отправляет пост-запросы в Телеграм
• Приложение-вебхук форматирует сообщения и отправляет их в Телеграм
• Создание отдельных телеграм-каналов для каждого проекта

Опрос пользователей
• Вопросы о мониторинге проектов
• Результаты опроса пользователей

https://habr.com/ru/companies/doubletapp/articles/736602/
#graphana #prometheus #analytics

104 views07:00

👍 1 👎🤔

Сегодня мне задарили футболку )))) самая топовая, какую я вообще получал )))

🔥3👍2

123 views10:44

🛞Читаем статьи за Вас №25

Как мы выстроили систему визуализации ошибок с помощью Grafana и снизили время на их отработку с 2 часов до 15 секунд

✔️Проблемы с данными
• Данные берутся из 43 официальных источников, часто меняющих формат массивов.
• Один из источников изменил поле «name» на «firstname», что могло привести к ошибкам.
• Ошибки могут быть связаны с неполной выгрузкой данных, периодичностью обновления, разными форматами данных и их структурой.

✔️Система мониторинга
• Ранее использовался телеграм-бот для контроля работоспособности.
• Количество источников росло, что усложняло мониторинг.
• Внедрена система контроля обновления данных с использованием Grafana и Prometheus.

✔️Процесс обновления данных
• Данные проходят несколько этапов: скачивание, загрузка в БД, загрузка в Elastic Search.
• В Grafana отслеживаются 4 метрики: статус обновления, процент загруженных файлов, объем полученных данных, время обновления.
• Планируется добавить метрику «Количество ошибок» для парсинга записей.

✔️Технические детали
• Сбор, хранение и отображение метрик выполнены на основе Grafana и Prometheus.
• Prometheus опрашивает API Datanewton каждые 10 секунд и сохраняет значения метрик.
• Grafana отображает метрики на дашборде по запросу пользователя.

✔️Будущие планы
• Планируется внедрить метрику по тестам, запускаемым TeamCity.
• Тесты будут имитировать поведение реального пользователя и показывать ошибки в режиме реального времени.

✔️Заключение
• Стартап приглашает к обсуждению и улучшению системы мониторинга.
• Призывы делиться личным опытом использования Графаны и других инструментов.

https://habr.com/ru/articles/803527/
#graphana #prometheus #analytics

110 views07:00

👍 2 👎🤔

https://notebooklm.google.com/?pli=1 - новая тулза, очень затейная, всем кто не пробовал советую попробовать, весьма интересная вещь.

69 views06:59

🚀Читаем статьи за Вас №23:

✅Обзор использования синтетических данных в машинном обучении
• Синтетические данные используются для обучения моделей, когда реальных данных недостаточно.
• Синтетические данные могут быть созданы с помощью генеративных моделей, таких как GAN.
• Примеры использования включают генерацию изображений, аудио и текстовых данных.

✅Применение синтетических данных в различных сферах
• В медицине синтетические данные используются для создания биофизических симуляций.
• В области безопасности и распознавания лиц синтетические данные помогают в обучении моделей.
• В сфере финансов и чат-ботов синтетические данные применяются для создания обучающих наборов.
• В страховании синтетические данные используются для моделирования оттока клиентов.
• В автомобильной промышленности синтетические данные применяются для обучения беспилотных автомобилей.

✅Преимущества и ограничения синтетических данных
• Синтетические данные позволяют быстро и эффективно обучать модели, но могут содержать ошибки.
• Реальные данные ценны, но их сбор может быть сложным и затратным, в то время как синтетические данные могут быть более доступными.

✅Примеры использования синтетических данных
• American Express использовала синтетические данные для борьбы с мошенничеством.
• Charité Lab использовала синтетические данные для прогнозирования результатов инсультов.
• Microsoft обучила модели компьютерного зрения на синтетических данных.
• Moveworks разработал чат-бота на основе синтетических данных.
• La Mobilière использовала синтетические данные для соблюдения требований по конфиденциальности.
• NVIDIA создала виртуальное пространство для тестирования роботов.
• Amazon применила синтетические данные для улучшения понимания естественного языка Alexa.
• Waymo использует синтетические данные для обучения беспилотных автомобилей.

👉Ссылка: https://habr.com/ru/articles/721170/

#syntetic #data #pipline #analysis

74 views07:00

👍 1 👎🤔

💯Новая книжка по оптимизации на больших данных в Python. Кто занимается оптимизацией и рефакторингом, советую глянуть.

Please open Telegram to view this post

VIEW IN TELEGRAM

86 views07:21

This media is not supported in your browser

VIEW IN TELEGRAM

Будущий офис китайского техногиганта Tencent в Гуанчжоу — это небоскреб с построенными прямо внутри него домиками.

Башню высотой 207 м спроектировал французский архитектор Жан Нувель и она уже близка к завершению.

Часть из 39 этажей занимают террасы с как бы отдельными зданиями: в них будут рестораны, спортзалы, сады, магазины и т.д.

У меня только один вопрос - зачем домики внутри домика ?)))

89 views07:51

Cotype Nano - русскоязычная SLM от МТС.

MTS AI опубликовала в открытый доступ легковесную модель генерации текста C otype Nano и ее квантованные вариации.

Cotype Nano построена на базе Qwen2.5-1.5B и обучалась методом SFT на датасете объемом 1 млн. инструкций из областей: математика, программирование, обобщение текста и текстовые диалоги. В создании датасета использовалась большая модель Cotype Pro 32k.

На первой стадии обучался слой MLP с LoRa на датасетах по математике и программированию. На второй стадии обучалась вся модель на инструктивных датасетах. Завершающим этапом стал alignment (DPO) на отдельно сгенерированном датасете.

Оценка модели проводилась автоматическим side-by-side с gpt-3.5-turbo и gpt-4 на внутреннем датасете и в бенчмарках RuGeneralArena, где Cotype-Nano показала лучший результат в своей весовой категории.

▶️Набор моделей:

🟢

Cotype-Nano - 1.54 млрд. параметров;

🟠

Cotype‑Nano-4bit - 403 млн. параметров, квантованная методом AWQ версия;

🟠

Cotype‑Nano‑CPU - оптимизированная с помощью openVINO версия под CPU Intel;

🟠

Cotype Nano GGUF - 1.54 млрд параметров, две версии в разрядности 16-bit (3. 09 Gb) и 8-bit (1.65 GB) под llama.cpp.

📌Лицензирование: Apache 2.0 License.

🟡

Статья на Habr

🟡

Набор моделей на HF

#AI #ML #SLM #RuLLM #MTS

Please open Telegram to view this post

VIEW IN TELEGRAM

Cotype-Nano - a MTSAIR Collection

Small and strong 1.5B models

94 views06:31

Чистим Google от мусора — вышло лучшее расширение для ЧИСТОГО поиска.

Bad Website Blocklist убирает из выдачи все мусорные сайты, спам, рекламу и сгенерированные нейронками статьи. Всё прозрачно — каждый сайт в списке имеет понятную причину для блока. А если этого мало — можете добавить сервисы, которые бесят вас.

Убираем всю грязь из поиска — здесь.

GitHub - popcar2/BadWebsiteBlocklist: A filter that blocks spam & misleading websites from appearing in search results via uBlocklist

A filter that blocks spam & misleading websites from appearing in search results via uBlocklist - popcar2/BadWebsiteBlocklist

104 views06:42

ChatGPT поставил правильный диагноз больному, которому не помогли 30 (!) больниц — реддитор потратил 5 лет и 100 000 долларов на поиск причины постоянной усталости и болей в суставах.

В какой-то момент парень психанул и просто закинул в o1-Pro свои симптомы и результаты анализов — ИИ предположил, что у бедолаги редкое генетическое заболевание осевой спондилоартроз.

Пару дней до этого он сделал анализ, который подтвердил диагноз — врачи все пять лет искали не там.

Такими темпами подписка на ChatGPT станет обязательной частью страховки.

From the ChatGPT community on Reddit

Explore this post and more from the ChatGPT community

130 views06:51

Отличная новость из одного знакомого канала.

114 views12:45

https://useconsensus.io/ - аналог гугл, система бегает по Redit и ищет все ответы в коментах.

👍3

98 views11:09

Война Китая и США в области ИИ началась, официально

Китай выделил $137 млрд за 5 лет на развитие нейросетей — в ответ на проект Трампа «Звёздные врата».

Для контекста: в первые дни в должности президента США Трамп сходу выделил $100 млрд в проект Stargate, связанный с развитием ИИ. А в планах — вложить все 500 млрд.

Несмотря на то, что ChatGPT уже позади DeepSeek и Qwen2.5, Поднебесная хочет ещё больше. Ведь тот, кто создаст мощнейший искусственный интеллект — получит новое мощнейшее оружие и власть.

115 views06:16

Этой ночью Китай сломал экономику США своим новым ИИ DeepSeek.

Чат-бот сразу после релиза взлетел на первую строчку популярности среди смартфонов, обогнав ChatGPT. Причина - он дешевле в разработке и в разы быстрее OpenAI.

В то время как OpenAI закупает тонны видеокарт у Nvidia, стоимость тренировки DeepSeek обошлась дешевле премии Сэма Альтмана - в $5,6 миллионов. Китай показал что тренировать ИИ не так уж и дорого если есть желание сделать эффективную модель.

Итог - акции Nvidia торпедят на 7%, ChatGPT упал с лидирующей строчки. А жители России рады - для DeepSeek не нужен ни специальное подключение ни зарубежный номер ни подписка.

👍4

117 viewsedited 09:31