🛞Читаем статьи за Вас №25
Как мы выстроили систему визуализации ошибок с помощью Grafana и снизили время на их отработку с 2 часов до 15 секунд
✔️Проблемы с данными
• Данные берутся из 43 официальных источников, часто меняющих формат массивов.
• Один из источников изменил поле «name» на «firstname», что могло привести к ошибкам.
• Ошибки могут быть связаны с неполной выгрузкой данных, периодичностью обновления, разными форматами данных и их структурой.
✔️Система мониторинга
• Ранее использовался телеграм-бот для контроля работоспособности.
• Количество источников росло, что усложняло мониторинг.
• Внедрена система контроля обновления данных с использованием Grafana и Prometheus.
✔️Процесс обновления данных
• Данные проходят несколько этапов: скачивание, загрузка в БД, загрузка в Elastic Search.
• В Grafana отслеживаются 4 метрики: статус обновления, процент загруженных файлов, объем полученных данных, время обновления.
• Планируется добавить метрику «Количество ошибок» для парсинга записей.
✔️Технические детали
• Сбор, хранение и отображение метрик выполнены на основе Grafana и Prometheus.
• Prometheus опрашивает API Datanewton каждые 10 секунд и сохраняет значения метрик.
• Grafana отображает метрики на дашборде по запросу пользователя.
✔️Будущие планы
• Планируется внедрить метрику по тестам, запускаемым TeamCity.
• Тесты будут имитировать поведение реального пользователя и показывать ошибки в режиме реального времени.
✔️Заключение
• Стартап приглашает к обсуждению и улучшению системы мониторинга.
• Призывы делиться личным опытом использования Графаны и других инструментов.
https://habr.com/ru/articles/803527/
#graphana #prometheus #analytics
Как мы выстроили систему визуализации ошибок с помощью Grafana и снизили время на их отработку с 2 часов до 15 секунд
✔️Проблемы с данными
• Данные берутся из 43 официальных источников, часто меняющих формат массивов.
• Один из источников изменил поле «name» на «firstname», что могло привести к ошибкам.
• Ошибки могут быть связаны с неполной выгрузкой данных, периодичностью обновления, разными форматами данных и их структурой.
✔️Система мониторинга
• Ранее использовался телеграм-бот для контроля работоспособности.
• Количество источников росло, что усложняло мониторинг.
• Внедрена система контроля обновления данных с использованием Grafana и Prometheus.
✔️Процесс обновления данных
• Данные проходят несколько этапов: скачивание, загрузка в БД, загрузка в Elastic Search.
• В Grafana отслеживаются 4 метрики: статус обновления, процент загруженных файлов, объем полученных данных, время обновления.
• Планируется добавить метрику «Количество ошибок» для парсинга записей.
✔️Технические детали
• Сбор, хранение и отображение метрик выполнены на основе Grafana и Prometheus.
• Prometheus опрашивает API Datanewton каждые 10 секунд и сохраняет значения метрик.
• Grafana отображает метрики на дашборде по запросу пользователя.
✔️Будущие планы
• Планируется внедрить метрику по тестам, запускаемым TeamCity.
• Тесты будут имитировать поведение реального пользователя и показывать ошибки в режиме реального времени.
✔️Заключение
• Стартап приглашает к обсуждению и улучшению системы мониторинга.
• Призывы делиться личным опытом использования Графаны и других инструментов.
https://habr.com/ru/articles/803527/
#graphana #prometheus #analytics
https://notebooklm.google.com/?pli=1 - новая тулза, очень затейная, всем кто не пробовал советую попробовать, весьма интересная вещь.
🚀Читаем статьи за Вас №23:
✅Обзор использования синтетических данных в машинном обучении
• Синтетические данные используются для обучения моделей, когда реальных данных недостаточно.
• Синтетические данные могут быть созданы с помощью генеративных моделей, таких как GAN.
• Примеры использования включают генерацию изображений, аудио и текстовых данных.
✅Применение синтетических данных в различных сферах
• В медицине синтетические данные используются для создания биофизических симуляций.
• В области безопасности и распознавания лиц синтетические данные помогают в обучении моделей.
• В сфере финансов и чат-ботов синтетические данные применяются для создания обучающих наборов.
• В страховании синтетические данные используются для моделирования оттока клиентов.
• В автомобильной промышленности синтетические данные применяются для обучения беспилотных автомобилей.
✅Преимущества и ограничения синтетических данных
• Синтетические данные позволяют быстро и эффективно обучать модели, но могут содержать ошибки.
• Реальные данные ценны, но их сбор может быть сложным и затратным, в то время как синтетические данные могут быть более доступными.
✅Примеры использования синтетических данных
• American Express использовала синтетические данные для борьбы с мошенничеством.
• Charité Lab использовала синтетические данные для прогнозирования результатов инсультов.
• Microsoft обучила модели компьютерного зрения на синтетических данных.
• Moveworks разработал чат-бота на основе синтетических данных.
• La Mobilière использовала синтетические данные для соблюдения требований по конфиденциальности.
• NVIDIA создала виртуальное пространство для тестирования роботов.
• Amazon применила синтетические данные для улучшения понимания естественного языка Alexa.
• Waymo использует синтетические данные для обучения беспилотных автомобилей.
👉Ссылка: https://habr.com/ru/articles/721170/
#syntetic #data #pipline #analysis
✅Обзор использования синтетических данных в машинном обучении
• Синтетические данные используются для обучения моделей, когда реальных данных недостаточно.
• Синтетические данные могут быть созданы с помощью генеративных моделей, таких как GAN.
• Примеры использования включают генерацию изображений, аудио и текстовых данных.
✅Применение синтетических данных в различных сферах
• В медицине синтетические данные используются для создания биофизических симуляций.
• В области безопасности и распознавания лиц синтетические данные помогают в обучении моделей.
• В сфере финансов и чат-ботов синтетические данные применяются для создания обучающих наборов.
• В страховании синтетические данные используются для моделирования оттока клиентов.
• В автомобильной промышленности синтетические данные применяются для обучения беспилотных автомобилей.
✅Преимущества и ограничения синтетических данных
• Синтетические данные позволяют быстро и эффективно обучать модели, но могут содержать ошибки.
• Реальные данные ценны, но их сбор может быть сложным и затратным, в то время как синтетические данные могут быть более доступными.
✅Примеры использования синтетических данных
• American Express использовала синтетические данные для борьбы с мошенничеством.
• Charité Lab использовала синтетические данные для прогнозирования результатов инсультов.
• Microsoft обучила модели компьютерного зрения на синтетических данных.
• Moveworks разработал чат-бота на основе синтетических данных.
• La Mobilière использовала синтетические данные для соблюдения требований по конфиденциальности.
• NVIDIA создала виртуальное пространство для тестирования роботов.
• Amazon применила синтетические данные для улучшения понимания естественного языка Alexa.
• Waymo использует синтетические данные для обучения беспилотных автомобилей.
👉Ссылка: https://habr.com/ru/articles/721170/
#syntetic #data #pipline #analysis
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Будущий офис китайского техногиганта Tencent в Гуанчжоу — это небоскреб с построенными прямо внутри него домиками.
Башню высотой 207 м спроектировал французский архитектор Жан Нувель и она уже близка к завершению.
Часть из 39 этажей занимают террасы с как бы отдельными зданиями: в них будут рестораны, спортзалы, сады, магазины и т.д.
У меня только один вопрос - зачем домики внутри домика ?)))
Башню высотой 207 м спроектировал французский архитектор Жан Нувель и она уже близка к завершению.
Часть из 39 этажей занимают террасы с как бы отдельными зданиями: в них будут рестораны, спортзалы, сады, магазины и т.д.
У меня только один вопрос - зачем домики внутри домика ?)))
Cotype Nano - русскоязычная SLM от МТС.
MTS AI опубликовала в открытый доступ легковесную модель генерации текста C otype Nano и ее квантованные вариации.
Cotype Nano построена на базе Qwen2.5-1.5B и обучалась методом SFT на датасете объемом 1 млн. инструкций из областей: математика, программирование, обобщение текста и текстовые диалоги. В создании датасета использовалась большая модель Cotype Pro 32k.
На первой стадии обучался слой MLP с LoRa на датасетах по математике и программированию. На второй стадии обучалась вся модель на инструктивных датасетах. Завершающим этапом стал alignment (DPO) на отдельно сгенерированном датасете.
Оценка модели проводилась автоматическим side-by-side с gpt-3.5-turbo и gpt-4 на внутреннем датасете и в бенчмарках RuGeneralArena, где Cotype-Nano показала лучший результат в своей весовой категории.
▶️ Набор моделей:
🟢 Cotype-Nano - 1.54 млрд. параметров;
🟠 Cotype‑Nano-4bit - 403 млн. параметров, квантованная методом AWQ версия;
🟠 Cotype‑Nano‑CPU - оптимизированная с помощью openVINO версия под CPU Intel;
🟠 Cotype Nano GGUF - 1.54 млрд параметров, две версии в разрядности 16-bit (3. 09 Gb) и 8-bit (1.65 GB) под llama.cpp.
📌 Лицензирование: Apache 2.0 License.
🟡 Статья на Habr
🟡 Набор моделей на HF
#AI #ML #SLM #RuLLM #MTS
MTS AI опубликовала в открытый доступ легковесную модель генерации текста C otype Nano и ее квантованные вариации.
Cotype Nano построена на базе Qwen2.5-1.5B и обучалась методом SFT на датасете объемом 1 млн. инструкций из областей: математика, программирование, обобщение текста и текстовые диалоги. В создании датасета использовалась большая модель Cotype Pro 32k.
На первой стадии обучался слой MLP с LoRa на датасетах по математике и программированию. На второй стадии обучалась вся модель на инструктивных датасетах. Завершающим этапом стал alignment (DPO) на отдельно сгенерированном датасете.
Оценка модели проводилась автоматическим side-by-side с gpt-3.5-turbo и gpt-4 на внутреннем датасете и в бенчмарках RuGeneralArena, где Cotype-Nano показала лучший результат в своей весовой категории.
#AI #ML #SLM #RuLLM #MTS
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Cotype-Nano - a MTSAIR Collection
Small and strong 1.5B models
Чистим Google от мусора — вышло лучшее расширение для ЧИСТОГО поиска.
Bad Website Blocklist убирает из выдачи все мусорные сайты, спам, рекламу и сгенерированные нейронками статьи. Всё прозрачно — каждый сайт в списке имеет понятную причину для блока. А если этого мало — можете добавить сервисы, которые бесят вас.
Убираем всю грязь из поиска — здесь.
Bad Website Blocklist убирает из выдачи все мусорные сайты, спам, рекламу и сгенерированные нейронками статьи. Всё прозрачно — каждый сайт в списке имеет понятную причину для блока. А если этого мало — можете добавить сервисы, которые бесят вас.
Убираем всю грязь из поиска — здесь.
GitHub
GitHub - popcar2/BadWebsiteBlocklist: A filter that blocks spam & misleading websites from appearing in search results via uBlocklist
A filter that blocks spam & misleading websites from appearing in search results via uBlocklist - popcar2/BadWebsiteBlocklist
ChatGPT поставил правильный диагноз больному, которому не помогли 30 (!) больниц — реддитор потратил 5 лет и 100 000 долларов на поиск причины постоянной усталости и болей в суставах.
В какой-то момент парень психанул и просто закинул в o1-Pro свои симптомы и результаты анализов — ИИ предположил, что у бедолаги редкое генетическое заболевание осевой спондилоартроз.
Пару дней до этого он сделал анализ, который подтвердил диагноз — врачи все пять лет искали не там.
Такими темпами подписка на ChatGPT станет обязательной частью страховки.
В какой-то момент парень психанул и просто закинул в o1-Pro свои симптомы и результаты анализов — ИИ предположил, что у бедолаги редкое генетическое заболевание осевой спондилоартроз.
Пару дней до этого он сделал анализ, который подтвердил диагноз — врачи все пять лет искали не там.
Такими темпами подписка на ChatGPT станет обязательной частью страховки.
Reddit
From the ChatGPT community on Reddit
Explore this post and more from the ChatGPT community
https://useconsensus.io/ - аналог гугл, система бегает по Redit и ищет все ответы в коментах.
👍3
Война Китая и США в области ИИ началась, официально
Китай выделил $137 млрд за 5 лет на развитие нейросетей — в ответ на проект Трампа «Звёздные врата».
Для контекста: в первые дни в должности президента США Трамп сходу выделил $100 млрд в проект Stargate, связанный с развитием ИИ. А в планах — вложить все 500 млрд.
Несмотря на то, что ChatGPT уже позади DeepSeek и Qwen2.5, Поднебесная хочет ещё больше. Ведь тот, кто создаст мощнейший искусственный интеллект — получит новое мощнейшее оружие и власть.
Китай выделил $137 млрд за 5 лет на развитие нейросетей — в ответ на проект Трампа «Звёздные врата».
Для контекста: в первые дни в должности президента США Трамп сходу выделил $100 млрд в проект Stargate, связанный с развитием ИИ. А в планах — вложить все 500 млрд.
Несмотря на то, что ChatGPT уже позади DeepSeek и Qwen2.5, Поднебесная хочет ещё больше. Ведь тот, кто создаст мощнейший искусственный интеллект — получит новое мощнейшее оружие и власть.
Этой ночью Китай сломал экономику США своим новым ИИ DeepSeek.
Чат-бот сразу после релиза взлетел на первую строчку популярности среди смартфонов, обогнав ChatGPT. Причина - он дешевле в разработке и в разы быстрее OpenAI.
В то время как OpenAI закупает тонны видеокарт у Nvidia, стоимость тренировки DeepSeek обошлась дешевле премии Сэма Альтмана - в $5,6 миллионов. Китай показал что тренировать ИИ не так уж и дорого если есть желание сделать эффективную модель.
Итог - акции Nvidia торпедят на 7%, ChatGPT упал с лидирующей строчки. А жители России рады - для DeepSeek не нужен ни специальное подключение ни зарубежный номер ни подписка.
Чат-бот сразу после релиза взлетел на первую строчку популярности среди смартфонов, обогнав ChatGPT. Причина - он дешевле в разработке и в разы быстрее OpenAI.
В то время как OpenAI закупает тонны видеокарт у Nvidia, стоимость тренировки DeepSeek обошлась дешевле премии Сэма Альтмана - в $5,6 миллионов. Китай показал что тренировать ИИ не так уж и дорого если есть желание сделать эффективную модель.
Итог - акции Nvidia торпедят на 7%, ChatGPT упал с лидирующей строчки. А жители России рады - для DeepSeek не нужен ни специальное подключение ни зарубежный номер ни подписка.
👍4
DeepSeek решила добить дядю Хуанга: они выпустили новую мультимодальную модель для генерации пикч в открытый доступ.
И вот, что Janus-Pro-7B может:
— Генерации почти не отличить от реальных - изображения получаются детализированными, а текст на них выглядит идеально;
— Тесты показывают, что нейронка уничтожает своих американских конкурентов DALL-E 3 и Stable Diffusion;
— Устанавливается локально на ваш ПК.
— Является бесплатной
И вот, что Janus-Pro-7B может:
— Генерации почти не отличить от реальных - изображения получаются детализированными, а текст на них выглядит идеально;
— Тесты показывают, что нейронка уничтожает своих американских конкурентов DALL-E 3 и Stable Diffusion;
— Устанавливается локально на ваш ПК.
— Является бесплатной
This media is not supported in your browser
VIEW IN TELEGRAM
Эпичную перестрелку двух роботов запечатлели в Китае: беспилотник начал перестреливаться фейерверками с робособакой. Скоро везде.
https://t.me/spydell_finance/6942 - короткая выжимка по ситуации с Deep Seek
Telegram
Spydell_finance
Минус $790 млрд за день и только по одной акции
Интересные события произошли – в США началась лютая истерика вокруг DeepSeek, что спровоцировало крупнейшую распродажу в истории. Точнее не DeepSeek спровоцировал распродажу, а истерика вокруг проворных и хитрых…
Интересные события произошли – в США началась лютая истерика вокруг DeepSeek, что спровоцировало крупнейшую распродажу в истории. Точнее не DeepSeek спровоцировал распродажу, а истерика вокруг проворных и хитрых…
😈Кстати, суммарное число потерянных активов из-за DeepSeek, по данным всего технологического сектора США, составило 799 млрд $.
А кучно пошло, нарисовался очень мощный новый иструмент по просаживанию экономик стран. А главное как элегантно и чисто сработано, КРАСИВО )))
А кучно пошло, нарисовался очень мощный новый иструмент по просаживанию экономик стран. А главное как элегантно и чисто сработано, КРАСИВО )))
Please open Telegram to view this post
VIEW IN TELEGRAM
🥰3
https://www.ft.com/content/a0dfedd1-5255-4fa9-8ccc-1fe01de87ea6 - OpenAI начали оправдываться, что всему имеет место банальный промышленный шпионаж, что якобы китайцы попросту украли ChatGPT, именно поэтому он (DeepSeek) часто цитирует правила ChatGPT и вообще всячески на него похож.
Но сдается мне, что кто-то хочет замести все следы под ковер и еще диван поставить, чтобы точно все было чистенько. Ситуация приобретает весьма пикантный характер при учете того, что идет переформирование ресурсов и паника на рынках ))). Разборки в сети вышли на совершенно новый уровень.
Но сдается мне, что кто-то хочет замести все следы под ковер и еще диван поставить, чтобы точно все было чистенько. Ситуация приобретает весьма пикантный характер при учете того, что идет переформирование ресурсов и паника на рынках ))). Разборки в сети вышли на совершенно новый уровень.
Ft
OpenAI says it has evidence China’s DeepSeek used its model to train competitor
White House AI tsar David Sacks raises possibility of alleged intellectual property theft