DenoiseLAB
485 subscribers
1.33K photos
160 videos
3 files
1.58K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
​​🛞Читаем статьи за Вас №25

Как мы выстроили систему визуализации ошибок с помощью Grafana и снизили время на их отработку с 2 часов до 15 секунд

✔️Проблемы с данными
• Данные берутся из 43 официальных источников, часто меняющих формат массивов.
• Один из источников изменил поле «name» на «firstname», что могло привести к ошибкам.
• Ошибки могут быть связаны с неполной выгрузкой данных, периодичностью обновления, разными форматами данных и их структурой.

✔️Система мониторинга
• Ранее использовался телеграм-бот для контроля работоспособности.
• Количество источников росло, что усложняло мониторинг.
• Внедрена система контроля обновления данных с использованием Grafana и Prometheus.

✔️Процесс обновления данных
• Данные проходят несколько этапов: скачивание, загрузка в БД, загрузка в Elastic Search.
• В Grafana отслеживаются 4 метрики: статус обновления, процент загруженных файлов, объем полученных данных, время обновления.
• Планируется добавить метрику «Количество ошибок» для парсинга записей.

✔️Технические детали
• Сбор, хранение и отображение метрик выполнены на основе Grafana и Prometheus.
• Prometheus опрашивает API Datanewton каждые 10 секунд и сохраняет значения метрик.
• Grafana отображает метрики на дашборде по запросу пользователя.

✔️Будущие планы
• Планируется внедрить метрику по тестам, запускаемым TeamCity.
• Тесты будут имитировать поведение реального пользователя и показывать ошибки в режиме реального времени.

✔️Заключение
• Стартап приглашает к обсуждению и улучшению системы мониторинга.
• Призывы делиться личным опытом использования Графаны и других инструментов.

https://habr.com/ru/articles/803527/
#graphana #prometheus #analytics
https://notebooklm.google.com/?pli=1 - новая тулза, очень затейная, всем кто не пробовал советую попробовать, весьма интересная вещь.
​​🚀Читаем статьи за Вас №23:

Обзор использования синтетических данных в машинном обучении
• Синтетические данные используются для обучения моделей, когда реальных данных недостаточно.
• Синтетические данные могут быть созданы с помощью генеративных моделей, таких как GAN.
• Примеры использования включают генерацию изображений, аудио и текстовых данных.

Применение синтетических данных в различных сферах
• В медицине синтетические данные используются для создания биофизических симуляций.
• В области безопасности и распознавания лиц синтетические данные помогают в обучении моделей.
• В сфере финансов и чат-ботов синтетические данные применяются для создания обучающих наборов.
• В страховании синтетические данные используются для моделирования оттока клиентов.
• В автомобильной промышленности синтетические данные применяются для обучения беспилотных автомобилей.

Преимущества и ограничения синтетических данных
• Синтетические данные позволяют быстро и эффективно обучать модели, но могут содержать ошибки.
• Реальные данные ценны, но их сбор может быть сложным и затратным, в то время как синтетические данные могут быть более доступными.

Примеры использования синтетических данных
• American Express использовала синтетические данные для борьбы с мошенничеством.
• Charité Lab использовала синтетические данные для прогнозирования результатов инсультов.
• Microsoft обучила модели компьютерного зрения на синтетических данных.
• Moveworks разработал чат-бота на основе синтетических данных.
• La Mobilière использовала синтетические данные для соблюдения требований по конфиденциальности.
• NVIDIA создала виртуальное пространство для тестирования роботов.
• Amazon применила синтетические данные для улучшения понимания естественного языка Alexa.
• Waymo использует синтетические данные для обучения беспилотных автомобилей.

👉Ссылка: https://habr.com/ru/articles/721170/

#syntetic #data #pipline #analysis
💯Новая книжка по оптимизации на больших данных в Python. Кто занимается оптимизацией и рефакторингом, советую глянуть.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Будущий офис китайского техногиганта Tencent в Гуанчжоу — это небоскреб с построенными прямо внутри него домиками.

Башню высотой 207 м спроектировал французский архитектор Жан Нувель и она уже близка к завершению.

Часть из 39 этажей занимают террасы с как бы отдельными зданиями: в них будут рестораны, спортзалы, сады, магазины и т.д.

У меня только один вопрос - зачем домики внутри домика ?)))
Cotype Nano - русскоязычная SLM от МТС.

MTS AI опубликовала в открытый доступ легковесную модель генерации текста C otype Nano и ее квантованные вариации.

Cotype Nano построена на базе Qwen2.5-1.5B и обучалась методом SFT на датасете объемом 1 млн. инструкций из областей: математика, программирование, обобщение текста и текстовые диалоги. В создании датасета использовалась большая модель Cotype Pro 32k.

На первой стадии обучался слой MLP с LoRa на датасетах по математике и программированию. На второй стадии обучалась вся модель на инструктивных датасетах. Завершающим этапом стал alignment (DPO) на отдельно сгенерированном датасете.

Оценка модели проводилась автоматическим side-by-side с gpt-3.5-turbo и gpt-4 на внутреннем датасете и в бенчмарках RuGeneralArena, где Cotype-Nano показала лучший результат в своей весовой категории.

▶️Набор моделей:

🟢Cotype-Nano - 1.54 млрд. параметров;

🟠Cotype‑Nano-4bit - 403 млн. параметров, квантованная методом AWQ версия;

🟠Cotype‑Nano‑CPU - оптимизированная с помощью openVINO версия под CPU Intel;

🟠Cotype Nano GGUF - 1.54 млрд параметров, две версии в разрядности 16-bit (3. 09 Gb) и 8-bit (1.65 GB) под llama.cpp.

📌Лицензирование: Apache 2.0 License.

🟡Статья на Habr
🟡Набор моделей на HF

#AI #ML #SLM #RuLLM #MTS
Please open Telegram to view this post
VIEW IN TELEGRAM
Чистим Google от мусора — вышло лучшее расширение для ЧИСТОГО поиска.

Bad Website Blocklist убирает из выдачи все мусорные сайты, спам, рекламу и сгенерированные нейронками статьи. Всё прозрачно — каждый сайт в списке имеет понятную причину для блока. А если этого мало — можете добавить сервисы, которые бесят вас.

Убираем всю грязь из поиска — здесь.
ChatGPT поставил правильный диагноз больному, которому не помогли 30 (!) больниц — реддитор потратил 5 лет и 100 000 долларов на поиск причины постоянной усталости и болей в суставах.

В какой-то момент парень психанул и просто закинул в o1-Pro свои симптомы и результаты анализов — ИИ предположил, что у бедолаги редкое генетическое заболевание осевой спондилоартроз.

Пару дней до этого он сделал анализ, который подтвердил диагноз — врачи все пять лет искали не там.

Такими темпами подписка на ChatGPT станет обязательной частью страховки.
Отличная новость из одного знакомого канала.
https://useconsensus.io/ - аналог гугл, система бегает по Redit и ищет все ответы в коментах.
👍3
Война Китая и США в области ИИ началась, официально

Китай выделил $137 млрд за 5 лет на развитие нейросетей — в ответ на проект Трампа «Звёздные врата».

Для контекста: в первые дни в должности президента США Трамп сходу выделил $100 млрд в проект Stargate, связанный с развитием ИИ. А в планах — вложить все 500 млрд.

Несмотря на то, что ChatGPT уже позади DeepSeek и Qwen2.5, Поднебесная хочет ещё больше. Ведь тот, кто создаст мощнейший искусственный интеллект — получит новое мощнейшее оружие и власть.
Этой ночью Китай сломал экономику США своим новым ИИ DeepSeek.

Чат-бот сразу после релиза взлетел на первую строчку популярности среди смартфонов, обогнав ChatGPT. Причина - он дешевле в разработке и в разы быстрее OpenAI.

В то время как OpenAI закупает тонны видеокарт у Nvidia, стоимость тренировки DeepSeek обошлась дешевле премии Сэма Альтмана - в $5,6 миллионов. Китай показал что тренировать ИИ не так уж и дорого если есть желание сделать эффективную модель.

Итог - акции Nvidia торпедят на 7%, ChatGPT упал с лидирующей строчки. А жители России рады - для DeepSeek не нужен ни специальное подключение ни зарубежный номер ни подписка.
👍4
DeepSeek решила добить дядю Хуанга: они выпустили новую мультимодальную модель для генерации пикч в открытый доступ.

И вот, что Janus-Pro-7B может:
— Генерации почти не отличить от реальных - изображения получаются детализированными, а текст на них выглядит идеально;

— Тесты показывают, что нейронка уничтожает своих американских конкурентов DALL-E 3 и Stable Diffusion;

— Устанавливается локально на ваш ПК.

— Является бесплатной
This media is not supported in your browser
VIEW IN TELEGRAM
Эпичную перестрелку двух роботов запечатлели в Китае: беспилотник начал перестреливаться фейерверками с робособакой. Скоро везде.
Китай роняет Запад: Nvidia потеряла $400 млрд рыночной стоимости за сутки.

Всё из-за новой версии китайской нейронки DeepSeek, которая оказалась мощнее ChatGPT при сильно меньших затратах, чем у американских гигантов. На этом фоне акции технологического сектора США полетели вниз.
Никогда не было и вот опять )))
😁7💯2
😈Кстати, суммарное число потерянных активов из-за DeepSeek, по данным всего технологического сектора США, составило 799 млрд $.

А кучно пошло, нарисовался очень мощный новый иструмент по просаживанию экономик стран. А главное как элегантно и чисто сработано, КРАСИВО )))
🎉🎉🎉https://a-ai.ru/ - Кафедра на которой я преподаю Финансового Университета при Правительстве РФ и читаю курсы по графам, рекомендательным системам и NLP, сегодня получила аккредитацию в Альянсе ИИ на следующие 5 лет. А это значит признание специалистов и качество их подготовки. Ура!!!
Please open Telegram to view this post
VIEW IN TELEGRAM
🥰3
https://www.ft.com/content/a0dfedd1-5255-4fa9-8ccc-1fe01de87ea6 - OpenAI начали оправдываться, что всему имеет место банальный промышленный шпионаж, что якобы китайцы попросту украли ChatGPT, именно поэтому он (DeepSeek) часто цитирует правила ChatGPT и вообще всячески на него похож.

Но сдается мне, что кто-то хочет замести все следы под ковер и еще диван поставить, чтобы точно все было чистенько. Ситуация приобретает весьма пикантный характер при учете того, что идет переформирование ресурсов и паника на рынках ))). Разборки в сети вышли на совершенно новый уровень.