DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
Начинаю читать курс: Прикладной анализ графов при Финансовом институте Правительства РФ.
2🔥1
https://hightech.plus/2024/08/26/ibm-zakrivaet-nauchnie-centri-v-kitae--bez-raboti-ostanutsya-bolee-1000-sotrudnikov - IBM закрывает научные разработки в Китае, а значит конкуренция в областии ИИ, перешагнула самый высокий барьер.

В чем суть, научные связи и коммуникации одни из самых прочных в социальных отношениях, они могут многое пережить и перенести. Но когда такое массовое начинается, речь уже идет о национальной безопасности.
https://mimesis.name/en/master/ - генератор фейковых данных, генерим синтетику правильно.
Персидский залив за последние 48 часов температура +65,6 градуса. Исторический рекорд.
Жаркова-то че-то )))) Впервые в истории +65. Вау....
☄️☄️☄️Библиотека Flair была разработана Берлинским университетом как библиотека NLP с большими возможностями.

Flair позволяет проводить распознавание именованных сущностей (NER), анализ эмоциональной составляющей, тегирование части речи (PoS).
Помимо этого Flair может работать с биомедицинскими текстами.

🖥 GitHub
🟡 Доки

🗣Чем больше шеров и лайков, тем активнее выкладываю посты !!!

#nlp #tools #lib
Please open Telegram to view this post
VIEW IN TELEGRAM
☄️☄️☄️Apple только что они выпустили новую модель DCLM 7B и опенсорснули ее всю, от данных до весов

MMLU 0.6372. Это больше, чем Mistral, но меньше, чем Llama3. Обучена только на открытых данных: DCLM-BASELINE, StarCoder, ProofPile2. Всего видела 2.5Т токенов. Контекст – 2048.

Модель | Код | Датасет | Статья

🗣Чем больше шеров и лайков, тем активнее выкладываю посты !!!

#nlp #tools #models
Please open Telegram to view this post
VIEW IN TELEGRAM
https://arxiv.org/pdf/2406.06608 - супер огромный учебник по промптам от стандартных запросов до взлома.
🔥1
https://qwenlm.github.io/blog/qwen2-vl/ - Qwen2-VL вышел в релиз

- работа с динамическим разрешением входных изображений

- мультимодальные ROPE, чтобы можно было работать с пространсовенно-временной информацией
🔄🔄🔄Читаем статьи за Вас №3:

🗣Проблема нормализации данных

Нормализация данных необходима для сравнения признаков с разными диапазонами значений.
Стандартизация и робастная нормализация часто используются, но имеют недостатки.

🗣Стандартизация

Среднее арифметическое значение используется для центрирования данных.
Медиана предпочтительнее среднего арифметического для разных распределений.
Стандартное отклонение не всегда подходит для равномерного влияния признаков.

🗣Межквартильный интервал

Интервал между 75-м и 25-м процентилями используется для нормализации.
Проблема "хвостов" распределений может привести к искажению результатов.

🗣Размах значений

Размах значений признака используется для нормализации, но может быть искажен выбросами.
Проблема выбросов требует их удаления или учета в новом диапазоне.

🗣Автоматическое определение выбросов

Межквартильный метод используется для автоматического определения выбросов.
Проблема длинных "хвостов" может потребовать индивидуального подхода.

🗣Скорректированный интервал

Метод скорректированного интервала учитывает асимметрию распределения и обеспечивает равномерное влияние признаков.
Метод эффективен для центрирования и вписывания данных в заданный диапазон.

🗣Сравнение методов

Метод скорректированного интервала превосходит другие методы по универсальности и эффективности.
Демонстрационный класс AdjustedScaler доступен для экспериментов.

https://github.com/newchronik/adjdatatools - прикольный инструмент для корректировки данных, в целом не такая замысловатая формула, но очень хорошее объяснение, как правильно проводить анализ смещений в данных при нормализации и стандартизации.
вот тут еще есть статейка: https://habr.com/ru/articles/527334/

#articles #tools #analysis #math
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
🔄🔄🔄Читаем статьи за Вас №4:

🗣Отравление данных

Отравление данных — это метод атаки, при котором в модель вводятся паттерны, приводящие к неправильной классификации данных.
Отравление данных может использоваться для создания бэкдоров в моделях машинного обучения.

🗣Примеры и последствия отравления данных

Отравление данных может привести к неправильной классификации изображений, например, собак и торговых марок.
Отравление данных может быть использовано для управления системами, такими как беспилотные автомобили, через триггеры.

🗣Методы и проблемы отравления данных

Исследователи разрабатывают новые методы отравления данных, такие как TrojanNet, которые позволяют создавать бэкдоры без изменения исходной модели.
Методы отравления данных могут быть эффективными, но требуют доступа к исходным данным и могут снижать точность модели.

🗣Обеспечение безопасности моделей машинного обучения

Обеспечение безопасности моделей ИИ сложнее, чем традиционных программ, и требует разработки специализированных инструментов.
Важно проверять источники моделей и внедрять их только из надежных источников.

https://habr.com/ru/companies/piter/articles/661083/
https://github.com/trx14/TrojanNet

#articles #tools #analysis #math
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄🔄🔄Читаем статьи за Вас №5:

Применение факторного анализа

🗣Факторный анализ позволяет увидеть степень влияния различных аспектов и сформировать группы тесно связанных параметров.

Исходный набор данных анализируется на аномальные ответы и корреляции между вопросами.
Проводится проверка данных на возможность проведения факторного анализа с использованием критериев Бартлетта и Кайзера-Мейера-Олкина.

🗣Определение количества факторов

Определяется количество групп вопросов, результаты которых схожи между собой.
Вычисляется корреляционная матрица между вопросами и полученными факторами.
Выделяются 6 факторов с собственным значением больше 1.

🗣Интерпретация и анализ результатов

Результаты переносятся в Excel для удобства расчетов.
Средний балл для каждого вопроса и фактора рассчитывается с учетом корреляций выше 0.5.
Проводится сравнение среднего балла по всем вопросам и факторам для подтверждения корректности анализа.
На основе полученных данных строятся гипотезы, которые могут быть проверены на качественных исследованиях.

https://habr.com/ru/articles/687338/

#articles #tools #analysis #math
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄🔄🔄Читаем статьи за Вас №6:

🗣Анализ продуктовых фичей

Продуктовый аналитик занимается анализом пользовательского поведения и интерфейса продукта.
Исследования фичей включают новые релизы и старые функции, которые ранее не были затронуты.
Основная задача — определить, нравится ли пользователям новая функция и приносит ли она прибыль.

🗣Структура анализа
Продукт состоит из множества механик и фичей, управление которыми осуществляется через микро-показатели.
Улучшение каждой части системы приводит к улучшению всего продукта.
Для оценки эффективности фичей используются 5 метрик, которые описывают результаты взаимодействия пользователя с функцией.

🗣Базовые метрики
Adoption Rate (заметность) измеряет количество взаимодействий с функцией за день по отношению к общему количеству активных пользователей.
Engagement Rate (выполнение задачи) оценивает количество пользователей, выполнивших ключевую задачу функции за день.
Stickiness (закрепление функции) показывает, насколько часто пользователи возвращаются к функции в течение дня.
Conversion Rate (конверсия) оценивает долю конвертировавшихся пользователей функции в общем объеме пользователей.
Monetization Impact (влияние на доходы) оценивает влияние функции на доходы от приложения.

🗣Применение метрик
Все метрики в совокупности дают представление о характере функции и её влиянии на бизнес-цели.
Для анализа используется график Spider/Radar, который позволяет визуализировать сильные и слабые стороны продукта.
На основе графика можно наметить план детального исследования функций.

🗣Практическое применение
Метрики помогают определить, какие функции популярны среди пользователей и как они влияют на доходы.
Анализ метрик позволяет выявить проблемы с дизайном функций и определить направления для улучшения.
Система метрик может быть адаптирована для разных типов продуктов и использоваться для ранжирования функций.

https://habr.com/ru/articles/807585/

#articles #tools #analysis #math
Please open Telegram to view this post
VIEW IN TELEGRAM