Отравление данных — это метод атаки, при котором в модель вводятся паттерны, приводящие к неправильной классификации данных.
Отравление данных может использоваться для создания бэкдоров в моделях машинного обучения.
Отравление данных может привести к неправильной классификации изображений, например, собак и торговых марок.
Отравление данных может быть использовано для управления системами, такими как беспилотные автомобили, через триггеры.
Исследователи разрабатывают новые методы отравления данных, такие как TrojanNet, которые позволяют создавать бэкдоры без изменения исходной модели.
Методы отравления данных могут быть эффективными, но требуют доступа к исходным данным и могут снижать точность модели.
Обеспечение безопасности моделей ИИ сложнее, чем традиционных программ, и требует разработки специализированных инструментов.
Важно проверять источники моделей и внедрять их только из надежных источников.
https://habr.com/ru/companies/piter/articles/661083/
https://github.com/trx14/TrojanNet
#articles #tools #analysis #math
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Что такое отравление данных при помощи машинного обучения?
Любому очевидно, что ниже показаны три совершенно разные картинки: птица, собака и лошадь. Но с точки зрения алгоритма машинного обучения , все три могут восприниматься как одинаковые: ведь на каждом...
Применение факторного анализа
Исходный набор данных анализируется на аномальные ответы и корреляции между вопросами.
Проводится проверка данных на возможность проведения факторного анализа с использованием критериев Бартлетта и Кайзера-Мейера-Олкина.
Определяется количество групп вопросов, результаты которых схожи между собой.
Вычисляется корреляционная матрица между вопросами и полученными факторами.
Выделяются 6 факторов с собственным значением больше 1.
Результаты переносятся в Excel для удобства расчетов.
Средний балл для каждого вопроса и фактора рассчитывается с учетом корреляций выше 0.5.
Проводится сравнение среднего балла по всем вопросам и факторам для подтверждения корректности анализа.
На основе полученных данных строятся гипотезы, которые могут быть проверены на качественных исследованиях.
https://habr.com/ru/articles/687338/
#articles #tools #analysis #math
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Факторный анализ для интерпретации исследования клиентского опыта
Что исследуем Вы провели опрос клиентского опыта в вашей компании. В данном случае на каждый вопрос клиенты отвечали по 10 бальной шкале, где 1 - совсем неудовлетворен, а 10 - полностью удовлетворен....
Продуктовый аналитик занимается анализом пользовательского поведения и интерфейса продукта.
Исследования фичей включают новые релизы и старые функции, которые ранее не были затронуты.
Основная задача — определить, нравится ли пользователям новая функция и приносит ли она прибыль.
Продукт состоит из множества механик и фичей, управление которыми осуществляется через микро-показатели.
Улучшение каждой части системы приводит к улучшению всего продукта.
Для оценки эффективности фичей используются 5 метрик, которые описывают результаты взаимодействия пользователя с функцией.
Adoption Rate (заметность) измеряет количество взаимодействий с функцией за день по отношению к общему количеству активных пользователей.
Engagement Rate (выполнение задачи) оценивает количество пользователей, выполнивших ключевую задачу функции за день.
Stickiness (закрепление функции) показывает, насколько часто пользователи возвращаются к функции в течение дня.
Conversion Rate (конверсия) оценивает долю конвертировавшихся пользователей функции в общем объеме пользователей.
Monetization Impact (влияние на доходы) оценивает влияние функции на доходы от приложения.
Все метрики в совокупности дают представление о характере функции и её влиянии на бизнес-цели.
Для анализа используется график Spider/Radar, который позволяет визуализировать сильные и слабые стороны продукта.
На основе графика можно наметить план детального исследования функций.
Метрики помогают определить, какие функции популярны среди пользователей и как они влияют на доходы.
Анализ метрик позволяет выявить проблемы с дизайном функций и определить направления для улучшения.
Система метрик может быть адаптирована для разных типов продуктов и использоваться для ранжирования функций.
https://habr.com/ru/articles/807585/
#articles #tools #analysis #math
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Базовый анализ продуктовых фичей
Привет, я работаю продуктовым аналитиком и мои задачи, в большей степени, связаны с анализом пользовательского поведения в продукте. Пожалуй, чаще всего, мне приходится работать с разного рода...
Исследователи из Университета Миннесоты Твин-Ситис разработали новую архитектуру аппаратного обеспечения под названием Computational Random-Access Memory (CRAM), направленную на значительное снижение энергопотребления.
Об этом сообщается в статье, опубликованной в журнале npj Unconventional Computing. В традиционных подходах используется энергоемкая передача данных между логическими блоками и памятью, тогда как CRAM обрабатывает информацию непосредственно в массиве памяти, основываясь на технологии спинтронных устройств, которые используют спин электронов для хранения данных.
CRAM может уменьшить потребление энергии в области искусственного интеллекта в 1000 раз, что является решением одной из ключевых проблем — высоких затрат на энергоресурсы. Международное энергетическое агентство (IEA) прогнозирует, что потребление энергии в ИИ удвоится, увеличившись с 460 ТВт/ч в 2022 году до 1000 ТВт/ч к 2026 году, что соответствует общему потреблению электроэнергии в Японии.
https://neurohive.io/ru/papers/cram-novaya-apparatnaya-arhitektura-snizhaet-energopotreblenie-ii-v-1000-raz/
#articles #tools #analysis #math
Об этом сообщается в статье, опубликованной в журнале npj Unconventional Computing. В традиционных подходах используется энергоемкая передача данных между логическими блоками и памятью, тогда как CRAM обрабатывает информацию непосредственно в массиве памяти, основываясь на технологии спинтронных устройств, которые используют спин электронов для хранения данных.
CRAM может уменьшить потребление энергии в области искусственного интеллекта в 1000 раз, что является решением одной из ключевых проблем — высоких затрат на энергоресурсы. Международное энергетическое агентство (IEA) прогнозирует, что потребление энергии в ИИ удвоится, увеличившись с 460 ТВт/ч в 2022 году до 1000 ТВт/ч к 2026 году, что соответствует общему потреблению электроэнергии в Японии.
https://neurohive.io/ru/papers/cram-novaya-apparatnaya-arhitektura-snizhaet-energopotreblenie-ii-v-1000-raz/
#articles #tools #analysis #math
Neurohive - Нейронные сети
CRAM: новая аппаратная архитектура снижает энергопотребление ИИ в 1000 раз
CRAM способен сократить использование энергии ИИ в 1000 раз, решая одну из главных проблем в этой области: потребление энергоресурсов.
Продуктовая аналитика включает в себя сбор и анализ данных о продукте для улучшения его качества.
Аналитики используют данные для выявления проблем и возможностей продукта.
Исследование начинается с определения проблемы и постановки целей.
Необходимо сформулировать вопросы для исследования и определить ограничения.
После сбора данных следует их анализ и подготовка плана исследования.
Перед анализом данных необходимо их очистить и обработать.
В процессе анализа следует искать закономерности и зависимости.
Визуализация данных является важным этапом для создания понятного отчета.
В конце исследования необходимо подвести итоги и сформулировать рекомендации.
Отчет должен быть оформлен в удобном для всех участников формате.
Существуют различные форматы отчетов, но важно, чтобы они были понятны для читателей.
Рекомендуется использовать R для написания отчетов и R Quarto для рендеринга в PDF.
https://habr.com/ru/articles/781466/
#articles #tools #analysis #math
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Краткое руководство по анализу данных и проведению продуктовых исследований
Обложка любезно предоставлена DALL-E Привет. Я занимаюсь продуктовой аналитикой уже довольно давно, и так получилось, что чаще всего в работе мне прилетают именно продуктовые рисёрчи. Иногда нужно...
👍1
Цифры играют ключевую роль в развитии бизнеса, но их одного недостаточно.
Продуктовый аналитик является связующим звеном между бизнесом и данными.
Аналитик решает множество задач, включая анализ поведения пользователей и генерацию гипотез.
Продуктовый аналитик должен уметь превращать данные в полезные для бизнеса выводы.
Пример: анализ воронки продаж цветочного магазина для улучшения конверсии.
Постановка задачи: определение проблемы, например, низкая конверсия на этапе оплаты.
Поиск информации: изучение исторических данных и уточнение у продакт-менеджера.
Анализ данных: критическое мышление и визуализация данных для выявления проблем.
Формулирование гипотез: выявление причин проблем и разработка решений.
Валидация гипотез: проверка идей с помощью здравого смысла и данных.
Решение проблемы: разработка и внедрение решений совместно с другими специалистами.
Преобразование данных в практические инсайты: умение видеть связи и генерировать гипотезы.
Важность продуктовой аналитики: значительный вклад в развитие бизнеса и стоимость компании.
https://habr.com/ru/articles/794670/
#articles #analysis
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Искусство продуктовой аналитики: как преобразовать цифры в ценные инсайты для бизнеса
Денис Middle Product Analyst, MTC Привет Хабр! Меня зовут Денис, я продуктовый аналитик из МТС, ex-Tinkoff. Также я ментор и любитель конференций, на которых я периодически появляюсь и даже что-то...
Дистилляция - процесс передачи знаний от одной модели к другой.
Дистилляция используется для уменьшения размера и сложности модели, сохраняя при этом её точность.
Дистилляция применяется для улучшения генеративных моделей, таких как Stable Diffusion.
Дистилляция позволяет создавать более компактные и эффективные модели, сохраняя при этом качество генерации.
Дистилляция может быть выполнена через обучение на наборе переноса или через использование средневзвешенного значения целевых функций.
В байесовском выводе дистилляция основана на оптимизации параметров модели ученика с использованием вариационного вывода.
Дистилляция в генеративных моделях изображений направлена на оптимизацию моделей для конкретных задач и снижение сложности.
Stable Diffusion использует ансамбль моделей для генерации изображений, что требует дистилляции для улучшения производительности.
Дистилляция может оптимизировать нагрузку на ресурсы и уменьшить время генерации.
Использование токенизации запросов и детектора бинарных векторов признаков может улучшить производительность.
Дистилляция позволила уменьшить размер модели и время генерации, сохранив качество генерации.
https://habr.com/ru/articles/755644/
#articles #analysis #model #distilation
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Оптимизация генеративной модели на основе дистилляции
Одним из важнейших направлений работы над моделями машинного обучения является их оптимизация. Оптимизированная модель работает быстрее, требует меньше вычислительных ресурсов, и как следствие —...
БЯМ (Big Language Model) продемонстрировали способность писать в стиле известных авторов.
Эксперимент New York Times показал, что БЯМ может создавать тексты, имитирующие стиль Кертис Ситтенфелд.
Первый фрагмент написан в стиле Кертис Ситтенфелд, второй - в стиле БЯМ.
БЯМ не всегда справляется с управлением речевыми оборотами и грамматикой.
В конце второго фрагмента БЯМ демонстрирует грамматические ошибки и отсутствие завершения.
БЯМ часто использует списки и маркированные списки, что является их характерной чертой.
ИИ склонен к стереотипам и расплывчатым высказываниям, а также к использованию типичных имен и эпитетов.
Предложения БЯМ часто бывают длинными и грамматически правильными, но предсказуемыми.
Чтобы скрыть использование БЯМ, необходимо удалить характерные слова и словосочетания.
Необходимо редактировать текст, чтобы удалить "воду" и оставить только удачные фрагменты.
В результате получится текст, неотличимый от написанного человеком, но требующий значительных усилий.
БЯМ подходят для выполнения простых задач, таких как перевод терминов или ответы на вопросы, которые не требуют глубокого понимания.
Однако не следует доверять им написание длинных текстов или статей.
Рекомендуется использовать БЯМ для получения ответов на конкретные вопросы, требующие специальных знаний.
https://habr.com/ru/articles/840066/
#articles #analysis #model #nlp #redactor
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
3 самых очевидных способа вручную обнаружить текст от большой языковой модели
На написание и публикацию этого текста меня побудила необходимость быстро объяснить, как определять текст от больших языковых моделей (БЯМ). Важно, что речь идёт только про выявление очевидных...
Вероятность описывает возможность наступления события.
Распределение вероятностей описывает, как часто происходят события с определенными характеристиками.
Биномиальное распределение описывает количество успехов в серии испытаний с известной вероятностью успеха.
Геометрическое распределение описывает количество неудач до первого успеха.
Отрицательное биномиальное распределение описывает количество неудач до определенного числа успехов.
Экспоненциальное распределение описывает время до наступления события.
Распределение Вейбула описывает время до увеличения интенсивности отказов.
Нормальное распределение описывает сумму независимых случайных величин.
Логнормальное распределение описывает логарифм суммы независимых случайных величин.
Распределение Стьюдента используется для проверки гипотез о среднем нормальном распределении.
Распределение хи-квадрат используется для проверки гипотез о сумме квадратов нормально распределенных величин.
Гамма-распределение обобщает экспоненциальное и хи-квадрат распределения.
Бета-распределение является сопряженным априорным распределением для многих других распределений.
https://habr.com/ru/articles/331060/
#articles #analysis #model #nlp #redactor
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Типичные распределения вероятности: шпаргалка data scientist-а
У data scientist-ов сотни распределений вероятности на любой вкус. С чего начать? Data science, чем бы она там не была – та ещё штука. От какого-нибудь гуру на ваших сходках или хакатонах можно...
77% программистов положительно оценивают перспективы ИИ в разработке.
70% уже используют или планируют использовать ИИ-ассистентов.
92% разработчиков в США используют ИИ-инструменты для работы и дома.
70% считают владение ИИ конкурентным преимуществом на рынке труда.
ИИ ускоряет разработку на 55% и повышает производительность на 30%.
ИИ-ассистенты помогают справляться с эмоциональным выгоранием и укрепляют командную работу.
ИИ освобождает разработчиков от рутинных задач, позволяя им сосредоточиться на обратной связи и новых навыках.
ИИ сокращает расходы бизнеса за счет автоматизации рутинных задач.
ИИ помогает в сравнении технических требований и проверке документации.
ИИ создает прототипы сайтов и улучшает существующие проекты.
Нейросети пишут код по текстовому описанию и переводят код между языками программирования.
ИИ анализирует ошибки и автоматизирует тестирование ПО.
ИИ управляет проектами, оптимизирует бюджет и предоставляет шаблоны документации.
Copilot — лидер рынка, подходит для автодополнения кода и других задач.
Tabnine — нейросеть, обучающаяся стилю программирования пользователя.
GigaChat, Kandinsky, GigaCode — универсальные модели от "Сбера", работающие на русском языке.Snyk Code — нейросеть для поиска уязвимостей в коде.
Documatic — бот для генерации документации к коду.
No-Code и Low-Code — подходы к разработке без написания кода или с минимальным программированием.
Зарубежные платформы, такие как Airtable, Bubble, Glide, Adalo, популярны для создания приложений по принципам "ноукод".
В России есть свои разработки, например, Albato и Directual.
ИИ-ассистенты становятся незаменимыми помощниками для разработчиков.
ChatGPT стал самым быстрорастущим приложением, что свидетельствует о популярности ИИ.
ИИ-технологии активно внедряются в разработку, но не заменят полностью человеческий труд.
https://habr.com/ru/companies/sberbank/articles/765864/
#articles #analysis #model #nlp #redactor
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
70 % программистов пользуются ИИ-ассистентами. Скоро код будут писать алгоритмы?
Проведенный в июне 2022 года опрос на платформе Stack Overflow показал, что 77 % программистов положительно оценивают перспективы искусственного интеллекта в разработке, а 70 % уже применяют...