DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.57K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
☝🏻ChatGPT-4 прошёл тест Тьюринга, обманув испытуемых в 54% случаев

Ученые из Калифорнийского университета в Сан-Диего пригласили 500 случайных людей пообщаться с четырьмя собеседниками — среди них были GPT-4, GPT-3.5, ELIZA (прабабушка GPT) и один настоящий человек.

ИИ было приказано вести себя как человек, относиться к тесту с осторожностью и делать опечатки.
Результат:
▫️ В 54% случаев люди увидели в GPT-4 родственную душу;
▫️ 33% людей ошибочно приняли реальных людей за ИИ;
▫️ GPT-3.5 был идентифицирован как человеческий в 50% случаев;
▫️ Даже ELIZA получила скромный рейтинг «человечности» в 22%.

Исследование ещё ожидает рецензирования, и его результаты следует воспринимать с осторожностью.
Пишем курс для Московского Университета Техноллгоии и Управления. Сегодня перевалили за 22 лекции. Очень плотно идет, видимо пора начинать записывать кружочки. На писанину уже нет сил ))
🔥2
🔄🔄🔄Читаем статьи за Вас №12:

🗣Определение и применение когортного анализа
Когортный анализ используется для анализа действий клиентов на веб-сайтах и в интернет-сервисах.
Сегменты целевой аудитории объединяются в группы по общим характеристикам и временным периодам.
Анализ позволяет оценить эффективность рекламных кампаний и определить сезонность продаж.

🗣Примеры использования когортного анализа
Анализ эффективности рекламы: когортный анализ помогает точно оценить эффективность рекламных кампаний, учитывая время принятия решения о покупке.
Поиск и удержание лояльных клиентов: анализ поведения пользователей во времени позволяет определить наиболее эффективные каналы привлечения и удержания клиентов.
Прогнозирование и увеличение LTV: когортный анализ позволяет прогнозировать пожизненную ценность клиентов и сравнивать стоимость их привлечения по разным каналам.
Проведение A/B тестирования: анализ когорт помогает в долгосрочном прогнозировании результатов A/B тестирования.
Анализ эффективности мобильного приложения: когортный анализ используется для оценки уровня возврата пользователей и эффективности рекламных каналов в мобильных приложениях.

🗣Применение в различных сферах
Формирование портрета целевого клиента: анализ данных из разных когорт помогает создать точный портрет целевой аудитории.
Повышение конверсии: когортный анализ дополняет сплит-тестирование, предоставляя более точные данные о поведении и предпочтениях клиентов.
SaaS: анализ когорт используется для оптимизации цикла продаж в облачных сервисах, включая отслеживание доходов и расходов.

🗣Ключевые показатели когортного анализа
Контрольная точка: сумма покупки, после которой клиенты становятся постоянными.
Каналы привлечения: определение наиболее эффективных источников привлечения новых клиентов.
Переход пользователей с пробной версии на платную: анализ перехода пользователей с пробной версии продукта на платную.

🗣Основы когортного анализа
Когортный анализ помогает определить, какие клиенты становятся платными.
Повторные покупки указывают на готовность клиента платить за продукт.
Аналитик должен определить целевые показатели и выбрать значимые метрики.

🗣Необходимые параметры для анализа
Признак формирования когорты: первое посещение, покупка, установка и т.д.
Размер когорты: временной интервал, например, день, неделя, месяц.
Отчетный период: время исследования поведения групп.
Анализируемый ключевой показатель: ROI, Retention Rate и другие.

🗣Использование Google Analytics для когортного анализа
Google Analytics подходит для новичков и находится в стадии бета-тестирования.
Ограничения: формирование когорт только по первому посещению, один анализ на показатель, стандартный размер когорты, ограниченный выбор отчетного периода.
После окончания бета-тестирования функционал расширится.
Визуализация анализируемого показателя и сводная таблица данных доступны в Google Analytics.

🗣Альтернативные сервисы для когортного анализа
AppsFlyer: гибкие настройки, возможность включения нескольких фильтров.
AppMetrica и Adjust: для анализа возврата новых пользователей.
Kissmetrics: возможность формирования когорты по двум признакам, группировка по разным параметрам.

🗣Использование Google Sheets для создания отчетов
Сводная таблица в Google Sheets позволяет быстро создать когортный отчет.
Необходимо собрать исходные данные в нужном формате и применить условное форматирование.

🗣Значение когортного анализа для аналитика
Когортный анализ предоставляет ценную информацию для развития продукта.
Не требует специальных инструментов или знаний, большинство систем аналитики автоматизируют процесс.
При отсутствии специализированных систем аналитик может использовать Google Sheets и сводные таблицы для создания отчетов.

https://habr.com/ru/companies/productstar/articles/509410/

#articles #analysis #model #nlp #redactor
🔄🔄🔄Читаем статьи за Вас №13:

📚Анализ корреляций в ценах на товары
Автор статьи использовал MatLab, но не упомянул уровень значимости корреляций.
В статье рассматривается использование R для анализа данных о ценах на товары.
Распределение цен на товары отличается от нормального, что делает невозможным использование коэффициента корреляции Пирсона.
Тест Спирмена используется для поиска непараметрических корреляций.

📚Результаты корреляционного анализа
В корреляционной матрице обнаружены статистически значимые взаимосвязи.
Значения коэффициентов корреляции rho не превышают 0.3, указывая на слабую силу связей.
Колебания цен на один товар могут влиять на цены других товаров не более чем на 10%.

📚Общий вывод
Автор подчеркивает важность понимания статистической значимости при анализе данных.
Статья призывает к осторожному подходу при интерпретации результатов корреляционного анализа.

https://habr.com/ru/articles/241967/

#articles #analysis #model #nlp #redactor
🔄🔄🔄Читаем статьи за Вас №14:

📚Основы анализа данных
Анализ данных включает методы и приложения, не имеющие четкого ответа на каждый объект.
Нейросети, распознающие цифры, могут давать разные результаты на разных входных данных.
Алгоритмы машинного обучения формируют недетерминистические алгоритмы на основе данных.

📚Методы и эвристики машинного обучения
Машинное обучение использует обучающую выборку для автоматического подбора решающей функции.
Фичеселект (feature selection) и препроцессинг необходимы для приведения данных в форму, подходящую для алгоритмов.
Алгоритмы с учителем требуют опыта и подготовки для правильного применения.

📚Задачи машинного обучения
Задачи машинного обучения делятся на классификацию, регрессию и логистическую регрессию.
Классификация требует сопоставления объектов с классами, регрессия — предсказания количественных характеристик, логистическая регрессия сочетает оба типа задач.

📚Выбор метрики и валидация
Метрика качества оценивает качество предсказаний алгоритма.
Валидация алгоритма проводится на валидационной выборке, отделенной от обучающей.

Цикл развития проекта
Изучение задачи и источников данных.
Математическая формулировка и выбор метрик.
Написание пайплайна для обучения и тестирования.
Разработка эвристики или алгоритма машинного обучения.
Улучшение качества алгоритма и метрик, привлечение дополнительных данных.

📚Заключительный комментарий
Автор обсудит конкретные алгоритмы для задач классификации, регрессии и логистической регрессии в следующей статье.
Статья заканчивается призывом к читателям поддержать автора для ускорения публикации следующей статьи.

https://habr.com/ru/articles/352812/

#articles #analysis #model #eda
📚Анализ результатов опроса клиентского опыта
Опрос проведен с использованием 10-балльной шкалы, где 1 означает неудовлетворенность, а 10 - полную удовлетворенность.
Вопросы разделены на основные и уточняющие блоки, включая общую удовлетворенность, вероятность рекомендации и повторной покупки.

📚Проблемы при интерпретации результатов
Сложности в понимании, как улучшить общую удовлетворенность продуктом.
Необходимость связать общую удовлетворенность с другими аспектами деятельности.
Необходимость выявления факторов, оказывающих наибольшее влияние на общую удовлетворенность.

📚Применение факторного анализа
Факторный анализ позволяет увидеть степень влияния различных аспектов и сформировать группы тесно связанных параметров.
Исходный набор данных анализируется на аномальные ответы и корреляции между вопросами.
Проводится проверка данных на возможность проведения факторного анализа с использованием критериев Бартлетта и Кайзера-Мейера-Олкина.

📚Определение количества факторов
Определяется количество групп вопросов, результаты которых схожи между собой.
Вычисляется корреляционная матрица между вопросами и полученными факторами.
Выделяются 6 факторов с собственным значением больше 1.

📚Интерпретация и анализ результатов
Результаты переносятся в Excel для удобства расчетов.
Средний балл для каждого вопроса и фактора рассчитывается с учетом корреляций выше 0.5.
Проводится сравнение среднего балла по всем вопросам и факторам для подтверждения корректности анализа.
На основе полученных данных строятся гипотезы, которые могут быть проверены на качественных исследованиях.

https://habr.com/ru/articles/687338/

#articles #analysis #model #eda
🔄🔄🔄Читаем статьи за Вас №16:

📚Основы анализа данных с помощью pandas
Для понимания данных необходимо знать диапазоны значений, типы переменных и количество пропущенных значений.
pandas предоставляет инструменты для разведочного анализа, но часто требуется начать с общих функций, таких как df.describe().

📚Использование pandas-profiling для быстрого анализа
Автор статьи ищет способы быстрого и эффективного разведочного анализа данных и находит pandas-profiling.
pandas-profiling генерирует подробный HTML-отчет, содержащий основные сведения о данных и предупреждения для дальнейшего анализа.

📚Пример использования на наборе данных Titanic
pandas-profiling особенно полезен для данных, которые еще не очищены и требуют дальнейшей обработки.
В статье демонстрируется, как использовать pandas-profiling для получения описательной статистики и визуализации распределения переменных.

📚Анализ переменных с помощью pandas-profiling
Отчет pandas-profiling содержит сведения о каждой переменной, включая диаграммы распределения.
Для числовых переменных выводятся показатели описательной статистики и количество пропущенных значений.
Для категориальных переменных предоставляются число классов вместо среднего, минимума и максимума.

📚Корреляционный анализ и пример данных
В отчете pandas-profiling выводятся корреляционные матрицы Пирсона и Спирмена, а также пример данных из начала набора данных.
Автор не рекомендует полагаться на последний раздел отчета, а предлагает использовать df.sample() для случайного выбора данных.

📚Итоги использования pandas-profiling
pandas-profiling предоставляет полезные возможности для быстрого общего представления о данных и создания отчетов.
Для детальной работы с данными необходимо вручную учитывать их особенности.

📚Дополнительные ресурсы
В статье упоминается возможность просмотра полного анализа данных в Jupyter-блокноте и ссылка на соответствующий код в GitHub-репозитории.
Читателей просят поделиться своим опытом начала анализа новых наборов данных.

https://habr.com/ru/companies/ruvds/articles/451478/

#articles #analysis #model #eda
👍2
Буду здесь и вероятно возможно даже выступать, но пока не знаю. Сейчас готовится мощный материал и буду думать. Конечно же иду туда со своим брендом и как сотрудник Финансового университета.

https://www.isprasopen.ru/#Registration
🔥3
В Минцифры подтвердили, что Google ограничил создание новых аккаунтов с помощью российских мобильных номеров.

При этом подтверждение авторизации через SMS для уже созданных аккаунтов ещё работает. В министерстве посоветовали пользователям Google создать резервные копии данных, задействовать дополнительные способы двухфакторной аутентификации или перейти на российские почтовые платформы.

Ранее пользователи Google заявляли, что при регистрации аккаунтов не приходили сообщения для верификации.
🤔1💔1
🔄🔄🔄Читаем статьи за Вас №17

📚Функции потерь и градиентный спуск
Функции потерь делятся на выпуклые и невыпуклые, с разными подходами к оптимизации.
Градиентный спуск - численный метод оптимизации, основанный на минимизации ошибки модели.
Существуют различные подходы к градиентному спуску, включая пакетный, мини-пакетный и стохастический.

📚Более быстрые и точные оптимизаторы
Momentum и Nesterov momentum - стохастические оптимизации, улучшающие сходимость и точность.
AdaGrad и RMSProp - адаптивные методы градиентного спуска с различными подходами к обновлению параметров.
Adam и его модификации - комбинация Momentum и RMSProp с улучшенными характеристиками сходимости и устойчивости к гиперпараметрам.

📚Обзор алгоритмов оптимизации
Adam - популярный алгоритм, но сложен в анализе и чувствителен к шуму.
Требует больших объемов памяти и может быть чувствителен к прерыванию обучения.
Существуют модификации Adam, улучшающие его характеристики.

📚Сравнение оптимизаторов
SDG, Momentum и Nesterov momentum менее стабильны и зависят от начальных значений learning rate.
RMSprop и Adam-подобные методы показали лучшие результаты в обоих случаях.
Адаптивные методы могут быть более стабильными и быстрыми, но не всегда универсальными.

📚Проблемы адаптивных методов
При приближении к критическим точкам адаптивные методы могут не сходиться.
AMSGrad и AdamNC предлагают решения для улучшения сходимости.
AdamX учитывает различия в гиперпараметрах и избегает проблем с сходимостью.

📚Стратегии изменения скорости обучения
Существуют различные стратегии изменения скорости обучения, включая плавное затухание и экспоненциальное затухание.
Важно аккуратно подбирать learning rate, чтобы избежать преждевременного выхода на плато или расхождения.

📚Работа с большими мини-пакетами
Большие мини-пакеты могут привести к переобучению и ухудшению обобщающей способности модели.
Использование маленьких батчей может привести к недообучению и более шумным оценкам градиента.

📚Layer-wise Adaptive Rate Scaling (LARS)
LARS использует локальный learning rate для каждого слоя, что позволяет использовать большие партии без потери качества.
Однако LARS плохо справляется с моделями с важными слоями, такими как BERT, из-за нестабильности градиентов.
Layer-wise Adaptive Moments Based optimizer (LAMB)
LAMB применяет двойную стратегию нормализации для более точной настройки весов модели.
LAMB позволяет значительно улучшить обучение BERT, сокращая время обучения и увеличивая размер пакета.
LAMB имеет модификации для ускорения обучения и повышения стабильности.

📚Проксимальные методы
Проксимальные методы заменяют сложные задачи оптимизации на более простые, аппроксимируя новое решение к текущему.
Проксимальный градиентный метод (PGM) используется для решения задач с гладкой и негладкой функциями.
ISTA (Iterative Shrinkage(Soft)-Thresholding Algorithm) позволяет получить разреженную модель и имеет модификации для ускорения сходимости.

📚Методы второго порядка
Методы второго порядка используют информацию о вторых производных для более точного нахождения точек минимума.
Метод Ньютона обеспечивает квадратичную скорость сходимости и устойчив к плохо обусловленным задачам.
Однако метод Ньютона чувствителен к выбору начальной точки и требует подбора шага.

📚Требования к вычислительным ресурсам
Метод Ньютона требует больших вычислительных затрат из-за квадратичной зависимости от параметров.

📚Альтернативы методу Ньютона
Метод сопряжённых градиентов использует сопряжённые направления для поиска минимума.
BFGS (Broyden-Fletcher-Goldfarb-Shanno) является квазиньютоновским методом с итеративным уточнением обратного гессиана.
SR1 (Symmetric Rank-1) сохраняет симметрию матрицы, но не гарантирует её положительную определённость.
L-BFGS (Limited-memory BFGS) использует последние пары векторов для аппроксимации гессиана, что снижает затраты на память и итерацию.
Shampoo сочетает точность алгоритмов второго порядка с скоростью алгоритмов первого порядка, используя произведение градиентов для формирования предобусловленной матрицы.
📚Сложности и ограничения
BFGS и SR1 требуют больших вычислительных затрат для хранения матриц.
L-BFGS и Shampoo требуют значительных вычислительных ресурсов для работы с полносвязными и эмбэддинг слоями.
Шампунь требует больших вычислительных затрат при вычислении p-х корней матриц.

📚Улучшения в алгоритме "Шампунь"
Вычисление предобуславливателей каждые несколько сотен шагов для повышения точности.
Использование эффективных итерационных методов для вычисления корней вместо СВД.
Применение предобуславливателей или для улучшения точности.
Параллельное решение на GPU для повышения производительности.

📚Тензорная форма и практическое применение
Алгоритм "Шампунь" реализован в тензорной форме для работы с тензорами произвольной размерности.
В будущем ожидается рост популярности и значимости алгоритма в различных областях инженерии и науки.

https://habr.com/ru/articles/813221/

#articles #analysis #model #eda
This media is not supported in your browser
VIEW IN TELEGRAM
Парень выложил видео, как проходит собеседование у ИИ-аватара.

Больше всего удивил тот факт, что парня никто не предупреждал об этом. Выглядит это очень жутко и неэтично.

Из «роботы заберут у нас работу» до «роботы дадут нам работу» один шаг
Forwarded from Код Дурова
🚘 Цифровые релоканты //

Холдинг VK объявил, что с момента запуска проекта Xmail более 1,6 миллиона россиян перенесли свои почтовые ящики с сервиса Gmail на отечественный Xmail.

Сервис Xmail был запущен в августе 2023 года на фоне слухов ограничения Gmail для россиян. С его помощью пользователи могут перенести свои почтовые ящики Google на новый отечественный домен, сохранив все письма и другие данные.

Ранее Минцифры РФ рекомендовало российским пользователям Google создавать резервные копии данных на фоне слухов об ограничениях со стороны компании. При этом сама компания внедрение каких-либо санкций отрицает.

@d_code
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄🔄🔄Читаем статьи за Вас №18:

📚Задачи рекомендательных систем
Рекомендация комфортных маршрутов учитывает различные аспекты поездки. Рекомендация свежих новостей требует понимания содержания статьи. Рекомендация ресторанов включает в себя не только выбор ресторана, но и конкретных блюд. Рекомендация товаров для разных групп людей требует индивидуального подхода.

📚Методы оценки качества рекомендательных систем
Онлайн-оценка качества включает в себя проверку на пользователях.
Оффлайн-оценка качества использует метрики ранжирования, такие как MAP@k и nDCG@k.

📚Данные для рекомендательных систем
Explicit feedback включает в себя явные оценки пользователей.
Implicit feedback включает в себя неявные предпочтения, такие как просмотры и клики.

📚Обучение рекомендательных систем
Bayesian Personalized Ranking использует положительные примеры для обучения. Weighted Approximate-Rank Pairwise учитывает адаптивный learning rate.

📚Расширение рекомендательных систем
Холодный старт включает в себя рекомендации для новых пользователей и товаров. Long Tail включает в себя рекомендации для малоизвестных товаров. Exploration vs Exploitation балансирует между повторением и разнообразием рекомендаций.

📚Неперсонализированные рекомендации
Сортировка по популярности включает в себя вычитание лайков из дислайков. Сортировка по среднему рейтингу учитывает количество оценок, но не их процентное соотношение. Доверительный интервал позволяет учитывать количество оценок и их процентное соотношение.

📚Методы выделения часто встречающихся множеств товаров
Pattern mining включает в себя различные методы для выделения часто встречающихся множеств товаров. Алгоритмы pattern mining выполняют сокращенный поиск в ширину и отсекают редкие множества.

📚Основы рекомендательных систем
Content-Based подход использует историю действий пользователя для создания вектора предпочтений. Collaborative Filtering использует матрицу оценок для ранжирования похожих пользователей и айтемов.

📚Методы и алгоритмы
Matrix Factorization позволяет разложить матрицу оценок на произведение трех матриц, игнорируя пропуски.
Netflix Prize стимулировал развитие рекомендательных систем, требуя улучшения метрики RMSE на 10%.
Нейросети используются для учета дополнительных данных о пользователях и айтемах.

📚Применение и развитие
Netflix Prize не использовал полученное решение, так как оно было слишком дорогим и не принесло значительного улучшения.
В современных рекомендательных системах используются различные архитектуры и подходы, включая DSSM и Attentive Collaborative Filtering.

https://habr.com/ru/companies/jetinfosystems/articles/453792/
#articles #analysis #model #eda
🔄🔄🔄Читаем статьи за Вас №19:

📚Основы NLP и векторизации
Векторизация - это процесс преобразования текста в числовые векторы для машинного обучения.

📚Методы векторизации
"Мешок слов" - простой метод, основанный на частоте слов в тексте.
TF-IDF - более сложный метод, учитывающий важность слова для документа.
Word2Vec - подход, использующий нейронные сети для создания векторов, учитывающих контекст.

📚Применение векторизации
Векторизация используется для извлечения признаков из текста и обучения моделей машинного обучения.
TF-IDF применяется в поисковых технологиях и чат-ботах для определения релевантности слов.
Word2Vec используется для создания векторов, отображающих слова в n-мерном пространстве, что позволяет учитывать контекст.

📚Метод Skip-Gram
Метод Skip-Gram используется для предсказания контекста слов в предложении.
Нейросеть состоит из входного, скрытого и выходного слоев.
Обучение происходит путем корректировки весов скрытого слоя.
Веса скрытого слоя являются эмбеддингами слов.

📚CBOW
CBOW - это метод, который добавляет контекстные слова в модель и вычисляет текущее слово.
Отличается от skip-gram тем, что на вход подаются слова контекста.
Веса между скрытым и выходным слоями усредняются для получения эмбеддингов.

📚Выбор между skip-gram и CBOW
Skip-gram лучше работает с небольшими наборами данных и редкими словами.
CBOW быстрее обучается и лучше представляет часто встречающиеся слова.

📚Практическое применение word2vec
Можно использовать предварительно обученную модель Google или обучить собственную модель.
Модель Google предоставляет векторные представления для слов и синонимы.
Собственная модель требует обработки предложений и может не превзойти Google.

📚GloVe
GloVe - это метод, который учитывает глобальную и локальную статистику для создания векторных представлений слов.
GloVe извлекает семантику из матрицы совместной встречаемости слов.

📚Основы эмбеддингов
Эмбеддинги используются для представления слов в виде векторов, что облегчает их обработку в нейросетях.
GloVe - это метод, который минимизирует разницу между произведением эмбеддингов и логарифмом частоты их совместного появления.
GloVe эффективен для задач распознавания похожих слов и именованных сущностей, а также для обработки редких слов.

📚Использование GloVe
Для получения векторов слов необходимо загрузить файл эмбеддингов и создать словарь.
Можно использовать функцию для получения списка похожих слов на основе данных модели.
Векторы можно преобразовать в матрицу NumPy для обработки в нейросетях или для задач поиска похожих слов.

📚FastText
FastText - это метод, который обобщает неизвестные слова, используя буквы вместо слов.
Обучение FastText происходит на уровне символов, что позволяет использовать меньше данных.
Модель FastText может быть обучена в режимах CBOW и skip-gram.

📚Применение FastText
FastText может использоваться для классификации текстов на основе упоминаемых видов препаратов.
Для обучения модели необходимо подготовить входные данные в формате, соответствующем задаче.
Модель выдает прогнозы метки и вероятности, но ее производительность зависит от множества факторов.

https://habr.com/ru/articles/778048/
#articles #analysis #model #eda #vectorization #db