DenoiseLAB – Telegram

DenoiseLAB

486 subscribers

1.33K photos

159 videos

3 files

1.57K links

Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.

Download Telegram

About

Blog

Apps

Platform

486 subscribers

🔄🔄🔄Читаем статьи за Вас №13:

📚Анализ корреляций в ценах на товары
Автор статьи использовал MatLab, но не упомянул уровень значимости корреляций.
В статье рассматривается использование R для анализа данных о ценах на товары.
Распределение цен на товары отличается от нормального, что делает невозможным использование коэффициента корреляции Пирсона.
Тест Спирмена используется для поиска непараметрических корреляций.

📚Результаты корреляционного анализа
В корреляционной матрице обнаружены статистически значимые взаимосвязи.
Значения коэффициентов корреляции rho не превышают 0.3, указывая на слабую силу связей.
Колебания цен на один товар могут влиять на цены других товаров не более чем на 10%.

📚Общий вывод
Автор подчеркивает важность понимания статистической значимости при анализе данных.
Статья призывает к осторожному подходу при интерпретации результатов корреляционного анализа.

https://habr.com/ru/articles/241967/

#articles #analysis #model #nlp #redactor

80 views07:00

👍 3 👎🤔

🔄🔄🔄Читаем статьи за Вас №14:

📚Основы анализа данных
Анализ данных включает методы и приложения, не имеющие четкого ответа на каждый объект.
Нейросети, распознающие цифры, могут давать разные результаты на разных входных данных.
Алгоритмы машинного обучения формируют недетерминистические алгоритмы на основе данных.

📚Методы и эвристики машинного обучения
Машинное обучение использует обучающую выборку для автоматического подбора решающей функции.
Фичеселект (feature selection) и препроцессинг необходимы для приведения данных в форму, подходящую для алгоритмов.
Алгоритмы с учителем требуют опыта и подготовки для правильного применения.

📚Задачи машинного обучения
Задачи машинного обучения делятся на классификацию, регрессию и логистическую регрессию.
Классификация требует сопоставления объектов с классами, регрессия — предсказания количественных характеристик, логистическая регрессия сочетает оба типа задач.

📚Выбор метрики и валидация
Метрика качества оценивает качество предсказаний алгоритма.
Валидация алгоритма проводится на валидационной выборке, отделенной от обучающей.

Цикл развития проекта
Изучение задачи и источников данных.
Математическая формулировка и выбор метрик.
Написание пайплайна для обучения и тестирования.
Разработка эвристики или алгоритма машинного обучения.
Улучшение качества алгоритма и метрик, привлечение дополнительных данных.

📚Заключительный комментарий
Автор обсудит конкретные алгоритмы для задач классификации, регрессии и логистической регрессии в следующей статье.
Статья заканчивается призывом к читателям поддержать автора для ускорения публикации следующей статьи.

https://habr.com/ru/articles/352812/

#articles #analysis #model #eda

Анализ данных — основы и терминология

В этой статье я бы хотел обсудить базовые принципы построения практического проекта по (т. н. «интеллектуальному») анализу данных, а также зафиксировать необходимую терминологию, в том числе...

85 views07:00

👍 2 👎🤔

📚Анализ результатов опроса клиентского опыта
Опрос проведен с использованием 10-балльной шкалы, где 1 означает неудовлетворенность, а 10 - полную удовлетворенность.
Вопросы разделены на основные и уточняющие блоки, включая общую удовлетворенность, вероятность рекомендации и повторной покупки.

📚Проблемы при интерпретации результатов
Сложности в понимании, как улучшить общую удовлетворенность продуктом.
Необходимость связать общую удовлетворенность с другими аспектами деятельности.
Необходимость выявления факторов, оказывающих наибольшее влияние на общую удовлетворенность.

📚Применение факторного анализа
Факторный анализ позволяет увидеть степень влияния различных аспектов и сформировать группы тесно связанных параметров.
Исходный набор данных анализируется на аномальные ответы и корреляции между вопросами.
Проводится проверка данных на возможность проведения факторного анализа с использованием критериев Бартлетта и Кайзера-Мейера-Олкина.

📚Определение количества факторов
Определяется количество групп вопросов, результаты которых схожи между собой.
Вычисляется корреляционная матрица между вопросами и полученными факторами.
Выделяются 6 факторов с собственным значением больше 1.

📚Интерпретация и анализ результатов
Результаты переносятся в Excel для удобства расчетов.
Средний балл для каждого вопроса и фактора рассчитывается с учетом корреляций выше 0.5.
Проводится сравнение среднего балла по всем вопросам и факторам для подтверждения корректности анализа.
На основе полученных данных строятся гипотезы, которые могут быть проверены на качественных исследованиях.

https://habr.com/ru/articles/687338/

#articles #analysis #model #eda

94 views07:00

👍 2 👎 1 🤔

🔄🔄🔄Читаем статьи за Вас №16:

📚Основы анализа данных с помощью pandas
Для понимания данных необходимо знать диапазоны значений, типы переменных и количество пропущенных значений.
pandas предоставляет инструменты для разведочного анализа, но часто требуется начать с общих функций, таких как df.describe().

📚Использование pandas-profiling для быстрого анализа
Автор статьи ищет способы быстрого и эффективного разведочного анализа данных и находит pandas-profiling.
pandas-profiling генерирует подробный HTML-отчет, содержащий основные сведения о данных и предупреждения для дальнейшего анализа.

📚Пример использования на наборе данных Titanic
pandas-profiling особенно полезен для данных, которые еще не очищены и требуют дальнейшей обработки.
В статье демонстрируется, как использовать pandas-profiling для получения описательной статистики и визуализации распределения переменных.

📚Анализ переменных с помощью pandas-profiling
Отчет pandas-profiling содержит сведения о каждой переменной, включая диаграммы распределения.
Для числовых переменных выводятся показатели описательной статистики и количество пропущенных значений.
Для категориальных переменных предоставляются число классов вместо среднего, минимума и максимума.

📚Корреляционный анализ и пример данных
В отчете pandas-profiling выводятся корреляционные матрицы Пирсона и Спирмена, а также пример данных из начала набора данных.
Автор не рекомендует полагаться на последний раздел отчета, а предлагает использовать df.sample() для случайного выбора данных.

📚Итоги использования pandas-profiling
pandas-profiling предоставляет полезные возможности для быстрого общего представления о данных и создания отчетов.
Для детальной работы с данными необходимо вручную учитывать их особенности.

📚Дополнительные ресурсы
В статье упоминается возможность просмотра полного анализа данных в Jupyter-блокноте и ссылка на соответствующий код в GitHub-репозитории.
Читателей просят поделиться своим опытом начала анализа новых наборов данных.

https://habr.com/ru/companies/ruvds/articles/451478/

#articles #analysis #model #eda

👍2

108 views07:00

👍 3 👎🤔

This media is not supported in your browser

VIEW IN TELEGRAM

👍2

104 views07:20

Буду здесь и вероятно возможно даже выступать, но пока не знаю. Сейчас готовится мощный материал и буду думать. Конечно же иду туда со своим брендом и как сотрудник Финансового университета.

https://www.isprasopen.ru/#Registration

🔥3

95 viewsedited 21:24

https://vc.ru/ai/1503733-sem-altman-vek-intellekta-perevod - перевод статьи Альтамана, он выступил с новым заявлением.

Сэм Альтман: Век интеллекта (перевод)

Перевод на русский язык манифеста от главы OpenAI Сэма Альтмана о будущем ИИ.

95 views08:27

https://habr.com/ru/companies/sberbank/articles/845388/ - моя новая статья для Сбера, небольшая, и даже весьма шуточная, но тем не менее очень актуальная.

Шифруй то, шифруй это, или LLM под замком

Здравствуйте, уважаемые читатели Хабра. Чем больше я погружаюсь в LLM, тем больше укрепляюсь во мнении, что сейчас они (LLM) заняли если не самое важное, то уж точно одно...

118 views09:13

https://truetechchamp.ru/?utm_source=email_&utm_medium=email&utm_campaign=true_tech_champ24&utm_content=critospecialists_&utm_term=image1

МТС True Tech Champ 2025

ИТ-чемпионат по алгоритмическому и робототехническому программированию

114 views09:30

В Минцифры подтвердили, что Google ограничил создание новых аккаунтов с помощью российских мобильных номеров.

При этом подтверждение авторизации через SMS для уже созданных аккаунтов ещё работает. В министерстве посоветовали пользователям Google создать резервные копии данных, задействовать дополнительные способы двухфакторной аутентификации или перейти на российские почтовые платформы.

Ранее пользователи Google заявляли, что при регистрации аккаунтов не приходили сообщения для верификации.

🤔1💔1

98 views08:38

🔄🔄🔄Читаем статьи за Вас №17

📚Функции потерь и градиентный спуск
Функции потерь делятся на выпуклые и невыпуклые, с разными подходами к оптимизации.
Градиентный спуск - численный метод оптимизации, основанный на минимизации ошибки модели.
Существуют различные подходы к градиентному спуску, включая пакетный, мини-пакетный и стохастический.

📚Более быстрые и точные оптимизаторы
Momentum и Nesterov momentum - стохастические оптимизации, улучшающие сходимость и точность.
AdaGrad и RMSProp - адаптивные методы градиентного спуска с различными подходами к обновлению параметров.
Adam и его модификации - комбинация Momentum и RMSProp с улучшенными характеристиками сходимости и устойчивости к гиперпараметрам.

📚Обзор алгоритмов оптимизации
Adam - популярный алгоритм, но сложен в анализе и чувствителен к шуму.
Требует больших объемов памяти и может быть чувствителен к прерыванию обучения.
Существуют модификации Adam, улучшающие его характеристики.

📚Сравнение оптимизаторов
SDG, Momentum и Nesterov momentum менее стабильны и зависят от начальных значений learning rate.
RMSprop и Adam-подобные методы показали лучшие результаты в обоих случаях.
Адаптивные методы могут быть более стабильными и быстрыми, но не всегда универсальными.

📚Проблемы адаптивных методов
При приближении к критическим точкам адаптивные методы могут не сходиться.
AMSGrad и AdamNC предлагают решения для улучшения сходимости.
AdamX учитывает различия в гиперпараметрах и избегает проблем с сходимостью.

📚Стратегии изменения скорости обучения
Существуют различные стратегии изменения скорости обучения, включая плавное затухание и экспоненциальное затухание.
Важно аккуратно подбирать learning rate, чтобы избежать преждевременного выхода на плато или расхождения.

📚Работа с большими мини-пакетами
Большие мини-пакеты могут привести к переобучению и ухудшению обобщающей способности модели.
Использование маленьких батчей может привести к недообучению и более шумным оценкам градиента.

📚Layer-wise Adaptive Rate Scaling (LARS)
LARS использует локальный learning rate для каждого слоя, что позволяет использовать большие партии без потери качества.
Однако LARS плохо справляется с моделями с важными слоями, такими как BERT, из-за нестабильности градиентов.
Layer-wise Adaptive Moments Based optimizer (LAMB)
LAMB применяет двойную стратегию нормализации для более точной настройки весов модели.
LAMB позволяет значительно улучшить обучение BERT, сокращая время обучения и увеличивая размер пакета.
LAMB имеет модификации для ускорения обучения и повышения стабильности.

📚Проксимальные методы
Проксимальные методы заменяют сложные задачи оптимизации на более простые, аппроксимируя новое решение к текущему.
Проксимальный градиентный метод (PGM) используется для решения задач с гладкой и негладкой функциями.
ISTA (Iterative Shrinkage(Soft)-Thresholding Algorithm) позволяет получить разреженную модель и имеет модификации для ускорения сходимости.

📚Методы второго порядка
Методы второго порядка используют информацию о вторых производных для более точного нахождения точек минимума.
Метод Ньютона обеспечивает квадратичную скорость сходимости и устойчив к плохо обусловленным задачам.
Однако метод Ньютона чувствителен к выбору начальной точки и требует подбора шага.

📚Требования к вычислительным ресурсам
Метод Ньютона требует больших вычислительных затрат из-за квадратичной зависимости от параметров.

📚Альтернативы методу Ньютона
Метод сопряжённых градиентов использует сопряжённые направления для поиска минимума.
BFGS (Broyden-Fletcher-Goldfarb-Shanno) является квазиньютоновским методом с итеративным уточнением обратного гессиана.
SR1 (Symmetric Rank-1) сохраняет симметрию матрицы, но не гарантирует её положительную определённость.
L-BFGS (Limited-memory BFGS) использует последние пары векторов для аппроксимации гессиана, что снижает затраты на память и итерацию.
Shampoo сочетает точность алгоритмов второго порядка с скоростью алгоритмов первого порядка, используя произведение градиентов для формирования предобусловленной матрицы.

78 views07:00

📚Сложности и ограничения
BFGS и SR1 требуют больших вычислительных затрат для хранения матриц.
L-BFGS и Shampoo требуют значительных вычислительных ресурсов для работы с полносвязными и эмбэддинг слоями.
Шампунь требует больших вычислительных затрат при вычислении p-х корней матриц.

📚Улучшения в алгоритме "Шампунь"
Вычисление предобуславливателей каждые несколько сотен шагов для повышения точности.
Использование эффективных итерационных методов для вычисления корней вместо СВД.
Применение предобуславливателей или для улучшения точности.
Параллельное решение на GPU для повышения производительности.

📚Тензорная форма и практическое применение
Алгоритм "Шампунь" реализован в тензорной форме для работы с тензорами произвольной размерности.
В будущем ожидается рост популярности и значимости алгоритма в различных областях инженерии и науки.

https://habr.com/ru/articles/813221/

#articles #analysis #model #eda

83 viewsedited 07:00

👍 2 👎🤔

This media is not supported in your browser

VIEW IN TELEGRAM

Парень выложил видео, как проходит собеседование у ИИ-аватара.

Больше всего удивил тот факт, что парня никто не предупреждал об этом. Выглядит это очень жутко и неэтично.

Из «роботы заберут у нас работу» до «роботы дадут нам работу» один шаг

82 views17:06

Forwarded from Код Дурова

🚘 Цифровые релоканты //

Холдинг VK объявил, что с момента запуска проекта Xmail более 1,6 миллиона россиян перенесли свои почтовые ящики с сервиса Gmail на отечественный Xmail.

Сервис Xmail был запущен в августе 2023 года на фоне слухов ограничения Gmail для россиян. С его помощью пользователи могут перенести свои почтовые ящики Google на новый отечественный домен, сохранив все письма и другие данные.

Ранее Минцифры РФ рекомендовало российским пользователям Google создавать резервные копии данных на фоне слухов об ограничениях со стороны компании. При этом сама компания внедрение каких-либо санкций отрицает.

@d_code

Please open Telegram to view this post

VIEW IN TELEGRAM

85 views20:53

🔄🔄🔄Читаем статьи за Вас №18:

📚Задачи рекомендательных систем
Рекомендация комфортных маршрутов учитывает различные аспекты поездки. Рекомендация свежих новостей требует понимания содержания статьи. Рекомендация ресторанов включает в себя не только выбор ресторана, но и конкретных блюд. Рекомендация товаров для разных групп людей требует индивидуального подхода.

📚Методы оценки качества рекомендательных систем
Онлайн-оценка качества включает в себя проверку на пользователях.
Оффлайн-оценка качества использует метрики ранжирования, такие как MAP@k и nDCG@k.

📚Данные для рекомендательных систем
Explicit feedback включает в себя явные оценки пользователей.
Implicit feedback включает в себя неявные предпочтения, такие как просмотры и клики.

📚Обучение рекомендательных систем
Bayesian Personalized Ranking использует положительные примеры для обучения. Weighted Approximate-Rank Pairwise учитывает адаптивный learning rate.

📚Расширение рекомендательных систем
Холодный старт включает в себя рекомендации для новых пользователей и товаров. Long Tail включает в себя рекомендации для малоизвестных товаров. Exploration vs Exploitation балансирует между повторением и разнообразием рекомендаций.

📚Неперсонализированные рекомендации
Сортировка по популярности включает в себя вычитание лайков из дислайков. Сортировка по среднему рейтингу учитывает количество оценок, но не их процентное соотношение. Доверительный интервал позволяет учитывать количество оценок и их процентное соотношение.

📚Методы выделения часто встречающихся множеств товаров
Pattern mining включает в себя различные методы для выделения часто встречающихся множеств товаров. Алгоритмы pattern mining выполняют сокращенный поиск в ширину и отсекают редкие множества.

📚Основы рекомендательных систем
Content-Based подход использует историю действий пользователя для создания вектора предпочтений. Collaborative Filtering использует матрицу оценок для ранжирования похожих пользователей и айтемов.

📚Методы и алгоритмы
Matrix Factorization позволяет разложить матрицу оценок на произведение трех матриц, игнорируя пропуски.
Netflix Prize стимулировал развитие рекомендательных систем, требуя улучшения метрики RMSE на 10%.
Нейросети используются для учета дополнительных данных о пользователях и айтемах.

📚Применение и развитие
Netflix Prize не использовал полученное решение, так как оно было слишком дорогим и не принесло значительного улучшения.
В современных рекомендательных системах используются различные архитектуры и подходы, включая DSSM и Attentive Collaborative Filtering.

https://habr.com/ru/companies/jetinfosystems/articles/453792/
#articles #analysis #model #eda

91 views07:00

👍 3 👎🤔

https://liveplus.anti-malware.ru/#reg

54 views09:51

🔄🔄🔄Читаем статьи за Вас №19:

📚Основы NLP и векторизации
Векторизация - это процесс преобразования текста в числовые векторы для машинного обучения.

📚Методы векторизации
"Мешок слов" - простой метод, основанный на частоте слов в тексте.
TF-IDF - более сложный метод, учитывающий важность слова для документа.
Word2Vec - подход, использующий нейронные сети для создания векторов, учитывающих контекст.

📚Применение векторизации
Векторизация используется для извлечения признаков из текста и обучения моделей машинного обучения.
TF-IDF применяется в поисковых технологиях и чат-ботах для определения релевантности слов.
Word2Vec используется для создания векторов, отображающих слова в n-мерном пространстве, что позволяет учитывать контекст.

📚Метод Skip-Gram
Метод Skip-Gram используется для предсказания контекста слов в предложении.
Нейросеть состоит из входного, скрытого и выходного слоев.
Обучение происходит путем корректировки весов скрытого слоя.
Веса скрытого слоя являются эмбеддингами слов.

📚CBOW
CBOW - это метод, который добавляет контекстные слова в модель и вычисляет текущее слово.
Отличается от skip-gram тем, что на вход подаются слова контекста.
Веса между скрытым и выходным слоями усредняются для получения эмбеддингов.

📚Выбор между skip-gram и CBOW
Skip-gram лучше работает с небольшими наборами данных и редкими словами.
CBOW быстрее обучается и лучше представляет часто встречающиеся слова.

📚Практическое применение word2vec
Можно использовать предварительно обученную модель Google или обучить собственную модель.
Модель Google предоставляет векторные представления для слов и синонимы.
Собственная модель требует обработки предложений и может не превзойти Google.

📚GloVe
GloVe - это метод, который учитывает глобальную и локальную статистику для создания векторных представлений слов.
GloVe извлекает семантику из матрицы совместной встречаемости слов.

📚Основы эмбеддингов
Эмбеддинги используются для представления слов в виде векторов, что облегчает их обработку в нейросетях.
GloVe - это метод, который минимизирует разницу между произведением эмбеддингов и логарифмом частоты их совместного появления.
GloVe эффективен для задач распознавания похожих слов и именованных сущностей, а также для обработки редких слов.

📚Использование GloVe
Для получения векторов слов необходимо загрузить файл эмбеддингов и создать словарь.
Можно использовать функцию для получения списка похожих слов на основе данных модели.
Векторы можно преобразовать в матрицу NumPy для обработки в нейросетях или для задач поиска похожих слов.

📚FastText
FastText - это метод, который обобщает неизвестные слова, используя буквы вместо слов.
Обучение FastText происходит на уровне символов, что позволяет использовать меньше данных.
Модель FastText может быть обучена в режимах CBOW и skip-gram.

📚Применение FastText
FastText может использоваться для классификации текстов на основе упоминаемых видов препаратов.
Для обучения модели необходимо подготовить входные данные в формате, соответствующем задаче.
Модель выдает прогнозы метки и вероятности, но ее производительность зависит от множества факторов.

https://habr.com/ru/articles/778048/
#articles #analysis #model #eda #vectorization #db

60 viewsedited 10:26

👍 2 👎🤔

https://career.astondevs.ru/meetups/data-engineering?utm_campaign=Data_meetup+17%2F10+-+%D0%BF%D1%80%D0%B8%D0%B3%D0%BB%D0%B0%D1%88%D0%B5%D0%BD%D0%B8%D0%B5&utm_medium=email&utm_source=MailoPost&utm_source=email

Форма записи на Митап — ASTON

Приглашаем записаться на ближайший митап, организованный нашей компанией!

67 views11:01

Закрытая конференция Хабр для IT Журналистов, на которой я был. Самые топы из топов, эти люди стараются для вас.

На первой фотке Алексей aka Boomburum - главред Хабра уже 13 лет как.

https://vk.ru/album516931653_306871440

VK is the largest European social network with more than 100 million active users. Our goal is to keep old friends, ex-classmates, neighbors and colleagues in touch.

55 viewsedited 05:55

Группа «Интер РАО» запустила ТурбоХакатон по обработке данных в сфере электроэнергетики. Участвуйте в соревновании с 10 октября по 26 ноября и получите шанс разделить призовой фонд в 500 000 рублей.

Регистрация уже открыта

Приглашаем на хакатон специалистов в области Data Science и Machine Learning от 18 лет. Участвовать можно индивидуально или в команде до 5 человек.

Задачи ТурбоХакатона:
1️⃣ Цифровой ассистент – система «вопрос\ответ» для быстрого поиска ответов во внутренней документации компании через вопросы, заданные в свободной форме
2️⃣ Система рекомендации технологических параметров для оптимизации режимов работы ТЭС
3️⃣ Анализ аномалий в платежах за тепловую энергию
4️⃣ Оптимизация маршрутов обхода многоквартирных домов для проверки состояния приборов учета и контроля достоверности показаний
5️⃣ Оптимизация процесса планирования закупки топлива на электростанциях на основе прогнозирования цены электричества и объемов его выработки

Расписание мероприятия:
🔹 08.10 – старт ТурбоХакатона и открытие задач;
🔹 10.10-04.11 – работа над задачей;
🔹 08.11-12.11 – отбор лучших решений для участия в финальном питчинге;
🔹 19.11 – итоговая питч-сессия и презентация решений для жюри ТурбоХакатона;
🔹 26.11 – объявление результатов и награждение победителей.

Успейте подать заявку до 4 октября

Реклама. Фонд «Энергия без Границ». ИНН 7704278904. erid: LjN8K8Kqh

Please open Telegram to view this post

VIEW IN TELEGRAM

ТурбоХакатон. Трек 1

Решения для электроэнергетики на базе ИИ

👍2

57 views14:48

Роболапки в каждый дом!

Котаны с huggingface & therobotstudio запили новый DIY-набор для роборук, за треть стоимости предыдущей версии.

Одна рука теперь обойдется в 125$, но нужен 3д принтер.

Не могу нарадоваться тренду на опенсорс роботикс и это вот все

Git с моделями и списком деталей
Git lerobot (soft для рук)
Lerobot discord

43 views14:49