Машинное обучение RU
17.7K subscribers
1.57K photos
207 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
🌉 Ансамбли методов в алгоритмах поиска выбросов

Большое число практических задач, например, поиск мошеннических операций, выявление брака или аномалий, обнаружение вирусных атак на основе нетипичной активности сводятся к задачам определения выбросов в данных. Для определения выбросов обычно используют стандартные методы, например, метод ближайших соседей (KNN) или метод локального уровня выбросов (LOF). Применение ансамблей позволяет улучшить точность работы стандартных методов. В посте рассмотрю, как это сделать.

Идея ансамблей методов проста. Буду делать подвыборки из обучающей выборки и обучать на них базовые алгоритмы. Получаю набор из независимых детекторов (этот набор называется ансамбль), которые выдают оценки для каждой точки данных. Комбинируя оценки выбросов от базовых алгоритмов, обученных на различных подвыборках, получаю более точное предсказание выбросов.

➡️ Читать дальше

@machinelearning_ru
👍13
Лассо- и ридж-регрессии: интуитивное сравнение

Чтобы понять, зачем нужны эти методы, обсудим дилемму смещения-дисперсии.

Дилемма смещения-дисперсии. Источник
В контролируемой среде у модели может быть два основных источника ошибок.

Смещение — ошибка, связанная с неверными предположениями в алгоритме обучения. Высокое смещение приводит к тому, что алгоритм упускает значимые взаимосвязи между признаками и целью (также называется “недостаточно близкой подгонкой”).
Дисперсия — ошибка, связанная с чувствительностью к малейшим флуктуациям в обучающих данных. Высокая дисперсия заставляет алгоритм моделировать случайный шум обучающих данных (также называется “чрезмерно близкой подгонкой”).

➡️ Читать дальше

@machinelearning_ru
🔥7👍2
This media is not supported in your browser
VIEW IN TELEGRAM
💻 Как легко развертывать модели МО в 2022 году с помощью Streamlit, BentoML и DagsHub

Вы создали модель машинного обучения. Что делать дальше? Хранить в ноутбуке Jupyter, как ценный актив, чтобы ее никто не видел? Вместо этого лучше самым простым и доступным образом дать возможность другим пользователям экспериментировать с вашей работой и делиться ей. Другими словами, модель необходимо развернуть.

Как это сделать? Просто распространить модель в виде файла? Такой вариант не подойдет.

А может в виде контейнера Docker? Это более удобный способ: пользователь получит необходимые данные для локального запуска модели. Однако делать это все равно придется в среде программирования, что не очень удобно.

А как насчет API? Довольно тяжело объяснить его принцип работы человеку, далекому от программирования.

А если создать веб-приложение? Это самый лучший вариант. Но разве для этого не нужны специальные знания?

К счастью, ничего из вышеперечисленного делать не придется. В этой статье представлен метод развертывания, который позволит представить модель в виде API, контейнера Docker и веб-приложения — и все это за несколько минут с помощью пары коротких скриптов Python.

➡️ Читать дальше
📖 Dataset
Github

@machinelearning_ru
👍10🔥1🤔1
Probabilistic Machine Learning: An Introduction by Kevin P. Murphy

Черновик второго издания книги в GitHub.

https://probml.github.io/pml-book/

@machinelearning_ru
👍7
⚙️ Как упростить работу с временными рядами: 14 библиотек машинного обучения

Ритейл, банкинг, телеком и многие другие бизнесы используют машинное обучение (machine learning, ML) для работы с данными. ML позволяет анализировать большие объемы информации, выделять закономерности, прогнозировать будущие состояния, проводить эксперименты и в целом решать сложные задачи, особенно при достаточности исходных данных. Как правило, для ML-специалистов (дата-сайентистов) всегда есть интересные и нетривиальные проекты.

Зачем писать 20 строк кода для преобразования временных рядов к классическому табличному виду, если с помощью библиотек можно работать непосредственно с исходными временными рядами и уложиться в две строки для обучения модели? Расскажу, какие библиотеки лучше подходят для решения основных задач на временных рядах.

Временной ряд — упорядоченная последовательность точек или признаков, измеренные через определенные временные интервалы, и которая представляет характеристику процесса.

➡️ Читать дальше

@machinelearning_ru
👍14🔥1
⚡️ Инструкция по Работе с Библиотекой PyTorch-Ignite

PyTorch — среда глубокого обучения, которая была принята такими технологическими гигантами, как Tesla, OpenAI и Microsoft для ключевых исследовательских и производственных рабочих нагрузок.

PyTorch-Ignite — это библиотека высокого уровня, помогающая гибко и прозрачно обучать и оценивать нейронные сети в PyTorch. Основная проблема с реализацией глубокого обучения заключается в том, что коды могут быстро расти, становиться повторяющимися и слишком длинными. Рассматривать данную библиотеку буду, решая задачу оценки вероятности отнесения изображения к определенному классу на примере датасета CIFAR10. Чуть позже расскажу о нем подробнее. А сейчас начнем подготовку с установки и импорта необходимых библиотек.

Установка и импорт необходимых библиотек.

Советую работать в сервисе GoogleColab

pip install pytorch-ignite


🗒 Читать дальше
⚙️ Github

@machinelearning_ru
👍7🔥1
🏮 Google представил нейросеть для детекции туберкулеза на радиограммах

Каждый год туберкулез убивает 1,4 миллиона человек по всему миру. Google присоединился к борьбе с болезнью, разработав нейронную сеть для автоматизации обнаружения и ускорения лечения туберкулеза. Применять ее планируется в местах, где не хватает квалифицированных врачей.

Глубоко обученная модель (DLS) от Google AI показала лучшие результаты, чем рентгенологи, при обнаружении туберкулеза на рентгенограммах грудной клетки. Симуляции показывают, что применение DLS для выявления туберкулеза по рентгенограммам грудной клетки снижает стоимость процедуры на 40–80% в расчете на одного пациента.

Google — не первая компания, разработавшая DLS для выявления туберкулеза, и ее инструмент вряд ли в ближайшее время снизит уровень смертности. Но сторонние эксперты говорят, что первые результаты очень многообещающие, учитывая постоянство результатов при тестировании на различных группах пациентов. Модель превысила бенчмарки, установленные ВОЗ: чувствительность — 90%, специфичность — 70%

➡️ Читать дальше
🗒 Статья

@machinelearning_ru
👍13
💬 Text-Free Learning of a Natural Language Interface for Pretrained Face Generators

Fast text2StyleGAN, интерфейс на естественном языке, который адаптирует предварительно обученные GAN для синтеза человеческого лица из текста.

pip install git+https://github.com/openai/CLIP.git

Github: https://github.com/duxiaodan/fast_text2stylegan

Статья: https://arxiv.org/abs/2209.03177v1

Датасет: https://paperswithcode.com/dataset/ffhq

@machinelearning_ru
👍9
🔥 Полезнейшая Подборка каналов

🦾 Machine learning
@ai_machinelearning_big_data – все о машинном обучении
@data_analysis_ml – все о анализе данных.
@machinelearning_ru – машинное обучении на русском от новичка до профессионала.
@machinelearning_interview – подготовка к собеседования Data Science
@datascienceiot – бесплатные книги Machine learning
@ArtificialIntelligencedl – канал о искусственном интеллекте
@neural – все о нейронных сетях
@machinee_learning – чат о машинном обучении
@datascienceml_jobs - работа ds, ml

☕️ Java
@javatg - Java для програмистов
@javachats Java чат
@java_library - книги Java
@android_its Android разработка
@java_quizes - тесты Java
@Java_workit - работа Java
@progersit - шпаргалки ит

💡 Javascript / front
@javascriptv - javascript изучение
@about_javascript - javascript продвинутый
@JavaScript_testit -тесты JS
@htmlcssjavas - web
@hashdev - web разработка

🦫 Golang
@golang_interview - вопросы и ответы с собеседований по Go. Для всех уровней разработчиков.
@Golang_google - go для разработчиков
@golangtests - тесты и задачи GO
@golangl - чат Golang
@GolangJobsit - вакансии и работа GO
@golang_jobsgo - чат вакансий
@golang_books - книги Golang
@golang_speak - обсуждение задач Go
🐍 Python
@pythonl – python для датасаентиста
@pro_python_code – python на русском
@python_job_interview – подготовка к Python собеседованию
@python_testit тесты на python
@pythonlbooks - книги Python
@Django_pythonl django
@python_djangojobs - работа Python

🐧 Linux
@inux_kal - чат kali linux
@inuxkalii - linux kali
@linux_read - книги linux

👷‍♂️ IT работа

@hr_itwork - ит-ваканнсии

🔋 SQL
@sqlhub - базы данных
@chat_sql - базы данных чат

🤡It memes
@memes_prog - ит-мемы

⚙️ Rust
@rust_code - язык программирования rust
@rust_chats - чат rust

#️⃣ c# c++
@csharp_ci - c# c++кодинг
@csharp_cplus чат
👍10🔥1
🖼 ImageAI

Библиотека, которая датет разработчикам возможность создавать приложения и системы с автономными возможностями компьютерного зрения.

Созданный с учетом простоты, ImageAI поддерживает список современных алгоритмов машинного обучения для прогнозирования изображений, прогнозирования пользовательских изображений, обнаружения объектов, обнаружения видео, отслеживания видеообъектов и обучения прогнозированию изображений.

ImageAI также поддерживает обнаружение объектов, обнаружение видео и отслеживание объектов с использованием RetinaNet, YOLOv3 и TinyYOLOv3, обученных на наборе данных COCO. Наконец, ImageAI позволяет обучать пользовательские модели обнаружению и распознаванию новых объектов.

В итоге, ImageAI обеспечит поддержку более широких и специализированных аспектов компьютерного зрения, включая, помимо прочего, распознавание изображений в особых средах и специальных областях.

⚙️ Github
🗒 Инструкция
➡️ Docs

@machinelearning_ru
👍72
ML при маржинальной торговле

Ошибочное определение уровня риска клиента может привести к низкой доходности банка и повышенному риску для банка, в т.ч. репутационному, так как недостаточная квалификация клиента может привести к неграмотным инвестициям, что снизит его основные экономические параметры: финансовый результат, оборот средств, а, следовательно, снизит и комиссионный доход банка.

Основополагающим документом для присвоения уровня риска клиенту при маржинальной торговле является Указание Банка России от 26 ноября 2020 г. № 5636-У «О требованиях к осуществлению брокерской деятельности при совершении брокером отдельных сделок за счет клиента» Пункт 30.

Как показывает практика, один только объем денежных средств не является достаточным основанием для перевода клиента в повышенный уровень риска (далее ПУР). Денежные средства могут размещаться на брокерском счёте без дальнейшего совершения операций. В этом случае банк повышенных рисков не несет. Для оптимизации процесса оценки перевода клиента в ПУР предлагается использовать построенную модель классификации на основе алгоритма K ближайших соседей. В качестве предикторов используются следующие экономические критерии:

Оборот денежных средств по брокерскому счету.
Стратегия инвестирования.
Диверсификация портфеля.
Сумма сделки.

➡️ Читать дальше

@machinelearning_ru
👍9
Oemer – Комплексная система оптического распознавания музыки, построенная на основе моделей глубокого машинного обучения

Система способна распознавать и воспроизводить музыку по фотографиям нотных записей. Работает даже при неровных телефонных фотографиях

#GitHub #ML #AI #Image #Processing

@machinelearning_ru
👍26
RuLeanALBERT — cамая большая BERT-подобная модель на русском, которую можно скачать и которая даже поместится на ваш компьютер. Создана в Yandex Research. На бенчмарках по пониманию языка показывает результаты, сравнимые с другими открытыми моделями и где-то даже близкие к state-of-the-art.

Вы можете использовать открытый код модели в своих проектах для классификации предложений, представления текстов и других языковых задач, не требующих генерации.

#GitHub #ML #AI #BERT
👍12🔥21
🧠 GraphSAGE: как масштабировать графовые нейронные сети до миллиардов соединений

Что общего между UberEats и Pinterest? Их рекомендательные системы работают с помощью GraphSAGE в огромных масштабах с миллионами и миллиардами узлов и ребер.

Pinterest разработал собственную версию под названием PinSAGE, чтобы рекомендовать пользователям наиболее актуальные изображения (пины). Граф этого ресурса содержит 18 миллиардов соединений и 3 миллиарда узлов.
UberEats также использует модифицированную версию GraphSAGE, чтобы предлагать блюда, рестораны и различные виды кухни. Эта платформа утверждает, что поддерживает более 600 000 ресторанов и 66 миллионов пользователей.
В этом руководстве мы используем набор данных с 20 тысячами узлов, а не миллиардами, из-за ограничений Google Colab. В процессе изучения будем придерживаться архитектуры оригинального GraphSAGE, а также затронем некоторые интересные функции из предыдущих вариантов.

➡️ Читать дальше
⚙️ Код
🗒 Dataset

@machinelearning_ru
👍14
🦾 Искусственный интеллект с примерами на Python

Автор начинает с рассмотрения общих концепций искусственного интеллекта, после чего переходит к обсуждению более сложных тем, таких как предельно случайные леса, скрытые марковские модели, генетические алгоритмы, сверточные нейронные сети и др. Вы узнаете о том, как принимать обоснованные решения при выборе необходимых алгоритмов, а также о том, как реализовывать эти алгоритмы на языке Python для достижения наилучших результатов. Если вы хотите создавать многоцелевые приложения для обработки информации, содержащейся в изображениях, тексте, голосовых и других данных, то эта книга станет для вас надежным подспорьем.


Основные темы книги:
Различные методы классификации и регрессии данных
Концепция кластеризации и ее применение для автоматического сегментирования данных
Создание интеллектуальных рекомендательных систем
Логическое программирование и способы его применения
Построение автоматизированных систем распознавания речи
Основы эвристического поиска и генетического программирования
Разработка игр с использованием искусственного интеллекта
Обучение с подкреплением
Создание интеллектуальных приложений, связанных с обработкой изображений, текста и последовательных данных
Алгоритмы глубокого обучения и создание приложений на их основе
Книга обсуждается в отдельном сообщении в блоге Виктора Штонда.

📓 Книга

@machinelearning_ru
👍5