Машинное обучение RU
17.7K subscribers
1.58K photos
208 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
✔️ Байесовские структурные временные ряды — прогнозирование.

https://nathanielf.github.io/post/bayesian_structural_timeseries/

@machinelearning_ru
👍71🔥1
✔️ Обзор универсальных оптимизаций нейросетей

Бывает так, что очень большая модель не помещается на видеоадаптере и требуется 250 ГБ оперативной памяти. В этой связи надо находить баланс, можно уменьшить размер модели в сто раз и, при этом, уменьшить точность всего на половину процентного пункта. Например, Bert можно сжать с 560 Мб до 2 Мб, почти без потери качества.

➡️ Читать дальше

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥2🥰1
Вышел новый выпуск подкаста “Деньги любят техно”. Александр Сахнов, руководитель отдела мультивариативного анализа X5 Group и Артём Летин, руководитель подразделения разработки моделей для корпоративного сегмента клиентов ВТБ обсудили метод А/В-тестирования для оценки изменений в бизнесе.

Подкаст можно послушать на любой удобной для вас площадке.
👍41🔥1
🖥 Оптимизация разметки данных с помощью активного обучения

Подавляющее большинство инструментов глубокого обучения позволяет нам быстро создавать новые приложения с потрясающей производительностью, от программ компьютерного зрения, классифицирующих сложные объекты по фотографиям, до анализаторов естественного языка при помощи извлечения семантики из текстов. Однако самым серьёзным узким местом всех этих методик является огромное количество данных, необходимое для обучения моделей — обычно сотни тысяч примеров для обучения.

Если вы приступаете к созданию с нуля классификатора изображений, допустим, для распознавания несвежих продуктов на конвейерной ленте, для сбора и ручной разметки всех этих фотографий вам понадобятся недели или месяцы. К счастью, существует множество глубоких нейронных сетей, уже обученных на больших массивах данных фотографий с большим количеством классов. Они позволяют устранить проблему «холодного запуска». Идея, лежащая в основе трансферного обучения заключается в использовании результатов работы этих моделей, фиксирующих высокоуровневую семантику изображений, в качестве входящих данных для новых классификаторов, решающих требуемую задачу. Это значительно уменьшает объём данных, которые нужно аннотировать вручную — с сотен тысяч до тысяч.

➡️ Читать дальше

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
😼 Dirty cat для категориальных переменных, или почему простых методов кодирования может быть недостаточно

Постановка проблемы

Большинство ML-алгоритмов предназначены только для количественных переменных, то есть переменных, которые имеют числовое выражение и отражают размеры или масштабы объекта. К примеру, возраст, размеры объекта, площадь и прочее аналогичное. Однако, многие признаки, участвующие в предсказании таргета, будь то регрессия или классификация, являются категориальными, то есть выражаются нечисловыми значениями — например, группа крови, пол или политическая партия.

Важным этапом предобработки данных для построения модели в этом случае будет кодирование категориальных переменных, и оказывается, что не все методы одинаково хороши для всех случаев. Попробую разобраться почему. Классический подход — это one-hot кодирование (далее – ohe), когда для каждого уникального значения в категориальном столбце создается новый столбец. Затем эти фиктивные переменные заполняются нулями и единицами — 1 означает ИСТИНА, 0 означает ЛОЖЬ — то есть категории моделируются как взаимоисключающие.

➡️ Читать дальше
✔️ Документация dirty_cat

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥1
✔️ 3 Способа хранения данных в приложениях компьютерного зрения

Когда дело доходит до компьютерного зрения, хранение данных является критически важным компонентом. Вы должны иметь возможность хранить изображения для обучения модели, а также результаты обработки для проверки модели. Есть несколько способов добиться этого, каждый из которых имеет свои преимущества и недостатки. В этом посте мы рассмотрим три различных способа хранения данных в приложениях компьютерного зрения: файловую систему, хранилище объектов, подобное S3, и Reduct Storaget. Мы также обсудим некоторые плюсы и минусы каждого варианта.

➡️ Читать дальше

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🔥1
✔️ Огромный список шпаргалок Data science на все случаи жизни.

Тщательно подобранный список потрясающих шпаргалок по науке о данных, машинному обучению и статистике чтобы решать любые задачи.

➡️ Шпаргалки

ставьте ❤️ и отправляйте друзьям

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍2🔥1
✔️ Создайте образ Docker для Jupyter Notebook и запустите на облачном VertexAI

Вы успешно запрограммировали приложение Python локально и теперь хотите перенести его в облако? Это простое и исчерпывающее пошаговое руководство о том, как превратить скрипт Python в образ Docker и отправить его в Google Cloud Registry. В Google Cloud Platform этот образ Docker может автоматически вызываться в VertexAI через Pub/Sub. Это руководство было создано на компьютере с Windows, но для Linux или Mac основные шаги одинаковы. В конце этой статьи вы сможете создать свой собственный образ Docker в своей операционной системе и автоматически запускать скрипты Python в VertexAI.

➡️ Читать дальше

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥1
🍪 Локальная ретушь фотографий при помощи ИИ

Ретушь изображений и в частности фотопортретов находит множество применений в фотографировании — от создания свадебных и рекламных до личных снимков. Значительные усилия по ретушированию фотографий дают потрясающие результаты, однако в основном изменяют такие общие аспекты изображения, как цвет, освещение и экспозиция. Наиболее трудоемкой и затратной частью является работа с локальными областями изображений.

➡️ Читать дальше
🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🌐 Point-E : text to 3D

OpenAI выпустила новую модель искусственного интеллекта, способную создавать простые 3D-объекты всего за пару минут.

Генерация занимает примерно в 600 раз меньше времени чем в DreamFusion.

🖥 GitHub
📎 Paper

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥2
🗣 Машинное обучение. Способы распознавания синтезированной речи

В современном мире технологии синтеза речи и клонирования голоса стремительно развиваются и уже достигли впечатляющих результатов. С 2015 года проводится специальное соревнование ASV Spoofing, на котором ежегодно презентуют новые методы проведения спуфинг-атак (атаки, когда один человек или программа маскируется под другую путем фальсификации данных) с помощью видео-дипфейков и синтеза речи. Существующие речевые системы способны синтезировать речь и тембр голоса, на слух неотличимые от настоящих. Технологии клонирования голоса привлекают всё большее внимание и находят широкое применение в таких сферах, как голосовое управление, робототехника, голосовые ассистенты (например, Siri и Алиса) и т.д. Однако вместе с этим открываются новые возможности для мошенничества. Особенно уязвимы системы, использующие голосовую биометрию для идентификации пользователей: используя синтез речи, мошенники могут получить доступ к аккаунтам и данным пользователей.

Для борьбы с неэтичным использованием голосовых технологий необходимо разработать инструменты распознавания искусственной речи. Нужно, чтобы разработанная модель обладала хорошей обобщающей способностью и умела детектировать синтезированную речь независимо от языка, акцента и тембра голоса конкретного человека.

В публикации рассмотрю несколько новейших разработок в этой области, а потом синтезирую запись искусственной речи и на этом примере проверю работу одной из представленных моделей.

➡️ Читать дальше

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍91🔥1
🖥 Настройка интерпретатора Python внутри CHATGPT. Ai Пишет код на Python.

Вам больше не нужен интерпритатор.

Этот рассказ вдохновлён другой историей, “Настройка Виртуальной Машины внутри ChatGPT”. Я был впечатлен и решил попробовать нечто подобное – в этот раз вместо командной строки Linux давайте попросим ChatPGT стать нашим интерпретатором Python.Можно воспринимать эту статью как инструкцию по работе с CHATGpt.

Вот исходная команда для инициализации ChatPGT:

Я хочу, чтобы ты выступил в роли интерпретатора Python. Я буду вводить команды, а ты будешь отвечать, что должен показать вывод Python. Я хочу, чтобы ты отвечал только с выводом на терминал внутри одного уникального блока кода, и ничего больше. Не пиши объяснений, выводи только то, что выводит Python. Не вводи команды пока я не дам соответствующих инструкций. Когда мне нужно сказать тебе что-то по-английски, я буду делать это, помещая текст внутри фигурных скобок, как это сделано здесь: {пример текста}. Моя первая команда – a=1.

➡️ Читать дальше

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍92🔥1
💨 Масштабируемые Graph преобразователи для миллионов узлов

В последнее время создание моделей Transformer для обработки графоструктурированных данных вызвало широкий интерес в сообществе исследователей машинного обучения. Одна из критических проблем связана с квадратичной сложностью глобального внимания, которая мешает трансформерам масштабироваться до больших графов. В этом блоге будет кратко представлена ​​недавняя работа над NeurIPS22:

В этой работе предлагается масштабируемый graph Transformers для графов классификации больших узлов, где количество узлов может варьироваться от тысяч до миллионов (или даже больше). Ключевой модуль представляет собой передачу сообщений на основе ядра Gumbel-Softmax, которая обеспечивает распространение функций по всем парам со сложностью O(N) (N для #nodes).

Нижеследующее содержание подытожит основную идею и результаты данной работы.

➡️ Читать дальше

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍92🔥1
🖥 Docker для специалиста по анализу данных. Разбираемся с Контейнерами.

Часто у начинающих Data Scientists возникает вопрос, как демонстрировать работу своих моделей другим людям. Банальный пример – прикрепить ссылку на гитхаб репозиторий в отклике на вакансию или показать свое “детище” знакомым со словами “смотрите, что умею”.

Проще говоря, мы хотим задеплоить нашу модель, превратить ее в демо нашего исследования.

Проблема в том, что для этого нужно скачивать репозиторий, установливать нужную версию python и всех необходимых библиотек, а также разбираться, как запускать приложение. Слишком много сложностей для человека, который хочет использовать или просто посмотреть вашу работу. То есть вопрос в том, как передать продукт клиенту.

В статье я расскажу простыми словами, что такое Docker и как его можно использовать для реализации своих решений в Machine Learning.

Читать дальше
Разработка Airflow с помощью Docker

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍42😁1🤔1
👁 Компьютерное зрение на операторах + и *, или как нейросеть решает задачи CV

Многие привыкли считать, что компьютерное зрение — это какая-то неимоверно сложная технология и исключительно вещь в себе. Ну, конечно, кроме тех людей, которые занимаются непосредственно компьютерным зрением. Надеюсь.

Сегодня я хочу рассказать про один фокус, можно сказать, забавный эксперимент — довольно известный, возможно, среди опытных обработчиков изображений, но настолько слабо применимый на практике, что не часто о нём заходит речь. Однако, этот маленький эксперимент, как мне кажется, наводит на интересные теоретические выкладки относительно работы свёрточных нейросетей. Эксперимент, о котором я говорю — поиск объекта на изображении при помощи функции взаимной корреляции (без нейронных сетей). Звучит, возможно, пугающе и непонятно, но на деле всё очень просто, чистая математика.

📎 Читать дальше

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🔥1🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 DifFace: Super-Face Restoration

Новый алгоритм реставрации лица SOTA на фотографиях с сильными искажениями.

🖥 Github: github.com/zsyOAOA/DifFace

⭐️ Colab : https://hbertiche.github.io/NeuralClothSim/

✔️ Demo: https://huggingface.co/spaces/OAOA/DifFace

✅️ Paprer: arxiv.org/pdf/2212.06512.pdf

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥31
⭐️ Шпаргалка по Python

Понадобится, если вы не слишком часто программируете на Python, хотите научиться в довольно короткий срок или хотите быстро вникнуть в синтаксис, функции и методы языка.

На страничке также есть описания некоторых библиотек для скрапинга, затронуто метапрограммирование и асинхронность.

🔩 GitHub/Инструкция

#python #cheatsheet

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🥰1
✔️ 38 лучших библиотек для Data Science, Data Visualization и Машинного Обучения

Мы решили, что будем группировать все библиотеки по общим признакам, будь то библиотеки для машинного обучения или библиотеки для математики. Тем не менее, все 38 из них будут полезны для разработки в области Data Science.

➡️ Смотреть

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥1
⬆️ Квантовое машинное обучение: гид для начинающих

Квантовое машинное обучение – это область на пересечении квантовых вычислений и машинного обучения. Она включает в себя использование квантовых компьютеров для выполнения задач машинного обучения, таких как классификация, регрессия и кластеризация. Квантовые компьютеры – это мощные машины, которые используют квантовые биты (кубиты) вместо классических битов для хранения и обработки информации. Это позволяет им выполнять определенные задачи намного быстрее, чем классические компьютеры, что делает их особенно хорошо подходящими для задач машинного обучения, связанных с большими объемами данных.

Читать дальше

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥21