📝 Статья
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥3👍2
В процессе написания научной работы, я столкнулся с такой проблемой, как относительно невысокая скорость выполнения вычислений. Из-за этого приходится тратить больше времени или жертвовать точностью вычислений, но что делать, если не хочется идти на компромисс и чем-то жертвовать? Воспользоваться новым фреймворком JAX от google. В связке с различными ускорителями, например, GPU (Graphics Processing Unit, или графический процессор) или TPU (Tensor Processing Unit, или тензорный процессор), он покажет достойный результат.
- Поговорим об этом по подробнее. Google JAX – фреймворк машинного обучения, разработанный командой исследователей компании Google, для высокопроизводительных вычислений и исследований. В его основе лежит два компонента:
- библиотека Autograd от PyTorch
компилятор XLA (Accelerated Linear Algebra, или ускоренная линейная алгебра) разработанный компанией TensorFlow
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥3❤1😁1🤩1
EasyNMT – мини-библиотека для машинного перевода, которая использует несколько предобученных моделей
pip install -U easynmtПоддерживается более 150 языков, включая русский, также есть автодетекция языка
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤4🔥1
Рассмотрен полный каскад разработки моделей искусственного интеллекта. Проанализирована область Data Science, из которой выделены все необходимые для прикладной сферы алгоритмы машинного обучения, расположенные по уровню возрастания сложности работы с ними.
Для студентов, изучающих информационные технологии. Может быть полезно как начинающим программистам, так и специалистам высокого уровня.
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2🔥2
Среди методов машинного обучения — ассоциации, корреляции, классификации и кластеризации — акцент в этом руководстве сделан на обучении ассоциативным правилам, по которым выявляется набор элементов и атрибутов, встречающихся вместе в таблице.
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2🔥1🤔1
🖥 Сбер проводит ежегодное онлайн-соревнование по искусственному интеллекту — AI Journey Contest.
В этом году соревнование проводится совместно с Институтом искусственного интеллекта AIRI, а общий призовой фонд — более 5 млн рублей. Проверить себя и свои навыки (и еще неплохо на этом заработать в случае успеха) можно в четырех задачах.
Среди них есть создание алгоритма быстрой идентификации бактерий по масс-спектрам — AI4Biology, а также разработка алгоритма для восстановления данных по вылову рыбы на Дальнем Востоке — AI4Sea.
Решение нужно прислать до 13 ноября. Времени очень мало, так что желающим стоит поторопиться! Эти две задачи действительно можно решить за выходные. Все же любят неожиданные финалы, когда победитель решается в последний момент? Ворвись в лидерборды, где кто-то уже замер в ожидании победы 😈
Если тебе уже есть 18 лет — переходи по ссылке и вперед!
@machinelearning_ru
В этом году соревнование проводится совместно с Институтом искусственного интеллекта AIRI, а общий призовой фонд — более 5 млн рублей. Проверить себя и свои навыки (и еще неплохо на этом заработать в случае успеха) можно в четырех задачах.
Среди них есть создание алгоритма быстрой идентификации бактерий по масс-спектрам — AI4Biology, а также разработка алгоритма для восстановления данных по вылову рыбы на Дальнем Востоке — AI4Sea.
Решение нужно прислать до 13 ноября. Времени очень мало, так что желающим стоит поторопиться! Эти две задачи действительно можно решить за выходные. Все же любят неожиданные финалы, когда победитель решается в последний момент? Ворвись в лидерборды, где кто-то уже замер в ожидании победы 😈
Если тебе уже есть 18 лет — переходи по ссылке и вперед!
@machinelearning_ru
👍10👎2❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
HairCLIP: создайте прическу с помощью текста и эталонного изображения.
GitHub:
https://github.com/wty-ustc/HairCLIP
Web demo: https://huggingface.co/spaces/Gradio-Blocks/HairCLIP
@machinelearning_ru
GitHub:
https://github.com/wty-ustc/HairCLIP
Web demo: https://huggingface.co/spaces/Gradio-Blocks/HairCLIP
@machinelearning_ru
👍7❤1🔥1
Forwarded from Machine learning Interview
Время на выполнение 3-4 дня
Решение лучше кидайте в комменты в виде jupyter notebook’а.
Задание #1:
Таблица (task2.txt) содержит 11 столбцов чисел. Первые 10 столбцов - входные переменные (x_1 , …. , x_10), 11-й столбец - выходная прогнозируемая переменная y. Каждая строка в файле - это один обучающий пример для построения статистической модели для зависимости y = y(x_1,x_2,..,x_10). Конкретный вид связи между выходной и входными переменными не известен.
Требуется провести разведочный анализ данных, выбрать критерий для точности модели, и указать степень важности (информативности) каждой из 10 входных переменных с точки зрения точности модели. Что еще можно предложить чтобы улучшить получившийся результат?
Файл: tesk2.txt
Задание #2:
Нужно предложить и обосновать подход для группировки идентичных наименований товаров.
Пример входа:
[1] "Кисломолочный напиток Актимель ежевично-черничный 100 г"
[2] "Напиток Данон Актимель черника/ежевика 2,5% 6*0,1л Россия"
[3] "Гель для душа Роскошная мягкость Черная орхидея Palmolive, 250 мл". [4] "Гель Palmolive Naturals д/душа Роскошная мягкость Черная орхидея 250мл Италия"
[5] "Гель для душа Palmolive "Черная орхидея" 250 мл"
[6] "Корм Whiskas говядина/кролик канапе новогодний 85г Россия"
Пример выхода: [1 2] [3 4 5] 6 (см. вложенный файл).
Файл: test_task_NLP.json.
final_top.csv
Другие решения: Решение от одного из DS Accenture (для задания 1):
https://github.com/pdudukin/Regression-Guide/blob/master/Regression%20Guide.ipynbRegression%20Guide.ipynb
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2🔥1👏1
Что такое скрытое распределение Дирихле (Latent Dirichlet Allocation)?
Скрытое распределение Дирихле (LDA) - популярная модель, когда речь идет об анализе больших объемов текста. Это генеративная вероятностная модель, которая позволяет пользователям обнаруживать скрытые («латентные») темы из коллекции документов. LDA моделирует каждый документ как созданный в процессе многократной выборки слов и тем из статистических распределений. Применяя умные алгоритмы, LDA может восстановить наиболее вероятные распределения, которые использовались в этом генеративном процессе (Blei, 2003). Эти дистрибутивы рассказывают нам кое-что о том, какие темы существуют и как они распределены между каждым документом.
➡️ Читать дальше
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
Thingsvision — это пакет Python, который позволяет легко извлекать изображений из множества современных нейронных сетей для задач компьютерного зрения.
$ pip install --upgrade thingsvision@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2❤1
Настройка нейронной сети с помощью keras python
Построение нейронной сети является актуальной темой в самых разных задачах — от классификации продуктов на категории до распознавания лиц на видео. Однако для получения качественного результата необходимо грамотно настроить ее параметры.
Сегодня я рассмотрю процесс построения нейронной сети и регулирования ее гиперпараметров с помощью keras python.
Анализ будет проведен на примере открытого датасета из kaggle “Otto group product classification challenge”. Количество строк в данном датасете составляет примерно 62 тысячи. Каждая строка соответствует одному продукту. Необходимо классифицировать продукты компании по 9-ти категориям, основываясь на 93 характеристиках. Каждая категория – это тип продукта, например, мода, электроника. Классы несбалансированы, что можно увидеть на графике.
➡️ Читать дальше
➡️ Датасет
@machinelearning_ru
Построение нейронной сети является актуальной темой в самых разных задачах — от классификации продуктов на категории до распознавания лиц на видео. Однако для получения качественного результата необходимо грамотно настроить ее параметры.
Сегодня я рассмотрю процесс построения нейронной сети и регулирования ее гиперпараметров с помощью keras python.
Анализ будет проведен на примере открытого датасета из kaggle “Otto group product classification challenge”. Количество строк в данном датасете составляет примерно 62 тысячи. Каждая строка соответствует одному продукту. Необходимо классифицировать продукты компании по 9-ти категориям, основываясь на 93 характеристиках. Каждая категория – это тип продукта, например, мода, электроника. Классы несбалансированы, что можно увидеть на графике.
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤3👎1🔥1
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - paperswithcode/galai: Model API for GALACTICA
Model API for GALACTICA. Contribute to paperswithcode/galai development by creating an account on GitHub.
👍8❤2🔥2
Чтобы не использовать код внутреннего приложения, для примера возьму одну из известных задач по анализу данных кадастровых участков на сайте Росреестра. У меня был список номеров по которым необходимо было найти адрес, проверить наличие и посчитать занимаемую площадь зданий на участке. Используя библиотеки selenium и opencv я написал программу для сбора информации и расчёта необходимых параметров участка. Код этого приложения я и буду исследовать при помощи нестандартного метода используя лог запуска приложения и построенный на его основе граф.
Для проведения исследования процесса выполнения программы необходимо получить лог файл запуска блоков кода. Можно добавить блок с логгером в каждый конструктор каждого создаваемого класса, но этот метод не подходит, так как нежелательно менять исходный код исследуемого приложения. Для анализа необходимо записать время запуска и время окончания запуска функции конструктора — для этого можно воспользоваться декоратором. Декоратор – это специальная функция, которая позволяет расширить функциональность кода без его изменения.
➡️ Читать дальше
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2🔥1
Несмотря на масштабный переход к цифровым технологиям, часть наиболее сложных данных по-прежнему хранится в виде текста в статьях или официальных документах. В условиях изобилия публично доступной информации возникают трудности с управлением неструктурированными сырыми данными и их преобразования в понятный для машин вид. С текстом это сделать сложнее, чем с изображениями и видео. Возьмём для примера простое предложение: «They nailed it!». Люди бы поняли его как выражение одобрения, подбадривания или признания заслуг, однако традиционная модель обработки естественного языка (Natural Language Processing, NLP), скорее всего, воспримет только поверхностное понимание слова, упустив смысл. А именно, она бы ассоциировала слово «nail» с забиванием гвоздей молотком. Точные аннотации текста помогают моделям лучше понимать передаваемые им данные, что приводит к безошибочной интерпретации текста.
➡️ Читать дальше
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2🔥2
Математика искусственного интеллекта
Первый же вопрос наметил задачу кластеризации самого понятия «искусственный интеллект».
1. За счет чего искусственному интеллекту удается вычислять свойства огромного числа объектов?
Стоит сразу определиться, что называть искусственным интеллектом. Это понятие было введено достаточно давно и с тех пор многократно трансформировалось. Наше понимание искусственного интеллекта недостаточно определено, по крайней мере сейчас мало кто способен представить, на что будет похож настоящий искусственный интеллект — мечта многих, способная мыслить как человек или лучше, чем человек, этот супер-ИИ. То что нам известно, принятое по отношению к искусственному интеллекту — зачастую не является таковым. Нет еще ничего созданного, что бы действительно повторяло и превосходило человеческий мозг во всех его проявлениях.
Тем не менее, никто не отменял способность машины к очень быстрым вычислениям, поэтому существенные достижения частично всё же есть. К примеру, распознавание образов и речи. В начале это был яркий пример достижений в области того, что в кавычках называется искусственным интеллектом. Сейчас многие уже не относят эти технологии к как таковому ИИ, настолько классической уже стала эта задача — теперь мы понимаем под ней обычный алгоритм.
И где эта грань — что мы считаем обычным алгоритмом, а что уже искусственным интеллектом? Может быть, он себя еще никоим образом и не проявил. Или наоборот, посмотрим шире и будем относить любые программы, в том числе и нашу первую программу из далекой молодости, “Hello world!”, к работе ИИ. Это широкое поле, где сложно провести какую-то границу, а самое интересное, что ее проведение — подчас тоже задача искусственного интеллекта.
➡️ Читать дальше
@machinelearning_ru
Первый же вопрос наметил задачу кластеризации самого понятия «искусственный интеллект».
1. За счет чего искусственному интеллекту удается вычислять свойства огромного числа объектов?
Стоит сразу определиться, что называть искусственным интеллектом. Это понятие было введено достаточно давно и с тех пор многократно трансформировалось. Наше понимание искусственного интеллекта недостаточно определено, по крайней мере сейчас мало кто способен представить, на что будет похож настоящий искусственный интеллект — мечта многих, способная мыслить как человек или лучше, чем человек, этот супер-ИИ. То что нам известно, принятое по отношению к искусственному интеллекту — зачастую не является таковым. Нет еще ничего созданного, что бы действительно повторяло и превосходило человеческий мозг во всех его проявлениях.
Тем не менее, никто не отменял способность машины к очень быстрым вычислениям, поэтому существенные достижения частично всё же есть. К примеру, распознавание образов и речи. В начале это был яркий пример достижений в области того, что в кавычках называется искусственным интеллектом. Сейчас многие уже не относят эти технологии к как таковому ИИ, настолько классической уже стала эта задача — теперь мы понимаем под ней обычный алгоритм.
И где эта грань — что мы считаем обычным алгоритмом, а что уже искусственным интеллектом? Может быть, он себя еще никоим образом и не проявил. Или наоборот, посмотрим шире и будем относить любые программы, в том числе и нашу первую программу из далекой молодости, “Hello world!”, к работе ИИ. Это широкое поле, где сложно провести какую-то границу, а самое интересное, что ее проведение — подчас тоже задача искусственного интеллекта.
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3🔥1
Задача нейросети будет в предсказании значения концентрации PM10 вредных частиц, содержащихся в воздухе, основываясь на других измерениях приборов.
Кратко о данных. Специальное оборудование производило замеры содержания в воздухе различных газов и взвешенных частиц, температуры воздуха, скорости ветра, атмосферного давления, даты и времени. Измерения производились каждые 20 минут в течении полутора лет. Следовательно, датасет содержит около 34 тыс. строк.
После осмотра файлов выяснилось, что в данных присутствуют сбойные измерения, от этих строк необходимо избавиться.
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥2❤1
🔥 2 декабря в Москве и онлайн состоится главная конференция по разговорному AI — Conversations!
🗣 В Technology Track конференции целый блок докладов будет посвящен ML.
Voximplant — о технологиях ML для создания модели идентификации голосовой почты и виртуального помощника.
DeepPavlov — про использование deep learning для создания контролируемых масштабируемых диалоговых систем.
Yandex Cloud — о том, как сделать модель, которая понимает всех — от тёти Сары до фрау Заурих, и экономично использует вычислительные ресурсы.
SberDevices — про современные инструменты работы с текстом на основе новых генеративных моделей.
MTS AI — о многопрофильном подходе к разработке личности бота: что работает лучше — психология, сценаристика или ML?
VK — как измерять и развивать умность голосового ассистента: классы запросов и качество ответов.
📍 Билеты в онлайн и офлайн — на сайте Conversations.
🗣 В Technology Track конференции целый блок докладов будет посвящен ML.
Voximplant — о технологиях ML для создания модели идентификации голосовой почты и виртуального помощника.
DeepPavlov — про использование deep learning для создания контролируемых масштабируемых диалоговых систем.
Yandex Cloud — о том, как сделать модель, которая понимает всех — от тёти Сары до фрау Заурих, и экономично использует вычислительные ресурсы.
SberDevices — про современные инструменты работы с текстом на основе новых генеративных моделей.
MTS AI — о многопрофильном подходе к разработке личности бота: что работает лучше — психология, сценаристика или ML?
VK — как измерять и развивать умность голосового ассистента: классы запросов и качество ответов.
📍 Билеты в онлайн и офлайн — на сайте Conversations.
👍2
Поскольку концепция MLOps стремится устранить разрывы между разработкой ML-модели и ее имплементацией в эффективный программный код, сегодня поговорим про важную идею программирования, связанную с синхронностью и асинхронностью вызовов. Что такое асинхронное программирования, зачем это нужно в Machine Learning и какие Python-библиотеки поддерживают это.
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤3🔥1
🤖 Присоединяйтесь 23-24 ноября к трансляциям AI Journey – ключевой конференции по технологиям искусственного интеллекта и машинного обучения.
Программа AI Journey – 2022 состоит из пяти тематических треков:
• AIJ Science – развитие технологий искусственного интеллекта и машинного обучения, ключевые исследования российских и международных технологических центров
• AIJ Junior – воркшопы, демо, мастер-классы и интерактивы для молодежи
• AI4ESG – применение AI в области ESG и устойчивого развития, вопросы этики AI
• Science & Business – практические кейсы применения AI-технологий в бизнесе
• Science & Industries – применение AI/ML в различных отраслях
Смотрите в прямом эфире выступления топовых экспертов в сфере AI/ML.
👉Стать участником конференции можно совершенно бесплатно, просто подключившись к онлайн-трансляции по ссылке.
Программа AI Journey – 2022 состоит из пяти тематических треков:
• AIJ Science – развитие технологий искусственного интеллекта и машинного обучения, ключевые исследования российских и международных технологических центров
• AIJ Junior – воркшопы, демо, мастер-классы и интерактивы для молодежи
• AI4ESG – применение AI в области ESG и устойчивого развития, вопросы этики AI
• Science & Business – практические кейсы применения AI-технологий в бизнесе
• Science & Industries – применение AI/ML в различных отраслях
Смотрите в прямом эфире выступления топовых экспертов в сфере AI/ML.
👉Стать участником конференции можно совершенно бесплатно, просто подключившись к онлайн-трансляции по ссылке.
👍3👎1
DeepPrivacy2 обнаруживает и анонимизирует людей с помощью трех нейронных сетей.
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2🥰1