Bayesian Noise

Подборка советов от Google по разработке NLP проекта. Я прошёлся по нему, действительно найдёте полезные советы, особенно если вы только начинаете работать с обработкой естественных языков, то попробуйте начать с этой инструкции.

https://developers.google.com/machine-learning/guides/text-classification/

#nlp #ml #google #guide

Google for Developers

Introduction | Machine Learning | Google for Developers

41 views18:05

Bayesian Noise

Сегодня заметил, что google создал ещё один подраздел в разделе machine learning. В нём рассматриваются практические примеры применения машинного обучения и, что очень здорово, практические задания, которые можно выполнять онлайн в google colab.

Пока только материалы посвящённые классификации изображений (и опять учиться предстоит на кошках и собачках), но задумка мне нравится, статьи совмещённые с практикой, хороший способ быстро войти в машинное обучение.

Пока мне это манеру изложения лекций course.fast.ai (очень рекомендую), посмотрим что будет дальше, с нетерпением жду практических советов от гугл.

https://developers.google.com/machine-learning/practica/

#ml #cv #google #guide

Google Developers

Machine Learning Practica | Google Developers

Domain-specific hands-on tutorials that teach how to use machine learning to solve real-world problems.

49 views18:07

Bayesian Noise

Вот так google тихо, без громких анонсов включил TPUv2 для google colaboratory https://colab.research.google.com/ . Напомню, что в google colab вам бесплатно (т.е. даром на 12 часов непрерывной работы) предоставляется окружение с GPU (Сейчас это Tesla K80) и теперь с TPU. И это даёт возможность вам начать заниматься нейронными сетями не имея мощного железа.

Гугл пока не заявлял об этом, есть упоминание в обновлённой документации https://colab.research.google.com/github/tensorflow/tpu/blob/master/tools/colab/shakespeare_with_tpu_and_keras.ipynb

и на форуме fast.ai http://forums.fast.ai/t/google-colab-quitely-turn-on-tpu-v2-for-free-to-everyone/23329/2

Пока сравнить нормально проверить не получилось, т.к. для того, чтобы запустить модель на TPU нужно провести дополнительные манипуляции (см. https://www.dropbox.com/s/jg7j07unw94wbom/TensorFlow%20Keras%20Colab%20TPUs.pdf?dl=1 ). Без настроек модель запустится на CPU.

#ml #nn #google #colab #tool

Google

Google Colab

65 views11:43

Bayesian Noise

Совершенно случайно заметил что и у Oracle появился блог про data science, прочёл одну статью https://www.datascience.com/blog/machine-learning-generalization и честно расстроен, стандартная тема, на известной задаче ( да, они рассказывают про titanic). Вот совсем не то что ждёшь от большой компании, лично мне интересно узнавать про проблемы, которые приходится решать в промышленном применении, а не разбор учебной задачи. Смею предположить, что несмотря на размеры компании oracle только делают первые шаги в DS и поэтому статьи пока никакие, посмотрим что будет спустя время.

У Apple тоже есть свой блог про машинное обучение https://machinelearning.apple.com/ Не совру, если скажу, что там статьи интересно почитать, правда бывает полезная информация.

Ну и без сомнения радует, что google начали делиться своим опытом, уже не единожды ссылался на их блог https://developers.google.com/machine-learning

#ml #apple #google #oracle

Oracle

Challenges of Generalization in Machine Learning

EAF LLC Founder & Chief Data Engineer Blaine Bateman breaks down the efficacy of using validation performance to choose a model, and k-fold validation to predict future accuracy.

40 views14:07

Bayesian Noise

На прошлой неделе google представили новую статью https://arxiv.org/abs/1810.04805 (BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding), и если кратко, то звучит многообещающе, но всё же дождёмся общедоступной реализации и, очень надеюсь, предобученных моделей.

В компьютерном зрении активно используется техника transfer learning, когда используется предобученная на большом объеме данных глубокая модель, для обучения для своей задачи. При внедрении машинного обучения в продакшен возникают стандартные проблемы:

- недостаточно данных
- недостаточно вычислительных мощностей

При том, проблема с мощностями решается гораздо проще нежели проблема данных и transfer learning в какой-то степени позволяет применить сложные модели для ваших задач не имея гигантского набора данных.

Так вот о чём это я, сейчас в NLP нет возможности эффективно применять transfer learning. А вот BERT может послужить решением этой проблемы, и тогда внедрение сильных NLP моделей упростится.

Здесь можете прочитать сжатое содержание публикации https://medium.com/syncedreview/best-nlp-model-ever-google-bert-sets-new-standards-in-11-language-tasks-4a2a189bc155

#google #nlp #future #paper

Medium

Best NLP Model Ever? Google BERT Sets New Standards in 11 Language Tasks

The new Google AI paper BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding is receiving accolades from…

44 views14:19

Bayesian Noise

Ранее google анонсировала свою новую архитектуру сети для обработки естественных языков (Bidirectional Encoder Representations from Transformers https://t.me/tj4me/83). Теперь доступна opensourse реализация сети на tensorflow и есть предобученные модели для английского:

https://github.com/google-research/bert

Пост в официальном блоге https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html

Напомню что BERT интересен возможностью дообучения (fine tuning), это значит, что хорошо обученная на неразмеченных данных модель может быть дообучена небольшим количеством размеченных данных (как правило от нескольких тысяч примеров) для решения конкретной задачи.

Пока сам не проверил, модель довольно прожорливая и запустить на своём ноутбуке не представляется возможным, авторы рекомендуют использовать облачный TPU с 64 GB RAM, но уменьшенная версия сети должны запуститься на 12-16 GB

Попробовать BART можно в google colab https://colab.research.google.com/github/tensorflow/tpu/blob/master/tools/colab/bert_finetuning_with_cloud_tpus.ipynb

публикация доступна здесь https://arxiv.org/abs/1810.04805

#google #nlp #nlu #nn

tj4me

44 views22:30

Bayesian Noise

Неоднократно говорил про google colaboratory (colab.research.google.com). С ним вы можете создавать jupyter notebook прямо в вашем google drive и запускать на GPU в облаке гугла совершенно бесплатно* (одна активная сессия не более 12 часов)

Недавно там появилась возможность использовать TPUv2. И вот очередные функции. Всегда стоит вопрос как загрузить данные и как сохранить результат. Раньше было несколько возможностей, асейчас вы можете примонтировать google drive прямо в контейнер с colab, для этого добавляем строки в notebook

from google.colab import drive
drive.mount('/content/gdrive')

и всё содержимое вашего диска будет доступно в /content/gdrive есть возможность также сохранять туда результаты.

Ещё одно улучшение - это предупреждение о перерасходе RAM. До этого если ваш notebook превышал лимит, он просто останавливался. Теперь вы получите предупреждение. Зачем это нужно? Если вы запускаете с одного аккаунта несколько ноутбуков, то память делится между ними, теперь у вас есть возможность остановить неиспользуемые до того, как всё остановится.

#colab #google #nn

60 viewsedited 15:12

Bayesian Noise

Если вы ещё не видели интересный тред постов от @DynamicWebPaige важными достижениями tensorflow, взгляните, там интересно. Всё это за несколько последних лет.

https://twitter.com/DynamicWebPaige/status/1065452146924040192

#tensorflow #google #progress #frameworks #nn #ai

Twitter

👩‍💻 DynamicWebPaige @ MTV B41 🏠✨

✨🧠 The ecosystem that has grown up around @TensorFlow in the last few years blows my mind. There's just so much functionality, compared to some of the other, newer frameworks. 👉Consider this an ever-expanding thread for me to take notes + wrap my brain around…

42 views07:08

Bayesian Noise

Уже некоторое время по интернету ходят новости о BigGAN - усовершенствованной архитектуре GAN позволяющей генерировать синтетические объекты заданного класса. И прелесть в том, что вы можете сами сгенерировать чего-нибудь в браузере

https://colab.research.google.com/github/tensorflow/hub/blob/master/examples/colab/biggan_generation_with_tf_hub.ipynb

Мне хотелось немного разобраться в устройстве и что же там нового в сравнении с обычным GAN.

Оригинальная статья доступна здесь https://arxiv.org/pdf/1809.11096.pdf в приложении показана архитектура. Также полезно прочесть обзоры на статью https://openreview.net/forum?id=B1xsqj09Fm

Статья содержит множество трюков: увеличен размер batch в 8 раз и размер изображений в 2 раза. Шум подаваемый на вход был разделён на несколько частей и передавался на многие слои генератора. Также в статье предложено множество регуляризаций для улучшения стабильности обучения GAN.

Но есть и недостаток, для обучения использовалось 128-256 TPUs.

#nn #google #gan

Google

Google Colab Notebook

Run, share, and edit Python notebooks

60 viewsedited 19:33

Bayesian Noise

Приятная новость для любителей тренировать нейросети PyTorch, фреймворк для нейронных сетей от facebook, основной конкурент tensorflow, фреймворк от google самый популярный в настоящее время , теперь предустановлен на google colab https://colab.research.google.com . Установить pytorch давно можно было, но теперь стало удобнее.

Напомню. На colab вам доступны CPU, GPU и TPU от google бесплатно, colab работает с jyputer совместимым форматом, можно подмонтировать google drive для загрузки и сохранения данных.

#google #colab #pytorch #torch

Google

Google Colab

42 viewsedited 07:23

Bayesian Noise

В коллекцию ссылок на датасеты добавлю ещё одну, https://www.visualdata.io/ когда впервые сайт увидел, думал протянет не долго, но ещё не закрылся, а новые наборы добавляются регулярно. Сейчас там 245 датасетов изображений, а вы сами понимаете как важны данные…

Google выложила в open-sourse огромный датасет вопросов-ответов https://ai.googleblog.com/2019/01/natural-questions-new-corpus-and.html

42 Гб вопросов, думаю о пользе говорить не нужно.

Скачать его можно здесь https://ai.google.com/research/NaturalQuestions/download там же можете посмотреть результаты разных архитектур сетей.

#dataset #nlp #google

blog.research.google

Natural Questions: a New Corpus and Challenge for Question Answering Research

41 viewsedited 15:46

Bayesian Noise

Я несколько раз упоминал о гайдах от google о машинном обучении (https://t.me/bayesian_noise/163), мне нравится их подход всё с озов, но достаточно глубоко по каждой теме https://developers.google.com/machine-learning/ - сейчас обнаружил, что были добавлены ещё несколько разделов.

Их базовый курс (crash-course) мне не нравится, на coursera от того же яндекса курсы полезнее, а вот остальные материалы советую смотреть,
problem-framing - о постановке задачи машинного обучения, о том, как правильно понять, какая модель нужна для решения проблемы бизнеса.
data-prep - про подготовку данных - практические советы, как собирать данные
clustering - о кластеризации данных и как проверять результаты
recommendation - как строить рекомендательные системы
testing-debugging - очень полезная тема для промышленного использования, которая редко освещается

Обязательно взгляните на словарик терминов, просто пролистав его, вы не плохо расширите представление о ML https://developers.google.com/machine-learning/glossary/

#google #course

Bayesian 𐌽oise

Неоднократно ссылался на гайды от гугл про машинное обучение, уж очевидно, что им есть что рассказать о ML и больших данных. Нашёл время и прочёл очередную серию статей https://developers.google.com/machine-learning/problem-framing - про постановку задач…

56 views13:48

About

Blog

Apps

Platform