Подборка советов от Google по разработке NLP проекта. Я прошёлся по нему, действительно найдёте полезные советы, особенно если вы только начинаете работать с обработкой естественных языков, то попробуйте начать с этой инструкции.
https://developers.google.com/machine-learning/guides/text-classification/
#nlp #ml #google #guide
https://developers.google.com/machine-learning/guides/text-classification/
#nlp #ml #google #guide
Google for Developers
Introduction | Machine Learning | Google for Developers
Сегодня заметил, что google создал ещё один подраздел в разделе machine learning. В нём рассматриваются практические примеры применения машинного обучения и, что очень здорово, практические задания, которые можно выполнять онлайн в google colab.
Пока только материалы посвящённые классификации изображений (и опять учиться предстоит на кошках и собачках), но задумка мне нравится, статьи совмещённые с практикой, хороший способ быстро войти в машинное обучение.
Пока мне это манеру изложения лекций course.fast.ai (очень рекомендую), посмотрим что будет дальше, с нетерпением жду практических советов от гугл.
https://developers.google.com/machine-learning/practica/
#ml #cv #google #guide
Пока только материалы посвящённые классификации изображений (и опять учиться предстоит на кошках и собачках), но задумка мне нравится, статьи совмещённые с практикой, хороший способ быстро войти в машинное обучение.
Пока мне это манеру изложения лекций course.fast.ai (очень рекомендую), посмотрим что будет дальше, с нетерпением жду практических советов от гугл.
https://developers.google.com/machine-learning/practica/
#ml #cv #google #guide
Google Developers
Machine Learning Practica | Google Developers
Domain-specific hands-on tutorials that teach how to use machine learning to solve real-world problems.
Вот так google тихо, без громких анонсов включил TPUv2 для google colaboratory https://colab.research.google.com/ . Напомню, что в google colab вам бесплатно (т.е. даром на 12 часов непрерывной работы) предоставляется окружение с GPU (Сейчас это Tesla K80) и теперь с TPU. И это даёт возможность вам начать заниматься нейронными сетями не имея мощного железа.
Гугл пока не заявлял об этом, есть упоминание в обновлённой документации https://colab.research.google.com/github/tensorflow/tpu/blob/master/tools/colab/shakespeare_with_tpu_and_keras.ipynb
и на форуме fast.ai http://forums.fast.ai/t/google-colab-quitely-turn-on-tpu-v2-for-free-to-everyone/23329/2
Пока сравнить нормально проверить не получилось, т.к. для того, чтобы запустить модель на TPU нужно провести дополнительные манипуляции (см. https://www.dropbox.com/s/jg7j07unw94wbom/TensorFlow%20Keras%20Colab%20TPUs.pdf?dl=1 ). Без настроек модель запустится на CPU.
#ml #nn #google #colab #tool
Гугл пока не заявлял об этом, есть упоминание в обновлённой документации https://colab.research.google.com/github/tensorflow/tpu/blob/master/tools/colab/shakespeare_with_tpu_and_keras.ipynb
и на форуме fast.ai http://forums.fast.ai/t/google-colab-quitely-turn-on-tpu-v2-for-free-to-everyone/23329/2
Пока сравнить нормально проверить не получилось, т.к. для того, чтобы запустить модель на TPU нужно провести дополнительные манипуляции (см. https://www.dropbox.com/s/jg7j07unw94wbom/TensorFlow%20Keras%20Colab%20TPUs.pdf?dl=1 ). Без настроек модель запустится на CPU.
#ml #nn #google #colab #tool
Google
Google Colab
Совершенно случайно заметил что и у Oracle появился блог про data science, прочёл одну статью https://www.datascience.com/blog/machine-learning-generalization и честно расстроен, стандартная тема, на известной задаче ( да, они рассказывают про titanic). Вот совсем не то что ждёшь от большой компании, лично мне интересно узнавать про проблемы, которые приходится решать в промышленном применении, а не разбор учебной задачи. Смею предположить, что несмотря на размеры компании oracle только делают первые шаги в DS и поэтому статьи пока никакие, посмотрим что будет спустя время.
У Apple тоже есть свой блог про машинное обучение https://machinelearning.apple.com/ Не совру, если скажу, что там статьи интересно почитать, правда бывает полезная информация.
Ну и без сомнения радует, что google начали делиться своим опытом, уже не единожды ссылался на их блог https://developers.google.com/machine-learning
#ml #apple #google #oracle
У Apple тоже есть свой блог про машинное обучение https://machinelearning.apple.com/ Не совру, если скажу, что там статьи интересно почитать, правда бывает полезная информация.
Ну и без сомнения радует, что google начали делиться своим опытом, уже не единожды ссылался на их блог https://developers.google.com/machine-learning
#ml #apple #google #oracle
Oracle
Challenges of Generalization in Machine Learning
EAF LLC Founder & Chief Data Engineer Blaine Bateman breaks down the efficacy of using validation performance to choose a model, and k-fold validation to predict future accuracy.
На прошлой неделе google представили новую статью https://arxiv.org/abs/1810.04805 (BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding), и если кратко, то звучит многообещающе, но всё же дождёмся общедоступной реализации и, очень надеюсь, предобученных моделей.
В компьютерном зрении активно используется техника transfer learning, когда используется предобученная на большом объеме данных глубокая модель, для обучения для своей задачи. При внедрении машинного обучения в продакшен возникают стандартные проблемы:
- недостаточно данных
- недостаточно вычислительных мощностей
При том, проблема с мощностями решается гораздо проще нежели проблема данных и transfer learning в какой-то степени позволяет применить сложные модели для ваших задач не имея гигантского набора данных.
Так вот о чём это я, сейчас в NLP нет возможности эффективно применять transfer learning. А вот BERT может послужить решением этой проблемы, и тогда внедрение сильных NLP моделей упростится.
Здесь можете прочитать сжатое содержание публикации https://medium.com/syncedreview/best-nlp-model-ever-google-bert-sets-new-standards-in-11-language-tasks-4a2a189bc155
#google #nlp #future #paper
В компьютерном зрении активно используется техника transfer learning, когда используется предобученная на большом объеме данных глубокая модель, для обучения для своей задачи. При внедрении машинного обучения в продакшен возникают стандартные проблемы:
- недостаточно данных
- недостаточно вычислительных мощностей
При том, проблема с мощностями решается гораздо проще нежели проблема данных и transfer learning в какой-то степени позволяет применить сложные модели для ваших задач не имея гигантского набора данных.
Так вот о чём это я, сейчас в NLP нет возможности эффективно применять transfer learning. А вот BERT может послужить решением этой проблемы, и тогда внедрение сильных NLP моделей упростится.
Здесь можете прочитать сжатое содержание публикации https://medium.com/syncedreview/best-nlp-model-ever-google-bert-sets-new-standards-in-11-language-tasks-4a2a189bc155
#google #nlp #future #paper
Medium
Best NLP Model Ever? Google BERT Sets New Standards in 11 Language Tasks
The new Google AI paper BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding is receiving accolades from…
Ранее google анонсировала свою новую архитектуру сети для обработки естественных языков (Bidirectional Encoder Representations from Transformers https://t.me/tj4me/83). Теперь доступна opensourse реализация сети на tensorflow и есть предобученные модели для английского:
https://github.com/google-research/bert
Пост в официальном блоге https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html
Напомню что BERT интересен возможностью дообучения (fine tuning), это значит, что хорошо обученная на неразмеченных данных модель может быть дообучена небольшим количеством размеченных данных (как правило от нескольких тысяч примеров) для решения конкретной задачи.
Пока сам не проверил, модель довольно прожорливая и запустить на своём ноутбуке не представляется возможным, авторы рекомендуют использовать облачный TPU с 64 GB RAM, но уменьшенная версия сети должны запуститься на 12-16 GB
Попробовать BART можно в google colab https://colab.research.google.com/github/tensorflow/tpu/blob/master/tools/colab/bert_finetuning_with_cloud_tpus.ipynb
публикация доступна здесь https://arxiv.org/abs/1810.04805
#google #nlp #nlu #nn
https://github.com/google-research/bert
Пост в официальном блоге https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html
Напомню что BERT интересен возможностью дообучения (fine tuning), это значит, что хорошо обученная на неразмеченных данных модель может быть дообучена небольшим количеством размеченных данных (как правило от нескольких тысяч примеров) для решения конкретной задачи.
Пока сам не проверил, модель довольно прожорливая и запустить на своём ноутбуке не представляется возможным, авторы рекомендуют использовать облачный TPU с 64 GB RAM, но уменьшенная версия сети должны запуститься на 12-16 GB
Попробовать BART можно в google colab https://colab.research.google.com/github/tensorflow/tpu/blob/master/tools/colab/bert_finetuning_with_cloud_tpus.ipynb
публикация доступна здесь https://arxiv.org/abs/1810.04805
#google #nlp #nlu #nn
Telegram
tj4me
На прошлой неделе google представили новую статью https://arxiv.org/abs/1810.04805 (BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding), и если кратко, то звучит многообещающе, но всё же дождёмся общедоступной реализации и, очень…
Неоднократно говорил про google colaboratory (colab.research.google.com). С ним вы можете создавать jupyter notebook прямо в вашем google drive и запускать на GPU в облаке гугла совершенно бесплатно* (одна активная сессия не более 12 часов)
Недавно там появилась возможность использовать TPUv2. И вот очередные функции. Всегда стоит вопрос как загрузить данные и как сохранить результат. Раньше было несколько возможностей, асейчас вы можете примонтировать google drive прямо в контейнер с colab, для этого добавляем строки в notebook
и всё содержимое вашего диска будет доступно в
Ещё одно улучшение - это предупреждение о перерасходе RAM. До этого если ваш notebook превышал лимит, он просто останавливался. Теперь вы получите предупреждение. Зачем это нужно? Если вы запускаете с одного аккаунта несколько ноутбуков, то память делится между ними, теперь у вас есть возможность остановить неиспользуемые до того, как всё остановится.
#colab #google #nn
Недавно там появилась возможность использовать TPUv2. И вот очередные функции. Всегда стоит вопрос как загрузить данные и как сохранить результат. Раньше было несколько возможностей, асейчас вы можете примонтировать google drive прямо в контейнер с colab, для этого добавляем строки в notebook
from google.colab import drive
drive.mount('/content/gdrive')
и всё содержимое вашего диска будет доступно в
/content/gdrive
есть возможность также сохранять туда результаты.Ещё одно улучшение - это предупреждение о перерасходе RAM. До этого если ваш notebook превышал лимит, он просто останавливался. Теперь вы получите предупреждение. Зачем это нужно? Если вы запускаете с одного аккаунта несколько ноутбуков, то память делится между ними, теперь у вас есть возможность остановить неиспользуемые до того, как всё остановится.
#colab #google #nn
Если вы ещё не видели интересный тред постов от @DynamicWebPaige важными достижениями tensorflow, взгляните, там интересно. Всё это за несколько последних лет.
https://twitter.com/DynamicWebPaige/status/1065452146924040192
#tensorflow #google #progress #frameworks #nn #ai
https://twitter.com/DynamicWebPaige/status/1065452146924040192
#tensorflow #google #progress #frameworks #nn #ai
Twitter
👩💻 DynamicWebPaige @ MTV B41 🏠✨
✨🧠 The ecosystem that has grown up around @TensorFlow in the last few years blows my mind. There's just so much functionality, compared to some of the other, newer frameworks. 👉Consider this an ever-expanding thread for me to take notes + wrap my brain around…
Уже некоторое время по интернету ходят новости о BigGAN - усовершенствованной архитектуре GAN позволяющей генерировать синтетические объекты заданного класса. И прелесть в том, что вы можете сами сгенерировать чего-нибудь в браузере
https://colab.research.google.com/github/tensorflow/hub/blob/master/examples/colab/biggan_generation_with_tf_hub.ipynb
Мне хотелось немного разобраться в устройстве и что же там нового в сравнении с обычным GAN.
Оригинальная статья доступна здесь https://arxiv.org/pdf/1809.11096.pdf в приложении показана архитектура. Также полезно прочесть обзоры на статью https://openreview.net/forum?id=B1xsqj09Fm
Статья содержит множество трюков: увеличен размер batch в 8 раз и размер изображений в 2 раза. Шум подаваемый на вход был разделён на несколько частей и передавался на многие слои генератора. Также в статье предложено множество регуляризаций для улучшения стабильности обучения GAN.
Но есть и недостаток, для обучения использовалось 128-256 TPUs.
#nn #google #gan
https://colab.research.google.com/github/tensorflow/hub/blob/master/examples/colab/biggan_generation_with_tf_hub.ipynb
Мне хотелось немного разобраться в устройстве и что же там нового в сравнении с обычным GAN.
Оригинальная статья доступна здесь https://arxiv.org/pdf/1809.11096.pdf в приложении показана архитектура. Также полезно прочесть обзоры на статью https://openreview.net/forum?id=B1xsqj09Fm
Статья содержит множество трюков: увеличен размер batch в 8 раз и размер изображений в 2 раза. Шум подаваемый на вход был разделён на несколько частей и передавался на многие слои генератора. Также в статье предложено множество регуляризаций для улучшения стабильности обучения GAN.
Но есть и недостаток, для обучения использовалось 128-256 TPUs.
#nn #google #gan
Google
Google Colab Notebook
Run, share, and edit Python notebooks
Приятная новость для любителей тренировать нейросети PyTorch, фреймворк для нейронных сетей от facebook, основной конкурент tensorflow, фреймворк от google самый популярный в настоящее время , теперь предустановлен на google colab https://colab.research.google.com . Установить pytorch давно можно было, но теперь стало удобнее.
Напомню. На colab вам доступны CPU, GPU и TPU от google бесплатно, colab работает с jyputer совместимым форматом, можно подмонтировать google drive для загрузки и сохранения данных.
#google #colab #pytorch #torch
Напомню. На colab вам доступны CPU, GPU и TPU от google бесплатно, colab работает с jyputer совместимым форматом, можно подмонтировать google drive для загрузки и сохранения данных.
#google #colab #pytorch #torch
Google
Google Colab
Bayesian Noise
В коллекцию ссылок на датасеты добавлю ещё одну, https://www.visualdata.io/ когда впервые сайт увидел, думал протянет не долго, но ещё не закрылся, а новые наборы добавляются регулярно. Сейчас там 245 датасетов изображений, а вы сами понимаете как важны данные…
Google выложила в open-sourse огромный датасет вопросов-ответов https://ai.googleblog.com/2019/01/natural-questions-new-corpus-and.html
42 Гб вопросов, думаю о пользе говорить не нужно.
Скачать его можно здесь https://ai.google.com/research/NaturalQuestions/download там же можете посмотреть результаты разных архитектур сетей.
#dataset #nlp #google
42 Гб вопросов, думаю о пользе говорить не нужно.
Скачать его можно здесь https://ai.google.com/research/NaturalQuestions/download там же можете посмотреть результаты разных архитектур сетей.
#dataset #nlp #google
blog.research.google
Natural Questions: a New Corpus and Challenge for Question Answering Research
Я несколько раз упоминал о гайдах от google о машинном обучении (https://t.me/bayesian_noise/163), мне нравится их подход всё с озов, но достаточно глубоко по каждой теме https://developers.google.com/machine-learning/ - сейчас обнаружил, что были добавлены ещё несколько разделов.
Их базовый курс (crash-course) мне не нравится, на coursera от того же яндекса курсы полезнее, а вот остальные материалы советую смотреть,
problem-framing - о постановке задачи машинного обучения, о том, как правильно понять, какая модель нужна для решения проблемы бизнеса.
data-prep - про подготовку данных - практические советы, как собирать данные
clustering - о кластеризации данных и как проверять результаты
recommendation - как строить рекомендательные системы
testing-debugging - очень полезная тема для промышленного использования, которая редко освещается
Обязательно взгляните на словарик терминов, просто пролистав его, вы не плохо расширите представление о ML https://developers.google.com/machine-learning/glossary/
#google #course
Их базовый курс (crash-course) мне не нравится, на coursera от того же яндекса курсы полезнее, а вот остальные материалы советую смотреть,
problem-framing - о постановке задачи машинного обучения, о том, как правильно понять, какая модель нужна для решения проблемы бизнеса.
data-prep - про подготовку данных - практические советы, как собирать данные
clustering - о кластеризации данных и как проверять результаты
recommendation - как строить рекомендательные системы
testing-debugging - очень полезная тема для промышленного использования, которая редко освещается
Обязательно взгляните на словарик терминов, просто пролистав его, вы не плохо расширите представление о ML https://developers.google.com/machine-learning/glossary/
#google #course
Telegram
Bayesian 𐌽oise
Неоднократно ссылался на гайды от гугл про машинное обучение, уж очевидно, что им есть что рассказать о ML и больших данных. Нашёл время и прочёл очередную серию статей https://developers.google.com/machine-learning/problem-framing - про постановку задач…