Bayesian Noise
61 subscribers
57 photos
234 links
Канал @nesterione. Посты про ИТ, машинное обучение, рациональность, иногда просто заметки и наблюдения.

з.ы. картинка не картинка...
Download Telegram
В дополнение к посту выше, набор библиотек для работы с текстом:

https://spacy.io/ - хорошая библиотека для работы с текстом, во многом превосходит аналоги, но не так много языков поддерживает из коробки

https://textacy.readthedocs.io/en/latest/ - дополнение к spacy, поможет с извлечением фактов из текста

https://github.com/huggingface/neuralcoref - дополнение к spacy поможет с разрешением кореференций

https://www.nltk.org/ - самая известная библиотека обработки языков для python

https://radimrehurek.com/gensim/ - просто замечательная библиотека, их слоган topic modeling for humans, от части так и есть. Вы легко можете загрузить готовые обученные word2vec вектора и найдёте большое число полезных функций.

Как преобразовать текст в числа? Здача не простая, но есть решения:

https://nlp.stanford.edu/projects/glove/ - здесь вы найдёте обученные вектора на разных корпусах и можете воспользоваться кодом на github, чтобы обучить свои

https://fasttext.cc/ - замечательная библиотека, и хорошо обученные вектора для разных языков

#nlp #ai #tool #libs
Интересно наблюдать, как компании-динозавры, как oracle, хотят стать модными, и вот выпустили в opensource инструмент для деплоймента моделей машинного обучения https://oracle.github.io/graphpipe/

Я его не опробовал, поэтому не могу ничего сказать, на сколько это сделано хорошо. Но важно отметить, что ML всё больше проникает в разные бизнесы и появление подобных инструментов необходимо.

(обратите внимание как изменился мир: MS постоянно говорит про opensource и действительно много делает, oracle публикует библиотеки на GitHub... что дальше?)

#tool #oracle #deployment
Вот так google тихо, без громких анонсов включил TPUv2 для google colaboratory https://colab.research.google.com/ . Напомню, что в google colab вам бесплатно (т.е. даром на 12 часов непрерывной работы) предоставляется окружение с GPU (Сейчас это Tesla K80) и теперь с TPU. И это даёт возможность вам начать заниматься нейронными сетями не имея мощного железа.

Гугл пока не заявлял об этом, есть упоминание в обновлённой документации https://colab.research.google.com/github/tensorflow/tpu/blob/master/tools/colab/shakespeare_with_tpu_and_keras.ipynb

и на форуме fast.ai http://forums.fast.ai/t/google-colab-quitely-turn-on-tpu-v2-for-free-to-everyone/23329/2

Пока сравнить нормально проверить не получилось, т.к. для того, чтобы запустить модель на TPU нужно провести дополнительные манипуляции (см. https://www.dropbox.com/s/jg7j07unw94wbom/TensorFlow%20Keras%20Colab%20TPUs.pdf?dl=1 ). Без настроек модель запустится на CPU.

#ml #nn #google #colab #tool
Интересная подборка от dev.by https://dev.by/news/25-open-source-repozitoriev-mashinnogo-obucheniya

Собрали они конечно всего в одну кучу, но среди этого списка нашлись незнакомые мне забавные проекты.

Я выделил проекты, которые хочу проверить (и может про некоторые расскажу отдельно). Да, они не кажутся полезными, но уж точно достаточно интересны, чтобы упомянуть где-нибудь на публичной лекции о достижениях AI.

style2paints
https://github.com/lllyasviel/style2paints - алгоритм раскрашивает скетчи, выглядит очень прикольно. Авторы обновляют сайт, но на github все исходники, можно попробовать запустить. Проверил, модели они тоже предоставляют, и есть набор скетчей для обучения. По описанию на github, кажется это целый редактор на основе нейронных сетей. Проект очень заинтересовал меня, интересно попробовать.

Image-to-image translation in PyTorch
Тоже выглядит интересно, помню статью про это, но готовой модели я не видел.

ParlAI
По заявлению facebook этот фреймворк для обучения и испытания диалоговых нейронных систем. Попробую применить для одного из проектов, расскажу о своих впечатлениях.

Deep photo style transfer
Очень достойные результаты, изображения выглядят реалистичными. Как на деле окажется нужно пробовать.

Deep image prior
В детстве приходилось играть с фотошопом, чтобы исправить дефекты на старых фотографиях, теперь можно проще.

Open Pose
Круто, что теперь это можно без кинекта, используя обычную камеру. Я хотел что-то такое на диплом 4 года назад, вот тогда такое сделать нельзя было с достойным качеством.

Deep Exemplar-Based Colorization
Проекты с разукрашиванием были уже несколько лет, у меня на стере в ВК можно найти ссылку, а это что-то новое и говорят качество существенно лучшее. Кстати яндекс разукрашивал старые фильмы используя нейронную сеть, видели результат?

#nn #ai #art #news #tool #fun
Актуальный список встраиваемых баз даннах http://embedded-databases.com/

Похожий список для message queue http://queues.io/

Всё знать невозможно, некоторые вещи достаточно знать где искать.

#queue #db #useful #links #tool
Все, кто пишет код, знают, как хороший инструмент позволяет повысить эффективность работы. Вот интересный экспериментальный проект https://kite.com/ который призван ускорить разработку умным автодополнением кода, такой вот intellisense с использованием machine learning.

Примерно так выглядят первые шаги по замене copypaste программистов (Или наоборот стимулирует увеличение их числа). Всё же идея мне кажется перспективной и очень хотелось бы получить это в виде обычного плагина к любимой IDE.

#future #tool
Полезная тула для визуализации нейронных сетей https://github.com/lutzroeder/netron С помощью её вы можете открыть сохранённую нейронную сеть (поддерживаются все основные форматы) и визуализировать в виде красивого графа. Я попробовал, результат выглядит не плохо, и дополнительно к изображению, можно посмотреть параметры каждого слоя и прочитать информацию, что это за слой (естественно для своих слоёв такое не получите)

#tool #nn
Узнал недавно про один простой модуль позволяющий ускорить первичный EDA (exploratory data analysis) данных.

Машинное обучение во многом про поиск интересных зависимостей в данных. Работа над новой задачей начинается с построения разных графиков и диорам, чтобы понять с чем мы имеем дело. Используя pandas-profiling можно получить достаточно много.

Github проекта: https://github.com/pandas-profiling/pandas-profiling

Я подготовил Kaggel Kernel, где можно покликать и посмотреть, что можно получить совсем без усилий: https://www.kaggle.com/nesterione/examples-pandas-profiling

#tool #ml
Недавно был опубликован проект PyTorch-Transformers https://github.com/huggingface/pytorch-transformers, где "из коробки" доступны самые мощные (на данный момент) языковые модели: BERT, GPT, GPT-2, Transformer-XL, XLNet, XLM, кстати их не только для текстов можно использовать, помните MuseNet, которая использует GPT-2.

Проект очень интересный и пока я ждал выходных, чтобы проверить, SpaCy (ещё одна из передовых библиотек для NLP) адоптировали проект и теперь без лишних усилий можно использовать и дообучать такие мощные модели — это хорошая новость для production. Ребята из Explosion не перестают удивлять своей оперативностью, в целом работать со SpaCy удобно.

https://explosion.ai/blog/spacy-pytorch-transformers
GitHub: https://github.com/explosion/spacy-pytorch-transformers

#tool #spacy #nlp #pytorch
Ещё один проект посвящённые автоматической генерации документации с вашего кода, вроде бы ничего нового, но не совсем. Python часто используют для всякой аналитики, а там и графики хочется показать и вообще в документации не плохо бы иметь примеры кода и результата выполнения. Я часто использую jupyter ноутбуки, там можно красиво всё показать и сохранить в репозитории - github умеет рендарить ( bitbucket тоже, если доставить плагин). Hangout это как раз возможность генерировать красивые странички с документацией без всяких там jupyter.

https://github.com/danijar/handout

Такой подход вполне полезный, т.к. требует минимальных затрат на сопровождение документации, ведь всем нам так не нравится писать документацию, и уже не говорю про возможных хаос, когда код говорит одно, комментарии другое, а документация третье (не делайте так).

#tool #python
Вчера выпустили релиз tensorflow 2.0, почти год, можно было воспользоваться alpha-версией, теперь выпущена стабильная версия.

- теперь ещё более тесная интеграция с keras
- eager execution - теперь включена всегда, напомню, теперь код немного похож на pytorch
- удалены некоторые устаревшие функции, немного причесали API

Теперь TF проще и логичнее, нет причин использовать старую версию для новых проектов.

#tensorflow #tool

https://medium.com/tensorflow/tensorflow-2-0-is-now-available-57d706c2a9ab
Узнал про полезный плагин для Visual Studio Code - https://github.com/hediet/vscode-drawio

Вы наверное знаете сервис для рисования диаграмм draw.io, теперь вы можете создавать файлы (с расширением .drawio) и редактировать прямо в vs code, очень удобно и быстро.

#tool #draw #diagram
Используете ли вы https://www.notion.so/ ? Это такая очень удобная wiki-блокнот, где можно организовано хранить заметки, планы, цели и тд.

Почему я использую notion?

- Реально удобный UX - не приходится страдать во время использования (но мобилкам есть куда расти)
- Шаблоны - это замечательная штука, вы просто открываете и смотрите какие шаблоны есть и у вас сразу сотни идей как организовать свои дела
- Выгрузка данных - для меня это важно. Когда ты можешь выгрузить всю свою базу знаний, то чувствуешь себя свободнее
- Раньше были жесткие лимиты на бесплатную версию и для полноценного использования приходилось платить (5$ в месяц) - теперь ограничения на количество страниц сняты https://techcrunch.com/2020/05/19/notion-drops-usage-limit-on-its-its-personal-free-tier/

Если у вас очень много заметок на google docs и everynote, google keep и вы теряетесь в поиске, попробуйте notion, возможно вам понравится.

#tool #notion #productivity
Как вы знаете, за последние годы происходит много нового в машинном обучении. Rак в исследованиях, так и в инструментах для разработки.
Чем больше машинное обучение используется в продакшене, там больше возникает спрос на разные инструменты помогающие организовать работу.

Если вы занимаетесь разработкой, то по любому используете систему контроля версий, для машинного обучения ещё нет такого же повсеместно используемого инструмента, но есть хорошие проекты, например https://dvc.org/

Сегодня команда DVC запустила ещё один продукт https://cml.dev/ (Continuous Machine Learning (CML) is CI/CD for Machine Learning Projects), на первый взгляд выглядит просто, но ещё остаётся масса вопросов.

Нет проблем, когда вы работаете с малыми датасетами, но возникают вопросы, когда нужно запустить обучение каких-то больших сетей. Во-первых им скорее всего нужен GPU, во-вторых запускать тренировку не нужно на каждый коммит. В результате могу сказать, что лендинг у них правда красивый, но вот польза пока сомнительная.

#ml #tool
Узнал про полезное расширение для goolge chrome https://chrome.google.com/webstore/detail/the-great-suspender/klbibkeccnjlkjkiokjodocebajanakg

Идея простая: оно выгружает из памяти вкладки, которые долго неактивны.
Штука полезная, если у вас есть вредная привычка держать открытыми десятки вкладок "на потом", расходуя RAM впустую.

#tool
Вышел jupyter lab 3.0 https://blog.jupyter.org/jupyterlab-3-0-is-out-4f58385e25bb

Изменения которые мне нравятся:
- visual debugger - раньше было отдельным плагином
- table of content - этого не хватало для отчётов

В тему jupyter, есть ещё либа https://github.com/fastai/nbdev которая добавляет много всего python library in Jupyter Notebooks, putting all your code, tests and documentation in one place.

Мне не нравится тренд превращаться jupyter в среду разработки, для этого есть более удобные инструменты, но опыт говорит, что не малое число Data Science команд держит весь код в ноутбуках. Работать с этим невозможно и если ноутбуки станут в этом отношении удобнее, то всём от этого станет лучше.

#tool