В дополнение к посту выше, набор библиотек для работы с текстом:
https://spacy.io/ - хорошая библиотека для работы с текстом, во многом превосходит аналоги, но не так много языков поддерживает из коробки
https://textacy.readthedocs.io/en/latest/ - дополнение к spacy, поможет с извлечением фактов из текста
https://github.com/huggingface/neuralcoref - дополнение к spacy поможет с разрешением кореференций
https://www.nltk.org/ - самая известная библиотека обработки языков для python
https://radimrehurek.com/gensim/ - просто замечательная библиотека, их слоган topic modeling for humans, от части так и есть. Вы легко можете загрузить готовые обученные word2vec вектора и найдёте большое число полезных функций.
Как преобразовать текст в числа? Здача не простая, но есть решения:
https://nlp.stanford.edu/projects/glove/ - здесь вы найдёте обученные вектора на разных корпусах и можете воспользоваться кодом на github, чтобы обучить свои
https://fasttext.cc/ - замечательная библиотека, и хорошо обученные вектора для разных языков
#nlp #ai #tool #libs
https://spacy.io/ - хорошая библиотека для работы с текстом, во многом превосходит аналоги, но не так много языков поддерживает из коробки
https://textacy.readthedocs.io/en/latest/ - дополнение к spacy, поможет с извлечением фактов из текста
https://github.com/huggingface/neuralcoref - дополнение к spacy поможет с разрешением кореференций
https://www.nltk.org/ - самая известная библиотека обработки языков для python
https://radimrehurek.com/gensim/ - просто замечательная библиотека, их слоган topic modeling for humans, от части так и есть. Вы легко можете загрузить готовые обученные word2vec вектора и найдёте большое число полезных функций.
Как преобразовать текст в числа? Здача не простая, но есть решения:
https://nlp.stanford.edu/projects/glove/ - здесь вы найдёте обученные вектора на разных корпусах и можете воспользоваться кодом на github, чтобы обучить свои
https://fasttext.cc/ - замечательная библиотека, и хорошо обученные вектора для разных языков
#nlp #ai #tool #libs
spacy.io
spaCy · Industrial-strength Natural Language Processing in Python
spaCy is a free open-source library for Natural Language Processing in Python. It features NER, POS tagging, dependency parsing, word vectors and more.
Интересно наблюдать, как компании-динозавры, как oracle, хотят стать модными, и вот выпустили в opensource инструмент для деплоймента моделей машинного обучения https://oracle.github.io/graphpipe/
Я его не опробовал, поэтому не могу ничего сказать, на сколько это сделано хорошо. Но важно отметить, что ML всё больше проникает в разные бизнесы и появление подобных инструментов необходимо.
(обратите внимание как изменился мир: MS постоянно говорит про opensource и действительно много делает, oracle публикует библиотеки на GitHub... что дальше?)
#tool #oracle #deployment
Я его не опробовал, поэтому не могу ничего сказать, на сколько это сделано хорошо. Но важно отметить, что ML всё больше проникает в разные бизнесы и появление подобных инструментов необходимо.
(обратите внимание как изменился мир: MS постоянно говорит про opensource и действительно много делает, oracle публикует библиотеки на GitHub... что дальше?)
#tool #oracle #deployment
oracle.github.io
GraphPipe -- Machine Learning Model Deployment Made Simple
GraphPipe is a protocol and collection of software designed to simplify machine learning model deployment and decouple it from framework-specific model implementations.
Вот так google тихо, без громких анонсов включил TPUv2 для google colaboratory https://colab.research.google.com/ . Напомню, что в google colab вам бесплатно (т.е. даром на 12 часов непрерывной работы) предоставляется окружение с GPU (Сейчас это Tesla K80) и теперь с TPU. И это даёт возможность вам начать заниматься нейронными сетями не имея мощного железа.
Гугл пока не заявлял об этом, есть упоминание в обновлённой документации https://colab.research.google.com/github/tensorflow/tpu/blob/master/tools/colab/shakespeare_with_tpu_and_keras.ipynb
и на форуме fast.ai http://forums.fast.ai/t/google-colab-quitely-turn-on-tpu-v2-for-free-to-everyone/23329/2
Пока сравнить нормально проверить не получилось, т.к. для того, чтобы запустить модель на TPU нужно провести дополнительные манипуляции (см. https://www.dropbox.com/s/jg7j07unw94wbom/TensorFlow%20Keras%20Colab%20TPUs.pdf?dl=1 ). Без настроек модель запустится на CPU.
#ml #nn #google #colab #tool
Гугл пока не заявлял об этом, есть упоминание в обновлённой документации https://colab.research.google.com/github/tensorflow/tpu/blob/master/tools/colab/shakespeare_with_tpu_and_keras.ipynb
и на форуме fast.ai http://forums.fast.ai/t/google-colab-quitely-turn-on-tpu-v2-for-free-to-everyone/23329/2
Пока сравнить нормально проверить не получилось, т.к. для того, чтобы запустить модель на TPU нужно провести дополнительные манипуляции (см. https://www.dropbox.com/s/jg7j07unw94wbom/TensorFlow%20Keras%20Colab%20TPUs.pdf?dl=1 ). Без настроек модель запустится на CPU.
#ml #nn #google #colab #tool
Google
Google Colab
Интересная подборка от dev.by https://dev.by/news/25-open-source-repozitoriev-mashinnogo-obucheniya
Собрали они конечно всего в одну кучу, но среди этого списка нашлись незнакомые мне забавные проекты.
Я выделил проекты, которые хочу проверить (и может про некоторые расскажу отдельно). Да, они не кажутся полезными, но уж точно достаточно интересны, чтобы упомянуть где-нибудь на публичной лекции о достижениях AI.
style2paints
https://github.com/lllyasviel/style2paints - алгоритм раскрашивает скетчи, выглядит очень прикольно. Авторы обновляют сайт, но на github все исходники, можно попробовать запустить. Проверил, модели они тоже предоставляют, и есть набор скетчей для обучения. По описанию на github, кажется это целый редактор на основе нейронных сетей. Проект очень заинтересовал меня, интересно попробовать.
Image-to-image translation in PyTorch
Тоже выглядит интересно, помню статью про это, но готовой модели я не видел.
ParlAI
По заявлению facebook этот фреймворк для обучения и испытания диалоговых нейронных систем. Попробую применить для одного из проектов, расскажу о своих впечатлениях.
Deep photo style transfer
Очень достойные результаты, изображения выглядят реалистичными. Как на деле окажется нужно пробовать.
Deep image prior
В детстве приходилось играть с фотошопом, чтобы исправить дефекты на старых фотографиях, теперь можно проще.
Open Pose
Круто, что теперь это можно без кинекта, используя обычную камеру. Я хотел что-то такое на диплом 4 года назад, вот тогда такое сделать нельзя было с достойным качеством.
Deep Exemplar-Based Colorization
Проекты с разукрашиванием были уже несколько лет, у меня на стере в ВК можно найти ссылку, а это что-то новое и говорят качество существенно лучшее. Кстати яндекс разукрашивал старые фильмы используя нейронную сеть, видели результат?
#nn #ai #art #news #tool #fun
Собрали они конечно всего в одну кучу, но среди этого списка нашлись незнакомые мне забавные проекты.
Я выделил проекты, которые хочу проверить (и может про некоторые расскажу отдельно). Да, они не кажутся полезными, но уж точно достаточно интересны, чтобы упомянуть где-нибудь на публичной лекции о достижениях AI.
style2paints
https://github.com/lllyasviel/style2paints - алгоритм раскрашивает скетчи, выглядит очень прикольно. Авторы обновляют сайт, но на github все исходники, можно попробовать запустить. Проверил, модели они тоже предоставляют, и есть набор скетчей для обучения. По описанию на github, кажется это целый редактор на основе нейронных сетей. Проект очень заинтересовал меня, интересно попробовать.
Image-to-image translation in PyTorch
Тоже выглядит интересно, помню статью про это, но готовой модели я не видел.
ParlAI
По заявлению facebook этот фреймворк для обучения и испытания диалоговых нейронных систем. Попробую применить для одного из проектов, расскажу о своих впечатлениях.
Deep photo style transfer
Очень достойные результаты, изображения выглядят реалистичными. Как на деле окажется нужно пробовать.
Deep image prior
В детстве приходилось играть с фотошопом, чтобы исправить дефекты на старых фотографиях, теперь можно проще.
Open Pose
Круто, что теперь это можно без кинекта, используя обычную камеру. Я хотел что-то такое на диплом 4 года назад, вот тогда такое сделать нельзя было с достойным качеством.
Deep Exemplar-Based Colorization
Проекты с разукрашиванием были уже несколько лет, у меня на стере в ВК можно найти ссылку, а это что-то новое и говорят качество существенно лучшее. Кстати яндекс разукрашивал старые фильмы используя нейронную сеть, видели результат?
#nn #ai #art #news #tool #fun
dev.by
25 полезных опенсорсных проектов в сфере машинного обучения
За последние несколько лет машинное обучение раскрыло новые перспективы перед множеством различных отраслей: Facebook достигла успехов в распознавании лиц, Netflix использует МО для подбора и рекомендаций кинофильмов, PrimaAI — для обработки изображений,…
Актуальный список встраиваемых баз даннах http://embedded-databases.com/
Похожий список для message queue http://queues.io/
Всё знать невозможно, некоторые вещи достаточно знать где искать.
#queue #db #useful #links #tool
Похожий список для message queue http://queues.io/
Всё знать невозможно, некоторые вещи достаточно знать где искать.
#queue #db #useful #links #tool
Embedded-Databases
Embedded Databases
A long list of embedded databases for C, C++, Java, .NET and other languages
Все, кто пишет код, знают, как хороший инструмент позволяет повысить эффективность работы. Вот интересный экспериментальный проект https://kite.com/ который призван ускорить разработку умным автодополнением кода, такой вот intellisense с использованием machine learning.
Примерно так выглядят первые шаги по замене copypaste программистов (Или наоборот стимулирует увеличение их числа). Всё же идея мне кажется перспективной и очень хотелось бы получить это в виде обычного плагина к любимой IDE.
#future #tool
Примерно так выглядят первые шаги по замене copypaste программистов (Или наоборот стимулирует увеличение их числа). Всё же идея мне кажется перспективной и очень хотелось бы получить это в виде обычного плагина к любимой IDE.
#future #tool
Code Faster with Kite
Kite is saying farewell
From 2014 to 2021, Kite was a startup using AI to help developers write code. We have stopped working on Kite, and are no longer supporting the Kite software. Thank you to everyone who used our product, and thank you to our team members and investors who…
Полезная тула для визуализации нейронных сетей https://github.com/lutzroeder/netron С помощью её вы можете открыть сохранённую нейронную сеть (поддерживаются все основные форматы) и визуализировать в виде красивого графа. Я попробовал, результат выглядит не плохо, и дополнительно к изображению, можно посмотреть параметры каждого слоя и прочитать информацию, что это за слой (естественно для своих слоёв такое не получите)
#tool #nn
#tool #nn
GitHub
GitHub - lutzroeder/netron: Visualizer for neural network, deep learning and machine learning models
Visualizer for neural network, deep learning and machine learning models - lutzroeder/netron
Узнал недавно про один простой модуль позволяющий ускорить первичный EDA (exploratory data analysis) данных.
Машинное обучение во многом про поиск интересных зависимостей в данных. Работа над новой задачей начинается с построения разных графиков и диорам, чтобы понять с чем мы имеем дело. Используя pandas-profiling можно получить достаточно много.
Github проекта: https://github.com/pandas-profiling/pandas-profiling
Я подготовил Kaggel Kernel, где можно покликать и посмотреть, что можно получить совсем без усилий: https://www.kaggle.com/nesterione/examples-pandas-profiling
#tool #ml
Машинное обучение во многом про поиск интересных зависимостей в данных. Работа над новой задачей начинается с построения разных графиков и диорам, чтобы понять с чем мы имеем дело. Используя pandas-profiling можно получить достаточно много.
Github проекта: https://github.com/pandas-profiling/pandas-profiling
Я подготовил Kaggel Kernel, где можно покликать и посмотреть, что можно получить совсем без усилий: https://www.kaggle.com/nesterione/examples-pandas-profiling
#tool #ml
Недавно был опубликован проект PyTorch-Transformers https://github.com/huggingface/pytorch-transformers, где "из коробки" доступны самые мощные (на данный момент) языковые модели: BERT, GPT, GPT-2, Transformer-XL, XLNet, XLM, кстати их не только для текстов можно использовать, помните MuseNet, которая использует GPT-2.
Проект очень интересный и пока я ждал выходных, чтобы проверить, SpaCy (ещё одна из передовых библиотек для NLP) адоптировали проект и теперь без лишних усилий можно использовать и дообучать такие мощные модели — это хорошая новость для production. Ребята из Explosion не перестают удивлять своей оперативностью, в целом работать со SpaCy удобно.
https://explosion.ai/blog/spacy-pytorch-transformers
GitHub: https://github.com/explosion/spacy-pytorch-transformers
#tool #spacy #nlp #pytorch
Проект очень интересный и пока я ждал выходных, чтобы проверить, SpaCy (ещё одна из передовых библиотек для NLP) адоптировали проект и теперь без лишних усилий можно использовать и дообучать такие мощные модели — это хорошая новость для production. Ребята из Explosion не перестают удивлять своей оперативностью, в целом работать со SpaCy удобно.
https://explosion.ai/blog/spacy-pytorch-transformers
GitHub: https://github.com/explosion/spacy-pytorch-transformers
#tool #spacy #nlp #pytorch
GitHub
GitHub - huggingface/transformers: 🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.
🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX. - huggingface/transformers
Ещё один проект посвящённые автоматической генерации документации с вашего кода, вроде бы ничего нового, но не совсем. Python часто используют для всякой аналитики, а там и графики хочется показать и вообще в документации не плохо бы иметь примеры кода и результата выполнения. Я часто использую jupyter ноутбуки, там можно красиво всё показать и сохранить в репозитории - github умеет рендарить ( bitbucket тоже, если доставить плагин). Hangout это как раз возможность генерировать красивые странички с документацией без всяких там jupyter.
https://github.com/danijar/handout
Такой подход вполне полезный, т.к. требует минимальных затрат на сопровождение документации, ведь всем нам так не нравится писать документацию, и уже не говорю про возможных хаос, когда код говорит одно, комментарии другое, а документация третье (не делайте так).
#tool #python
https://github.com/danijar/handout
Такой подход вполне полезный, т.к. требует минимальных затрат на сопровождение документации, ведь всем нам так не нравится писать документацию, и уже не говорю про возможных хаос, когда код говорит одно, комментарии другое, а документация третье (не делайте так).
#tool #python
GitHub
GitHub - danijar/handout: Turn Python scripts into handouts with Markdown and figures
Turn Python scripts into handouts with Markdown and figures - danijar/handout
Вчера выпустили релиз tensorflow 2.0, почти год, можно было воспользоваться alpha-версией, теперь выпущена стабильная версия.
- теперь ещё более тесная интеграция с keras
- eager execution - теперь включена всегда, напомню, теперь код немного похож на pytorch
- удалены некоторые устаревшие функции, немного причесали API
Теперь TF проще и логичнее, нет причин использовать старую версию для новых проектов.
#tensorflow #tool
https://medium.com/tensorflow/tensorflow-2-0-is-now-available-57d706c2a9ab
- теперь ещё более тесная интеграция с keras
- eager execution - теперь включена всегда, напомню, теперь код немного похож на pytorch
- удалены некоторые устаревшие функции, немного причесали API
Теперь TF проще и логичнее, нет причин использовать старую версию для новых проектов.
#tensorflow #tool
https://medium.com/tensorflow/tensorflow-2-0-is-now-available-57d706c2a9ab
Узнал про полезный плагин для Visual Studio Code - https://github.com/hediet/vscode-drawio
Вы наверное знаете сервис для рисования диаграмм draw.io, теперь вы можете создавать файлы (с расширением .drawio) и редактировать прямо в vs code, очень удобно и быстро.
#tool #draw #diagram
Вы наверное знаете сервис для рисования диаграмм draw.io, теперь вы можете создавать файлы (с расширением .drawio) и редактировать прямо в vs code, очень удобно и быстро.
#tool #draw #diagram
Используете ли вы https://www.notion.so/ ? Это такая очень удобная wiki-блокнот, где можно организовано хранить заметки, планы, цели и тд.
Почему я использую notion?
- Реально удобный UX - не приходится страдать во время использования (но мобилкам есть куда расти)
- Шаблоны - это замечательная штука, вы просто открываете и смотрите какие шаблоны есть и у вас сразу сотни идей как организовать свои дела
- Выгрузка данных - для меня это важно. Когда ты можешь выгрузить всю свою базу знаний, то чувствуешь себя свободнее
- Раньше были жесткие лимиты на бесплатную версию и для полноценного использования приходилось платить (5$ в месяц) - теперь ограничения на количество страниц сняты https://techcrunch.com/2020/05/19/notion-drops-usage-limit-on-its-its-personal-free-tier/
Если у вас очень много заметок на google docs и everynote, google keep и вы теряетесь в поиске, попробуйте notion, возможно вам понравится.
#tool #notion #productivity
Почему я использую notion?
- Реально удобный UX - не приходится страдать во время использования (но мобилкам есть куда расти)
- Шаблоны - это замечательная штука, вы просто открываете и смотрите какие шаблоны есть и у вас сразу сотни идей как организовать свои дела
- Выгрузка данных - для меня это важно. Когда ты можешь выгрузить всю свою базу знаний, то чувствуешь себя свободнее
- Раньше были жесткие лимиты на бесплатную версию и для полноценного использования приходилось платить (5$ в месяц) - теперь ограничения на количество страниц сняты https://techcrunch.com/2020/05/19/notion-drops-usage-limit-on-its-its-personal-free-tier/
Если у вас очень много заметок на google docs и everynote, google keep и вы теряетесь в поиске, попробуйте notion, возможно вам понравится.
#tool #notion #productivity
Notion
The AI workspace that works for you. | Notion
A tool that connects everyday work into one space. It gives you and your teams AI tools—search, writing, note-taking—inside an all-in-one, flexible workspace.
Как вы знаете, за последние годы происходит много нового в машинном обучении. Rак в исследованиях, так и в инструментах для разработки.
Чем больше машинное обучение используется в продакшене, там больше возникает спрос на разные инструменты помогающие организовать работу.
Если вы занимаетесь разработкой, то по любому используете систему контроля версий, для машинного обучения ещё нет такого же повсеместно используемого инструмента, но есть хорошие проекты, например https://dvc.org/
Сегодня команда DVC запустила ещё один продукт https://cml.dev/ (Continuous Machine Learning (CML) is CI/CD for Machine Learning Projects), на первый взгляд выглядит просто, но ещё остаётся масса вопросов.
Нет проблем, когда вы работаете с малыми датасетами, но возникают вопросы, когда нужно запустить обучение каких-то больших сетей. Во-первых им скорее всего нужен GPU, во-вторых запускать тренировку не нужно на каждый коммит. В результате могу сказать, что лендинг у них правда красивый, но вот польза пока сомнительная.
#ml #tool
Чем больше машинное обучение используется в продакшене, там больше возникает спрос на разные инструменты помогающие организовать работу.
Если вы занимаетесь разработкой, то по любому используете систему контроля версий, для машинного обучения ещё нет такого же повсеместно используемого инструмента, но есть хорошие проекты, например https://dvc.org/
Сегодня команда DVC запустила ещё один продукт https://cml.dev/ (Continuous Machine Learning (CML) is CI/CD for Machine Learning Projects), на первый взгляд выглядит просто, но ещё остаётся масса вопросов.
Нет проблем, когда вы работаете с малыми датасетами, но возникают вопросы, когда нужно запустить обучение каких-то больших сетей. Во-первых им скорее всего нужен GPU, во-вторых запускать тренировку не нужно на каждый коммит. В результате могу сказать, что лендинг у них правда красивый, но вот польза пока сомнительная.
#ml #tool
Data Version Control · DVC
Open-source version control system for Data Science and Machine Learning projects. Git-like experience to organize your data, models, and experiments.
Узнал про полезное расширение для goolge chrome https://chrome.google.com/webstore/detail/the-great-suspender/klbibkeccnjlkjkiokjodocebajanakg
Идея простая: оно выгружает из памяти вкладки, которые долго неактивны.
Штука полезная, если у вас есть вредная привычка держать открытыми десятки вкладок "на потом", расходуя RAM впустую.
#tool
Идея простая: оно выгружает из памяти вкладки, которые долго неактивны.
Штука полезная, если у вас есть вредная привычка держать открытыми десятки вкладок "на потом", расходуя RAM впустую.
#tool
Google
Chrome Web Store
Add new features to your browser and personalize your browsing experience.
Вышел jupyter lab 3.0 https://blog.jupyter.org/jupyterlab-3-0-is-out-4f58385e25bb
Изменения которые мне нравятся:
- visual debugger - раньше было отдельным плагином
- table of content - этого не хватало для отчётов
В тему jupyter, есть ещё либа https://github.com/fastai/nbdev которая добавляет много всего
Мне не нравится тренд превращаться jupyter в среду разработки, для этого есть более удобные инструменты, но опыт говорит, что не малое число Data Science команд держит весь код в ноутбуках. Работать с этим невозможно и если ноутбуки станут в этом отношении удобнее, то всём от этого станет лучше.
#tool
Изменения которые мне нравятся:
- visual debugger - раньше было отдельным плагином
- table of content - этого не хватало для отчётов
В тему jupyter, есть ещё либа https://github.com/fastai/nbdev которая добавляет много всего
python library in Jupyter Notebooks, putting all your code, tests and documentation in one place.
Мне не нравится тренд превращаться jupyter в среду разработки, для этого есть более удобные инструменты, но опыт говорит, что не малое число Data Science команд держит весь код в ноутбуках. Работать с этим невозможно и если ноутбуки станут в этом отношении удобнее, то всём от этого станет лучше.
#tool
Medium
JupyterLab 3.0 is released!
The 3.0 release of JupyterLab brings many new features to users and substantial improvements to the extension distribution system.