Про эту новость уже много где рассказали, но не могу пропустить. Microsoft преобразилась за последние годы, и уже стало привычным видеть что-то полезное. Сейчас они запустили важную для DataScience платформу, где собраны различные наборы данных. Их можно использовать как в исследовательских целях, так и для своих экспериментов.
Если у вас возникает идея с DataScience, то её невозможно проверить без данных, сбор данных очень долгая и кропотливая работа, поэтому лучше проверять идеи на уже существующих наборах данных. Запуск такой платформы сделает данные доступнее, а значит ждём ещё больше идей с применением машинного обучения.
Статья в блоге MS
https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/
Сама платформа доступна здесь https://msropendata.com/
Также наборы данных можно искать на kaggle https://www.kaggle.com/datasets
А ещё Jeremy Singer-Vine собирает подборки разных источников данных, можно подписаться на рассылку https://tinyletter.com/data-is-plural или смотреть собранные им подборки в таблице https://docs.google.com/spreadsheets/d/1wZhPLMCHKJvwOkP4juclhjFgqIY8fQFMemwKL2c64vk/edit#gid=0
#ds #ml #ms #data
Если у вас возникает идея с DataScience, то её невозможно проверить без данных, сбор данных очень долгая и кропотливая работа, поэтому лучше проверять идеи на уже существующих наборах данных. Запуск такой платформы сделает данные доступнее, а значит ждём ещё больше идей с применением машинного обучения.
Статья в блоге MS
https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/
Сама платформа доступна здесь https://msropendata.com/
Также наборы данных можно искать на kaggle https://www.kaggle.com/datasets
А ещё Jeremy Singer-Vine собирает подборки разных источников данных, можно подписаться на рассылку https://tinyletter.com/data-is-plural или смотреть собранные им подборки в таблице https://docs.google.com/spreadsheets/d/1wZhPLMCHKJvwOkP4juclhjFgqIY8fQFMemwKL2c64vk/edit#gid=0
#ds #ml #ms #data
Microsoft Research
Announcing Microsoft Research Open Data - Datasets by Microsoft Research now available in the cloud - Microsoft Research
The Microsoft Research Outreach team has worked extensively with the external research community to enable adoption of cloud-based research infrastructure over the past few years. Through this process, we experienced the ubiquity of Jim Gray’s fourth paradigm…
Полезный модуль для Python. Возможно вам приходилось запускать какую-то обработку данных и несомненно функция ничего не говорящая о статусе выполнения вызывает неприятное ощущение. А может оно уже давно повисло? И возможно вы добавляете какие-то логи или счётчики, чтобы видеть, что функция работает и знать когда она завершится. Так вот, если вы так делаете, прекратите! Просто воспользуйтесь этим модулем https://tqdm.github.io/
вы просто подключаете
#python #data #processing
вы просто подключаете
from tqdm import tqdmи оборачиваете ваш итератор/коллекцию
for doc in tqdm(docs):это работает и с итераторами:
doc_words = [tokenizer.tokenize(doc) for doc in tqdm(docs)]в результате получаете прогресс бар без лишних усилий
90%|█████████ | 3817/4242 [09:00<01:00, 121104.83it/s]Давно знал про этот модуль, но вот сейчас оценил его.
#python #data #processing
tqdm.github.io
tqdm documentation
A Fast, Extensible Progress Meter
Визуализация - важный инструмент для понимания данных и их скрытой структуры. Сложности возникают, когда речь идёт о визуализации многомерных данных. Как представить что-то 4-х мерное, а что говорить о 300+ мерном? Нужно как-то понизить размерность, но при этом сохранить закономерности в данных.
Один известный способ PCA (Principal component analysis), это такой способ построить проекцию на пространство меньшей размерности.
t-SNE (t-distributed stochastic neighbor embedding) - ещё один очень хороший способ визуализировать многомерные данные. Метод показывает очень хорошие результаты, но при его использовании нужно понимать некоторые особенности, чтобы не допускать ошибок и не обмануть себя. https://distill.pub/2016/misread-tsne/ очень хорошая статься объясняющая эти важные особенности.
#ml #visualization #data #tsne
Один известный способ PCA (Principal component analysis), это такой способ построить проекцию на пространство меньшей размерности.
t-SNE (t-distributed stochastic neighbor embedding) - ещё один очень хороший способ визуализировать многомерные данные. Метод показывает очень хорошие результаты, но при его использовании нужно понимать некоторые особенности, чтобы не допускать ошибок и не обмануть себя. https://distill.pub/2016/misread-tsne/ очень хорошая статься объясняющая эти важные особенности.
#ml #visualization #data #tsne
Distill
How to Use t-SNE Effectively
Although extremely useful for visualizing high-dimensional data, t-SNE plots can sometimes be mysterious or misleading.
Bayesian Noise
Про эту новость уже много где рассказали, но не могу пропустить. Microsoft преобразилась за последние годы, и уже стало привычным видеть что-то полезное. Сейчас они запустили важную для DataScience платформу, где собраны различные наборы данных. Их можно использовать…
Пора уже дополнить список полезных инструментов для поиска датасетов, Гугл недавно запустил бета-версию поиска по открытым датасетам https://ai.googleblog.com/2018/09/building-google-dataset-search-and.html
Доступен он здесь https://toolbox.google.com/datasetsearch, сервис включает в поиск данные из kaggle и других платформ, в целом работает не плохо и выглядит удобнее, чем аналогичный поиск от microsoft https://msropendata.com/
#data #dataset #ml
Доступен он здесь https://toolbox.google.com/datasetsearch, сервис включает в поиск данные из kaggle и других платформ, в целом работает не плохо и выглядит удобнее, чем аналогичный поиск от microsoft https://msropendata.com/
#data #dataset #ml
Googleblog
Building Google Dataset Search and Fostering an Open Data Ecosystem
Полезный kernel на kaggle. Почти всегда решение задачи машинного обучения начинается с исследования данных. Лучший способ понять данные, это различного рода визуализации. Ноутбук изобилует разными графиками и диаграммами https://www.kaggle.com/hely333/what-is-the-secret-of-academic-success
Все эти графики несомненно можно построить в excel, но использовать для этих целей python+juputer это другой уровень, одновременно работающий код, и отчёт, который можно показать заказчику. Вы можете перезапускать код, если изменились данные, и таким образом сразу обновить отчёт.
Определённо буду использовать данный ноутбук как пример для следующего проекта.
#data #exploration #analysis #visualization
Все эти графики несомненно можно построить в excel, но использовать для этих целей python+juputer это другой уровень, одновременно работающий код, и отчёт, который можно показать заказчику. Вы можете перезапускать код, если изменились данные, и таким образом сразу обновить отчёт.
Определённо буду использовать данный ноутбук как пример для следующего проекта.
#data #exploration #analysis #visualization
Алгоритмам машинного обучения нужно очень много данных, чтобы достичь непревзойдённых результатов. Например, чтобы хорошо классифицировать объекты на изображении нужны десятки тысяч объектов для каждого класса. Где же найти так много данных для обучения? Ответ вы скорее всего знаете и он transfer learning, но всё же, чем больше примеров есть, тем лучшее. Популярный способ расширить набор данных - аугментация. Это такой способ исказить изображения, тем самым расширяя вариативность ваших данных.
Популярные сейчас библиотеки:
https://github.com/aleju/imgaug - наверное самый известный проект для аугментации изображений
https://github.com/albu/albumentations - совсем недавно была разработана, работает быстрее и умеет делать совсем нетривиальные искажения, обязательно попробуйте
С этими библиотеками вы можете добавить совсем простые искажения, как повороты и масштабирование, так и более сложные, изменение цвета и добавление бликов.
Ещё один интересный подход, использовать GAN для генерации правдоподобных изображений https://towardsdatascience.com/generative-adversarial-networks-for-data-augmentation-experiment-design-2873d586eb59
А вообще очень сильно нахватает способа аугментации текстов, исказить текст не теряя смысл интересная и трудная задача.
#cv #nn #data #augmentation
Популярные сейчас библиотеки:
https://github.com/aleju/imgaug - наверное самый известный проект для аугментации изображений
https://github.com/albu/albumentations - совсем недавно была разработана, работает быстрее и умеет делать совсем нетривиальные искажения, обязательно попробуйте
С этими библиотеками вы можете добавить совсем простые искажения, как повороты и масштабирование, так и более сложные, изменение цвета и добавление бликов.
Ещё один интересный подход, использовать GAN для генерации правдоподобных изображений https://towardsdatascience.com/generative-adversarial-networks-for-data-augmentation-experiment-design-2873d586eb59
А вообще очень сильно нахватает способа аугментации текстов, исказить текст не теряя смысл интересная и трудная задача.
#cv #nn #data #augmentation
GitHub
GitHub - aleju/imgaug: Image augmentation for machine learning experiments.
Image augmentation for machine learning experiments. - aleju/imgaug
Ранее я уже говорил про очень полезный ресурс, где вы можете найти ссылку на исследование и реализация https://paperswithcode.com/ и ещё один про компьютерное зрение, набор открытых датасетов https://www.visualdata.io/.
Ещё один похожий проект по сбору известных моделей сетей и, очень часто, есть уже обученные модели. https://modelzoo.co/
Идея простая, вы хотите решить какую-то новую для себя задачу, открываете и ищите похожие модели, запускаете, смотрите, разбираетесь в постановке задачи, ищете новые статьи в этом направлении и шаг за шагом понимаете что уже сделали до вас и куда двигаться дальше к решению задачи.
#dataset #model #data
Ещё один похожий проект по сбору известных моделей сетей и, очень часто, есть уже обученные модели. https://modelzoo.co/
Идея простая, вы хотите решить какую-то новую для себя задачу, открываете и ищите похожие модели, запускаете, смотрите, разбираетесь в постановке задачи, ищете новые статьи в этом направлении и шаг за шагом понимаете что уже сделали до вас и куда двигаться дальше к решению задачи.
#dataset #model #data
huggingface.co
Trending Papers - Hugging Face
Your daily dose of AI research from AK
Про разметку данных в машинном обучении
Разметка данных довольно трудоёмкий процесс, в частности нередко возникает вопрос, чем размечать данные. Ввиду того, что требования очень разные от задачи, к задаче, универсальной таблетки нет.
Есть разные подборки инструментов https://github.com/heartexlabs/awesome-data-labeling, но большая часть просто ужасны, поэтому компании вынуждены делать что-то своё или покупать платное решение (вполне ниша для бизнеса)
Совершенно недавно узнал про новый инструмент https://labelstud.io
Почему вам стоит на него посмотреть?
— Можно размечать картинки, текст, звук, временные ряды
— Можно подключать ML модель, чтобы делать предварительную разметку, и тем самым ускорять подготовку новых данных
— Есть возможность задавать различные атрибуты и проставлять связи, между объектами
— Вполне живой github
— Хорошая документация и приятный UX
— Есть интеграция с s3, google cloud, странная, но работает
Что пока не понравилось?
— Нет возможности группировать картинки, например если вы делаете разметку pdf документов, хотелось бы все страницы в одном месте
— Довольно странная конфигурация проектов
Ссылка на github https://github.com/heartexlabs/label-studio , если вам нужна разметка, попробуйте, возможно вам подойдёт.
#ml #data #labeling
Разметка данных довольно трудоёмкий процесс, в частности нередко возникает вопрос, чем размечать данные. Ввиду того, что требования очень разные от задачи, к задаче, универсальной таблетки нет.
Есть разные подборки инструментов https://github.com/heartexlabs/awesome-data-labeling, но большая часть просто ужасны, поэтому компании вынуждены делать что-то своё или покупать платное решение (вполне ниша для бизнеса)
Совершенно недавно узнал про новый инструмент https://labelstud.io
Почему вам стоит на него посмотреть?
— Можно размечать картинки, текст, звук, временные ряды
— Можно подключать ML модель, чтобы делать предварительную разметку, и тем самым ускорять подготовку новых данных
— Есть возможность задавать различные атрибуты и проставлять связи, между объектами
— Вполне живой github
— Хорошая документация и приятный UX
— Есть интеграция с s3, google cloud, странная, но работает
Что пока не понравилось?
— Нет возможности группировать картинки, например если вы делаете разметку pdf документов, хотелось бы все страницы в одном месте
— Довольно странная конфигурация проектов
Ссылка на github https://github.com/heartexlabs/label-studio , если вам нужна разметка, попробуйте, возможно вам подойдёт.
#ml #data #labeling
GitHub
GitHub - HumanSignal/awesome-data-labeling: A curated list of awesome data labeling tools
A curated list of awesome data labeling tools. Contribute to HumanSignal/awesome-data-labeling development by creating an account on GitHub.