Bayesian Noise
61 subscribers
57 photos
234 links
Канал @nesterione. Посты про ИТ, машинное обучение, рациональность, иногда просто заметки и наблюдения.

з.ы. картинка не картинка...
Download Telegram
Bayesian Noise
Про эту новость уже много где рассказали, но не могу пропустить. Microsoft преобразилась за последние годы, и уже стало привычным видеть что-то полезное. Сейчас они запустили важную для DataScience платформу, где собраны различные наборы данных. Их можно использовать…
Пора уже дополнить список полезных инструментов для поиска датасетов, Гугл недавно запустил бета-версию поиска по открытым датасетам https://ai.googleblog.com/2018/09/building-google-dataset-search-and.html

Доступен он здесь https://toolbox.google.com/datasetsearch, сервис включает в поиск данные из kaggle и других платформ, в целом работает не плохо и выглядит удобнее, чем аналогичный поиск от microsoft https://msropendata.com/

#data #dataset #ml
Данные для каждого

Знаете ли вы, что некоторые города публично предоставляют данные о городе, от расположения остановок, до статистики по совершённым преступлениям и ДТП. Есть движение за открытые данные.

Данные - топливо для ИИ. Без данных вы не сделаете ничего интересного, не важно, какие крутые алгоритмы вы знаете. Собрать данные для конкретной задачи это всегда дорого и долго. Когда публично доступны данные для разных предметных областей, вы можете воспользоваться ими для решения вашей задачи. Когда есть данные, всегда можно придумать крутые идеи, как их применить.

Так вот к чему это я, в городе регулярно происходят ДТП. Очень часто они происходят при похожих условиях. Предположим что у нас есть доступ к базе всех ДТП за несколько лет, мы можем составить тепловую карту города по опасным участкам.

Интерес могут представлять конкретные виды ДТП.

Например на одном участке дороги происходят часто столкновения машин, на другом часто сбивают пешеходов, а где-то происходят аварии с участием общественного транспорта.

Дополнительно можно анализировать время суток и освещённость (темнеет в разное время суток в зависимости от времени года и погодных условий) и можно ещё использовать историю погодных условий, учитывая какие аварии происходят в зависимости от условий на дороге. Можно очень много полезной информации извлечь и сделать это не долго, когда доступны данные. А ведь всё это было бы не плохим дополнением в навигаторе, особенно в незнакомом для вас месте, не правда ли?

Всё что нужно, чтобы эти данные были легкодоступны каждому, тогда любую идею можно проверить за считанное время. Ведь может оказаться, что нет никакой явной зависимости, и все эти гипотезы ничего не стоят, а быть может найдете интересные зависимости, которые сделают город безопаснее.

Мне бы было интересно поиграть с таким набором данных. В РБ можно найти некоторые данные публично, но пока всё очень скудно. Может вы знаете где и как достать данные о ДТП?

А может вы знаете людей в управлении, кому можно продвинуть такие идеи? Было бы интересно продвигать такие идеи на государственный уровень.

#opendata #dataset #ml #future #world_optimization
Bayesian Noise
Пора уже дополнить список полезных инструментов для поиска датасетов, Гугл недавно запустил бета-версию поиска по открытым датасетам https://ai.googleblog.com/2018/09/building-google-dataset-search-and.html Доступен он здесь https://toolbox.google.com/datasetsearch…
В коллекцию ссылок на датасеты добавлю ещё одну, https://www.visualdata.io/ когда впервые сайт увидел, думал протянет не долго, но ещё не закрылся, а новые наборы добавляются регулярно. Сейчас там 245 датасетов изображений, а вы сами понимаете как важны данные для машинного обучения.

#ml #dataset
Ранее я уже говорил про очень полезный ресурс, где вы можете найти ссылку на исследование и реализация https://paperswithcode.com/ и ещё один про компьютерное зрение, набор открытых датасетов https://www.visualdata.io/.

Ещё один похожий проект по сбору известных моделей сетей и, очень часто, есть уже обученные модели. https://modelzoo.co/

Идея простая, вы хотите решить какую-то новую для себя задачу, открываете и ищите похожие модели, запускаете, смотрите, разбираетесь в постановке задачи, ищете новые статьи в этом направлении и шаг за шагом понимаете что уже сделали до вас и куда двигаться дальше к решению задачи.

#dataset #model #data