Про эту новость уже много где рассказали, но не могу пропустить. Microsoft преобразилась за последние годы, и уже стало привычным видеть что-то полезное. Сейчас они запустили важную для DataScience платформу, где собраны различные наборы данных. Их можно использовать как в исследовательских целях, так и для своих экспериментов.
Если у вас возникает идея с DataScience, то её невозможно проверить без данных, сбор данных очень долгая и кропотливая работа, поэтому лучше проверять идеи на уже существующих наборах данных. Запуск такой платформы сделает данные доступнее, а значит ждём ещё больше идей с применением машинного обучения.
Статья в блоге MS
https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/
Сама платформа доступна здесь https://msropendata.com/
Также наборы данных можно искать на kaggle https://www.kaggle.com/datasets
А ещё Jeremy Singer-Vine собирает подборки разных источников данных, можно подписаться на рассылку https://tinyletter.com/data-is-plural или смотреть собранные им подборки в таблице https://docs.google.com/spreadsheets/d/1wZhPLMCHKJvwOkP4juclhjFgqIY8fQFMemwKL2c64vk/edit#gid=0
#ds #ml #ms #data
Если у вас возникает идея с DataScience, то её невозможно проверить без данных, сбор данных очень долгая и кропотливая работа, поэтому лучше проверять идеи на уже существующих наборах данных. Запуск такой платформы сделает данные доступнее, а значит ждём ещё больше идей с применением машинного обучения.
Статья в блоге MS
https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/
Сама платформа доступна здесь https://msropendata.com/
Также наборы данных можно искать на kaggle https://www.kaggle.com/datasets
А ещё Jeremy Singer-Vine собирает подборки разных источников данных, можно подписаться на рассылку https://tinyletter.com/data-is-plural или смотреть собранные им подборки в таблице https://docs.google.com/spreadsheets/d/1wZhPLMCHKJvwOkP4juclhjFgqIY8fQFMemwKL2c64vk/edit#gid=0
#ds #ml #ms #data
Microsoft Research
Announcing Microsoft Research Open Data - Datasets by Microsoft Research now available in the cloud - Microsoft Research
The Microsoft Research Outreach team has worked extensively with the external research community to enable adoption of cloud-based research infrastructure over the past few years. Through this process, we experienced the ubiquity of Jim Gray’s fourth paradigm…
Andrew Ng, неоднократно упоминаемый мной, поднял важную тему для Data Science https://twitter.com/AndrewYNg/status/1080887386488299520 Data Science специалисты часто недооценивают важность организации проекта и пока это дикий запад и каждая команда работает по своим правилам. Область всё ещё новая, ещё не сформировались общепринятые практики и инструменты для организации Data Science проектов. В комментариях можно найти множество полезных материалов о том, как это делают разные специалисты. Именно это я искал несколько месяцев назад, и был удивлён, что ещё почти ничего нет.
#ds #datascience #sdp
#ds #datascience #sdp
Как и ожидалось, нейронные сети находят всё большее применение в медицине. Работа про классификацию аритмии по ЭКГ https://stanfordmlgroup.github.io/projects/ecg2/
Ключевые особенности:
- классифицируется 10 разных видов аритмии
- сеть принимает "сырые" данные, нет никаких предобработок вроде Фурье
- было собрано 53,877 примеров взрослых пациентов, как обычно, это очень важный шаг
- средняя точность человека заявлена как 72.8% - алгоритм 80.07%
Как вы понимаете, это не про замену медиков, а про трансформацию медицины: cделать диагностику дешевле, а значит можно сделать больше проверок, сократить визиты мед. учреждений, развить рынок домашних систем мониторинга и т.д.
Статья на nature (увы не доступна свободно)
https://www.nature.com/articles/s41591-018-0268-3
#nn #health #datascience #ds
Ключевые особенности:
- классифицируется 10 разных видов аритмии
- сеть принимает "сырые" данные, нет никаких предобработок вроде Фурье
- было собрано 53,877 примеров взрослых пациентов, как обычно, это очень важный шаг
- средняя точность человека заявлена как 72.8% - алгоритм 80.07%
Как вы понимаете, это не про замену медиков, а про трансформацию медицины: cделать диагностику дешевле, а значит можно сделать больше проверок, сократить визиты мед. учреждений, развить рынок домашних систем мониторинга и т.д.
Статья на nature (увы не доступна свободно)
https://www.nature.com/articles/s41591-018-0268-3
#nn #health #datascience #ds
stanfordmlgroup.github.io
Cardiologist-Level Arrhythmia Detection in ECGs using a Deep Neural Network.
We developed a deep neural network which can diagnose irregular heart rhythms, also known as arrhythmias, from single-lead ECG signals at a high diagnostic performance similar to that of cardiologists.
Очень давно в этом канале ничего не происходило, но новый год (кстати, прошло уже 5% 2020-го), пора чем-то поделиться.
Как вы знаете сейчас всё ещё много мистификации вокруг специалистов, которые делают AI. Кто-то учит модели, кто-то пишет if-else, а кто-то анализирует данные и помогает принимать бизнес решения.
Отчёт от workera https://workera.ai/candidates/report/ довольно подробно рассказывает про разные роли AI инженеров. #ds
Как вы знаете сейчас всё ещё много мистификации вокруг специалистов, которые делают AI. Кто-то учит модели, кто-то пишет if-else, а кто-то анализирует данные и помогает принимать бизнес решения.
Отчёт от workera https://workera.ai/candidates/report/ довольно подробно рассказывает про разные роли AI инженеров. #ds