Bayesian Noise
61 subscribers
57 photos
234 links
Канал @nesterione. Посты про ИТ, машинное обучение, рациональность, иногда просто заметки и наблюдения.

з.ы. картинка не картинка...
Download Telegram
Про эту новость уже много где рассказали, но не могу пропустить. Microsoft преобразилась за последние годы, и уже стало привычным видеть что-то полезное. Сейчас они запустили важную для DataScience платформу, где собраны различные наборы данных. Их можно использовать как в исследовательских целях, так и для своих экспериментов.

Если у вас возникает идея с DataScience, то её невозможно проверить без данных, сбор данных очень долгая и кропотливая работа, поэтому лучше проверять идеи на уже существующих наборах данных. Запуск такой платформы сделает данные доступнее, а значит ждём ещё больше идей с применением машинного обучения.

Статья в блоге MS
https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/

Сама платформа доступна здесь https://msropendata.com/

Также наборы данных можно искать на kaggle https://www.kaggle.com/datasets

А ещё Jeremy Singer-Vine собирает подборки разных источников данных, можно подписаться на рассылку https://tinyletter.com/data-is-plural или смотреть собранные им подборки в таблице https://docs.google.com/spreadsheets/d/1wZhPLMCHKJvwOkP4juclhjFgqIY8fQFMemwKL2c64vk/edit#gid=0

#ds #ml #ms #data
Andrew Ng, неоднократно упоминаемый мной, поднял важную тему для Data Science https://twitter.com/AndrewYNg/status/1080887386488299520 Data Science специалисты часто недооценивают важность организации проекта и пока это дикий запад и каждая команда работает по своим правилам. Область всё ещё новая, ещё не сформировались общепринятые практики и инструменты для организации Data Science проектов. В комментариях можно найти множество полезных материалов о том, как это делают разные специалисты. Именно это я искал несколько месяцев назад, и был удивлён, что ещё почти ничего нет.

#ds #datascience #sdp
Как и ожидалось, нейронные сети находят всё большее применение в медицине. Работа про классификацию аритмии по ЭКГ https://stanfordmlgroup.github.io/projects/ecg2/

Ключевые особенности:

- классифицируется 10 разных видов аритмии
- сеть принимает "сырые" данные, нет никаких предобработок вроде Фурье
- было собрано 53,877 примеров взрослых пациентов, как обычно, это очень важный шаг
- средняя точность человека заявлена как 72.8% - алгоритм 80.07%

Как вы понимаете, это не про замену медиков, а про трансформацию медицины: cделать диагностику дешевле, а значит можно сделать больше проверок, сократить визиты мед. учреждений, развить рынок домашних систем мониторинга и т.д.

Статья на nature (увы не доступна свободно)
https://www.nature.com/articles/s41591-018-0268-3

#nn #health #datascience #ds
Очень давно в этом канале ничего не происходило, но новый год (кстати, прошло уже 5% 2020-го), пора чем-то поделиться.

Как вы знаете сейчас всё ещё много мистификации вокруг специалистов, которые делают AI. Кто-то учит модели, кто-то пишет if-else, а кто-то анализирует данные и помогает принимать бизнес решения.

Отчёт от workera https://workera.ai/candidates/report/ довольно подробно рассказывает про разные роли AI инженеров. #ds