Градиент обреченный

На stackoverflow тем временем появились темы в честь первого апреля, некоторые даже ничего 😳

180 views06:55

Полезный пост для инженеров ML – про важность фильтрации данных перед обучением нейронок:

Вы точно слышали, что для определения covid (помните, был такой?) было создано множество разных инструментов на основе нейронок и всяких там ИИ. К сожалению, ни один из них не заработал нормально – а какие-то оказались даже вредны, из 232 протестированных алгоритмов только 2 посчитали хоть как-то эффективными.

Вот, например, одно из исследований Кембриджа — команда сосредоточилась на моделях обучения диагностирования covid и прогнозирования рисков на основе рентгеновских снимков грудной клетки и компьютерной томографии. Как итог, из 415 опубликованных инструментов ни один не подошел для клинического использования ¯\_(ツ)_/¯

Многие проблемы были связаны с откровенно низким качеством датесета, на котором обучали ИИ, снимки и прочая информация распространялись в разгар пандемии хаотично, зачастую их просто распространяли обычные врачи, которые пытались лечить пациентов. Все хотели быстро помочь, но это были единственные общедоступные данные, местами даже из неизвестных источников. То есть те, кто создавал алгоритмы обучения, использовали неверно интерпретированный датасет, а модели были не просто нерабочие, а могли и откровенно вредить.

Еще часто встречались «датасеты Франкенштейна» — это когда датасет собирается из нескольких источников и может содержать дубликаты, это означает, что разные алгоритмы тестируются на одних и тех же данных, так что о точности работы тут речь не идет.

Многие датасеты включали в себя снимки грудных клеток детей, которые даже не болели covid в качестве примера того, как выглядят случаи, не связанные с ковидным заболеванием.

В итоге алгоритм научился определять детей, а не ковид. Или ещё — датасет со снимками пациента лёжа и стоя. Поскольку у пациентов, которых сканировали лёжа, была большая вероятность серьезной болезни, ИИ решил, что вероятность covid выше у лежачих.

Доходит до смешного: некоторые алгоритмы научились узнавать похожие шрифты госпиталей где делали скан грудной клетки и таким образом те снимки из госпиталей где случаев было исторически много, помечались как положительные.

В общем, в ML все еще без чудес – чтобы алгоритмы работали как нужно, нужны идеальные данные. И чтобы из собрать нужно быть или богатым, или хитрым.

Я кстати писал про один такой алгоритм в разгар пандемии, там все еще примитивнее было – прошел туториал, уже ML-инженер 🌚

187 views06:55