Может ли BigData-подход предсказывать новые открытия
BigData-подход (соберите много-много данных, запустите комп искать в них образцы корреляций, попытайтесь дать трактовку наиболее интересным из найденных корреляций и используйте их для предсказаний) показал свою продуктивность и универсальность.
Так почему бы не использовать его для предсказания новых научных открытий: кто, что, где, когда откроет прорывного в научных исследованиях?
Казалось бы, данных море: планы исследований, объемы финансирования, персоналии исследователей, их статьи и доклады, гранты и премии и тд. Все это стали тщательно записывать задолго до интернетовской эпохи. И что?
Так вот. Есть такая новая исследовательская область - Science of science, а в ней - интереснейшее направление – Data-driven predictions in the science of science, - которое как раз и занимается выявлением паттернов в научных исследованиях, которые можно использовать для предсказаний.
Текущее состояние этого направления описано в эссе с одноименным названием, опубликованном учеными 4х известных американских и европейских научных центров.
http://science.sciencemag.org/content/355/6324/477.full
Резюме такое.
1) Каждое новое открытие можно позиционировать по шкале от «Непредсказуемое» до «Предсказуемое» с десятком промежуточных состояний между ними - см. рис.
https://d2ufo47lrtsv5s.cloudfront.net/content/sci/355/6324/477/F1.large.jpg?width=800&height=600&carousel=1
2) BigData-подход отлично работает применительно к зоне, близкой к «Предсказуемое», например, выявляя следующее:
— самыми продуктивными по числу публикаций являются первые 8 лет научной карьеры (а пиковый год – 5й);
— однако, самая ценная работа любого ученого может быть равновероятно опубликована в любом году его карьеры.
3) Касательно же «Непредсказуемое», BigData-подход не дает ничего. Эти открытия реально непредсказуемы (можно писать без кавычек).
Но это еще полбеды. А беда вот в чем.
Многие непредсказуемые открытия – это «спящие красавицы» - уже открытые и хорошо описанные прорывные идеи, лежащие в столах авторов и редакций (обычно, в архивах) и ждущие, когда научная общественность, наконец, их догонит (в обоих смыслах этого слова).
Такими «спящими красавицами» были: ныне знаменитая работа 1935 года Эйнштейна, Подольского и Розена по квантовой механике, доклад 1958 года Розенблатта о искусственных нейронных сетях (да-да, не удивляйтесь, что так давно) и многие другие.
Самое прискорбное, что наличие «спящих красавиц» и другая большая беда – закон Матфея для науки (уже признанные станут еще более признанными), - суть следствие используемого человечеством принципиально неверного принципа оценки перспективности научных направлений «от достигнутого» - по предыдущим успехам (например, цитирование).
Следствие из этого доминирующего ошибочного научного принципа выражается в появлении «самосбывающихся пророчеств». Открывают то, что и предсказали. А куда более важные и ценные открытия не делаются или, еще хуже, - пребывают в летаргии «спящих красавиц».
Ну и самая страшная из бед – от ученых все чаще требуют доказательства немедленной и ощутимой пользы от их работы. А как следствие, тревожная тенденция - ставшие традиционными заявления новых Нобелевских лауреатов, что их открытия, над которыми они работали в прошлых десятилетиях, были бы невозможны в сегодняшней исследовательской среде.
Прочтите еще раз последнее предложение. Т.е. раньше это было возможным открыть, а теперь, к сожалению, уже нет.
И это значит, что нам только кажется, что наука, беря все новые и новые высоты, идет правильным путем к вершинам, что открывают перед человечеством самые многообещающие и желанные перспективы.
Science of science показывает, что это не так.
Видимо, в какой-то момент свернули не туда. И «с тех пор все тянутся предо мною кривые, глухие, окольные тропы…»
#ScienceOfScience #Предсказания
BigData-подход (соберите много-много данных, запустите комп искать в них образцы корреляций, попытайтесь дать трактовку наиболее интересным из найденных корреляций и используйте их для предсказаний) показал свою продуктивность и универсальность.
Так почему бы не использовать его для предсказания новых научных открытий: кто, что, где, когда откроет прорывного в научных исследованиях?
Казалось бы, данных море: планы исследований, объемы финансирования, персоналии исследователей, их статьи и доклады, гранты и премии и тд. Все это стали тщательно записывать задолго до интернетовской эпохи. И что?
Так вот. Есть такая новая исследовательская область - Science of science, а в ней - интереснейшее направление – Data-driven predictions in the science of science, - которое как раз и занимается выявлением паттернов в научных исследованиях, которые можно использовать для предсказаний.
Текущее состояние этого направления описано в эссе с одноименным названием, опубликованном учеными 4х известных американских и европейских научных центров.
http://science.sciencemag.org/content/355/6324/477.full
Резюме такое.
1) Каждое новое открытие можно позиционировать по шкале от «Непредсказуемое» до «Предсказуемое» с десятком промежуточных состояний между ними - см. рис.
https://d2ufo47lrtsv5s.cloudfront.net/content/sci/355/6324/477/F1.large.jpg?width=800&height=600&carousel=1
2) BigData-подход отлично работает применительно к зоне, близкой к «Предсказуемое», например, выявляя следующее:
— самыми продуктивными по числу публикаций являются первые 8 лет научной карьеры (а пиковый год – 5й);
— однако, самая ценная работа любого ученого может быть равновероятно опубликована в любом году его карьеры.
3) Касательно же «Непредсказуемое», BigData-подход не дает ничего. Эти открытия реально непредсказуемы (можно писать без кавычек).
Но это еще полбеды. А беда вот в чем.
Многие непредсказуемые открытия – это «спящие красавицы» - уже открытые и хорошо описанные прорывные идеи, лежащие в столах авторов и редакций (обычно, в архивах) и ждущие, когда научная общественность, наконец, их догонит (в обоих смыслах этого слова).
Такими «спящими красавицами» были: ныне знаменитая работа 1935 года Эйнштейна, Подольского и Розена по квантовой механике, доклад 1958 года Розенблатта о искусственных нейронных сетях (да-да, не удивляйтесь, что так давно) и многие другие.
Самое прискорбное, что наличие «спящих красавиц» и другая большая беда – закон Матфея для науки (уже признанные станут еще более признанными), - суть следствие используемого человечеством принципиально неверного принципа оценки перспективности научных направлений «от достигнутого» - по предыдущим успехам (например, цитирование).
Следствие из этого доминирующего ошибочного научного принципа выражается в появлении «самосбывающихся пророчеств». Открывают то, что и предсказали. А куда более важные и ценные открытия не делаются или, еще хуже, - пребывают в летаргии «спящих красавиц».
Ну и самая страшная из бед – от ученых все чаще требуют доказательства немедленной и ощутимой пользы от их работы. А как следствие, тревожная тенденция - ставшие традиционными заявления новых Нобелевских лауреатов, что их открытия, над которыми они работали в прошлых десятилетиях, были бы невозможны в сегодняшней исследовательской среде.
Прочтите еще раз последнее предложение. Т.е. раньше это было возможным открыть, а теперь, к сожалению, уже нет.
И это значит, что нам только кажется, что наука, беря все новые и новые высоты, идет правильным путем к вершинам, что открывают перед человечеством самые многообещающие и желанные перспективы.
Science of science показывает, что это не так.
Видимо, в какой-то момент свернули не туда. И «с тех пор все тянутся предо мною кривые, глухие, окольные тропы…»
#ScienceOfScience #Предсказания
Science
Data-driven predictions in the science of science
The desire to predict discoveries—to have some idea, in advance, of what will be discovered, by whom, when, and where—pervades nearly all aspects of modern science, from individual scientists to publishers, from funding agencies to hiring committees. In this…