#плагиат
Наверное, многие слышали про проект "Диссернет" - по борьбе с различными неэтическими моментами в Российской науке (плагиатом, липовыми защитами и т.п.),
например, есть анти-рейтинг Российских вузов
http://rosvuz.dissernet.org/
Наверное, многие слышали про проект "Диссернет" - по борьбе с различными неэтическими моментами в Российской науке (плагиатом, липовыми защитами и т.п.),
например, есть анти-рейтинг Российских вузов
http://rosvuz.dissernet.org/
#математика
Eсть красивая теорема, которая описывает геометрическое расположение собственных значений матрицы на комплексной плоскости - Gershgorin circle theorem (GCT)
https://en.wikipedia.org/wiki/Gershgorin_circle_theorem
Она доказана советским математиком, но русской страницы на Wiki про неё нет, а узнал я о ней листая теоретические работы по рекуррентным сетям;)
Eсть красивая теорема, которая описывает геометрическое расположение собственных значений матрицы на комплексной плоскости - Gershgorin circle theorem (GCT)
https://en.wikipedia.org/wiki/Gershgorin_circle_theorem
Она доказана советским математиком, но русской страницы на Wiki про неё нет, а узнал я о ней листая теоретические работы по рекуррентным сетям;)
#soft
Небольшой софт от Микрософт для визуализации и анализа данных
https://cloudblogs.microsoft.com/opensource/2019/10/10/microsoft-open-sources-sanddance-visual-data-exploration-tool/
Небольшой софт от Микрософт для визуализации и анализа данных
https://cloudblogs.microsoft.com/opensource/2019/10/10/microsoft-open-sources-sanddance-visual-data-exploration-tool/
Microsoft Open Source Blog
Microsoft open sources SandDance, a visual data exploration tool - Microsoft Open Source Blog
SandDance, the beloved data visualization tool from Microsoft Research, has been re-released as an open source project on GitHub.
#интересно
В этой работе изучали среднюю температуру человеческого тела. Если верить всему, что написано и не задумываться о представительности выборок, то в течение жизни человека она падает. У женщин она чуть выше. И самое интересное, за последние годы она снижается, причём линейно, «норма» 36.6 100 лет назад была в районе 36.9!
https://elifesciences.org/articles/49555
В этой работе изучали среднюю температуру человеческого тела. Если верить всему, что написано и не задумываться о представительности выборок, то в течение жизни человека она падает. У женщин она чуть выше. И самое интересное, за последние годы она снижается, причём линейно, «норма» 36.6 100 лет назад была в районе 36.9!
https://elifesciences.org/articles/49555
#CATBoost
За что я не люблю катбуст - за постоянные сюрпризы и невозможность простого использования в стандартных пайплайнах. Есть же самая популярная ML-библитека scikit-learn и многие другие библиотеки в неё нормально интегрируются (xgboost, lightgbm и т.п.). Вот сейчас, в готовый код вставил
import catboost as cb
cb.CatBoostClassifier(subsample=0.6, iterations=50, learning_rate=0.3, depth=4, silent=True, random_seed=1)
и всё вывалилось с ошибкой "CatBoostError: You can't change params of fitted model." на строке
model.set_params(**{'random_seed': t});
Что, правда? После стольких лет разработки - нельзя динамически менять параметры?!
Поковырялся в исходниках - ошибка появляется после if self.is_fitted() (т.е. обученную модель не трогают).
Любой другой современный бустинг, имеющий в python-имплементации sklearn-совместимую функуцию нормально бы отработал, только надо было бы написать
model.set_params(**{'random_state': t});
За что я не люблю катбуст - за постоянные сюрпризы и невозможность простого использования в стандартных пайплайнах. Есть же самая популярная ML-библитека scikit-learn и многие другие библиотеки в неё нормально интегрируются (xgboost, lightgbm и т.п.). Вот сейчас, в готовый код вставил
import catboost as cb
cb.CatBoostClassifier(subsample=0.6, iterations=50, learning_rate=0.3, depth=4, silent=True, random_seed=1)
и всё вывалилось с ошибкой "CatBoostError: You can't change params of fitted model." на строке
model.set_params(**{'random_seed': t});
Что, правда? После стольких лет разработки - нельзя динамически менять параметры?!
Поковырялся в исходниках - ошибка появляется после if self.is_fitted() (т.е. обученную модель не трогают).
Любой другой современный бустинг, имеющий в python-имплементации sklearn-совместимую функуцию нормально бы отработал, только надо было бы написать
model.set_params(**{'random_state': t});
#соревнование
Какой-то очередной хакатон по теме цифровизации индустрии туризма с призовым фондом ~ 1млн руб.
https://travelhack.moscow/#
Какой-то очередной хакатон по теме цифровизации индустрии туризма с призовым фондом ~ 1млн руб.
https://travelhack.moscow/#
business.russpass.ru
Moscow Travel Hack 2024
#статья
Самый типичный вопрос при изучении метрических алгоритмов - какая метрика лучше? Хотя разные метрики, в целом, некорректно сравнивать, есть такая обзорная работа. Интересно, что в журнальном варианте она вышла в прошлом году, хотя её первая версия была залита на Arxiv ещё в 2017. Эксперименты в ней можно критиковать, но лучше, чем ничего...
https://arxiv.org/abs/1708.04321
Самый типичный вопрос при изучении метрических алгоритмов - какая метрика лучше? Хотя разные метрики, в целом, некорректно сравнивать, есть такая обзорная работа. Интересно, что в журнальном варианте она вышла в прошлом году, хотя её первая версия была залита на Arxiv ещё в 2017. Эксперименты в ней можно критиковать, но лучше, чем ничего...
https://arxiv.org/abs/1708.04321
arXiv.org
Distance and Similarity Measures Effect on the Performance of...
The K-nearest neighbor (KNN) classifier is one of the simplest and most common classifiers, yet its performance competes with the most complex classifiers in the literature. The core of this...
#DL
Очень нравятся ресурсы, которые демонстрируют некоторые DL-методы, пусть и в упрощённом стиле. Например, как из этой подборки (очень удобно давать студентам, которые про DL раньше не слышали):
https://pikabu.ru/story/21_sayt_gde_mozhno_protestirovat_rabotu_neyrosetey_6697786
Очень нравятся ресурсы, которые демонстрируют некоторые DL-методы, пусть и в упрощённом стиле. Например, как из этой подборки (очень удобно давать студентам, которые про DL раньше не слышали):
https://pikabu.ru/story/21_sayt_gde_mozhno_protestirovat_rabotu_neyrosetey_6697786
Пикабу
21 сайт, где можно протестировать работу нейросетей
Убийцы свободного времени
#книга
Почти про каждую тему в ML можно сделать отдельный курс. Это часто имеет смысл, например, если делать идеальную бакалаврскую программу по анализу данных, в ней могли бы быть отдельные курсы по регрессии, кластеризации и т.п. Вот неплохой конспект лекций "A Comprehensive Guide to Machine Learning" - тут много об одном и том же - линейная регрессия во всех проявлениях (вероятностная постановка, добавление весов объектов и т.п.), но этим книжка и хороша - не везде есть подробности:
http://snasiriany.me/files/ml-book.pdf
Почти про каждую тему в ML можно сделать отдельный курс. Это часто имеет смысл, например, если делать идеальную бакалаврскую программу по анализу данных, в ней могли бы быть отдельные курсы по регрессии, кластеризации и т.п. Вот неплохой конспект лекций "A Comprehensive Guide to Machine Learning" - тут много об одном и том же - линейная регрессия во всех проявлениях (вероятностная постановка, добавление весов объектов и т.п.), но этим книжка и хороша - не везде есть подробности:
http://snasiriany.me/files/ml-book.pdf
#интересно
Известные популяризаторы решают задачи... а это, действительно, занятно;)
https://youtu.be/6WetHl8VN1I
Известные популяризаторы решают задачи... а это, действительно, занятно;)
https://youtu.be/6WetHl8VN1I
YouTube
Форт Боярд Математиков: Побединский, Wild Mathing, Савватеев, Трушин, Гарвард Оксфорд, Математик МГУ
Подписка: https://t.me/flesspro
Фантастическая пятёрка математиков - Алексей Савватеев, Борис Трушин, Дмитрий Побединский, Владимир Зубков (Гарвард Оксфорд) и Андрей Павликов (Математик МГУ, Хитман) - попала в замок Злого Духа (Wild Mathing). Выход из него…
Фантастическая пятёрка математиков - Алексей Савватеев, Борис Трушин, Дмитрий Побединский, Владимир Зубков (Гарвард Оксфорд) и Андрей Павликов (Математик МГУ, Хитман) - попала в замок Злого Духа (Wild Mathing). Выход из него…
#данные
Для тех, кому нужны датасеты - обновление известного поиска:
https://blog.google/products/search/discovering-millions-datasets-web/
Для тех, кому нужны датасеты - обновление известного поиска:
https://blog.google/products/search/discovering-millions-datasets-web/
Google
Discovering millions of datasets on the web
Dataset Search launches publicly with an index of 25 million datasets, helping scientists, journalists, students, data geeks to find data.
#работа
Много всего про soft-skills. Вроде, местами неплохие материалы попадаются...
https://vc.ru/learn/101011-samaya-bolshaya-podborka-po-prokachke-soft-skills-hvatit-na-vsyu-zhizn
Много всего про soft-skills. Вроде, местами неплохие материалы попадаются...
https://vc.ru/learn/101011-samaya-bolshaya-podborka-po-prokachke-soft-skills-hvatit-na-vsyu-zhizn
vc.ru
Самая большая подборка по прокачке soft skills. Хватит на всю жизнь
Чтобы развивать инновационную среду в компании, нужно начать с развития собственных навыков. Конечно, вы слышали про soft skills и уже знаете шутку, что за hard skills вас берут на работу, а за soft skills увольняют. Но что вас точно удивит, так это количество…
#соревнование
Конкурс "VoicePrivacy" при конференции Interspeech 2020:
https://www.voiceprivacychallenge.org/
Конкурс "VoicePrivacy" при конференции Interspeech 2020:
https://www.voiceprivacychallenge.org/
#статья
Статья со ссылкой на соответствующий сервис. Идея - облегчить трансферное обучения. Если Вы решаете задачу, в которой мало данных, то стандартный приём - взять предобученную на большом наборе данных нейросеть и "дотьюнить" её на Вашу задачу. Авторы задались вопросами: как выбрать подходящий большой датасет для первичного обучения нейросети, можно ли из него выделить подвыборку, максимально релевантную нашей задаче. Они даже сделали сервис с подобным функционалом;)
https://arxiv.org/abs/2001.02799
Статья со ссылкой на соответствующий сервис. Идея - облегчить трансферное обучения. Если Вы решаете задачу, в которой мало данных, то стандартный приём - взять предобученную на большом наборе данных нейросеть и "дотьюнить" её на Вашу задачу. Авторы задались вопросами: как выбрать подходящий большой датасет для первичного обучения нейросети, можно ли из него выделить подвыборку, максимально релевантную нашей задаче. Они даже сделали сервис с подобным функционалом;)
https://arxiv.org/abs/2001.02799
#математика
К вопросу о том, что в классической математике "совсем свежего": например, тропическая геометрия - она появилась уже в этом веке, всякие тропические полукольца применяются в экономике (считается, что с их помощью лучше формализуются процессы типа объединения компаний и т.п.), а также в ИИ (например, в т.н. Weighted Finite-State Transducers). Бегло ознакомиться с тропической геометрией можно с помощью этой небольшой книги:
https://www.mccme.ru/dubna/2006/notes/Kazaryan.pdf
К вопросу о том, что в классической математике "совсем свежего": например, тропическая геометрия - она появилась уже в этом веке, всякие тропические полукольца применяются в экономике (считается, что с их помощью лучше формализуются процессы типа объединения компаний и т.п.), а также в ИИ (например, в т.н. Weighted Finite-State Transducers). Бегло ознакомиться с тропической геометрией можно с помощью этой небольшой книги:
https://www.mccme.ru/dubna/2006/notes/Kazaryan.pdf
#конференции
Конференция «Оптимизация и приложения» в Черногории в конце сентября
http://agora.guru.ru/display.php?conf=optima-2020
Конференция «Оптимизация и приложения» в Черногории в конце сентября
http://agora.guru.ru/display.php?conf=optima-2020
#книга
Фантастика! Новая книга Нассима Талеба Статистические последствия тяжелых хвостов: преасимптотика, эпистемология и приложения просто выложена на Arxiv-е. Можно читать не дожидаясь, пока какое-нибудь модное издательство переведёт;)
https://arxiv.org/abs/2001.10488
Фантастика! Новая книга Нассима Талеба Статистические последствия тяжелых хвостов: преасимптотика, эпистемология и приложения просто выложена на Arxiv-е. Можно читать не дожидаясь, пока какое-нибудь модное издательство переведёт;)
https://arxiv.org/abs/2001.10488