Forwarded from Жалкие низкочастотники
Не так давно прошёл SIGBOVIK-2021 (пародийная научная конференция в Carnegie Mellon University, о которой я уже писал и даже как-то публиковался на ней). Труды можно почитать тут, а вот здесь есть twitch-стрим с докладов. В этом году году, как обычно, среди кучи стёба и треша есть несколько вполне интересных штук.
Из содержательных моё внимание привлекли:
* Soliterrible: Deterministically Unplayable Solitaire — в пасьянсе Косынка изредка бывают раздачи, в которых игрок не может сделать ни одного хода. Авторы предлагают алгоритм нахождения таких комбинаций, а также реализовали приложение, в котором все раздачи именно такие.
* Lowestcase and Uppestcase letters: Advances in Derp Learning — автор использует большую базу бесплатных шрифтов для обучения нейросети на реализацию двух функций: lowercase (сделать из большой буквы маленькую) и uppercase (наоборот). Попутно используется приём, очень напоминающий back-translation в машинном переводе с невыровненными корпусами, это позволяет пытаться научиться делать uppercase от уже заглавных букв (и lowercase от строчных). Результаты довольно жуткие, но видно, что работа проделана большая.
* openCHEAT: Computationally Helped Error bar Approximation Tool - Kickstarting Science 4.0 — авторы научили сеть дорисовывать на диаграммы фейковые доверительные интервалы, рекомендуют для повышения убедительности публикации.
Из совсем безумного юмора мне понравились:
* Back to Square One: Superhuman Performance in Chutes and Ladders Through Deep Neural Networks and Tree Search — прекрасная пародия на reinforcement learning статьи.
* The Urinal Packing Problem in Higher Dimensions — авторы обобщают задачу упаковки писсуаров до n-мерного случая и пытаются свести её к поиску maximal independent set. Напомню, что исходную одномерную задачу описал в своё время Рэндалл xkcd Манро, а я даже делал её перевод на русский.
* A Complete Survey of 0-Dimensional Computer Graphics — оставлю без комментариев.
Из содержательных моё внимание привлекли:
* Soliterrible: Deterministically Unplayable Solitaire — в пасьянсе Косынка изредка бывают раздачи, в которых игрок не может сделать ни одного хода. Авторы предлагают алгоритм нахождения таких комбинаций, а также реализовали приложение, в котором все раздачи именно такие.
* Lowestcase and Uppestcase letters: Advances in Derp Learning — автор использует большую базу бесплатных шрифтов для обучения нейросети на реализацию двух функций: lowercase (сделать из большой буквы маленькую) и uppercase (наоборот). Попутно используется приём, очень напоминающий back-translation в машинном переводе с невыровненными корпусами, это позволяет пытаться научиться делать uppercase от уже заглавных букв (и lowercase от строчных). Результаты довольно жуткие, но видно, что работа проделана большая.
* openCHEAT: Computationally Helped Error bar Approximation Tool - Kickstarting Science 4.0 — авторы научили сеть дорисовывать на диаграммы фейковые доверительные интервалы, рекомендуют для повышения убедительности публикации.
Из совсем безумного юмора мне понравились:
* Back to Square One: Superhuman Performance in Chutes and Ladders Through Deep Neural Networks and Tree Search — прекрасная пародия на reinforcement learning статьи.
* The Urinal Packing Problem in Higher Dimensions — авторы обобщают задачу упаковки писсуаров до n-мерного случая и пытаются свести её к поиску maximal independent set. Напомню, что исходную одномерную задачу описал в своё время Рэндалл xkcd Манро, а я даже делал её перевод на русский.
* A Complete Survey of 0-Dimensional Computer Graphics — оставлю без комментариев.
Провел открытый урок, призванный заманить людей в ОТУС на курс Deep Learning. Во-первых прикольно — теперь со мной есть видос на ютубе. Во-вторых возможно будет вам полезно. Половину занимает введение в глубинное обучение, которое может быть интересно тем, кто знаком с ML и хочет заглянуть в DL. Вторую половину занимает разбор дисциляции неиронных сетей — учим маленькую нейросетку повторять за большой — что может быть интересно продвинутым в DS.
https://www.youtube.com/watch?v=GtFhOOiK5Ec
https://www.youtube.com/watch?v=GtFhOOiK5Ec
YouTube
Knowledge distillation: нейросети обучают нейросети // Демо-занятие курса «Deep Learning Basic»
* Recap сверточных нейросетей, классификация CIFAR100
* Как делать knowledge distillation, обзор подходов
* Обзор инструментов для этого
* Пример дисциляции в коллабе
«Deep Learning. Basic» - https://otus.pw/7lmU/
Преподаватель: Борис Цейтлин – имеет опыт…
* Как делать knowledge distillation, обзор подходов
* Обзор инструментов для этого
* Пример дисциляции в коллабе
«Deep Learning. Basic» - https://otus.pw/7lmU/
Преподаватель: Борис Цейтлин – имеет опыт…
Forwarded from Amsterdam #LIVE
Первая из историй: пришло пару месяцев (а именно, полгода) назад письмо от министерства здравоохранения (причём и мне, и моей девушке). В письме рассказывают: все мы когда-то умрем, и редко думаем о том, что будет после смерти, однако вы можете кому-то помочь даже с того света! Вы взрослый человек, поэтому мы вас спрашиваем - дадите ли вы своё согласие на использование ваших органов (либо на пересадку кому-то, кому они нужны, либо на научные исследования) после вашей смерти? Перед ответом советуют проконсультироваться с семьёй или партнёром. Варианты ответа:
1. Да
2. Нет
3. Я назову человека, который решит за меня, когда я умру
4. Спросите мою семью как придёт время
Если не отвечаешь на письмо, по дефолту попадаешь в категорию тех, кто согласен. Я посчитал это нормальным, но многие экспаты подумали, что это диковато. Как думаете?
1. Да
2. Нет
3. Я назову человека, который решит за меня, когда я умру
4. Спросите мою семью как придёт время
Если не отвечаешь на письмо, по дефолту попадаешь в категорию тех, кто согласен. Я посчитал это нормальным, но многие экспаты подумали, что это диковато. Как думаете?
Ре-бя-та. Вышла моя статья на хабре – результат трехмесячного независимого исследования по эпидемиологическому моделированию коронавируса. Позже я расскажу подробности, а пока просто ловите ссылку.
https://m.habr.com/ru/company/otus/blog/553638/
https://m.habr.com/ru/company/otus/blog/553638/
Хабр
Чем грозит Москве «британский» штамм COVID-19? Отвечаем с помощью Python и дифуров
Всем привет! Меня зовут Борис, я выпускник программы “Науки о данных” ФКН ВШЭ, работаю ML Инженером и преподаю в OTUS на курсах ML Professional, DL Basic, Computer Vision.В первых числах января...
Кстати, вот презентация с результатами. Гораздо компактнее статьи. Если ваш сосед по кьюбиклу крутит ручку антиковидных мер, то скиньте ему пожалуйста
👍1
Forwarded from Серёга Бомбит
О неравномерностях в науке
Рассмотрим двух ученых X и Y
Ученый X занимается материаловедением при хайповой лабе, где все оборудование стоит больше, чем годовой бюджет российского городка средней руки.
Ученый Y занимается computer science, конкретнее, разрабатывает открытую платформу для топологической оптимизации конструкций при помощи какого-нибудь нового вычислительного метода.
И вот они решили написать статью, каждый по своей тематике. Ученый X про усталостную прочность образцов с разными напылёнными покрытиями, ученый Y - про свою платформу
В Materials & Methods:
Ученый Y: скрупулезно описывает детали алгоритмов своей платформы, обосновывает каждое проектное решение, рисует блок схемы и пишет псевдокод, и верстает 0ver 9000 формул
Ученый X: воспроизводит ютубовский тренд 2013 года "что у меня в сумочке (зачеркнуто), что у меня в лабе есть за приборы". И установка для напыления у меня-то есть, и микроскоп, и разрывная машина, и киберсобака и транклюкатор из "Кин Дза Дза"
Ученый Y: прогоняет кучу разных тест задач, варьирует все возможные параметры алгоритмов
Ученый X: варьирует толщину напыленного покрытия и проводит тесты на четырехточечный изгиб с кручением вращающегося образца
В Results & Discussion:
Ученый Y: Дает возможные объяснения почему та или иная тест-задача не получилась, дает рекомендации по дальнейшему улучшению методов и алгоритмов своей платформы
Ученый X: Ну смотрите: вот у меня чем толще покрытие, тем больше усталостная прочность.
В results reproducibility (такого раздела в статьях нет, но энивей):
Ученый Y: я выложил свою платформу на гитхуб и написал подробный туториал, как воспроизвести результаты
Ученый X: лол, ну если найдете где-нибудь установку для плазменного напыления - велкам))))
В процессе подачи в журнал:
Рецензент, при рассмотрении статьи ученого X: This is an extremely valuable contribution to materials, engineering, accept with minor corrections. Please tell me MORE about your wonderful equipment
Рецензент, при рассмотрении статьи ученого Y: The novelty is highly questionable, the set of test problems is not comprehensive enough, major revision required
Что понадобилось ученым для достижения результата:
ученый Y: месяцы кодирования и вычислительных экспериментов
ученый X: бутер с колбасой и банка пива, чтобы не скучно было смотреть на процесс испытания на усталостную прочность
В итоге: оба ученых получают скопусовскую "палку", причем ученый X может просто нажать кнопки на оборудовании в другом порядке и получить новый результат. Ученому Y придется писать уже что-то новое, потому что про существующую платформу уже будет "dual publication"
Занавес.
P.S. Ситуация, конечно, гиперболизирована до абсурда, но в целом такое явление в науке есть.
Рассмотрим двух ученых X и Y
Ученый X занимается материаловедением при хайповой лабе, где все оборудование стоит больше, чем годовой бюджет российского городка средней руки.
Ученый Y занимается computer science, конкретнее, разрабатывает открытую платформу для топологической оптимизации конструкций при помощи какого-нибудь нового вычислительного метода.
И вот они решили написать статью, каждый по своей тематике. Ученый X про усталостную прочность образцов с разными напылёнными покрытиями, ученый Y - про свою платформу
В Materials & Methods:
Ученый Y: скрупулезно описывает детали алгоритмов своей платформы, обосновывает каждое проектное решение, рисует блок схемы и пишет псевдокод, и верстает 0ver 9000 формул
Ученый X: воспроизводит ютубовский тренд 2013 года "что у меня в сумочке (зачеркнуто), что у меня в лабе есть за приборы". И установка для напыления у меня-то есть, и микроскоп, и разрывная машина, и киберсобака и транклюкатор из "Кин Дза Дза"
Ученый Y: прогоняет кучу разных тест задач, варьирует все возможные параметры алгоритмов
Ученый X: варьирует толщину напыленного покрытия и проводит тесты на четырехточечный изгиб с кручением вращающегося образца
В Results & Discussion:
Ученый Y: Дает возможные объяснения почему та или иная тест-задача не получилась, дает рекомендации по дальнейшему улучшению методов и алгоритмов своей платформы
Ученый X: Ну смотрите: вот у меня чем толще покрытие, тем больше усталостная прочность.
В results reproducibility (такого раздела в статьях нет, но энивей):
Ученый Y: я выложил свою платформу на гитхуб и написал подробный туториал, как воспроизвести результаты
Ученый X: лол, ну если найдете где-нибудь установку для плазменного напыления - велкам))))
В процессе подачи в журнал:
Рецензент, при рассмотрении статьи ученого X: This is an extremely valuable contribution to materials, engineering, accept with minor corrections. Please tell me MORE about your wonderful equipment
Рецензент, при рассмотрении статьи ученого Y: The novelty is highly questionable, the set of test problems is not comprehensive enough, major revision required
Что понадобилось ученым для достижения результата:
ученый Y: месяцы кодирования и вычислительных экспериментов
ученый X: бутер с колбасой и банка пива, чтобы не скучно было смотреть на процесс испытания на усталостную прочность
В итоге: оба ученых получают скопусовскую "палку", причем ученый X может просто нажать кнопки на оборудовании в другом порядке и получить новый результат. Ученому Y придется писать уже что-то новое, потому что про существующую платформу уже будет "dual publication"
Занавес.
P.S. Ситуация, конечно, гиперболизирована до абсурда, но в целом такое явление в науке есть.
Говорят...
Консультанты всегда отправляют нюдсы презентацией.
Прожекты сразу после секса устраивают ретро: что было хорошо и что можно улучшить.
Продакты встречаются с двумя разными партнёрами, а потом сравнивают и бросают одного.
Интеграторы привлекают кого-то со стороны, а сами только контролируют процесс.
Фронтендеры ждут, что партнер сделает всю работу.
Site Reliability Engineers постоянно боятся, что все упадет.
ML инженеры получают удовольствие только с моделями.
С тестировщиками вообще травмоопасно.
Консультанты всегда отправляют нюдсы презентацией.
Прожекты сразу после секса устраивают ретро: что было хорошо и что можно улучшить.
Продакты встречаются с двумя разными партнёрами, а потом сравнивают и бросают одного.
Интеграторы привлекают кого-то со стороны, а сами только контролируют процесс.
Фронтендеры ждут, что партнер сделает всю работу.
Site Reliability Engineers постоянно боятся, что все упадет.
ML инженеры получают удовольствие только с моделями.
С тестировщиками вообще травмоопасно.
👍1
Я мог бы рассказывать про свои исследования, но вы только посмотрите на юморески
Третье выступление за две недели. Очень радует ОТУС, что дает возможность умно говорить в камеру, но у меня скоро язык отвалится.
Forwarded from Kedr to Earth | Земля, я Кедр (✅ Yuri Ammosov)
Кейс-стади одного "индийского кода"...
Боюсь, что докторант Адитья Паттаки даже не понял, ачетакова. "Культурные особенности".
В списке разработчиков ядра Linux произошли изменения – из него исключен Университет Миннесоты (University of Minnesota, UMN). Такое решение, пишет портал Neowin, принял лично Грег Кроа-Хартман (Greg Kroah-Hartman) – ответственный за поддержку стабильной ветки ядра.https://www.cnews.ru/news/top/2021-04-22_krupnogo_razrabotchika_yadra
Кроа-Хартман подчеркнул, что сотрудники Университета выпускали патчи для Linux, содержавшие различные уязвимости, и делали они это намеренно. В вузе была сформирована специальная исследовательская группа, которая проводила эксперимент по изучению возможности внедрения скрытых уязвимостей в различные проекты с исходным кодом. Входящие в нее разработчики в ходе своего исследования наблюдали за реакцией Linux-сообщества и попутно готовили статью «Возможность скрытого внедрения уязвимостей в программное обеспечение с открытым исходным кодом с помощью поддельных коммитов» (On the Feasibility of Stealthily Introducing Vulnerabilities in Open-Source Software via Hypocrite Commits).
Университет Миннесоты в рамках своего исследования незаметно внедрил в ядро Linux уязвимость Use-After-Free, но сообщество посчитало это этичным экспериментом. Гнев Грега Кроа-Хартмана вызывала еще одна попытка умышленной «порчи» ядра. Он связался с автором патча, которым оказался студент факультета компьютерных наук и инженерии Адитья Пакки (Aditya Pakki), и тот попытался оправдаться, заявив, что разработал «новый статистический анализатор», и что подготовил патч в соответствии с результатами проверки в нем.
Грег Кроа-Хартман решил исключить Университет Миннесоты из числа разработчиков ядра Linux. Все новые патчи, присылаемые связанными с ними программистами, не будут приниматься к рассмотрению и в новые сборки Linux больше не попадут.
На момент публикации материала Кроа-Хартман откатил около 190 исправлений, присланных с адресов «@umn.edu». Все они отправлены на проверку, и некоторые из них успели пройти ее – сомнительные элементы в них обнаружены не были, однако ряд патчей все же содержали небольшие ошибки.
Боюсь, что докторант Адитья Паттаки даже не понял, ачетакова. "Культурные особенности".
CNews.ru
Крупного разработчика Linux изгнали из сообщества за издевательские эксперименты над пользователями - CNews
Университет Миннесоты был исключен из числа разработчиков ядра Linux – его сотрудники намеренно разрабатывали...
# Уличная эпидемиология I
8 января я избегал новостей о ковиде и терпеть не мог хайповые статьи разряда "Применяем ML к COVID-19, чтобы попиариться". 9 января я уже писал в канал большой пост про британский штамм коронавируса. 10 января я начал изучать статьи по прогнозированию эпидемии коронавируса. И вот мы здесь. Спустя 4 месяца: собственное исследование завершено, результаты опубликованы на хабре, научная статья в разработке. И я всё ещё надеюсь донести до СМИ простой посыл: есть вероятность, что британский штамм сделает нам очень больно, и нужно подготовиться. В этом посте будет рефлексия: науку делать очень сложно, эпидемиологи ничего не понимают, а я доволен собой.
Всё началось с того, что я увидел страшный прогноз новой волны из-за британского штамма. Он впечатлил меня, но полностью доверять чужой модели я не мог: у неё не было верификации на исторических данных. В научных статьях всё оказалось ещё хуже: много умных слов и формул, ничего полезного.
Тогда появилась идея: сделать свою модельс блекджеком и дифурами и оценить угрозу нового штамма для России! Здесь все круги Эйлера пересеклись. Во-первых, проект важный: может погибнуть множество людей, а значит предупредить всех это шанс им помочь. Во-вторых, выгодно: если всё получится, то можно получить хорошую репутацию. Даже в случае провала будет статья, которая поможет поступить на PhD. Похвастаться можно в конце-концов. В-третьих, это мне по силам. Казалось несложной задачей: мы проходили подобные модели в магистратуре, математика на уровне первого курса, разберусь как-нибудь. В-четвертых, у меня хватало на это времени. Было ощущение, что у меня нет выбора не заниматься этой моделью.
8 января я избегал новостей о ковиде и терпеть не мог хайповые статьи разряда "Применяем ML к COVID-19, чтобы попиариться". 9 января я уже писал в канал большой пост про британский штамм коронавируса. 10 января я начал изучать статьи по прогнозированию эпидемии коронавируса. И вот мы здесь. Спустя 4 месяца: собственное исследование завершено, результаты опубликованы на хабре, научная статья в разработке. И я всё ещё надеюсь донести до СМИ простой посыл: есть вероятность, что британский штамм сделает нам очень больно, и нужно подготовиться. В этом посте будет рефлексия: науку делать очень сложно, эпидемиологи ничего не понимают, а я доволен собой.
Всё началось с того, что я увидел страшный прогноз новой волны из-за британского штамма. Он впечатлил меня, но полностью доверять чужой модели я не мог: у неё не было верификации на исторических данных. В научных статьях всё оказалось ещё хуже: много умных слов и формул, ничего полезного.
Тогда появилась идея: сделать свою модель
Я расчитывал закончить всё моделирование за две недели. Больше я своим оценкам сроков не доверяю и вам не советую. Спустя две недели я построил модель, которая прогнозировала: или все уже умерли, или все уже выздоровели, или ковида вообще не было. Я думал, что сделать свою модель будет инженерной задачей: просто подсмотреть методы умных людей и сделать так же. Задача на самом деле оказалась научной: умные люди не больше моего знали, что делать.
Пусть ты делаешь обычный проект, например сайт. Известно, что при достаточных усилиях он будет сделан. С каждым часом работы появляются новые кнопочки, стили становятся менее уродливыми, проект приближается к завершению. Когда ты делаешь науку всё вообще не так. Принесет ли очередная идея какое-то улучшение? Узнаешь когда сделаешь! Скорее всего не принесет. И скорее всего ты в процессе даже ничего полезного не узнаешь. Никаких гарантий, никакой обратной связи, никакого инкрементального прогресса.
Как улучшить модель? Было слишком много гиппотез. Может быть изменить функцию ошибки? Может быть нужно ввести распределение населения по возрастам? А может быть госпитализацию? Перегрузку больниц? Или в данных слишком много шума? А может просто где-то в коде ошибка? Для каждой гиппотезы найдется стопка статей, где авторы утверждают, что именно она у них сработала. И все друг другу противоречат. Попробовать всё не выйдет: пока закончишь новая волна уже случится.
К концу первого месяца работа над моделью вызывала такую ассоциацию: это как жевать стекло. Я сильно сомневался. Может быть дифуры из 1927 года вообще не способны описать эпидемию? У меня было слишком много гиппотез и никакой уверенности, что ими вообще стоит заниматься.
Я забросил проект на пару недель. Каждый день собирался сесть за него, но всегда находились дела поважнее. Я понял, что ещё чуть-чуть и я его заброшу. Причем тихо так, незаметно, чтобы не брать на себя ответственность. Это ведь не я бросил свою затею, это "что-то не пошло", "не хватило времени", "я ведь попробовал, получил опыт". Мне было смешно и странно: у меня были все причины довести проект до конца и никаких причин не доводить, но страшно хотелось его бросить.
Пусть ты делаешь обычный проект, например сайт. Известно, что при достаточных усилиях он будет сделан. С каждым часом работы появляются новые кнопочки, стили становятся менее уродливыми, проект приближается к завершению. Когда ты делаешь науку всё вообще не так. Принесет ли очередная идея какое-то улучшение? Узнаешь когда сделаешь! Скорее всего не принесет. И скорее всего ты в процессе даже ничего полезного не узнаешь. Никаких гарантий, никакой обратной связи, никакого инкрементального прогресса.
Как улучшить модель? Было слишком много гиппотез. Может быть изменить функцию ошибки? Может быть нужно ввести распределение населения по возрастам? А может быть госпитализацию? Перегрузку больниц? Или в данных слишком много шума? А может просто где-то в коде ошибка? Для каждой гиппотезы найдется стопка статей, где авторы утверждают, что именно она у них сработала. И все друг другу противоречат. Попробовать всё не выйдет: пока закончишь новая волна уже случится.
К концу первого месяца работа над моделью вызывала такую ассоциацию: это как жевать стекло. Я сильно сомневался. Может быть дифуры из 1927 года вообще не способны описать эпидемию? У меня было слишком много гиппотез и никакой уверенности, что ими вообще стоит заниматься.
Я забросил проект на пару недель. Каждый день собирался сесть за него, но всегда находились дела поважнее. Я понял, что ещё чуть-чуть и я его заброшу. Причем тихо так, незаметно, чтобы не брать на себя ответственность. Это ведь не я бросил свою затею, это "что-то не пошло", "не хватило времени", "я ведь попробовал, получил опыт". Мне было смешно и странно: у меня были все причины довести проект до конца и никаких причин не доводить, но страшно хотелось его бросить.