Карты и функции
421 subscribers
66 photos
1 video
1 file
60 links
О географии, анализе данных и пространственном моделировании. By @alexandersheludkov
Download Telegram
Хотел найти фото в тему - это я первый раз сажусь за руль нового для себя средства мобильности этой весной во Вьетнаме 😁
23👍7
Естественные пределы предсказуемости. Ч. 1

В продолжение предыдущего поста о моделях мобильности населения. Я писал, что эмпирическая точность таких моделей редко превышает 70-80%. А можно ли определить какой-то естественный (теоретический) порог точности? Другими словами, насколько перемещения людей в принципе потеницально предсказуемы?

С одной стороны, на уровне индивидов транспортное поведение крайне разнообразно и зависит от огромного количества факторов, включая тип мобильности, локальный контекст города/местности, время суток, день недели, сезон и пр., характеристики самих индивидов - гендер, возраст, профессия, образ жизни и т.д. С другой стороны, перемещения людей отличаются заметной регулярностью: большинство наших поездок охватывают одни и те же места. В пользу предсказуемости говорит и тот факт, что потоки мобильности тесно связаны со структурой городского пространства, в котором функциональная центральность мест, частота и дальность поездок жителей формируют равновесные системы (интересная статья на эту тему).
6👍2
Естественные пределы предсказуемости. Ч. 2

С появлением больших данных о мобильности было сделано несколько попыток оценить такую потеницальную предсказуемость с точки зрения теории информации. Например, в широко цитируемой работе в Science 2010 г. авторы оценивали неопределенность индивидуальных перемещений на основе разных энтропийных мер и пришли к выводу, что потенциальная предсказумость перемещений человека не зависит от дальности поездок и в среднем составляет 93%. Таким образом, лишь 7% перемещений можно назвать случайными. В схожей работе 2013 г. оценка авторов оказалась чуть ниже - 88%, но им также удалось показать, что этот предел эмпирически достижим: модели на основе марковских цепей показали точность в 87% (а в некоторых условиях - и выше).

Рисунок: иллюстрация из статьи китайских авторов, которая на данных из разных стран показывает, что в структуре перемещений людей доминируют простые двух- и трехчастные поездки.
👍9🔥41
Хорошие новости

Эта неделя принесла сразу две хорошие новости.

Первая - вышли «Провоцирующие ландшафты». Это книга о пространстве и о путешествиях, в которой переплетаются самые разные сюжеты, написанные историками, антропологами и географами. Читатель обнаружит главы о водных каналах в далеком Заболотье, гигантских промзонах уральских городов, о сельских мечетях, зимниках и плавмагазинах; о том, как на деревенских пустырях живут призраки прошлого, как из археологических памятников возникают новые «святые» и туристические места и о многом другом. Все эти истории разворачиваются в очень конкретных местах, а вместе создают рассказ о большом и интересном регионе между Уралом и Тоболом. Все написаны по итогам путешествий, где мы собирали материал, обсуждали, осмысляли и проживали увиденное.

Я благодарен Федору Корандею, главному организатору и вдохновителю проекта, за приглашение принять участие в этой работе. Моя глава рассказывает о городском фронтире современных Тюмени и Екатеринбурга — о векторах и формах городского роста, стремительно меняющем ландшафт повседневности внутри и вокруг двух столиц. Как и во всей книге, вы найдете в ней не только академический взгляд, но и немного литературы — моих личных впечатлений и размышлений.

Вторая новость - победа на выборах лучших преподавателей на факультете. Это очень приятно! Спасибо всем моим студентам
26🔥11👍5❤‍🔥1
Географически-взвешенная регрессия (GWR)

Один из моих любимых методов. GWR — это частный случай локально-взвешенной регрессии, в которой веса наблюдений определяются расстояниями. Метод работает, когда сила и характер статистической связи между переменными меняются в пространстве вместе с локальными условиями (т.е. мы имеем дело с нестационарным процессом).

На рисунке пример из нашей статьи по староосвоенным районам Европейской России и Урала. В этой работе мы смотрели, как положение в центр-периферийной структуре региона (выраженное через расстояние до столицы и размер районного центра) влияло на плотность населения и миграционную динамику в районах и городах (данные за 2015-21 гг.). Хотя характер связи везде одинаков — чем дальше район и слабее его собственный центр, тем выше вероятность депопуляции, — сила этой связи менялась от региона к региону. Самая высокая — в Нечерноземье: здесь факторы положения объясняли свыше 60% различий между районами в плотности населения и до 40% различий в показателях миграционного прироста. Самая слабая — в Среднем Поволжье.

Природа таких различий между регионами — в сложном комплексе социально-экономических, демографических, этнокультурных и прочих факторов, которые усиливают или ослабляют эффекты центральности и периферийности. И GWR оказалась хорошим способом их показать. Таким образом, за счет включения в модель локального контекста GWR позволяет ухватить множество проявлений пространственной гетерогенности, которые часто неизвестны или сложно формализуемы в качестве отдельных независимых переменных.

Для поиска нелинейных связей, особенно в прогнозных задачах, существуют реализации GWR на основе нейронных сетей и деревьев решений.
👍15🔥64🤯42
WorldPop: методы и данные

WorldPop - крупнейший создатель открытых глобальных пространственных данных о населении. Главным продуктом в их линейке являются детальные (100 м) модели численности/плотности населения, которые широко используются не только учеными, но и для гуманитарных целей в деятельности ООН и других некоммерческих организаций.

Философия проекта следует принципам открытой науки: авторы не только подробно рассказывают, какими методами созданы те или иные продукты, но и делятся сырыми данными.

В прошлом году лаборатория выпустила WorldPop Book of Methods, в которой авторы обсуждают методологические допущения моделирования плотности населения, разбирают конкретные алгоритмы и сложные кейсы и приводят обучающие материалы с примерами кода. Рисунок выше - пример top-down дезагрегации результатов переписи для Сан-Паулу, Бразилия, из соответствующей главы книги.

Предикторы для моделей доступны в виде отдельных слоев по миру и отдельным странам: это данные о топографии, климате, речной и дорожной сети, землепользовании, плотности застройки и интенсивности ночного излучения - всего 73 набора. Самое главное, что они уже гармонизированы, то есть даны в едином пространственном (100 м) и временном (2015-2020(23) гг.) разрешении. Источники данных и алгоритм гармонизации описаны в отдельной статье.

Так что, если даже вас не интересуют модели плотности населения, на сайт проекта стоит заглянуть - можно найти много других полезных данных.
🔥9👍63
Дорожная сеть в метрополитенском ареале Хельсинки

Технический рисунок из одного сайд-проекта. Данные: © OpenStreetMap contributors, Overture Maps Foundation.
15
Открытые данные о мобильности населения

Для учебных и научных задачек часто ищу открытые данные. Найти что-то по мобильности - большая редкость. Делюсь находками:

spanishoddata: пакет на R, который дает доступ к открытым данным Министерства транспорта и устойчивой мобильности Испании. Данные охватывают территорию всей Испании и доступны в двух версиях: за 2020-21 гг. и с 1 января 2022 г. по настоящее время. Это полноценные матрицы корреспонденции для 3.9 тыс. зон на основе переписных округов с часовым разрешением, составленные по данным мобильных операторов и обогащенные социально-демографической информацией (пол, возраст, уровень дохода). В общем, золото, а не данные. Авторы пакета также снабдили его функциями для быстрой предобработки, а на официальной странице можно найти ссылки на туториалы и воркшопы с примерами анализа и визуализации - как на рисунке выше, где показаны перемещения людей в Барселоне 7 апреля 2021 г.

Население метрополитенского ареала Хельсинки за 24 часа: еще один датасет на основе данных мобильных операторов и статья с рассказом о его создании в Sci Data. Это не совсем данные о перемещениях, но близко - сеточные данные о том, как меняется распределение населения в столице Финляндии и ее пригородах каждый час в будни и выходные дни. Данные собирались в течение октября 2017-января 2018 гг., затем авторы очистили их от шумов и интерполировали с точек базовых станций в ячейки размером 250 м через данные о землепользовании и застройке. На втором рисунке, она из статьи, показано распределение населения в будни между 12 и 13 часами.

Pseudo-PFLOW: синтетические данные о мобильности населения Японии. Это полностью сгенерированный датасет, основанный на переписных и опросных данных, OpenStreetMap и других открытых источниках информации, который затем валидировали по данным сотовых операторов и опросам. Здесь интересен многоступенчатый подход к созданию данных: авторы использовали несколько моделей, которые сначала генерили социально-демографические характеристики домохозяйств, их расписание (частоту и цель поездок), затем выбор места назначения, маршрут и, наконец, тип транспорта. Иллюстрация шагов - на рисунке из статьи выше. В итоге получился объемный набор данных на 130 млн синтетических японских жителей. Для доступа к датасету требуется регистрация на сайте.

Если вам известны другие примеры открытых данных о мобильности, делитесь, пожалуйста, в комментариях
17🔥3
Стоимость жилья и транспортная доступность

В Известиях вышла наша с Петей Гонюховым статья об эффектах транспортной доступности для цен на жилую недвижимость. Текст написан по материалам курсовой работы Пети на 3 курсе.

Проблематизация строится вокруг идеи, что в условиях роста автомобилизации населения доступность центра города на личном транспорте будет оказывать большие эффекты для цен на жилье, чем доступность общественным транспортом. Полигоном исследования выступил Саратов. Данные были взяты с Kaggle из датасета с объявлениями о продажи квартир на сайтах крупнейших агрегаторов в 2021 г. Различия в характеристиках квартир контролировались через средний возраст зданий. Кроме того, мы тестили два определения центра города - географический (центр улично-дорожной сети) и исторический/деловой (то, что принято считать центром в самом городе). Различия показаны на рисунке выше.

В итоге, получилась иллюстрация классической моноцентрической модели города, где цена предложения продажи жилья линейно падает по мере удаления от (делового) центра города. Вопреки ожиданиям, доступность общественным транспортом оказалась лучшим предиктором, что мы связали с более сильными контрастами доступности по сравнению с автомобилем. В дополнение Петя выделил два субцентра в городе, которые можно использовать для оптимизации сети маршрутов автобусов и трамваев, чтобы сгладить эти контрасты.

В РАНовских журналах статьи закрыты в течение года после публикации, но если вам интересно, напишите в комментариях - я пришлю текст.

UPD: вышла переводная версия статьи в Regional Research of Russia (open access).
21👍8🔥3
Семинар НУГ - DEGURBA для России

Совсем недавно Департамент по экономическим и социальным вопросам ООН выпустил новый доклад о перспективах мировой урбанизации (WUP 2025). Согласно докладу, в сельской местности сегодня проживает лишь 19% мирового населения, в то время как на города и иные городские территории приходится 81% жителей планеты. Для сравнения, текущие расчеты на основе данных национальных статистических служб дают соотношение городского и сельского населения в мире как 58 против 42%.

Новые оценки основаны на использовании унифицированной методики классификации территорий по уровню урбанизированности DEGURBA. DEGURBA полагается на морфологические критерии плотности населения в ячейках регулярной сетки размером 1 км, их смежности и размера выделенных ареалов расселения. Для расчетов авторы WUP использовали данные GHS-POP. Первый рисунок выше - из доклада.

Пожалуй, самый интересный вопрос, дает ли новая методика лучшее понимание различий в образе жизни людей и социально-экономическом положении территорий с разным уровнем урбанизированности. Полгода назад мы опубликовали скорректированные для России данные GHS-POP, приведя их в соответствие результатам переписи населения 2021 года и устранив некоторые ошибки классификации территорий. И как раз сейчас готовим к публикации новый набор данных с результатами DEGURBA для России и их валидацией через сравнение с данными муниципальной статистики. Кусочек этих данных - на втором рисунке.

Приходите на семинар 1 декабря послушать, что у нас получилось. Или подключайтесь онлайн.
Регистрация - по ссылке: https://geography.hse.ru/nug/announcements/1105742291.html
👍154
Найти центры в стоге связок

Данные о потоках и связях часто непросто показать на карте: в плотных сетях, особенно с большим числом узлов и ребер, линии накладываются и перекрывают друг друга. Для визуализации таких данных используют приемы кластеризации связей (edge bundling), которые по разным правилам собирают линии, идущие в одном направлении, в связки или пучки (bundles).

Решил опробовать пару таких алгоритмов. Для примера взял данные о количестве дружеских связей в VK между жителями райнов и городов в регионах Уральского экономического района и Тюменской области в 2015 г. Учитывались только связи более 250 человек. Получился ненаправленный граф с 66.4 млн связей. Сеть - с высокой связностью (почти все связаны со всеми) и иерархичностью: на 12 главных узлов приходится половина всех связей. Лидирует Екатеринбург, у жителей которого 14 млн друзей за пределами города.

Выше три рисунка: с прямыми линиями для референса и два варианта с кластеризацией, алгоритимы которых реализованы в пакете edgebundle в R. Долго подбирал настройки. Получается любопытно, но опасно: кластеризация неизбежно искажает данные - нужно искать баланс между визуальными эффектами и точностью отображения.

Пока делал, наткнулся на симпатичную статью о картографической визуализации матриц корреспонденций, с примерами и простыми советами, которые авторы верифицировали через интервью с пользователями. Послединий рисунок - из статьи.
🔥21👍6❤‍🔥32🤯2
Три медианы о расселении

В июне мы опубликовали набор сеточных данных о плотности населения в России, скорректировав глобальные данные GHS-POP по результатам переписи 2021 года. Методология коррекции описана вот здесь. С тех пор набор скачали больше 360 раз. Здорово, что данные оказались полезны. И любопытно, в каких задачах они нашли применение.

Сеточные данные хороши тем, что удобны для расчетов: не зависят от административных границ, легко интегрируются с другими видами данных, как растровых, так и векторных, - позволяют извлекать значения по точкам, агрегировать в границах полигонов и буферов, сопоставлять с другими, в том числе физико-географическими, данными, например, чтобы использовать значения численности населения в качестве весов.

На первом рисунке - визуализация плотности населения в 2021 г.: расселение в нашей стране сдвинуто на юг и запад. Чтобы показать этот сдвиг, я добавил пунктиром две линии - взвешенные по населению медианные долготу и широту: половина населения России в 2021 г. жила западнее 44° в.д. и половина населения - южнее 55° с.ш. Точка, где две эти линии сходятся, находится в Нижегородской области (в лесу), примерно в 44 км от Арзамаса.

На втором рисунке - средние январские температуры 2021 г. по данным CHELSA. Плотность населения здесь уже дана схематично. На большей части страны температуры ниже -20 - -30°С, но если пересчитать через население, медиана окажется всего -7°С. Изотерма проходила немного восточнее Москвы, Петербурга и Саратова. То есть для половины населения январь 21 г. был в среднем теплее -7°С.

А вот какой будет январь 2026 г., скоро узнаем. Всех с наступающим!
🔥1710