Ещё одна неприятная новость по открытости данных в России, с 1 января 2023 года Генеральная прокуратура перестала публиковать ежемесячную статистику преступности на портале crimestat.ru [1]. Официальная причина звучит так։ В связи с доработкой функциональности портала правовой статистики размещение статистических данных с 01.01.2023 приостановлено.
Но, при этом, дата продолжения публикация не обозначена, а других общедоступных ресурсов с хотя бы даже ежемесячным обновлением этой статистики - нет.
Для сравнения аналитика и статистика на сайте МВД всегда публиковалась в виде кратких сводок в формате PDF [2]. Причём это, конечно, не случайность, МВД вполне осознанно публиковали эти данные только в самом неудобном виде и их цифры могут (всегда?) отличаться от цифр на портале правовой статистики.
Ссылки։
[1] http://crimestat.ru
[2] https://мвд.рф/reports/item/35396677/
#opendata #datasets #closeddata #russia
Но, при этом, дата продолжения публикация не обозначена, а других общедоступных ресурсов с хотя бы даже ежемесячным обновлением этой статистики - нет.
Для сравнения аналитика и статистика на сайте МВД всегда публиковалась в виде кратких сводок в формате PDF [2]. Причём это, конечно, не случайность, МВД вполне осознанно публиковали эти данные только в самом неудобном виде и их цифры могут (всегда?) отличаться от цифр на портале правовой статистики.
Ссылки։
[1] http://crimestat.ru
[2] https://мвд.рф/reports/item/35396677/
#opendata #datasets #closeddata #russia
Совсем свежий портал открытых данных публикуемых по стандарту Open Contracting - data.open-contracting.org [1]
Всего 103 набора данных о контрактах, закупках, планах закупок, документах к закупкам, этапах и изменениях.
Охватывает много стран, из стран постсоветского пространства это Эстония, Киргизия, Грузия, Молдавия, Латвия и Литва.
Интерфейс сайта на английском, испанском и что, немного, удивительно на русском языке. Странно также что нет данных из Украины, из системы Prozorro, как я помню это была одна из наиболее продвинутых систем по раскрытию данных в этом стандарте.
Для полного счастья не хватает только API к этому реестру, но и эти данные выглядят весьма неплохо для тематического структурированного каталога данных.
Ссылки։
[1] https://data.open-contracting.org/
#opendata #spending #contracts #datasets
Всего 103 набора данных о контрактах, закупках, планах закупок, документах к закупкам, этапах и изменениях.
Охватывает много стран, из стран постсоветского пространства это Эстония, Киргизия, Грузия, Молдавия, Латвия и Литва.
Интерфейс сайта на английском, испанском и что, немного, удивительно на русском языке. Странно также что нет данных из Украины, из системы Prozorro, как я помню это была одна из наиболее продвинутых систем по раскрытию данных в этом стандарте.
Для полного счастья не хватает только API к этому реестру, но и эти данные выглядят весьма неплохо для тематического структурированного каталога данных.
Ссылки։
[1] https://data.open-contracting.org/
#opendata #spending #contracts #datasets
В рубрике любопытных стартапов на данных и не только, Spellbook.legal [1] обещают ИИ помогающий составлять контракты, соглашения, NDA и другие юридические документы. Они не одни такие, таких стартапов сейчас всё больше. Они добывают в открытом доступе и другими способами базы таких документов и обучают ИИ писать по их подобию.
Я подозреваю что найдутся юристы кто возразит что ИИ может написать что угодно, но кому-то надо будет пойти в суд, заниматься досудебным разбирательством и тд. Поэтому всю работу корпоративных юристов это не убьёт, но может сильно сократить рынок внешних услуг написания таких текстов, и обрушить рынок труда начинающих юристов.
А что вы думаете от каких профессий нужно не то чтобы избавиться, но сильно автоматизировать и сократить?
Ссылки։
[1] https://www.spellbook.legal
#ai #legal #data #startups
Я подозреваю что найдутся юристы кто возразит что ИИ может написать что угодно, но кому-то надо будет пойти в суд, заниматься досудебным разбирательством и тд. Поэтому всю работу корпоративных юристов это не убьёт, но может сильно сократить рынок внешних услуг написания таких текстов, и обрушить рынок труда начинающих юристов.
А что вы думаете от каких профессий нужно не то чтобы избавиться, но сильно автоматизировать и сократить?
Ссылки։
[1] https://www.spellbook.legal
#ai #legal #data #startups
Совсем забыл о том что ещё в прошлом году поучаствовал в выпуске об открытых исследовательских данных [1] подкаста «Всегда открыты» Управления научно-информационного развития и библиотечного обеспечения РАНХиГС.
Я, насколько мог, рассказывал о том как публикуются открытые научные данные в мире, какие есть проекты, какая создаётся инфраструктура, в мире конечно, не в России. Про открытость исследовательских данных я пишу тут регулярно, тема огромная, практически полностью выпавшая из российского "домена Наука" (даже язык не поворачивается назвать его госпроектом).
Ссылки։
[1] https://music.yandex.ru/album/23939131/track/110800285
#opendata #openaccess #openscience
Я, насколько мог, рассказывал о том как публикуются открытые научные данные в мире, какие есть проекты, какая создаётся инфраструктура, в мире конечно, не в России. Про открытость исследовательских данных я пишу тут регулярно, тема огромная, практически полностью выпавшая из российского "домена Наука" (даже язык не поворачивается назвать его госпроектом).
Ссылки։
[1] https://music.yandex.ru/album/23939131/track/110800285
#opendata #openaccess #openscience
Яндекс Музыка
Об открытых исследовательских данных с Иваном Бегтиным слушать онлайн на Яндекс Музыке
Слушайте на Яндекс Музыке
В продолжение истории про Slack и о том что Slack добровольно урезал функциональность своего продукта российским НКО
Деятельность НКО и телекоммуникации были исключены из санкций США ещё в апреле [1], поэтому у Slack нет обязанности понижать или отключать рабочие пространства российских организаций. И действия, подобные тем, что они совершают, осудили эксперты ООН [2].
Организация Access Now [3] готова помочь российским НКО. Они уже помогают с восстановлением доступа к услугам Mailchimp. Но для разбирательства so Slack им нужно знать о как можно большем количестве случаев урезания функциональности или отключения рабочих пространств российским НКО.
Если вы представитель одной из пострадавших НКО и хотели бы восстановить утраченное и/или помочь в этом другим российским организациям, сообщите о своём случае на линию поддержки Access Now по адресу accessnow.org/help-ru [4]
Спасибо Дмитрию Цветкову из российской организации НКО «Голоса за животных», за то что он заморочился этой темой и подготовил этот текст.
Лично я от себя добавлю что даже если ложки найти, осадок останется. Проще развернуть открытый код или создавать сообщества в Telegram/Matrix чем пользоваться Slack'ом, очень мало доверия им теперь. Но у каких-то организаций там были довольно большие сообщества и у них, можно сказать, выбора нет.
Ссылки։
[1] https://home.treasury.gov/news/press-releases/jy0722
[2] https://www.ohchr.org/en/press-releases/2022/07/russia-un-experts-condemn-civil-society-shutdown
[3] http://accessnow.org/
[4] http://accessnow.org/help-ru
#sanctions #russia #slack
Деятельность НКО и телекоммуникации были исключены из санкций США ещё в апреле [1], поэтому у Slack нет обязанности понижать или отключать рабочие пространства российских организаций. И действия, подобные тем, что они совершают, осудили эксперты ООН [2].
Организация Access Now [3] готова помочь российским НКО. Они уже помогают с восстановлением доступа к услугам Mailchimp. Но для разбирательства so Slack им нужно знать о как можно большем количестве случаев урезания функциональности или отключения рабочих пространств российским НКО.
Если вы представитель одной из пострадавших НКО и хотели бы восстановить утраченное и/или помочь в этом другим российским организациям, сообщите о своём случае на линию поддержки Access Now по адресу accessnow.org/help-ru [4]
Спасибо Дмитрию Цветкову из российской организации НКО «Голоса за животных», за то что он заморочился этой темой и подготовил этот текст.
Лично я от себя добавлю что даже если ложки найти, осадок останется. Проще развернуть открытый код или создавать сообщества в Telegram/Matrix чем пользоваться Slack'ом, очень мало доверия им теперь. Но у каких-то организаций там были довольно большие сообщества и у них, можно сказать, выбора нет.
Ссылки։
[1] https://home.treasury.gov/news/press-releases/jy0722
[2] https://www.ohchr.org/en/press-releases/2022/07/russia-un-experts-condemn-civil-society-shutdown
[3] http://accessnow.org/
[4] http://accessnow.org/help-ru
#sanctions #russia #slack
Открытость - это не только данные, например, пишут что РЖД сжали все изображения в фотобанке у себя на сайте [1] до 800x533 и теперь журналисты не могут использовать оттуда изображения и вынуждены покупать другие в фотобанках или использовать какое-то одно постоянно. Вопрос тогда, а зачем РЖД фотобанк ведёт? А самое главное, почему вместо того чтобы публиковать изображения, например, под свободными лицензиями вроде Creative Commons, они наоборот превращают свою фотогалерею в бессмысленное явление на которое ещё и деньги тратят, как я полагаю. В фотобанке более 22 тысяч фотографий, так что это не маленькое изменение, а довольно существенное.
Не последний вопрос в том зачем они это делают. Это такая военная цензура по сокрытию информации об объектах критической инфраструктуры? Личная неприязнь к журналистам ? Глупость? Интенция продавать фотографии в будущем ? Как бы то ни было, идёт в копилку развития закрытости в России.
Ссылки։
[1] https://t.me/today1520/3978
#russia #closeddata #photo #rzd
Не последний вопрос в том зачем они это делают. Это такая военная цензура по сокрытию информации об объектах критической инфраструктуры? Личная неприязнь к журналистам ? Глупость? Интенция продавать фотографии в будущем ? Как бы то ни было, идёт в копилку развития закрытости в России.
Ссылки։
[1] https://t.me/today1520/3978
#russia #closeddata #photo #rzd
Telegram
1520. Все о ж/д
У РЖД на официальном сайте есть фотобанк. В компании справедливо полагали, что если СМИ нужна фотография для иллюстрации текста про деятельность РЖД, то редактор зайдет на сайт, выберет нужное фото и использует его.
Со всех сторон отличная задумка! РЖД одновременно…
Со всех сторон отличная задумка! РЖД одновременно…
В рубрике исчезающих открытых данных в России (теперь эта рубрика будет частой, читайте по тегу #closeddata) исчезнувшие данные по системообразующим предприятиям и по НКО наиболее пострадавшим при COVID-19.
Первый набор данных данных по системообразующим предприятиям был доступен на сайте данных Минэкономразвития РФ data.economy.gov.ru [1] до начала 2022 года, после чего исчез. А второй, по пострадавшим НКО исчез ещё в 2021 году [2].
А теперь при открытии главной страницы этого сайта открывается только набор данных с перечнем СО НКО [3].
Если по системообразующим предприятиям ещё что-то можно было предположить по санкциям, то второй датасет выглядит как заметание следов.
Я про данные российского Минэкономразвития писал ещё 2.5 года назад в колонке в РБК [3]. С той поры мало что поменялось, хотя нет, всё хуже и хуже у министерства с данными.
Ссылки։
[1] https://web.archive.org/web/20220205012417/https://data.economy.gov.ru/
[2] https://web.archive.org/web/20210908020047/https://data.economy.gov.ru/analytics/sonko-affected
[3] https://data.economy.gov.ru
[4] https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585
#opendata #closeddata #russia
Первый набор данных данных по системообразующим предприятиям был доступен на сайте данных Минэкономразвития РФ data.economy.gov.ru [1] до начала 2022 года, после чего исчез. А второй, по пострадавшим НКО исчез ещё в 2021 году [2].
А теперь при открытии главной страницы этого сайта открывается только набор данных с перечнем СО НКО [3].
Если по системообразующим предприятиям ещё что-то можно было предположить по санкциям, то второй датасет выглядит как заметание следов.
Я про данные российского Минэкономразвития писал ещё 2.5 года назад в колонке в РБК [3]. С той поры мало что поменялось, хотя нет, всё хуже и хуже у министерства с данными.
Ссылки։
[1] https://web.archive.org/web/20220205012417/https://data.economy.gov.ru/
[2] https://web.archive.org/web/20210908020047/https://data.economy.gov.ru/analytics/sonko-affected
[3] https://data.economy.gov.ru
[4] https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585
#opendata #closeddata #russia
Forwarded from Инфокультура
Мастер-класс «Как мы визуализируем гео-данные в "билайне": от кейсов к практике»
Вы узнаете о реальных кейсах на данных телеком-оператора и открытых данных, а также о том, как их получать. Спикеры покажут, как делать карты в библиотеке Folium: от отрисовки базовых геометрий и создания слоев FeatureGroup — до работы с графами и гексами. Мастер-класс проведут:
- Артем Каледин, старший аналитик-разработчик математических моделей, команда Геоаналитики.
- Артем Смирнов, руководитель по анализу данных, лид чаптера аналитиков.
Мероприятие пройдет в рамках Дня открытых данных. Программы и форма регистрации доступны по ссылке: https://opendataday.ru/msk.
#ODD2023 #OpenDataDay #OpenData
Вы узнаете о реальных кейсах на данных телеком-оператора и открытых данных, а также о том, как их получать. Спикеры покажут, как делать карты в библиотеке Folium: от отрисовки базовых геометрий и создания слоев FeatureGroup — до работы с графами и гексами. Мастер-класс проведут:
- Артем Каледин, старший аналитик-разработчик математических моделей, команда Геоаналитики.
- Артем Смирнов, руководитель по анализу данных, лид чаптера аналитиков.
Мероприятие пройдет в рамках Дня открытых данных. Программы и форма регистрации доступны по ссылке: https://opendataday.ru/msk.
#ODD2023 #OpenDataDay #OpenData
Продолжая рубрику "закрытые данные в России", годовые отчёты государственного портового контроля РФ не публикуются Росморречфлотом начиная с 2020 года [1].
Эти отчеты не являлись открытыми данными, но они содержали статистические сведения и факты портового контроля, как правило публиковались в апреле следующего года.
Подскажу что в непубличной информационной системе ИЦГПК эти отчёты есть и их даже можно найти при желании. Хоть и система непубличная, но не настолько чтобы поисковики не индексировали некоторые файлы. Важнее что в соответствующем разделе на сайте Росморречфлота этих отчётов нет. И это при том что и без того это очень высокоуровневые агрегированные цифры, публикуемые в PDF, а даже не в машиночитаемом виде.
Ссылки։
[1] https://morflot.gov.ru/deyatelnost/napravleniya_deyatelnosti/morskoy_flot/gosudarstvennyiy_portovyiy_kontrol/godovyie_otchetyi_gpk_v_rf/
#opendata #closeddata #russia #transport
Эти отчеты не являлись открытыми данными, но они содержали статистические сведения и факты портового контроля, как правило публиковались в апреле следующего года.
Подскажу что в непубличной информационной системе ИЦГПК эти отчёты есть и их даже можно найти при желании. Хоть и система непубличная, но не настолько чтобы поисковики не индексировали некоторые файлы. Важнее что в соответствующем разделе на сайте Росморречфлота этих отчётов нет. И это при том что и без того это очень высокоуровневые агрегированные цифры, публикуемые в PDF, а даже не в машиночитаемом виде.
Ссылки։
[1] https://morflot.gov.ru/deyatelnost/napravleniya_deyatelnosti/morskoy_flot/gosudarstvennyiy_portovyiy_kontrol/godovyie_otchetyi_gpk_v_rf/
#opendata #closeddata #russia #transport
Я всё задаюсь вопросом можно ли хоть что-то хорошее сказать про российскую платформу ГосТех, но как-то не получается, и уже начинаю сомневаться что получится. Они анонсировали новый домен platform.gov.ru [1] который, по факту, является теперь сайтом ФКУ Гостех с раскрытием документов которые ФКУ должны публиковать, прошлый сайт ФКУ который был digitalcc.ru теперь перенаправляет на этот новый сайт. Но туда же теперь перенаправляет и ранее существовавшая документация на Platform V которая была по адресу platform.digital.gov.ru (теперь там ничего нет кроме перенаправления).
Иначе говоря вместе с анонсом нового сайта, заодно и снесли сайт с документацией. Теперь про "платформу Гостех" вообще ничего нет кроме маркетинговых и презентационных материалов.
При этом какие-то ошметки документации начали вносить на новый сайт, вроде описания компонента Platform V DataGrid, привожу скриншот и ссылку [2]. Не буду говорить как я его нашёл.
Если Всё так круто как об этом рассказывается публично, если столько охренительных примеров внедрения и спроектированных "доменов" (предметных областей), то почему всёнастолько через жопу выглядит непривлекательно?
Ссылки։
[1] https://platform.gov.ru/
[2] https://platform.gov.ru/components/dannye/bystryj-start/
#government #govtech #techonology #russia
Иначе говоря вместе с анонсом нового сайта, заодно и снесли сайт с документацией. Теперь про "платформу Гостех" вообще ничего нет кроме маркетинговых и презентационных материалов.
При этом какие-то ошметки документации начали вносить на новый сайт, вроде описания компонента Platform V DataGrid, привожу скриншот и ссылку [2]. Не буду говорить как я его нашёл.
Если Всё так круто как об этом рассказывается публично, если столько охренительных примеров внедрения и спроектированных "доменов" (предметных областей), то почему всё
Ссылки։
[1] https://platform.gov.ru/
[2] https://platform.gov.ru/components/dannye/bystryj-start/
#government #govtech #techonology #russia
В качестве напоминания, через 3 дня будет проходить День открытых данных по всему миру [1], кое-где он проходит целую неделю, с 4-го по 10-е марта, но большинство сообществ проводит его один день. Команда Инфокультуры (@infoculture) возвращается к его проведению в Москве и на сайте Дня открытых данных в России opendataday.ru [2] можно узнать программу.
Я лично буду выступать на ODD с рассказом про datacatalogs.ru, нашем проекте по data discovery, инструментах обнаружения данных и их поиска. Расскажу также про другие системы поиска по данным.
Моя коллега по Инфокультуре, Ксения Орлова, расскажет про практику архивацию сайтов (и данных) в рамках проекта Национальный цифровой архив. Вообще важно помнить что цифровые архивы - это тоже открытые данные, я бы даже сказал что это в первую очередь открытые данные.
В этом году всё мероприятие будет проходить только онлайн, но хочется надеяться что это лишь повысит его доступность и возможность для участников смотреть трансляцию.
Будет много других интересных выступлений, о использовании данных для геоаналитике, корпоративной ответственности, в некоммерческом секторе и многом другом. Обязательно посмотрите программу на сайте.
Пока это первое мероприятие за полтора года по открытым данным которое мы проводим. День открытых данных в 2022 году, в России, мы не проводили.
Будут ли ещё мероприятия в России/по России/на российских открытых данных и связанных с открытыми данными в этом году ? Возможно. Как минимум по теме цифровой архивации есть желание провести онлайн и оффлайн мероприятие, с акцентом на архивацию цифрового контента и создание баз данных на основе архивов.
Пишите если будет интересные идеи того что сейчас можно делать публичного и открытого про открытые данные.
А пока я не могу не напомнить что День открытых данных - это не одна конференция, а сеть мероприятий по всему миру организуемых волонтерами. Ничто не ограничивает Вас провести митап в своем регионе, городе, университете, стране.
Ссылки։
[1] https://opendataday.org
[2] https://opendataday.ru
#opendata #opengov #events #data
Я лично буду выступать на ODD с рассказом про datacatalogs.ru, нашем проекте по data discovery, инструментах обнаружения данных и их поиска. Расскажу также про другие системы поиска по данным.
Моя коллега по Инфокультуре, Ксения Орлова, расскажет про практику архивацию сайтов (и данных) в рамках проекта Национальный цифровой архив. Вообще важно помнить что цифровые архивы - это тоже открытые данные, я бы даже сказал что это в первую очередь открытые данные.
В этом году всё мероприятие будет проходить только онлайн, но хочется надеяться что это лишь повысит его доступность и возможность для участников смотреть трансляцию.
Будет много других интересных выступлений, о использовании данных для геоаналитике, корпоративной ответственности, в некоммерческом секторе и многом другом. Обязательно посмотрите программу на сайте.
Пока это первое мероприятие за полтора года по открытым данным которое мы проводим. День открытых данных в 2022 году, в России, мы не проводили.
Будут ли ещё мероприятия в России/по России/на российских открытых данных и связанных с открытыми данными в этом году ? Возможно. Как минимум по теме цифровой архивации есть желание провести онлайн и оффлайн мероприятие, с акцентом на архивацию цифрового контента и создание баз данных на основе архивов.
Пишите если будет интересные идеи того что сейчас можно делать публичного и открытого про открытые данные.
А пока я не могу не напомнить что День открытых данных - это не одна конференция, а сеть мероприятий по всему миру организуемых волонтерами. Ничто не ограничивает Вас провести митап в своем регионе, городе, университете, стране.
Ссылки։
[1] https://opendataday.org
[2] https://opendataday.ru
#opendata #opengov #events #data
В рубрике как это работает у них проект Data Mexico [1] по наглядному представлению экономической, социальной, демографической и иной статистики и данных о Мексике.
Проект сделан на том же техническом решении что и DataUSA, довольно давний проект сделанный компанией Deloitte, но в отличие от него Data Mexico сделан по заказу Правительства Мексики и эксплуатируется Secretaria de Economia (Секретариатом по экономике) страны.
Разработчики проекта компания DataWheel [2] сделала немало других проектов. Например, новый сайт Обсерватории экономической сложности [3] и Навигатор по промышленности Перу [4] и ещё довольно много всего.
Ссылки։
[1] https://datamexico.org
[2] https://www.datawheel.us/
[3] https://oec.world
[4] https://data-peru.itp.gob.pe/
#opendata #dataviz #mexico #data
Проект сделан на том же техническом решении что и DataUSA, довольно давний проект сделанный компанией Deloitte, но в отличие от него Data Mexico сделан по заказу Правительства Мексики и эксплуатируется Secretaria de Economia (Секретариатом по экономике) страны.
Разработчики проекта компания DataWheel [2] сделала немало других проектов. Например, новый сайт Обсерватории экономической сложности [3] и Навигатор по промышленности Перу [4] и ещё довольно много всего.
Ссылки։
[1] https://datamexico.org
[2] https://www.datawheel.us/
[3] https://oec.world
[4] https://data-peru.itp.gob.pe/
#opendata #dataviz #mexico #data
Полезное чтение про данные, технологии и не только։
- Awesome Polars [1] подборка ссылок про Polars, модную альтернативу библиотеке Pandas, для обработки и анализа данных. Polars построено на языке Rust с поддержкой Python и реализует дата-фреймы на основе спецификации Apache Arrow. Если кратко - это очень быстро, существенно быстрее Pandas при почти полной совместимости
- pandas 2.0 and the Arrow revolution (part I) [2] очень близкая по смыслу тема о перезапуске pandas с поддержкой стандарта Arrow и о том как ускорить эту библиотеку. Что сказать, своевременно [2]
- Tomorrow's weather [3] руководство по тому как визуализировать погоду на глобусе с помощью R и Google Earth Engine.
- Content Moderation - Patterns in Industry [4] о том как технологически устроена модерация контента в индустрии, акцент на архитектуре подхода, без глубокого погружения в код/технические детали, но всё по делу.
- OpenAI's Foundry leaked pricing says a lot – if you know how to read it [5] о том что OpenAI будет продавать доступ к языковым моделям начиная с $250 тысяч и почему это так делается. А также вполне здравые опасения что на рынок труда это окажет сильное влияние, в первую очередь потому что GPT модели будут использовать крупнейшие корпорации для автоматизации офисной и иной работы. И хороший график по автоматизации работы фермеров, в статье.
- Leiden Declaration on FAIR Digital Objects [6] декларация принятая на конференции 1st International Conference on FAIR Digital Objects и посвящённая открытости науки и открытости научной инфраструктуры и создании доступных цифровых объектов. Очень важно для понимания направления развития науки в мире в ближайшие годы. Как ни странно, спонсор конференции Elsevier, хотя один из пунктов декларации есть пункт о приложении усилий к избежанию vendor lock-in
- DeSci Nodes [7] любопытный стартап по публикации результатов научных работ как раз в соответствии с Лейденской декларацией о FAIR объектах, они, в том числе, поддерживают децентрализованные идентификаторы вроде dPid, помимо DOI, и поддерживают исполняемые публикации (executive papers), когда научная работа представлена в виде кода с пояснениями. Интересное что тоже говорят о полной переносимости публикаций и отсутствии vendor lock-in
Ссылки:
[1] https://github.com/ddotta/awesome-polars
[2] https://datapythonista.me/blog/pandas-20-and-the-arrow-revolution-part-i
[3] https://dominicroye.github.io/en/2023/tomorrows-weather/
[4] https://eugeneyan.com//writing/content-moderation/
[5] https://cognitiverevolution.substack.com/p/openais-foundry-leaked-pricing-says
[6] https://www.fdo2022.org/programme/leiden-declaration-fdo
[7] https://nodes.desci.com
#readings #openaccess #openscience #datatools #dataviz
- Awesome Polars [1] подборка ссылок про Polars, модную альтернативу библиотеке Pandas, для обработки и анализа данных. Polars построено на языке Rust с поддержкой Python и реализует дата-фреймы на основе спецификации Apache Arrow. Если кратко - это очень быстро, существенно быстрее Pandas при почти полной совместимости
- pandas 2.0 and the Arrow revolution (part I) [2] очень близкая по смыслу тема о перезапуске pandas с поддержкой стандарта Arrow и о том как ускорить эту библиотеку. Что сказать, своевременно [2]
- Tomorrow's weather [3] руководство по тому как визуализировать погоду на глобусе с помощью R и Google Earth Engine.
- Content Moderation - Patterns in Industry [4] о том как технологически устроена модерация контента в индустрии, акцент на архитектуре подхода, без глубокого погружения в код/технические детали, но всё по делу.
- OpenAI's Foundry leaked pricing says a lot – if you know how to read it [5] о том что OpenAI будет продавать доступ к языковым моделям начиная с $250 тысяч и почему это так делается. А также вполне здравые опасения что на рынок труда это окажет сильное влияние, в первую очередь потому что GPT модели будут использовать крупнейшие корпорации для автоматизации офисной и иной работы. И хороший график по автоматизации работы фермеров, в статье.
- Leiden Declaration on FAIR Digital Objects [6] декларация принятая на конференции 1st International Conference on FAIR Digital Objects и посвящённая открытости науки и открытости научной инфраструктуры и создании доступных цифровых объектов. Очень важно для понимания направления развития науки в мире в ближайшие годы. Как ни странно, спонсор конференции Elsevier, хотя один из пунктов декларации есть пункт о приложении усилий к избежанию vendor lock-in
- DeSci Nodes [7] любопытный стартап по публикации результатов научных работ как раз в соответствии с Лейденской декларацией о FAIR объектах, они, в том числе, поддерживают децентрализованные идентификаторы вроде dPid, помимо DOI, и поддерживают исполняемые публикации (executive papers), когда научная работа представлена в виде кода с пояснениями. Интересное что тоже говорят о полной переносимости публикаций и отсутствии vendor lock-in
Ссылки:
[1] https://github.com/ddotta/awesome-polars
[2] https://datapythonista.me/blog/pandas-20-and-the-arrow-revolution-part-i
[3] https://dominicroye.github.io/en/2023/tomorrows-weather/
[4] https://eugeneyan.com//writing/content-moderation/
[5] https://cognitiverevolution.substack.com/p/openais-foundry-leaked-pricing-says
[6] https://www.fdo2022.org/programme/leiden-declaration-fdo
[7] https://nodes.desci.com
#readings #openaccess #openscience #datatools #dataviz
GitHub
GitHub - ddotta/awesome-polars: A curated list of Polars talks, tools, examples & articles. Contributions welcome !
A curated list of Polars talks, tools, examples & articles. Contributions welcome ! - GitHub - ddotta/awesome-polars: A curated list of Polars talks, tools, examples & articles. Co...
На днях я думал что можно сделать в Армении хорошего по тем темам что я знаю хорошо. А это всё что связано с открытостью, данными, технологиями вокруг них и тд. Самое очевидное - в Армении нет портала открытых данных и его довольно несложно создать.
Однако беда в том что создать его быстро, а вот наполнить куда сложнее. В стране очень мало официальных материалов опубликованных под свободными лицензиями, значительно меньше данных в машиночитаемых формах. Например, у Минкультуры нет реестра всех музеев, а реестр их собственных музеев публикуют в формате ․docx. Много данных по налогам, компаниям, экономике, госфинансам и мало данных культуре, науке, языке и всему что касается digital humanities.
Хотя тема digital humanities здесь одна из самых значимых, как в поощрении изучения языка, так и во всём что касается культурного и исторического наследия.
А самое главное нет устойчивого сообщества, его надо собирать практически с нуля и такое ощущение что больше возможности собрать сообщество вокруг Армении, в том числе вовлечённых в
диаспорах, чем внутри. Но буду рад ошибиться, возможно я каких-то сообществ не знаю.
На базе исторических данных очень хорошо бы выглядели проекты по аналогии с Vici.org или Pleaiades (https://pleiades.stoa.org), но чтобы к ним прийти нужны данные и первый их каталог и портал.
В любом случае если такой портал делать нужна стратегия его устойчивости, нужен кто-то кто бы выступал дата стюардом и работа по data discovery, поиску данных на официальных и частных ресурсах. А сам портал надо проектировать сразу на армянском, русском, английском и французском языках.
Если Вы кого-то знаете владеющего։ армянским и русским языками или армянским и английским, а, в идеале, всеми тремя и готовым и с опытом работы с данными за небольшие, но не совсем на волонтерских началах выступить аналитиком на таком проекте - дайте мне знать. Это парт тайм работа, примерно на 3 месяца в начале, неважно в какой стране человек находится, главное интерес к теме.
#opendata #armenia #job
Однако беда в том что создать его быстро, а вот наполнить куда сложнее. В стране очень мало официальных материалов опубликованных под свободными лицензиями, значительно меньше данных в машиночитаемых формах. Например, у Минкультуры нет реестра всех музеев, а реестр их собственных музеев публикуют в формате ․docx. Много данных по налогам, компаниям, экономике, госфинансам и мало данных культуре, науке, языке и всему что касается digital humanities.
Хотя тема digital humanities здесь одна из самых значимых, как в поощрении изучения языка, так и во всём что касается культурного и исторического наследия.
А самое главное нет устойчивого сообщества, его надо собирать практически с нуля и такое ощущение что больше возможности собрать сообщество вокруг Армении, в том числе вовлечённых в
диаспорах, чем внутри. Но буду рад ошибиться, возможно я каких-то сообществ не знаю.
На базе исторических данных очень хорошо бы выглядели проекты по аналогии с Vici.org или Pleaiades (https://pleiades.stoa.org), но чтобы к ним прийти нужны данные и первый их каталог и портал.
В любом случае если такой портал делать нужна стратегия его устойчивости, нужен кто-то кто бы выступал дата стюардом и работа по data discovery, поиску данных на официальных и частных ресурсах. А сам портал надо проектировать сразу на армянском, русском, английском и французском языках.
Если Вы кого-то знаете владеющего։ армянским и русским языками или армянским и английским, а, в идеале, всеми тремя и готовым и с опытом работы с данными за небольшие, но не совсем на волонтерских началах выступить аналитиком на таком проекте - дайте мне знать. Это парт тайм работа, примерно на 3 месяца в начале, неважно в какой стране человек находится, главное интерес к теме.
#opendata #armenia #job
pleiades.stoa.org
Pleiades: A community-built gazetteer and graph of ancient places
Pleiades gives scholars, students, and enthusiasts worldwide the ability to use, create, and share historical geographic information about the ancient world in digital form.
В рубрике как это устроено у них каталог геоданных Швейцарии [1] создан на базе открытого ПО Geonetwork [2], включает 12859 наборов геоданных в форматах DXF, Shapefile, GeoPackage, INTERLIS 2 и множеством вариантов экспорта метаданных.
Данные используются во множестве проектов связанных с данными геоданными в Швейцарии и в Европе, например, в официальной карте Швейцарии [3].
Таких государственных порталов геоданных в мире не так уж мало и чаще всего они построены именно на GeoNetwork
Ссылки։
[1] https://www.geocat.ch
[2] http://geonetwork-opensource.org/
[3] https://map.geo.admin.ch/
#opendata #opengov #switzerland #geodata
Данные используются во множестве проектов связанных с данными геоданными в Швейцарии и в Европе, например, в официальной карте Швейцарии [3].
Таких государственных порталов геоданных в мире не так уж мало и чаще всего они построены именно на GeoNetwork
Ссылки։
[1] https://www.geocat.ch
[2] http://geonetwork-opensource.org/
[3] https://map.geo.admin.ch/
#opendata #opengov #switzerland #geodata
Я чуть было не пропустил, а тут интересный материал от фонда Mozilla под названием "Is it even legal?" (А это вообще легально?) [1] состоит из серии гайдов по странам о том как защищать свои права на обработку данных и бороться с тем что данные распространяются без Вашего согласия. Гайды привязаны к странам и сейчас по 4-м из них։ Кения, Германия, США и Индия. Каждый гайд - это очень продолжительный лонгрид помогающий ответить на вопрос "А как там у них?", а у них там есть сложные юридические конструкции и множество примеров когда рядовые граждане используют свои возможности.
#privacy #mozilla
Ссылки:
[1] https://foundation.mozilla.org/en/research/library/is-that-even-legal/builders-guide/
#privacy #mozilla
Ссылки:
[1] https://foundation.mozilla.org/en/research/library/is-that-even-legal/builders-guide/
В рубрике как это устроено у них, портал по COVID-19 конфедеративного правительства Швейцарии [1]. Вся информация не только представлена в виде графиков и продолжает обновляться и по сей день, но и все данные опубликованы как открытые данные на портале открытых данных opendata.swiss [2] и в виде хорошо документированного API [3].
В общей сложности там несколько сотен мегабайт, может быть около гигабайта ежесуточной подробной статистики и иной информации.
Ссылки:
[1] https://www.covid19.admin.ch
[2] https://opendata.swiss/de/dataset/covid-19-schweiz
[3] https://www.covid19.admin.ch/api/data/documentation
#opendata #datasets #data #switzerland
В общей сложности там несколько сотен мегабайт, может быть около гигабайта ежесуточной подробной статистики и иной информации.
Ссылки:
[1] https://www.covid19.admin.ch
[2] https://opendata.swiss/de/dataset/covid-19-schweiz
[3] https://www.covid19.admin.ch/api/data/documentation
#opendata #datasets #data #switzerland