В рубрике регулярные интересные наборы данных коллекция машиночитаемых текстов библий [1] в форматах XML и JSON. Тексты на 13 языках, включая синоидальный перевод на русском языке. Все данные свободны для некоммерческого использования и опубликованы под лицензией CC-BY-NC.
Ссылки:
[1] https://github.com/thiagobodruk/bible
#datasets #data #opendata
Ссылки:
[1] https://github.com/thiagobodruk/bible
#datasets #data #opendata
GitHub
GitHub - thiagobodruk/bible: Bible: JSON + XML
Bible: JSON + XML. Contribute to thiagobodruk/bible development by creating an account on GitHub.
Одна из моих "любимых тем" - это культура работы госорганов с программным обеспечением и массовое использование пиратского ПО. В 2019 году я писал об этом большой пост в блоге [1] со сравнением органов власти. Если, в целом, использование пиратского ПО померять сложно, то для Microsoft Office это возможно потому что пользователи часто ставят ПО из файлопомоек и не меняет метаданные пиратских команд вшитые в эти офисные пакеты по умолчанию. Выявляются такие инсталляции через наличие меток вроде "RePack by SPecialiST, MoBIL GROUP, WareZ Provider, Dnsoft, SPecialiST RePack, NhT, Grizli777, DG Win&Soft, Reanimator Extreme Edition, DreamLair, DrAGoN CorP, Krokoz™, MultiDVD Team, SamForum.ws, diakov.net" в метаданных Company для файлов .doc, docx, xls, xlsx, ppt и pptx ну и ряда других более редких.
Годы идут, кажется что тема стала менее актуальной, но не совсем. Одно из применений цифровой архивации госсайтов которую я сейчас веду в цифровом архиве [2] - это извлечение метаданных из файлов на сайтах госорганов. Когда-то я сделал для этого утилиту metawarc [3] которая извлекает метаданные из WARC файлов веб-архивов.
Опуская дальнейшие технические подробности повторюсь что как использовали пиратское ПО так и используют. На сайте Минцифры, к примеру, как минимум 3 презентации за 2019 год имеют метку SPecialiST RePack:
- https://digital.gov.ru/uploaded/files/sistema-i-struktura-realizatsii-np-tse-na-territorii-vo.pptx
- https://digital.gov.ru/uploaded/files/byichkov-ke25-1.pptx
- https://digital.gov.ru/uploaded/files/3-tsod-gorkavenko-dmitrij.pptx
Правда, одна из них от ИКС Холдинг, другая от Правительства РСЯ, а третья от представителя Правительства Вологодской области. То есть, как бы, не сотрудники Минцифры. А вот от сотрудников Минцифры в 2020 году только один документ - https://digital.gov.ru/uploaded/files/7uvedomlenie-o-voznik-konf-interesov2020.docx
но и он по шаблону от 2015 года.
Оговорюсь лишь что это по результатам анализа 582 файлов и то что сайт не заархивирован ещё полностью и анализировались только первые 13 выгруженных гигабайт.
Статистику 2-х летней давности я публиковал на data.world [3], новые цифры будут уже в каталоге DataCrafter'а [4].
P.S. На самом деле можно всё это анализировать и без тотальной выгрузки сайтов, но такой анализ скорее развлечение чем осмысленная деятельность поэтому в приоритетах у меня другие исследования/расследования пока.
Ссылки:
[1] https://begtin.tech/government-piracy/
[2] https://ruarxive.org
[3] https://data.world/infoculture/government-piracy
[4] https://beta.apicrafter.ru
#piracy #government
Годы идут, кажется что тема стала менее актуальной, но не совсем. Одно из применений цифровой архивации госсайтов которую я сейчас веду в цифровом архиве [2] - это извлечение метаданных из файлов на сайтах госорганов. Когда-то я сделал для этого утилиту metawarc [3] которая извлекает метаданные из WARC файлов веб-архивов.
Опуская дальнейшие технические подробности повторюсь что как использовали пиратское ПО так и используют. На сайте Минцифры, к примеру, как минимум 3 презентации за 2019 год имеют метку SPecialiST RePack:
- https://digital.gov.ru/uploaded/files/sistema-i-struktura-realizatsii-np-tse-na-territorii-vo.pptx
- https://digital.gov.ru/uploaded/files/byichkov-ke25-1.pptx
- https://digital.gov.ru/uploaded/files/3-tsod-gorkavenko-dmitrij.pptx
Правда, одна из них от ИКС Холдинг, другая от Правительства РСЯ, а третья от представителя Правительства Вологодской области. То есть, как бы, не сотрудники Минцифры. А вот от сотрудников Минцифры в 2020 году только один документ - https://digital.gov.ru/uploaded/files/7uvedomlenie-o-voznik-konf-interesov2020.docx
но и он по шаблону от 2015 года.
Оговорюсь лишь что это по результатам анализа 582 файлов и то что сайт не заархивирован ещё полностью и анализировались только первые 13 выгруженных гигабайт.
Статистику 2-х летней давности я публиковал на data.world [3], новые цифры будут уже в каталоге DataCrafter'а [4].
P.S. На самом деле можно всё это анализировать и без тотальной выгрузки сайтов, но такой анализ скорее развлечение чем осмысленная деятельность поэтому в приоритетах у меня другие исследования/расследования пока.
Ссылки:
[1] https://begtin.tech/government-piracy/
[2] https://ruarxive.org
[3] https://data.world/infoculture/government-piracy
[4] https://beta.apicrafter.ru
#piracy #government
Ivan Begtin blog
Государство как пират
Пиратское ПО в России всегда было популярно. Результаты этого исследования это попытка выявить масштабы использования пиратского ПО в органах власти в России по косвенным признакам.
Zoom поймали на лжи о end-to-end шифровании и передачи данных Facebook и Google [1].
Новость не из неожиданных, потому что Zoom уже ловили на передаче данных в Китай [2].
Много подробностей в комментариях у Брюса Шнаера [3] и, я тоже не могу не прокомментировать что единственный способ избежать ухудшения ситуации с торговлей данных - её легализация и регулирование. Особенно в отношении особо крупных "экосистем" и мегакорпораций.
Ссылки:
[1] https://arstechnica.com/tech-policy/2021/08/zoom-to-pay-85m-for-lying-about-encryption-and-sending-data-to-facebook-and-google/
[2] https://www.businessinsider.com/china-zoom-data-2020-4
[3] https://www.schneier.com/blog/archives/2021/08/zoom-lied-about-end-to-end-encryption.html
#zoom #data
Новость не из неожиданных, потому что Zoom уже ловили на передаче данных в Китай [2].
Много подробностей в комментариях у Брюса Шнаера [3] и, я тоже не могу не прокомментировать что единственный способ избежать ухудшения ситуации с торговлей данных - её легализация и регулирование. Особенно в отношении особо крупных "экосистем" и мегакорпораций.
Ссылки:
[1] https://arstechnica.com/tech-policy/2021/08/zoom-to-pay-85m-for-lying-about-encryption-and-sending-data-to-facebook-and-google/
[2] https://www.businessinsider.com/china-zoom-data-2020-4
[3] https://www.schneier.com/blog/archives/2021/08/zoom-lied-about-end-to-end-encryption.html
#zoom #data
Ars Technica
Zoom to pay $85M for lying about encryption and sending data to Facebook and Google
Zoom users to get $15 or $25 each in proposed settlement of class-action lawsuit.
VC.ru написали про приложение Минцифры AppList [1] текст в стиле "А кому оно вообще нужно?", вопрос резонный и я с ним согласен. А кому? Ну и жаль что коллеги из Минцифры не отвечают на вопросы журналистов. На мои, правда, тоже отвечают что-то редко;)
Ссылки:
[1] http://vc.ru/tech/281811
#privacy
Ссылки:
[1] http://vc.ru/tech/281811
#privacy
vc.ru
«Приложение не делает ничего»: разбор App List от Минцифры — малоизвестной программы, предустановленной на Android — Техника на…
App List есть на смартфонах и планшетах, продаваемых в России с 1 апреля 2021 года. Минцифры планирует и дальше его развивать, но эксперты считают, что приложение никому, кроме чиновников, не нужно, а пользователи ставят ему низкие оценки в Google Play.
В рубрике интересные наборы данных, базы датасетов от GWU Libraries с собранными данными из соцсетей в контексте конкретных событий [1] вроде выборов президента в США, выборов в конгресс или коронавируса.
В основном данные из Twitter'а поскольку их собрать куда проще чем из других соц. сетей.
Ссылки:
[1] https://dataverse.harvard.edu/dataverse/gwu-libraries
#opendata #datasets
В основном данные из Twitter'а поскольку их собрать куда проще чем из других соц. сетей.
Ссылки:
[1] https://dataverse.harvard.edu/dataverse/gwu-libraries
#opendata #datasets
dataverse.harvard.edu
GWU Libraries Dataverse
Datasets from George Washington University Libraries.
Фонд президентских грантов опубликовал данные по всем заявкам и результатам их реализации в разделе открытые данные [1]. Данные в Excel, зато весьма подробные. Идеально было бы, конечно, увидеть полные данные которые есть на карточках проектов на сайте Фонда и сами данные в форматах CSV/JSON, но и эта публикация уже очень хорошо потому что зная состояние сектора для многих в среде НКО и Excel'ем то пользоваться не всегда привычно.
А тут много данных и все полезные. Мы добавим их в наши некоммерческие проекты Открытые НКО [2] и Хаб открытых данных [3], а также в DataCrafter [4]
Ссылки:
[1] https://президентскиегранты.рф/public/open-data
[2] https://openngo.ru
[3] https://hubofdata.ru
[4] https://beta.apicrafter.ru
#datasets #ngo #openngo
А тут много данных и все полезные. Мы добавим их в наши некоммерческие проекты Открытые НКО [2] и Хаб открытых данных [3], а также в DataCrafter [4]
Ссылки:
[1] https://президентскиегранты.рф/public/open-data
[2] https://openngo.ru
[3] https://hubofdata.ru
[4] https://beta.apicrafter.ru
#datasets #ngo #openngo
президентскиегранты.рф
Открытые данные
Единый оператор грантов Президента Российской Федерации на развитие гражданского общества с 3 апреля 2017 года.
Хороший обзор стартапов и тренда на рост значимости качества данных (data quality) по частоте упоминания в резюме, росту инвестиций в эту отрасль и другие признаки [1].
Я ранее уже упоминал весьма любопытные стартапы Soda [2] и Anomalo [3], а в этом обзоре ещё упоминаются Aquarium [4] и Datafold [5] и многие другие.
Качество данных, действительно, одна из ключевых задач инженерии данных и большой растущий рынок для инструментов в этой области.
Ссылки:
[1] https://gradientflow.com/data-quality-unpacked/
[2] https://t.me/begtin/2810
[3] https://t.me/begtin/2388
[4] https://www.aquariumlearning.com
[5] https://www.datafold.com/
#data #dataquality
Я ранее уже упоминал весьма любопытные стартапы Soda [2] и Anomalo [3], а в этом обзоре ещё упоминаются Aquarium [4] и Datafold [5] и многие другие.
Качество данных, действительно, одна из ключевых задач инженерии данных и большой растущий рынок для инструментов в этой области.
Ссылки:
[1] https://gradientflow.com/data-quality-unpacked/
[2] https://t.me/begtin/2810
[3] https://t.me/begtin/2388
[4] https://www.aquariumlearning.com
[5] https://www.datafold.com/
#data #dataquality
Gradient Flow
Data Quality Unpacked - Gradient Flow
Companies have a pressing need for good data By Kenn So and Ben Lorica. As much as we loathe to repeat what has been written hundreds of times, we have to: the world is data driven. Companies gather more data about their customers to build better products…
Forwarded from Комиссия по Регуляторике
В кои-то веки разумное регулирование, направленное на преодоление провала рынка "асимметрия информации":
"В частности, новые правила обяжут кинотеатры предупреждать зрителей о том, сколько минут будет длиться реклама и показ трейлеров перед началом самого фильма. Эта информация будет размещена в зоне кассового обслуживания. Таким образом зрители смогут лучше рассчитать своё время и не опоздать на сеанс." #MarketFailure #AcasymmetricInformation #правительство #кино
http://government.ru/news/43025/
"В частности, новые правила обяжут кинотеатры предупреждать зрителей о том, сколько минут будет длиться реклама и показ трейлеров перед началом самого фильма. Эта информация будет размещена в зоне кассового обслуживания. Таким образом зрители смогут лучше рассчитать своё время и не опоздать на сеанс." #MarketFailure #AcasymmetricInformation #правительство #кино
http://government.ru/news/43025/
government.ru
Правительство утвердило новые правила оказания услуг кинозрителям
Постановление от 16 августа 2021 года №1338
В рубрике позорных форм публикации открытых данных актуальный пример - "Информационная система дистанционного мониторинга Федерального агентства лесного хозяйства" [1].
Сразу на главной странице вебсайта системы есть выбор открытых данных где можно выбрать данные за конкретный день (?!) и просмотреть их в форматах изображений или на карте.
К примеру, температурные аномалии представлены исключительно в форме картинки с геотермами [2], но, если эти данные ещё хоть как-то можно обосновать почему он публикуется именно так, то отчет по данным космического мониторинга [3] и погодные условия [4] выглядят исключительно как издевательство, будучи опубликованными в виде сканов таблиц из MS Word / MS Excel.
Такое невозможно сделать случайно, только осознанно чтобы снизить доступность данных для потребителей.
Аналогично с картой [5], экспортировать её можно, а получить данные по пожарам, кроме как наводя вручную, нет.
Это, конечно, никакие не открытые данные, там вообще данные не публикуются, а только некая продукция на их основе.
Казалось бы очевидные вещи, но нет, поэтому это особо показательный пример когда вроде как говорят что данные есть, а на самом деле их нет.
Чтобы данные из этой системы были доступны и востребованы они должны бы публиковаться:
- в машиночитаемых форматах CSV, XML, JSON
- с длинными рядами исторических значений за всю историю наблюдения
- с возможностью скачать всё сразу, а не по дням
Ссылки:
[1] https://public.aviales.ru/main_pages/public.shtml
[2] https://public.aviales.ru/main_pages/anom_temp.shtml?6_2021-08-17
[3] https://public.aviales.ru/main_pages/openform1.shtml?2021-08-17
[4] https://public.aviales.ru/main_pages/openform2.shtml?2021-08-17
[5] https://public.aviales.ru/mapviewer/cgi/public_tiles.pl?1629158403000
#opendata #data #rosleshos #fires
Сразу на главной странице вебсайта системы есть выбор открытых данных где можно выбрать данные за конкретный день (?!) и просмотреть их в форматах изображений или на карте.
К примеру, температурные аномалии представлены исключительно в форме картинки с геотермами [2], но, если эти данные ещё хоть как-то можно обосновать почему он публикуется именно так, то отчет по данным космического мониторинга [3] и погодные условия [4] выглядят исключительно как издевательство, будучи опубликованными в виде сканов таблиц из MS Word / MS Excel.
Такое невозможно сделать случайно, только осознанно чтобы снизить доступность данных для потребителей.
Аналогично с картой [5], экспортировать её можно, а получить данные по пожарам, кроме как наводя вручную, нет.
Это, конечно, никакие не открытые данные, там вообще данные не публикуются, а только некая продукция на их основе.
Казалось бы очевидные вещи, но нет, поэтому это особо показательный пример когда вроде как говорят что данные есть, а на самом деле их нет.
Чтобы данные из этой системы были доступны и востребованы они должны бы публиковаться:
- в машиночитаемых форматах CSV, XML, JSON
- с длинными рядами исторических значений за всю историю наблюдения
- с возможностью скачать всё сразу, а не по дням
Ссылки:
[1] https://public.aviales.ru/main_pages/public.shtml
[2] https://public.aviales.ru/main_pages/anom_temp.shtml?6_2021-08-17
[3] https://public.aviales.ru/main_pages/openform1.shtml?2021-08-17
[4] https://public.aviales.ru/main_pages/openform2.shtml?2021-08-17
[5] https://public.aviales.ru/mapviewer/cgi/public_tiles.pl?1629158403000
#opendata #data #rosleshos #fires
ИСДМ
Открытые данные
Доступ без регистрациик данным ИСДМ-Рослесхоз
Что меня тревожит в этих вот нацпроектах, так это удивительная "тишина" в официально публикуемых материалах.
К примеру, выдался у меня интерес посмотреть материалы по Нацпроекту "Экология", а на сайте Росводресурсов последний документ за март 2020 года [1], это, позвольте, но почти 1,5 года назад.
По госпрограммам также, вот только 10 августа у Росводресурсов появился отчет на сайте [2], а до этого год тишины, с конца июля 2020 года.
А сайт национальныепроекты.рф [3] пустой, там даже новости не публикуются.
Или вот раздел Нацпроект Экология [4] на сайте Минприроды РФ, тоже пустой, только паспорт проекта не понять какой актуальности.
Очень хочется спросить - что за хрень творится то?
Ссылки:
[1] https://voda.gov.ru/activities/natsproekt-ekologiya/
[2] https://voda.gov.ru/activities/gosudarstvennye-programmy-rossiyskoy-federatsii-i-federalnye-tselevye-programmy/
[3] https://национальныепроекты.рф/projects
[4] https://www.mnr.gov.ru/activity/directions/natsionalnyy_proekt_ekologiya/
#openness #ecology
К примеру, выдался у меня интерес посмотреть материалы по Нацпроекту "Экология", а на сайте Росводресурсов последний документ за март 2020 года [1], это, позвольте, но почти 1,5 года назад.
По госпрограммам также, вот только 10 августа у Росводресурсов появился отчет на сайте [2], а до этого год тишины, с конца июля 2020 года.
А сайт национальныепроекты.рф [3] пустой, там даже новости не публикуются.
Или вот раздел Нацпроект Экология [4] на сайте Минприроды РФ, тоже пустой, только паспорт проекта не понять какой актуальности.
Очень хочется спросить - что за хрень творится то?
Ссылки:
[1] https://voda.gov.ru/activities/natsproekt-ekologiya/
[2] https://voda.gov.ru/activities/gosudarstvennye-programmy-rossiyskoy-federatsii-i-federalnye-tselevye-programmy/
[3] https://национальныепроекты.рф/projects
[4] https://www.mnr.gov.ru/activity/directions/natsionalnyy_proekt_ekologiya/
#openness #ecology
voda.gov.ru
Нацпроект Экология
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ВОДНЫХ РЕСУРСОВ
Я напомню что 2 года назад я писал про нацпроекты и не грех напомнить.
В публикации "Могут ли успешно завершиться национальные проекты?" [1] начальный текст о странностях нацпроектов и заметка "Национальные проекты или бег по кругу" [2] со сравнением ФЦП, Национальных приоритетных проектов, Госпрограмм и Национальных проектов.
А потом ещё в сентябре 2019 года я писал колонку в РБК "Информационный барьер: как нацпроекты сделали бюджет менее прозрачным" [3].
В общем-то сейчас, когда смотришь на то что предполагалось, и то как всё происходит, разница между госпрограммами и нацпроектами видна лишь в том что госпрограммы хотя бы являются документами стратегического планирования. Я вспоминаю (и у меня есть архив сайта) по приоритетным национальным проектам 2005-2008 годов и даже тогда публиковалось гораздо больше сведений о их ходе и было очень мало расходов на "пиар". А сейчас пиар виден, а документы где?
По опыту предыдущих наблюдений все эти понятия живут недолго от 4 до 8 лет и я готов поспорить что не пройдет и 1-2 лет как нацпроекты начнут заменять на что-то новое. На что именно - ещё придумают. Будут какие-нибудь "Многоцелевые умные долгосрочные акцентированные комплексные инициативы" или "Жизненно-ориентированные программы-акценты".
Но вот с качественными изменениями что-то не очень заметно, а вот отсутствие сведений и снижение прозрачности заметно очень хорошо.
Ссылки:
[1] https://begtin.tech/natprojects-failready/
[2] https://begtin.tech/natsional-nye-proekty-ili-beg-po-krugu/
[3] https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea
#opendata #nationalprojects
В публикации "Могут ли успешно завершиться национальные проекты?" [1] начальный текст о странностях нацпроектов и заметка "Национальные проекты или бег по кругу" [2] со сравнением ФЦП, Национальных приоритетных проектов, Госпрограмм и Национальных проектов.
А потом ещё в сентябре 2019 года я писал колонку в РБК "Информационный барьер: как нацпроекты сделали бюджет менее прозрачным" [3].
В общем-то сейчас, когда смотришь на то что предполагалось, и то как всё происходит, разница между госпрограммами и нацпроектами видна лишь в том что госпрограммы хотя бы являются документами стратегического планирования. Я вспоминаю (и у меня есть архив сайта) по приоритетным национальным проектам 2005-2008 годов и даже тогда публиковалось гораздо больше сведений о их ходе и было очень мало расходов на "пиар". А сейчас пиар виден, а документы где?
По опыту предыдущих наблюдений все эти понятия живут недолго от 4 до 8 лет и я готов поспорить что не пройдет и 1-2 лет как нацпроекты начнут заменять на что-то новое. На что именно - ещё придумают. Будут какие-нибудь "Многоцелевые умные долгосрочные акцентированные комплексные инициативы" или "Жизненно-ориентированные программы-акценты".
Но вот с качественными изменениями что-то не очень заметно, а вот отсутствие сведений и снижение прозрачности заметно очень хорошо.
Ссылки:
[1] https://begtin.tech/natprojects-failready/
[2] https://begtin.tech/natsional-nye-proekty-ili-beg-po-krugu/
[3] https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea
#opendata #nationalprojects
Ivan Begtin blog
Могут ли успешно завершиться национальные проекты?
8 мая прошёл совет при президенте по стратегическому развитию и национальным проектам. Он транслировался в прямом эфире онлайн по Россия24 и сейчас его видеозапись и стенограмма стали доступными
Для тех кто интересуется приватностью и является юристом одновременно, рекомендую курсы которые организуют Digital Rights Center.
Forwarded from DRC LAW: IT-юристы
Интенсив для IT-юристов с 13-17 сентября
Сегодняшний мир неизбежно уходит в интернет, а вместе с ним возникает и необходимость регулировать отношения во всемирной паутине. В том числе — и в сфере цифрового права.
▪️Как правильно разместить рекламу в интернете?
▪️Как оформить и защитить права на доменное имя сайта?
▪️Что делать, если возник юридический конфликт с хостинг-провайдером?
▪️Как лучше и безопаснее всего начать освоение криптомира?
Если вы хотите лучше разбираться в этих и других вопросах — записывайтесь в «Школу киберправа»! Наш новый курс будет проходить в Москве с 13 по 17 сентября 2021 года.
Программа обучения будет состоять из 7 модулей:
1. Intermediaries & ISP
2. Tax & Ad
3. IP & Copyright & Domains
4. Big Data & AI
5. Privacy & Security
6. Forensic
7. Digital assets & crypto/blockchain
5 дней, 11 экспертов, 8 модулей, 45 академических часов актуального материала от лучших практикующих экспертов. Не только теория, но и разбор кейсов из реальной практики. По результатам обучения каждый участник курса получит удостоверение государственного образца о повышении своей квалификации в области киберправа.
В связи с непростой эпидемиологической обстановкой мы предлагаем опциональное и дистанционное участие в обучении. Таким образом вы можете выстроить свой персональный график очного/заочного посещения занятий. Задать интересующие вопросы можно по телефону +7 (926) 353-89-41, а также по электронной почте dv@digitalrights.center.
Старт занятий уже 13 сентября, поэтому регистрируйтесь уже сейчас: https://clck.ru/Wuunc
Сегодняшний мир неизбежно уходит в интернет, а вместе с ним возникает и необходимость регулировать отношения во всемирной паутине. В том числе — и в сфере цифрового права.
▪️Как правильно разместить рекламу в интернете?
▪️Как оформить и защитить права на доменное имя сайта?
▪️Что делать, если возник юридический конфликт с хостинг-провайдером?
▪️Как лучше и безопаснее всего начать освоение криптомира?
Если вы хотите лучше разбираться в этих и других вопросах — записывайтесь в «Школу киберправа»! Наш новый курс будет проходить в Москве с 13 по 17 сентября 2021 года.
Программа обучения будет состоять из 7 модулей:
1. Intermediaries & ISP
2. Tax & Ad
3. IP & Copyright & Domains
4. Big Data & AI
5. Privacy & Security
6. Forensic
7. Digital assets & crypto/blockchain
5 дней, 11 экспертов, 8 модулей, 45 академических часов актуального материала от лучших практикующих экспертов. Не только теория, но и разбор кейсов из реальной практики. По результатам обучения каждый участник курса получит удостоверение государственного образца о повышении своей квалификации в области киберправа.
В связи с непростой эпидемиологической обстановкой мы предлагаем опциональное и дистанционное участие в обучении. Таким образом вы можете выстроить свой персональный график очного/заочного посещения занятий. Задать интересующие вопросы можно по телефону +7 (926) 353-89-41, а также по электронной почте dv@digitalrights.center.
Старт занятий уже 13 сентября, поэтому регистрируйтесь уже сейчас: https://clck.ru/Wuunc
Forwarded from Инфокультура
Мы опубликовали запись вебинара «Как организовать веб-архив и архив социальных сетей. Стандарты, инструменты и продукты» на нашем ютуб-канале.
Иван Бегтин, директор АНО «Инфокультура», рассказал:
🔹 Что такое цифровая архивация и какие международные и российские проекты существуют в этой сфере
🔹 Как организовать веб-архив
🔹 Как устроены современные веб-архивы
🔹Каковы основные веб-стратегии, стандарты и инструменты архивации
🔹Как сохранять социальные сети
🔜 Мы обязательно продолжим вебинары по этой тематике. Следите за нашими анонсами!
Иван Бегтин, директор АНО «Инфокультура», рассказал:
🔹 Что такое цифровая архивация и какие международные и российские проекты существуют в этой сфере
🔹 Как организовать веб-архив
🔹 Как устроены современные веб-архивы
🔹Каковы основные веб-стратегии, стандарты и инструменты архивации
🔹Как сохранять социальные сети
🔜 Мы обязательно продолжим вебинары по этой тематике. Следите за нашими анонсами!
YouTube
Как организовать веб-архив и архив социальных сетей. Стандарты, инструменты и продукты
Цифровая архивация — это сохранение различных цифровых ресурсов: веб-сайтов, баз данных, истории соцсетей и проч. Она необходима прежде всего для сохранения ...
Росводресурсы открыли прототип системы "Водные данные" [1] о чем публикация на сайте Минприроды РФ [2].
Сам ресурс содержит сведения о:
- Водохозяйственных участках
- Водных объектах
- Водопользовании
- ГМВО (Государственном мониторинге водных объектов)
Кроме того доступны API для получения данных по формам ГВР [3], а данные в форме открытых данных доступны как CSV файлы и с цифровой подписью.
Если кратко резюмировать, то по форме представления данных всё выглядит довольно прилично.
А если немного углубиться в детали, то есть на что обратить внимание:
1. Нет такого понятия как ЭЦП в российском законодательстве уже давно, есть электронная подпись (ЭП) и она точно реализуется иначе и должна быть проверяема, например, через сервис на портале госуслуг. Сейчас эта проверка не проходит.
2. Хотя на сайте есть паспорта набора данных там нет ничего про метаданные. То есть паспорта сделаны не по метод рекомендациям опубликованным на data.gov.ru которые, хотя и весьма и весьма неидеальны, но даже их не соблюдают.
3. В том числе отсутствуют метаднные по структуре полей наборов данных. Иначе говоря данные есть, документации к ним нет.
4. Документация к API есть, но почему-то, не в формате Swagger, а просто HTML описанием без примеров.
5. Наборы данных опубликованы все через ajax, как следствие ни у одного набора данных нет отдельной веб страницы, они не будут находиться поисковыми системами.
Это было про форму публикации данных, а теперь про их качество и полноту:
- не все наборы данных опубликованы, по некоторым открываются пустые файлы. Например, набор данных " Данные о состоянии гидротехнических сооружений, находящихся в собственности" в разделе ГВМО пустой (обратите внимание что я не могу дать ссылку на сам набор потому что сайт так сделан)
- данные смешаны и в одном поле публикуется то что должно быть разделено на несколько полей для удобного поиска. Например, в данных по форме ГВР 2-6 есть поле owner_person, которое совсем не про владельца физ. лица, а про сведения о любом владельце и содержат наименование организации или физ. лица, адрес местонахождения и ИНН. Все вместе, хотя в большинстве реестров эти данные разделяют на 3 поля минимум, а максимум ещё и декомпозируют адрес и добавляют ему коды ОКАТО или ОКТМО.
- в опубликованных данных есть неполное заполнение данных. Всё в тех же данных по форме ГВР 2-6 есть 46 867 записей из которых код ИНН отсутствует у 4259, около 9% записей. Что означает что для сопоставления объекта водопользования с юр лицом придется выяснять ИНН юр. лица.
- даже в тех случаях когда ИНН указан, проверка показывает что в 507 случаях код указан с ошибкой, по некоторым кодам, очевидно сразу что они вводились как неверные. Например: часто встречается указание кода 7600000000 в отношении водопользователей Ярэнерго и других юр лиц. Что это означает? Что в системе(-ах) Росводресурсов нет форматно-логического контроля и данные вводятся с ошибками. И это только по самым очевидным случаям поддающимся автоматическому анализу, а многое можно понять уже создавать правила проверки под конкреный источник данных.
В качестве резюме, хорошо что эти данные публикуются, но много над чем есть работать.
Ссылки:
[1] https://gis.favr.ru/web/guest/opendata
[2] https://www.mnr.gov.ru/press/news/rosvodresursy_otkryli_vodnye_dannye/
[3] https://gis.favr.ru/external-api
#dataquality #opendata #waterdata #voda
Сам ресурс содержит сведения о:
- Водохозяйственных участках
- Водных объектах
- Водопользовании
- ГМВО (Государственном мониторинге водных объектов)
Кроме того доступны API для получения данных по формам ГВР [3], а данные в форме открытых данных доступны как CSV файлы и с цифровой подписью.
Если кратко резюмировать, то по форме представления данных всё выглядит довольно прилично.
А если немного углубиться в детали, то есть на что обратить внимание:
1. Нет такого понятия как ЭЦП в российском законодательстве уже давно, есть электронная подпись (ЭП) и она точно реализуется иначе и должна быть проверяема, например, через сервис на портале госуслуг. Сейчас эта проверка не проходит.
2. Хотя на сайте есть паспорта набора данных там нет ничего про метаданные. То есть паспорта сделаны не по метод рекомендациям опубликованным на data.gov.ru которые, хотя и весьма и весьма неидеальны, но даже их не соблюдают.
3. В том числе отсутствуют метаднные по структуре полей наборов данных. Иначе говоря данные есть, документации к ним нет.
4. Документация к API есть, но почему-то, не в формате Swagger, а просто HTML описанием без примеров.
5. Наборы данных опубликованы все через ajax, как следствие ни у одного набора данных нет отдельной веб страницы, они не будут находиться поисковыми системами.
Это было про форму публикации данных, а теперь про их качество и полноту:
- не все наборы данных опубликованы, по некоторым открываются пустые файлы. Например, набор данных " Данные о состоянии гидротехнических сооружений, находящихся в собственности" в разделе ГВМО пустой (обратите внимание что я не могу дать ссылку на сам набор потому что сайт так сделан)
- данные смешаны и в одном поле публикуется то что должно быть разделено на несколько полей для удобного поиска. Например, в данных по форме ГВР 2-6 есть поле owner_person, которое совсем не про владельца физ. лица, а про сведения о любом владельце и содержат наименование организации или физ. лица, адрес местонахождения и ИНН. Все вместе, хотя в большинстве реестров эти данные разделяют на 3 поля минимум, а максимум ещё и декомпозируют адрес и добавляют ему коды ОКАТО или ОКТМО.
- в опубликованных данных есть неполное заполнение данных. Всё в тех же данных по форме ГВР 2-6 есть 46 867 записей из которых код ИНН отсутствует у 4259, около 9% записей. Что означает что для сопоставления объекта водопользования с юр лицом придется выяснять ИНН юр. лица.
- даже в тех случаях когда ИНН указан, проверка показывает что в 507 случаях код указан с ошибкой, по некоторым кодам, очевидно сразу что они вводились как неверные. Например: часто встречается указание кода 7600000000 в отношении водопользователей Ярэнерго и других юр лиц. Что это означает? Что в системе(-ах) Росводресурсов нет форматно-логического контроля и данные вводятся с ошибками. И это только по самым очевидным случаям поддающимся автоматическому анализу, а многое можно понять уже создавать правила проверки под конкреный источник данных.
В качестве резюме, хорошо что эти данные публикуются, но много над чем есть работать.
Ссылки:
[1] https://gis.favr.ru/web/guest/opendata
[2] https://www.mnr.gov.ru/press/news/rosvodresursy_otkryli_vodnye_dannye/
[3] https://gis.favr.ru/external-api
#dataquality #opendata #waterdata #voda
How Data is Adding to the Unfolding Crisis in Afghanistan [1] в рассылке Data Values Digest [2] о том как доступность данных играет на руку талибам только что захвативших Афганистан. Например, талибы затребовали у религиозных лидеров списки всех девушек от 15 лет и вдов до 45 лет для замужества [3], а сами афганцы спешно удаляют цифровые следы в соцсетях и других ресурсах чтобы не быть идентифицированными талибами.
Там же ссылка статью об истории 2017 года когда UNHCR дали доступ правительствам Мьянмы и Бангладеша к персональным данным о беженцах рохинджа [5]. Об этом был подробный отчет от Human Rights Watch несколько лет назад [6]. При том что сами рохинджа находятся под угрозой геноцида [7]
Всё это о том что не стоит недооценивать доступность данных о личности, отсутствие приватности может приводить к смертельным последствиям.
Ссылки:
[1] https://datavaluesdigest.substack.com/p/how-data-is-adding-to-the-unfolding
[2] https://datavaluesdigest.substack.com
[3] https://www.hindustantimes.com/world-news/taliban-asks-for-list-of-girls-widows-to-be-married-to-their-fighters-reports-101626413987086.html
[4] https://www.reuters.com/article/afghanistan-tech-conflict/afghans-scramble-to-delete-digital-history-evade-biometrics-idUSL8N2PO1FH
[5] https://www.thenewhumanitarian.org/opinion/2021/6/21/rohingya-data-protection-and-UN-betrayal
[6] https://www.hrw.org/news/2021/06/15/un-shared-rohingya-data-without-informed-consent
[7] https://news.un.org/en/story/2019/09/1046442
#data #privacy
Там же ссылка статью об истории 2017 года когда UNHCR дали доступ правительствам Мьянмы и Бангладеша к персональным данным о беженцах рохинджа [5]. Об этом был подробный отчет от Human Rights Watch несколько лет назад [6]. При том что сами рохинджа находятся под угрозой геноцида [7]
Всё это о том что не стоит недооценивать доступность данных о личности, отсутствие приватности может приводить к смертельным последствиям.
Ссылки:
[1] https://datavaluesdigest.substack.com/p/how-data-is-adding-to-the-unfolding
[2] https://datavaluesdigest.substack.com
[3] https://www.hindustantimes.com/world-news/taliban-asks-for-list-of-girls-widows-to-be-married-to-their-fighters-reports-101626413987086.html
[4] https://www.reuters.com/article/afghanistan-tech-conflict/afghans-scramble-to-delete-digital-history-evade-biometrics-idUSL8N2PO1FH
[5] https://www.thenewhumanitarian.org/opinion/2021/6/21/rohingya-data-protection-and-UN-betrayal
[6] https://www.hrw.org/news/2021/06/15/un-shared-rohingya-data-without-informed-consent
[7] https://news.un.org/en/story/2019/09/1046442
#data #privacy
Substack
How Data is Adding to the Unfolding Crisis in Afghanistan
Data Values Digest #6 by Josh Powell
Пытался сформулировать мысли про происходящее и СМИ иноагенты. Главная проблема, конечно, в том что все что касается открытости государства, данных, взаимодействия государства - во всем этом лидерами были в первую очередь расследовательские медиа. В самом деле, зачем открытость если ее некому применять? Вот и закрытия и иноагентизация вначале НКО, а далее СМИ создают ситуацию когда открытость государства становится рудиментом потому что все ее потребители изгнаны из публичного пространства.
Я вижу что ликвидация СМИ и НКО - это часть идеологии рудиментизации открытости, подмены реальной прозрачности государства и общества на суррогаты из пиара, подмены понятий, искажения смыслов и работе на имитацию позиций в рейтингах вместо качественных изменений.
Насилие через запреты говорить, выражать мнение, неважно, верное или ошибочное, неприятное или резкое - всё это признаки слабости государства, крайне опасное в самой ближайшей перспективе.
Каков бы ни был кризис журналистики в России, блокировка СМИ проходит не по критерию низкого качества, а по критерию наличия альтернативной точки зрения государственному мейнстриму. Но лишать общество разнообразия мнений - это тупиковый путь, показывающий что диалог невозможен, есть лишь методы цензуры.
И из этого тупика нам ещё придётся выходить.
Я вижу что ликвидация СМИ и НКО - это часть идеологии рудиментизации открытости, подмены реальной прозрачности государства и общества на суррогаты из пиара, подмены понятий, искажения смыслов и работе на имитацию позиций в рейтингах вместо качественных изменений.
Насилие через запреты говорить, выражать мнение, неважно, верное или ошибочное, неприятное или резкое - всё это признаки слабости государства, крайне опасное в самой ближайшей перспективе.
Каков бы ни был кризис журналистики в России, блокировка СМИ проходит не по критерию низкого качества, а по критерию наличия альтернативной точки зрения государственному мейнстриму. Но лишать общество разнообразия мнений - это тупиковый путь, показывающий что диалог невозможен, есть лишь методы цензуры.
И из этого тупика нам ещё придётся выходить.
Forwarded from APICrafter
Новые наборы данных в APICrafter:
- Статистика регистрации юридических лиц по почтовым индексам https://beta.apicrafter.ru/packages/egrulpoststats
- Статистика регистрации юридических лиц по кодам КЛАДР https://beta.apicrafter.ru/packages/egrulkladrstats
- Записи из ЕГРЮЛ сокращённые для статистического анализа https://beta.apicrafter.ru/packages/egrulstatsrecords (11,2 миллиона записей), 5.8 гигабайт
Если первые два набора - это уже рассчитанные статистические показатели, то третий набор включает данные для анализа регистрации и ликвидации юридических лиц по почтовым индексам, кодам КЛАДР, кодам ОКОПФ, кодам ОКФЭД и основаниям ликвидации. Фактически, можно замерить сколько юр лиц по конкретному коду ОКВЭД создаётся и ликвидируется по дням, месяцам, годам, территориям и так далее.
Эти наборы данных являются открытыми и их можно скачать целиком в форматах CSV, BSON и JSON lines в разделах "версии и сборки" по каждому набору данных или воспользоваться API для доступа к данным.
Все эти наборы данных созданы на базе ЕГРЮЛ, доступ к которому также есть через систему APICrafter https://apicrafter.ru и там же можно оформить подписку для коммерческого доступа к данным.
#opendata #data #egrul
- Статистика регистрации юридических лиц по почтовым индексам https://beta.apicrafter.ru/packages/egrulpoststats
- Статистика регистрации юридических лиц по кодам КЛАДР https://beta.apicrafter.ru/packages/egrulkladrstats
- Записи из ЕГРЮЛ сокращённые для статистического анализа https://beta.apicrafter.ru/packages/egrulstatsrecords (11,2 миллиона записей), 5.8 гигабайт
Если первые два набора - это уже рассчитанные статистические показатели, то третий набор включает данные для анализа регистрации и ликвидации юридических лиц по почтовым индексам, кодам КЛАДР, кодам ОКОПФ, кодам ОКФЭД и основаниям ликвидации. Фактически, можно замерить сколько юр лиц по конкретному коду ОКВЭД создаётся и ликвидируется по дням, месяцам, годам, территориям и так далее.
Эти наборы данных являются открытыми и их можно скачать целиком в форматах CSV, BSON и JSON lines в разделах "версии и сборки" по каждому набору данных или воспользоваться API для доступа к данным.
Все эти наборы данных созданы на базе ЕГРЮЛ, доступ к которому также есть через систему APICrafter https://apicrafter.ru и там же можно оформить подписку для коммерческого доступа к данным.
#opendata #data #egrul
DataCrafter
Статистика регистрации, ликвидации и иных действий на основе ЕГРЮЛ в разрезах почтового индекса и других значений.
Статистические сведения подсчитанные на основе данных ЕГРЮЛ до октября 2020 года включительно с максимальной детализацией статистикии до почтового индекса и иных показателей
Странно что к российским выборам никто из политиков не предложил штрафовать за замедление старых устройств вендорами. Как например это делает Apple, за что и были оштрафованы во Франции и во Франции перестали это делать. Теперь выходят публикации о том что если переключить старый iPhone 7 на регион Франция, то он работает быстрее [1].
Ссылки:
[1] https://www.gizchina.com/2021/08/23/old-iphones-become-faster-if-you-change-the-region-to-france/
#tech #apple #globaltech
Ссылки:
[1] https://www.gizchina.com/2021/08/23/old-iphones-become-faster-if-you-change-the-region-to-france/
#tech #apple #globaltech
Gizchina
Old iPhones become faster if you change the region to France
Old iPhones become faster if you change the region to France. Perhaps, Apple still reduces the performance of its devices to save battery