Трансперенси Рус (признано НКО-«иностранным агентом») одни из немногих оставшихся российских НКО занимающихся прозрачностью государства и госзакупок на практике пишут про европейскую модель Integrity Pacts, когда у госконтракта появляется третья сторона, некоммерческого арбитра, отслеживающая соблюдение общественных интересов. Я знаю про эту практику, она не только в европе существует, она есть в Мексике по моделе "гражданского свидетеля", представителя общества участвующего в мониторинге исполнения госконтракта.
Она есть во многих других странах в других формах, но тут надо оговорится и что ключевое в таких моделях взаимодействия - это наличие независимых НКО и СМИ. В Евросоюзе снизили коррупцию не просто через Integrity Acts, а через то что там много НКО имеющих финансирование из независимых от правительств источников или же имеющих независимость даже при госфинансировании. В России сейчас прессинг на НКО и СМИ очень велик, настолько что общественный контроль очень сильно ограничен, в первую очередь, самоцензурой. Без снятия этого давления Integrity Pacts не заработают. Что не отменяет того что это, в целом, вполне здравая идея.
И начинаться она должна и может через включение общественников в приёмку результатов работ. Чем безжалостно сопротивляются почти все госзаказчики и исполнители по госконтрактам.
#procurement #government
Она есть во многих других странах в других формах, но тут надо оговорится и что ключевое в таких моделях взаимодействия - это наличие независимых НКО и СМИ. В Евросоюзе снизили коррупцию не просто через Integrity Acts, а через то что там много НКО имеющих финансирование из независимых от правительств источников или же имеющих независимость даже при госфинансировании. В России сейчас прессинг на НКО и СМИ очень велик, настолько что общественный контроль очень сильно ограничен, в первую очередь, самоцензурой. Без снятия этого давления Integrity Pacts не заработают. Что не отменяет того что это, в целом, вполне здравая идея.
И начинаться она должна и может через включение общественников в приёмку результатов работ. Чем безжалостно сопротивляются почти все госзаказчики и исполнители по госконтрактам.
#procurement #government
Forwarded from Трансперенси
Можно ли в России сделать госзакупки такими же прозрачными, как в Европе? (Да)
В Европейском союзе коррупция в секторе государственных закупок долгое время наносила ущерб в размере 5 млрд евро ежегодно. Чтобы снизить этот ущерб, в 2015 году секретариат Transparency International запустил проект Integrity Pacts (по-русски мы называем их Соглашениями о гражданском участии). Integrity Pact — это юридически обязывающее соглашение трех сторон: государственного заказчика, подрядчика и представителей гражданского общества (в Европейском союзе — это представители Transparency International).
С тех пор Integrity Pacts нашли применение в 11 странах Европейского союза на 18 крупных инфраструктурных проектах.
По оценке Счетной палаты, в России общий объем нарушений на госзакупках в 2020 году составил 108,7 млрд рублей (сюда включены не только коррупционные преступления, но и менее серьезные нарушения). При этом потери бюджета — не единственный вид вреда, который наносит обществу непрозрачность при госзакупках. Изолированность решений о распределении госконтрактов от общества часто становится триггером для массового недовольства.
Чтобы сделать государственные закупки прозрачнее а, значит, снизить потери общества от коррупции, мы запускаем проект Integrity Pacts в России. На первом этапе мы будем концентрироваться на закупках, связанных с благоустройством городских территорий.
Начинаем с Екатеринбурга — именно там в последние годы происходили наиболее острые конфликты по поводу благоустройства (чего стоит только история с строительством храма на месте сквера в центре города). Пилотным проектом для Соглашений может стать реконструкция Дендрологического парка-выставки в Екатеринбурге.
Самое главное: вы тоже можете принять участие в проекте, став арбитром между государственным заказчиком и частным подрядчиком.
➡️ Присоединяйтесь: https://transparency.org.ru/special/integritypacts/
В Европейском союзе коррупция в секторе государственных закупок долгое время наносила ущерб в размере 5 млрд евро ежегодно. Чтобы снизить этот ущерб, в 2015 году секретариат Transparency International запустил проект Integrity Pacts (по-русски мы называем их Соглашениями о гражданском участии). Integrity Pact — это юридически обязывающее соглашение трех сторон: государственного заказчика, подрядчика и представителей гражданского общества (в Европейском союзе — это представители Transparency International).
С тех пор Integrity Pacts нашли применение в 11 странах Европейского союза на 18 крупных инфраструктурных проектах.
По оценке Счетной палаты, в России общий объем нарушений на госзакупках в 2020 году составил 108,7 млрд рублей (сюда включены не только коррупционные преступления, но и менее серьезные нарушения). При этом потери бюджета — не единственный вид вреда, который наносит обществу непрозрачность при госзакупках. Изолированность решений о распределении госконтрактов от общества часто становится триггером для массового недовольства.
Чтобы сделать государственные закупки прозрачнее а, значит, снизить потери общества от коррупции, мы запускаем проект Integrity Pacts в России. На первом этапе мы будем концентрироваться на закупках, связанных с благоустройством городских территорий.
Начинаем с Екатеринбурга — именно там в последние годы происходили наиболее острые конфликты по поводу благоустройства (чего стоит только история с строительством храма на месте сквера в центре города). Пилотным проектом для Соглашений может стать реконструкция Дендрологического парка-выставки в Екатеринбурге.
Самое главное: вы тоже можете принять участие в проекте, став арбитром между государственным заказчиком и частным подрядчиком.
➡️ Присоединяйтесь: https://transparency.org.ru/special/integritypacts/
transparency.org.ru
Соглашение о гражданском участии
Инструмент для снижения коррупции в инфраструктурных проектах.
В рубрике интересное чтение в свободное время, Commonplace [1] проект от НКО Knowledge Futures посвящённый устойчивости воспроизведения знания в современном мире. Онлайн издание о таких темах как открытый доступ (open access), устойчивости открытых библиотек, реорганизации научных публикаций. Тексты все про размышления, очень оторванные от российской действительности, но хорошо задающие направления размышления именно про знания в нашем мире. Те же авторы являются создателями платформы PubPub [2] для осовременивания публикации научных работ.
В их контексте интересный проект IOI (Invest in Open Infrastructure) [3] в виде исследовательской НКО с фокусом на исследование принципов создания открытой инфраструктуры работы исследователей. Что это на практике? Это замена инфраструктуры коммерческих провайдеров, таких как Clarivate и им подобных, вначале собирающих статьи/данные/материалы от учёных, а потом предоставляющих подписку им же и за деньги. Например, IOI рассматривают существующие 10 проектов создания такой инфраструктуры [4] и многое другое.
Ещё одно интересное чтение, вернее смотрение, это большая мини-конференция Funding The Commons [5] от Protocol Labs о поиске источников финансирования для проектов имеющих общественную ценность. Protocol Labs - это ребята про криптовалюту, NFT и тому подобное. Соответственно и здесь видео в том числе о таких моделях развития общественных проектов и сборе пожертвований. Я бы предпочёл не слушать и не смотреть, а прочитать хорошую подборку статей об этом, но пока вижу мало публикаций и интересно движение мыслей. Если поиск идей в направлениях криптовалют и NFT помогут устойчивому существованию крупных общественных проектов таких как Wikipedia или Internet Archive, а также многих других, значит в этой идее есть здравое зерно.
Ссылки:
[1] https://commonplace.knowledgefutures.org/
[2] https://www.pubpub.org/
[3] https://investinopen.org
[4] https://investinopen.org/blog/costs-characteristics-oi-providers/#more-on-the-projects-and-how-we-selected-them
[5] https://www.youtube.com/watch?v=Axj8NJXnCN0
#thoughts #reading
В их контексте интересный проект IOI (Invest in Open Infrastructure) [3] в виде исследовательской НКО с фокусом на исследование принципов создания открытой инфраструктуры работы исследователей. Что это на практике? Это замена инфраструктуры коммерческих провайдеров, таких как Clarivate и им подобных, вначале собирающих статьи/данные/материалы от учёных, а потом предоставляющих подписку им же и за деньги. Например, IOI рассматривают существующие 10 проектов создания такой инфраструктуры [4] и многое другое.
Ещё одно интересное чтение, вернее смотрение, это большая мини-конференция Funding The Commons [5] от Protocol Labs о поиске источников финансирования для проектов имеющих общественную ценность. Protocol Labs - это ребята про криптовалюту, NFT и тому подобное. Соответственно и здесь видео в том числе о таких моделях развития общественных проектов и сборе пожертвований. Я бы предпочёл не слушать и не смотреть, а прочитать хорошую подборку статей об этом, но пока вижу мало публикаций и интересно движение мыслей. Если поиск идей в направлениях криптовалют и NFT помогут устойчивому существованию крупных общественных проектов таких как Wikipedia или Internet Archive, а также многих других, значит в этой идее есть здравое зерно.
Ссылки:
[1] https://commonplace.knowledgefutures.org/
[2] https://www.pubpub.org/
[3] https://investinopen.org
[4] https://investinopen.org/blog/costs-characteristics-oi-providers/#more-on-the-projects-and-how-we-selected-them
[5] https://www.youtube.com/watch?v=Axj8NJXnCN0
#thoughts #reading
PubPub
PubPub · Community Publishing
Collaborative Community Publishing
Ivan Begtin via @vote
Есть ли у Игоря Ашманова конфликт интересов при лоббирования "реестра токсичного контента" ?
anonymous poll
Есть, конечно, он же бизнесмен – 99
👍👍👍👍👍👍👍 79%
Я просто посмотреть ответы! – 24
👍👍 19%
Нет, конечно, он же член СПЧ – 2
▫️ 2%
👥 125 people voted so far.
anonymous poll
Есть, конечно, он же бизнесмен – 99
👍👍👍👍👍👍👍 79%
Я просто посмотреть ответы! – 24
👍👍 19%
Нет, конечно, он же член СПЧ – 2
▫️ 2%
👥 125 people voted so far.
Специально для тех кто обладает цифровыми навыками и немного свободным временем, есть задачи для программистов которые можно сделать как волонтеры, можно за деньги, как захочется. Я описал их на бирже фриланса [1] и в списке задач на Github [2].
Если кратко, у нас есть общественный проект Национальный цифровой архив (ruarxive.org) [3], не очень наглядный по виду, но по смыслу - это регулярная архивация веб сайтов и иного современного цифрового контента. Обычно кампаниями по сохранению чего-то в период риска.
В последние годы есть много контента который надо, или сохранять иначе, или специальными инструментами потому что веб-краулеры это не поддерживают. Например, это социальные сети и сайты с Ajax/API. Для некоторых появляются инструменты такие как instaloader для Instagram, twarc для Twitter, apibackuper для REST API и ещё много чего.
Но есть то для чего таких инструментов нет, например:
- сообщества и чаты в телеграм (можно сохранять с десктопного клиента только)
- сообщества в VK
- файлы с Яндекс.Диска, Облака Mail.ru и других онлайн дисков
- сайты Wordpress (у них есть такая опция с API)
- сайты Sharepoint (у них тоже есть такая опция с API)
Есть желание повысить качество архивации, в первую очередь по Telegram, VK и Яндекс.Диску, как самому критичному.
Для этого нужны утилиты командной строки которые можно регулярно запускать на сервере. Если у Вас есть опыт написания таких инструментов, Вам близка открытая разработка и есть немного времени, то помощь будет неоценима. А если хочется помочь, но нет возможности сделать это бесплатно - оцените сколько такая задача (любая из перечисленных) может стоить и возможно я смогу найти на это деньги.
Хочу попробовать найти разработчиков под такие инструменты таким анонсом, ну а если не получится, то устроим хакатон по цифровой архивации и наберем на него таких задачек;)
Ссылки:
[1] https://freelance.habr.com/tasks/402049
[2] https://github.com/ruarxive/ruarxive-research/issues
[3] https://ruarxive.org
#opendata #digitalpreservation #tools
Если кратко, у нас есть общественный проект Национальный цифровой архив (ruarxive.org) [3], не очень наглядный по виду, но по смыслу - это регулярная архивация веб сайтов и иного современного цифрового контента. Обычно кампаниями по сохранению чего-то в период риска.
В последние годы есть много контента который надо, или сохранять иначе, или специальными инструментами потому что веб-краулеры это не поддерживают. Например, это социальные сети и сайты с Ajax/API. Для некоторых появляются инструменты такие как instaloader для Instagram, twarc для Twitter, apibackuper для REST API и ещё много чего.
Но есть то для чего таких инструментов нет, например:
- сообщества и чаты в телеграм (можно сохранять с десктопного клиента только)
- сообщества в VK
- файлы с Яндекс.Диска, Облака Mail.ru и других онлайн дисков
- сайты Wordpress (у них есть такая опция с API)
- сайты Sharepoint (у них тоже есть такая опция с API)
Есть желание повысить качество архивации, в первую очередь по Telegram, VK и Яндекс.Диску, как самому критичному.
Для этого нужны утилиты командной строки которые можно регулярно запускать на сервере. Если у Вас есть опыт написания таких инструментов, Вам близка открытая разработка и есть немного времени, то помощь будет неоценима. А если хочется помочь, но нет возможности сделать это бесплатно - оцените сколько такая задача (любая из перечисленных) может стоить и возможно я смогу найти на это деньги.
Хочу попробовать найти разработчиков под такие инструменты таким анонсом, ну а если не получится, то устроим хакатон по цифровой архивации и наберем на него таких задачек;)
Ссылки:
[1] https://freelance.habr.com/tasks/402049
[2] https://github.com/ruarxive/ruarxive-research/issues
[3] https://ruarxive.org
#opendata #digitalpreservation #tools
За начало границы муниципального района Волжский Самарской области принята точка, расположенная в юго-западном углу лесного квартала 21 Советского лесничества Кинельского лесхоза на развилке лесных дорог (точка 1 – пересечение границ муниципальных районов Волжский, Красноярский и Кинельский Самарской области), далее граница проходит смежно границе муниципального района Кинельский Самарской области в восточном направлении по южным границам лесных кварталов 21, 22 Советского лесничества Кинельского лесхоза до юго-восточного угла квартала 22 Советского лесничества Кинельского лесхоза (точка 12), в южном направлении на расстоянии 360 м, пересекая автодорогу, идущую от поселка городского типа Новосемейкино муниципального района Красноярский Самарской области до кольца автодороги, идущей от города Самары до города Отрадного, далее в западном направлении по северной границе лесного квартала 99 Советского лесничества Кинельского лесхоза...
—
Именно так начинается самое длинное предложение современного русского языка в 9377 слов и 61 064 знака без пробелов и является это предложение приложением "Картографическое описание границ муниципального района Волжский Самарской области" к закону Самарской области №58-ГД от 25.02.2005 "Об установлении границ муниципального района Волжский Самарской области" [1].
Я писал о нём много лет назад, в декабре 2013 года и всё искал есть ли пример превосходящий этот по масштабам насилия над русским языком. Напишите, если такой знаете. Ищу новые и актуальные примеры наиболее закрученного замороченного и усложненного написания русскоязычных юридических и нормативных текстов.
Ссылки:
[1] https://www.samregion.ru/documents/laws/58-gd-ot-25-02-2005/
#plainrussian #language #russian
—
Именно так начинается самое длинное предложение современного русского языка в 9377 слов и 61 064 знака без пробелов и является это предложение приложением "Картографическое описание границ муниципального района Волжский Самарской области" к закону Самарской области №58-ГД от 25.02.2005 "Об установлении границ муниципального района Волжский Самарской области" [1].
Я писал о нём много лет назад, в декабре 2013 года и всё искал есть ли пример превосходящий этот по масштабам насилия над русским языком. Напишите, если такой знаете. Ищу новые и актуальные примеры наиболее закрученного замороченного и усложненного написания русскоязычных юридических и нормативных текстов.
Ссылки:
[1] https://www.samregion.ru/documents/laws/58-gd-ot-25-02-2005/
#plainrussian #language #russian
В России, почему-то, непринято хвалить проекты соседей по СНГ/постсоветскому пространству, а зря, не только им, но и нам есть чему поучиться.
Приведу в пример три проекта.
1. Карта преступности Казахстана
Ссылка: http://infopublic.pravstat.kz/crime/
Когда в Казахстане власти передали полномочия по регистрации преступлений прокуратуре республики то в скором времени в стране появился портал с криминальной статистикой и публикация сведения о преступлениях на карте. Сведения до конкретной точки, со всеми подробностями, по дате преступления, тяжести, улице, регистрационном номере и тд.
2. Портал PEP (Politically Exposed Persons) - политических персон Украины
Ссылка: https://pep.org.ua/en/
На Украине есть очень даже неплохо сделанный портал pep.org.ua с базой "PEP" лиц влияющих на политику, чиновников и лоббистов. Публичных персон одним словом. Не мне судить снижает ли это коррупцию в стране, это виднее самим её жителям, но то что открытость повышает это точно. В России только проект Декларатор Трансперенси Рус близок к такому проекту, но сейчас создать базу PEPов в России скорее будет сложно потому что для этого надо сводить очень много разных и больших источников данных.
3. Реестр конечных собственников в Армении
Ссылка: https://www.e-register.am/en/companies/1340197/declaration/c51e08a7-6fdb-4ab7-a55c-c74a68a8f54c
В Армении правительство начало публиковать сведений о конечных собственниках (Real Owners Declaration). Это расширение сведений в реестре юридических лиц сведениями о конечных бенефициарах компаний по стандарту Open Ownership.
#opendata #opengov
Приведу в пример три проекта.
1. Карта преступности Казахстана
Ссылка: http://infopublic.pravstat.kz/crime/
Когда в Казахстане власти передали полномочия по регистрации преступлений прокуратуре республики то в скором времени в стране появился портал с криминальной статистикой и публикация сведения о преступлениях на карте. Сведения до конкретной точки, со всеми подробностями, по дате преступления, тяжести, улице, регистрационном номере и тд.
2. Портал PEP (Politically Exposed Persons) - политических персон Украины
Ссылка: https://pep.org.ua/en/
На Украине есть очень даже неплохо сделанный портал pep.org.ua с базой "PEP" лиц влияющих на политику, чиновников и лоббистов. Публичных персон одним словом. Не мне судить снижает ли это коррупцию в стране, это виднее самим её жителям, но то что открытость повышает это точно. В России только проект Декларатор Трансперенси Рус близок к такому проекту, но сейчас создать базу PEPов в России скорее будет сложно потому что для этого надо сводить очень много разных и больших источников данных.
3. Реестр конечных собственников в Армении
Ссылка: https://www.e-register.am/en/companies/1340197/declaration/c51e08a7-6fdb-4ab7-a55c-c74a68a8f54c
В Армении правительство начало публиковать сведений о конечных собственниках (Real Owners Declaration). Это расширение сведений в реестре юридических лиц сведениями о конечных бенефициарах компаний по стандарту Open Ownership.
#opendata #opengov
Библиотеки данных - это, в первую очередь, не библиотеки кода, а специальные каталоги данных, которые, однако, называют data libraries. Отличить их от классических каталогов данных сложно, так что можно рассматривать их как подвид каталога данных.
Например, существует библиотека климатических данных [1], а также библиотеки данных в инсталляциях платформы Galaxy [2] используемой для биоинформатики. Каталог данных Азиатского банка развития тоже, почему-то, называют ADB Data Library [3], а также библиотека данных в проекте Clue [4] (тоже биоинформатика).
Лично мне не удалось найти описания дающее термину data library какое-то особое значение, а вот у data librarian такое определение есть, через вакансию [5] с описанием профессии как expert on research data management, description, archiving and dissemination.
Всё становится немного яснее data library рассматривается как каталог, в первую очередь, научных данных. Но термин, как и многие другие в этой области, неустойчивый.
А теперь моё небольшое предсказание в том что по мере роста объемов данных в компаниях и, когда-нибудь, и в органах данных появятся вакансии таких библиотекарей данных, сейчас их функции выполняют, могут выполнять, дата кураторы, смешивая их роль отраслевых специалистов и тех кто каталогизирует данные. А я говорю что рано или поздно критическая масса данных внутри будет достигать такой отметки что понадобится как минимум один человек занимающийся только каталогизацией. Пока подобные роли есть только в крупных агрегаторах исследовательских данных где собираются разные данные разного качества и пока рынок данных разбалансирован ещё больше чем рынок ИТ. Все хотят быть дата саентистами, но не все могут достигнуть нужных навыков.
А спектр задач работы с данными велик, каждый может найти роль под себя.
Ссылки:
[1] https://iridl.ldeo.columbia.edu/index.html?Set-Language=ru
[2] https://galaxyproject.org/data-libraries/
[3] https://data.adb.org/
[4] https://clue.io/data
[5] https://libereurope.eu/job/summary-working-in-close-collaboration-with-the-director-of-the-libraries-research-coordination-and-the-it-department-you-will-be-responsible-for-the-library-support-towards-rdm-to-researchers-and/
#data #datalibrians #datamanagement
Например, существует библиотека климатических данных [1], а также библиотеки данных в инсталляциях платформы Galaxy [2] используемой для биоинформатики. Каталог данных Азиатского банка развития тоже, почему-то, называют ADB Data Library [3], а также библиотека данных в проекте Clue [4] (тоже биоинформатика).
Лично мне не удалось найти описания дающее термину data library какое-то особое значение, а вот у data librarian такое определение есть, через вакансию [5] с описанием профессии как expert on research data management, description, archiving and dissemination.
Всё становится немного яснее data library рассматривается как каталог, в первую очередь, научных данных. Но термин, как и многие другие в этой области, неустойчивый.
А теперь моё небольшое предсказание в том что по мере роста объемов данных в компаниях и, когда-нибудь, и в органах данных появятся вакансии таких библиотекарей данных, сейчас их функции выполняют, могут выполнять, дата кураторы, смешивая их роль отраслевых специалистов и тех кто каталогизирует данные. А я говорю что рано или поздно критическая масса данных внутри будет достигать такой отметки что понадобится как минимум один человек занимающийся только каталогизацией. Пока подобные роли есть только в крупных агрегаторах исследовательских данных где собираются разные данные разного качества и пока рынок данных разбалансирован ещё больше чем рынок ИТ. Все хотят быть дата саентистами, но не все могут достигнуть нужных навыков.
А спектр задач работы с данными велик, каждый может найти роль под себя.
Ссылки:
[1] https://iridl.ldeo.columbia.edu/index.html?Set-Language=ru
[2] https://galaxyproject.org/data-libraries/
[3] https://data.adb.org/
[4] https://clue.io/data
[5] https://libereurope.eu/job/summary-working-in-close-collaboration-with-the-director-of-the-libraries-research-coordination-and-the-it-department-you-will-be-responsible-for-the-library-support-towards-rdm-to-researchers-and/
#data #datalibrians #datamanagement
iridl.ldeo.columbia.edu
IRI/LDEO Climate Data Library
The IRI Data Library is a powerful and freely accessible online data repository and analysis tool that allows a user to view, analyze, and download hundreds of terabytes of climate-related data through a standard web browser.
Я напоминаю про проект Каталога каталогов данных datacatalogs.ru [1] недавно запущенный Инфокультурой.
Мы ведем этот каталог в Airtable где размечаем каждый каталог по режиму доступа, темам, ПО, стране, региону, владельцу, типу владельца и ещё многим другим критериям. По каждому репозиторию заполняется более 20 атрибутов и пока они не все выводятся в веб интерфейсе, отчасти чтобы не потерять наглядность, отчасти потому что изначально каталог мы делали для других задач, а этот каталог каталогов лишь одна из форм его представления.
Если Вы знаете портал открытых данных или иной важный репозиторий данных - не стесняйтесь и добавляйте его в каталог.
Ссылки:
[1] https://datacatalogs.ru
#opendata #datacatalogs #catalogs #data #datasets
Мы ведем этот каталог в Airtable где размечаем каждый каталог по режиму доступа, темам, ПО, стране, региону, владельцу, типу владельца и ещё многим другим критериям. По каждому репозиторию заполняется более 20 атрибутов и пока они не все выводятся в веб интерфейсе, отчасти чтобы не потерять наглядность, отчасти потому что изначально каталог мы делали для других задач, а этот каталог каталогов лишь одна из форм его представления.
Если Вы знаете портал открытых данных или иной важный репозиторий данных - не стесняйтесь и добавляйте его в каталог.
Ссылки:
[1] https://datacatalogs.ru
#opendata #datacatalogs #catalogs #data #datasets
datacatalogs.ru/
Каталог каталогов открытых данных
Поиск и фильтрация каталогов открытых данных
Для тех кто ищет особо крупные наборы данных для работы так чтобы побольше и посложнее напомню крупные источники общедоступных данных большого объёма.
- коллекция Datasets [1] в Интернет архиве - много дампов общедоступных публичных архивов
- дампы проектов фонда Wikimedia (Wikipedia и др.) [2] - большие данные в XML, SQL и других формах.
- реестр открытых данных на платформе AWS [3] - более 305 наборов данных
- Common Crawl [4] - общедоступный огромный поисковый индекс, часто используется в задачах OSINT
- Microsoft Academic Knowledge Graph (MAKG) [5] огромный граф по научным статьям и их авторам скомпилированный исследовательским подразделением Microsoft из многих источников
О некоторых из этих наборов данных я писал ранее и о многих напишу ещё не раз в рубрике #datasets
Ссылки:
[1] https://archive.org/details/datasets
[2] https://dumps.wikimedia.org/
[3] https://registry.opendata.aws/
[4] https://commoncrawl.org/
[5] https://makg.org/
#datasets #opendata
- коллекция Datasets [1] в Интернет архиве - много дампов общедоступных публичных архивов
- дампы проектов фонда Wikimedia (Wikipedia и др.) [2] - большие данные в XML, SQL и других формах.
- реестр открытых данных на платформе AWS [3] - более 305 наборов данных
- Common Crawl [4] - общедоступный огромный поисковый индекс, часто используется в задачах OSINT
- Microsoft Academic Knowledge Graph (MAKG) [5] огромный граф по научным статьям и их авторам скомпилированный исследовательским подразделением Microsoft из многих источников
О некоторых из этих наборов данных я писал ранее и о многих напишу ещё не раз в рубрике #datasets
Ссылки:
[1] https://archive.org/details/datasets
[2] https://dumps.wikimedia.org/
[3] https://registry.opendata.aws/
[4] https://commoncrawl.org/
[5] https://makg.org/
#datasets #opendata
Я регулярно пишу о том что у многих информационных систем и иных публичных ресурсов государства есть много недокументированных API. Причём эти API имеют, как правило, две истории происхождения:
a) API сделанные разработчиками для работы каких-то компонентов и ни разу не документированные, например, если сайт сделан с использованим Ajax технологии.
б) API предусмотренное изначально создателем платформы выбранной разработчиками. Например, API использованной CMS.
Приведу примеры того в какой форме такое API бывает.
Сайт Финансового университета fa.ru сделан на Sharepoint, CMS от Microsoft чаще используемой для внутри-корпоративных сайтов и реже для сайтов в Интернете. У последних версий Sharepoint доступ к данным осуществляется через API по ссылке "/_api". Для Финуниверситета это www.fa.ru/_api/ и по этой ссылке можно далее, особенно если почитать документацию на Sharepoint, осуществлять навигацию по сайту. Обычно это начинается со ссылки www.fa.ru/_api/web где по расширенному протоколу Atom отдаётся описание хранящихся в списках сайта материалов.
Сайт Рособрнадзора obrnadzor.gov.ru сделан на CMS Wordpress. Wordpress - это одна из наиболее популярных CMS в мире, скорее всего наиболее популярная. Вот уже несколько версий в этой CMS есть специальная ссылка "/wp-json/" позволяющая получать данные содержимого сайта (не вёрстки, а контента!) в машиночитаемом виде. Поэтому и содержание сайта Рособрнадзора можно выкачать специальным краулером по адресу obrnadzor.gov.ru/wp-json/ . Кроме Рособрнадзора на Wordpress созданы сайты ещё многих сайтов.
У Санкт-Петербургского государствнного университета есть система Архива публичного доступа dspace.spbu.ru как кто-то уже догадался, сделанный на платформе DSPace используемой тысячами научных и иных организаций по всему миру. У DSPace есть API, вполне документированное, но не выносимое на главные страницы инсталляции платформы, доступное по ссылке "/rest/". В случае СПбГУ это ссылка на API dspace.spbu.ru/rest/.
DSPace используется не только ВУЗами, но и межгосударственными организациями такими как Всемирная организация здравоохранения. ВОЗ публикует свои материалы в системе IRIS, Институциональное хранилище для обмена информацией. IRIS, также, создано на базе DSPace и открыто его API apps.who.int/iris/rest/
Недокументированные API оставленные разработчиками присутствуют, например, на сайтах Мэра и Правительства Москвы www.mos.ru и портала Электронный бюджет budget.gov.ru из-за чего они плохо индексируются поисковыми системами. Сами API можно выявить просматривая запросы браузера к страницам сайтов.
Федеральная пробирная палата отдаёт все страницы на своём официальном сайте probpalata.ru из-за использования в качестве CMS движка для документооборота. Об этом я писал отдельно https://t.me/begtin/3283, до сих пор удивляюсь этой истории.
Конечно есть редкие примеры документированных госAPI. Конечно многие из примеров API из CMS относятся и к корпоративному сектору и всем остальным и, конечно, далеко не все примеры я сейчас привел, на практике их значительно больше.
Из всего этого я обращаю внимание на следующее:
1) Фактическая доступность данных часто выше чем наблюдаемая (документированная) доступность.
2) Системной работы над доступностью данных и програмнных интерфейсов из госсистем у нас в стране всё ещё нет. Нет аналогов платформ API как в других странах.
3) Конечно, API, не заменяет возможно массовой выгрузки (bulk download) данных. Иногда, даже при доступности такого API, чтобы выгрузить данные надо делать миллионы запросов к системе, что может занимать долгое время при медленном отклике от системы.
#openapi #api #data #govwebsites
a) API сделанные разработчиками для работы каких-то компонентов и ни разу не документированные, например, если сайт сделан с использованим Ajax технологии.
б) API предусмотренное изначально создателем платформы выбранной разработчиками. Например, API использованной CMS.
Приведу примеры того в какой форме такое API бывает.
Сайт Финансового университета fa.ru сделан на Sharepoint, CMS от Microsoft чаще используемой для внутри-корпоративных сайтов и реже для сайтов в Интернете. У последних версий Sharepoint доступ к данным осуществляется через API по ссылке "/_api". Для Финуниверситета это www.fa.ru/_api/ и по этой ссылке можно далее, особенно если почитать документацию на Sharepoint, осуществлять навигацию по сайту. Обычно это начинается со ссылки www.fa.ru/_api/web где по расширенному протоколу Atom отдаётся описание хранящихся в списках сайта материалов.
Сайт Рособрнадзора obrnadzor.gov.ru сделан на CMS Wordpress. Wordpress - это одна из наиболее популярных CMS в мире, скорее всего наиболее популярная. Вот уже несколько версий в этой CMS есть специальная ссылка "/wp-json/" позволяющая получать данные содержимого сайта (не вёрстки, а контента!) в машиночитаемом виде. Поэтому и содержание сайта Рособрнадзора можно выкачать специальным краулером по адресу obrnadzor.gov.ru/wp-json/ . Кроме Рособрнадзора на Wordpress созданы сайты ещё многих сайтов.
У Санкт-Петербургского государствнного университета есть система Архива публичного доступа dspace.spbu.ru как кто-то уже догадался, сделанный на платформе DSPace используемой тысячами научных и иных организаций по всему миру. У DSPace есть API, вполне документированное, но не выносимое на главные страницы инсталляции платформы, доступное по ссылке "/rest/". В случае СПбГУ это ссылка на API dspace.spbu.ru/rest/.
DSPace используется не только ВУЗами, но и межгосударственными организациями такими как Всемирная организация здравоохранения. ВОЗ публикует свои материалы в системе IRIS, Институциональное хранилище для обмена информацией. IRIS, также, создано на базе DSPace и открыто его API apps.who.int/iris/rest/
Недокументированные API оставленные разработчиками присутствуют, например, на сайтах Мэра и Правительства Москвы www.mos.ru и портала Электронный бюджет budget.gov.ru из-за чего они плохо индексируются поисковыми системами. Сами API можно выявить просматривая запросы браузера к страницам сайтов.
Федеральная пробирная палата отдаёт все страницы на своём официальном сайте probpalata.ru из-за использования в качестве CMS движка для документооборота. Об этом я писал отдельно https://t.me/begtin/3283, до сих пор удивляюсь этой истории.
Конечно есть редкие примеры документированных госAPI. Конечно многие из примеров API из CMS относятся и к корпоративному сектору и всем остальным и, конечно, далеко не все примеры я сейчас привел, на практике их значительно больше.
Из всего этого я обращаю внимание на следующее:
1) Фактическая доступность данных часто выше чем наблюдаемая (документированная) доступность.
2) Системной работы над доступностью данных и програмнных интерфейсов из госсистем у нас в стране всё ещё нет. Нет аналогов платформ API как в других странах.
3) Конечно, API, не заменяет возможно массовой выгрузки (bulk download) данных. Иногда, даже при доступности такого API, чтобы выгрузить данные надо делать миллионы запросов к системе, что может занимать долгое время при медленном отклике от системы.
#openapi #api #data #govwebsites
Портал Финансового университета
Финансовый университет при Правительстве Российской Федерации
Один из старейших российских вузов, готовящих экономистов, финансистов, юристов по финансовому праву, математиков, ИТ-специал...
Forwarded from Инфокультура
В каталог откртыых данных Инфокультуры (datacatalogs.ru) добавлены новые каталоги данных и репозитории:
Мировой центр данных - Б «Океанография»
Мировой центр данных Б Океанография действует на базе Национального центра океанографических данных ФГБУ «ВНИИГМИ-МЦД» и обеспечивает хранение и обслуживание пользователей данными о физических, химических и динамических параметрах Мирового океана
Мировой центр радиационных данных
Мировой Центр Радиационных Данных (МЦРД) - один из признанных мировых
центров данных, спонсируемых Всемирной Метеорогической Организацией (ВМО).
МЦРД является лабораторией Главной геофизической обсерватории им.А.И.Воейкова,
Федеральной Службы России по Гидрометеорологии и Мониторингу Окружающей Среды, бывшего Государственного Комитета по Гидрометеорологии СССР, и
расположена в Санкт-Петербурге.
Университетская информационная система Россия
Университетская информационная система РОССИЯ (УИС РОССИЯ) создана и целенаправленно развивается как тематическая электронная библиотека и база для исследований и учебных курсов в области экономики, управления, социологии, лингвистики, философии, филологии, международных отношений и других гуманитарных наук.
—
Все 3 новых источника являются научными каталогами данных, а мировые центры данных входят в систему ISC World Data System (ISC-WDS)
Если Вы знаете какой-либо каталог данных отсутствующий в репозитории, напишите нам о нём. Это может быть государственный, общественный, частный, научный каталог данных по которому доступно хотя бы описание метаданных того что в нём содержится, а ещё лучше если это каталог открытых данных.
#opendata #datasets #datacatalogs
Мировой центр данных - Б «Океанография»
Мировой центр данных Б Океанография действует на базе Национального центра океанографических данных ФГБУ «ВНИИГМИ-МЦД» и обеспечивает хранение и обслуживание пользователей данными о физических, химических и динамических параметрах Мирового океана
Мировой центр радиационных данных
Мировой Центр Радиационных Данных (МЦРД) - один из признанных мировых
центров данных, спонсируемых Всемирной Метеорогической Организацией (ВМО).
МЦРД является лабораторией Главной геофизической обсерватории им.А.И.Воейкова,
Федеральной Службы России по Гидрометеорологии и Мониторингу Окружающей Среды, бывшего Государственного Комитета по Гидрометеорологии СССР, и
расположена в Санкт-Петербурге.
Университетская информационная система Россия
Университетская информационная система РОССИЯ (УИС РОССИЯ) создана и целенаправленно развивается как тематическая электронная библиотека и база для исследований и учебных курсов в области экономики, управления, социологии, лингвистики, философии, филологии, международных отношений и других гуманитарных наук.
—
Все 3 новых источника являются научными каталогами данных, а мировые центры данных входят в систему ISC World Data System (ISC-WDS)
Если Вы знаете какой-либо каталог данных отсутствующий в репозитории, напишите нам о нём. Это может быть государственный, общественный, частный, научный каталог данных по которому доступно хотя бы описание метаданных того что в нём содержится, а ещё лучше если это каталог открытых данных.
#opendata #datasets #datacatalogs
datacatalogs.ru/
Каталог каталогов открытых данных
Поиск и фильтрация каталогов открытых данных
По поводу Роснано я не могу не вспомнить о том как Минэкономразвития формировало Реестр некоммерческих организаций, в наибольшей степени пострадавших в условиях ухудшения ситуации в результате распространения новой коронавирусной инфекции [1] где сейчас перечисленно 15852 организации.
В том числе этот реестр обновляли в апреле 2021 года [2].
Этот реестр создавался по Постановлению Пр-ва РФ от 11 июня 2020 г. № 847 [3], по сути в нем было прописано что его формируют ФОИВы по собственным _непрозрачным критериям_.
Сейчас это постановление утратило силу и вместо него формируют новый реестр СО НКО, его правила формирования прописаны в Постановлении Правительства Российской Федерации от 30.07.2021 № 1290 "О реестре социально ориентированных некоммерческих организаций" [4]
Так вот вопрос - кто войдет в этот реестр?
Например, в текущем реестре присутствуют НКО находящиеся в 100% подчинении Правительству или Госкорпорации и не являющиеся благотворительными, а, по сути, выполняющие функции "агентов Правительства". У того же Роснано всё ещё есть Фонд инфраструктурных и образовательных программ [5] на котором сейчас значительная часть проектов Роснано. Так вот в апреле 2021 г. он был включён Минэкономразвития России в перечень этих самых наиболее постарадавших НКО [6]. Чтобы было понятнее, у ФИОПа выручка за 2020 год 3.4 миллиарда рублей, а за 2019 г. 1.8 миллиардов рублей. Всего на 2020 год у ФИОП 25 млрд. рублей активов [7] и это не единственная из крупнейших госНКО "особенно постарадавших от коронавируса".
Я писал о "косяках" реестров СОНКО ещё в июне 2020 года в колонке для РБК [8], с той поры ничего не изменилось.
Здесь должна быть какая-то мораль и завершающая мысль, но всё не могу сформулировать и уже почти не удивляюсь.
Ссылки:
[1] https://data.economy.gov.ru/analytics/sonko-affected/all
[2] https://economy.gov.ru/material/dokumenty/reestr_nko.html
[3] http://pravo.gov.ru/proxy/ips/?docbody=&prevDoc=102710737&backlink=1&&nd=102751
[4] http://publication.pravo.gov.ru/Document/View/0001202108020026?index=0&rangeSize=1
[5] http://fiop.site
[6] https://data.economy.gov.ru/analytics/sonko-affected/all
[7] https://bo.nalog.ru/organizations-card/2943128
[8] https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585
#ngo #sonko #covid19
В том числе этот реестр обновляли в апреле 2021 года [2].
Этот реестр создавался по Постановлению Пр-ва РФ от 11 июня 2020 г. № 847 [3], по сути в нем было прописано что его формируют ФОИВы по собственным _непрозрачным критериям_.
Сейчас это постановление утратило силу и вместо него формируют новый реестр СО НКО, его правила формирования прописаны в Постановлении Правительства Российской Федерации от 30.07.2021 № 1290 "О реестре социально ориентированных некоммерческих организаций" [4]
Так вот вопрос - кто войдет в этот реестр?
Например, в текущем реестре присутствуют НКО находящиеся в 100% подчинении Правительству или Госкорпорации и не являющиеся благотворительными, а, по сути, выполняющие функции "агентов Правительства". У того же Роснано всё ещё есть Фонд инфраструктурных и образовательных программ [5] на котором сейчас значительная часть проектов Роснано. Так вот в апреле 2021 г. он был включён Минэкономразвития России в перечень этих самых наиболее постарадавших НКО [6]. Чтобы было понятнее, у ФИОПа выручка за 2020 год 3.4 миллиарда рублей, а за 2019 г. 1.8 миллиардов рублей. Всего на 2020 год у ФИОП 25 млрд. рублей активов [7] и это не единственная из крупнейших госНКО "особенно постарадавших от коронавируса".
Я писал о "косяках" реестров СОНКО ещё в июне 2020 года в колонке для РБК [8], с той поры ничего не изменилось.
Здесь должна быть какая-то мораль и завершающая мысль, но всё не могу сформулировать и уже почти не удивляюсь.
Ссылки:
[1] https://data.economy.gov.ru/analytics/sonko-affected/all
[2] https://economy.gov.ru/material/dokumenty/reestr_nko.html
[3] http://pravo.gov.ru/proxy/ips/?docbody=&prevDoc=102710737&backlink=1&&nd=102751
[4] http://publication.pravo.gov.ru/Document/View/0001202108020026?index=0&rangeSize=1
[5] http://fiop.site
[6] https://data.economy.gov.ru/analytics/sonko-affected/all
[7] https://bo.nalog.ru/organizations-card/2943128
[8] https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585
#ngo #sonko #covid19
На хабре публикация [1] про Quite OK Image [2] проект по быстрому сжатию изображений который сравнивают с форматом PNG, на самом деле, давно устаревший для Web'а и заменённый .webp и сравнения очень условные. Автор и сам признается что ничего не понимает в криптографии и просто решил сделать эксперимент, но внезапно "обрел славу" изобретателя нового формата. При том что сложного алгоритма там нет, а лишь доработанный формат RLE (Run length encoding), с некоторыми неплохими идеями, правда.
Но, я скажу так, практического применения немного. Изображения и видео съедают много трафика, а конечные устройства пользователей всё больше включают процессы и видеопроцессоры для достаточно быстрого раскодирования. Гонка идёт на балансе уровня сжатия и скорости разсжатия, а вот скорость сжатия изображений далеко не так критична.
Где это действительно применимо - это малые изображения, до 64 килобайт и особенно в играх где не популярен формат webp. Разработчики игр, правда, давно уже используют разнообразные собственные форматы хранения спрайтов и отдельных графических элементов.
В общем и целом ажиотаж не обоснован. А из интересных, необычных, алгоритмов и инструментов сжатия я могу посоветовать посмотреть Precomp [2] утилита от Кристиана Шнаадера по пере-сжатию архивов, иногда может уменьших существующий архив в несколько раз через пересжимание содержимого архива более эффективными алгоритмами. А также посмотреть на промежуточных победителей Global Data Compression Competitions 2021 (GDCC) [4] там много очень интересных проектов/решений/алгоритмов, как правило довольно сложных. И почти во всех случаях экспериментальных, практически не используемых в промышленных системах.
Между прочим, для хранения данных проблемы компрессии также крайне актуальны и, если для оперативных данных используются, в основном, lz4, gzip, xzip, bzip2, то для долгосрочной архивации структурированных данных могут быть и другие алгоритмы, дающие лучшее сжатие с приемлимой скоростью.
Ссылки:
[1] https://habr.com/ru/news/t/591577/
[2] https://phoboslab.org/log/2021/11/qoi-fast-lossless-image-compression
[3] http://schnaader.info/precomp.php
[4] https://www.gdcc.tech/
#compression #algorithms
Но, я скажу так, практического применения немного. Изображения и видео съедают много трафика, а конечные устройства пользователей всё больше включают процессы и видеопроцессоры для достаточно быстрого раскодирования. Гонка идёт на балансе уровня сжатия и скорости разсжатия, а вот скорость сжатия изображений далеко не так критична.
Где это действительно применимо - это малые изображения, до 64 килобайт и особенно в играх где не популярен формат webp. Разработчики игр, правда, давно уже используют разнообразные собственные форматы хранения спрайтов и отдельных графических элементов.
В общем и целом ажиотаж не обоснован. А из интересных, необычных, алгоритмов и инструментов сжатия я могу посоветовать посмотреть Precomp [2] утилита от Кристиана Шнаадера по пере-сжатию архивов, иногда может уменьших существующий архив в несколько раз через пересжимание содержимого архива более эффективными алгоритмами. А также посмотреть на промежуточных победителей Global Data Compression Competitions 2021 (GDCC) [4] там много очень интересных проектов/решений/алгоритмов, как правило довольно сложных. И почти во всех случаях экспериментальных, практически не используемых в промышленных системах.
Между прочим, для хранения данных проблемы компрессии также крайне актуальны и, если для оперативных данных используются, в основном, lz4, gzip, xzip, bzip2, то для долгосрочной архивации структурированных данных могут быть и другие алгоритмы, дающие лучшее сжатие с приемлимой скоростью.
Ссылки:
[1] https://habr.com/ru/news/t/591577/
[2] https://phoboslab.org/log/2021/11/qoi-fast-lossless-image-compression
[3] http://schnaader.info/precomp.php
[4] https://www.gdcc.tech/
#compression #algorithms
Хабр
Разработчик представил Quite OK Image, алгоритм сжатия без потерь со сложностью O(n)
Разработчик Доминик Саблевски (Dominic Szablewski) представил алгоритм QOI (Quite OK Image), который позволяет без потерь сжимать RGB и RGBA изображения до размера файла, аналогичного для формата...
В The Guardian колонка [1] Jeffrey Barrett о том что южноафриканские ученые опубликовавшие расшифровку штамма COVID-19 - Omicron являются героями.
Автор является руководителем геномной инициативы по Covid-19 при Wellcome Sanger Institute и упоминает такое важное и совершенно новое явление как genomic surveillance генетическая слежка уникальная тем что ученые расшифровывают геномы и публикуют результаты в открытом доступе практически моментально. Раньше это было невозможно представить, а сейчас масштабы взаимодействия между учёными огромны и опубликовано уже более 5.5 миллионов геномов.
Автор предлагает найти способ вознаградить исследователей из Ботсваны и ЮАР опубликовавших сведения об Omicron сразу же после находки, 23 ноября, и благодаря этому правительства стран и ВОЗ начали реагировать максимально оперативно.
И здесь есть два важнейших аспекта:
1) Это реальный настоящий и непрерывно действующий пример критичности открытости данных. Как минимум в решении глобальных проблем. Если бы все самые опасные болезни и проблемы человечества решались так же, то, быть может, и мир был бы другим.
2) Межгосударственные организации, такие как ВОЗ, стремительно образующиеся консорциумы вокруг центров компетенций и так далее осознают важность открытых данных. То что в России на национальном уровне забыли про это, это не означает что тема потеряла актуальность в мире. Потому что нельзя быть частью мира и избегать делать то что делать нужно и важно.
Ссылки:
[1] https://www.theguardian.com/commentisfree/2021/nov/28/scientists-sharing-omicron-date-were-heroic-lets-ensure-they-dont-regret-it
#opendata #covid19
Автор является руководителем геномной инициативы по Covid-19 при Wellcome Sanger Institute и упоминает такое важное и совершенно новое явление как genomic surveillance генетическая слежка уникальная тем что ученые расшифровывают геномы и публикуют результаты в открытом доступе практически моментально. Раньше это было невозможно представить, а сейчас масштабы взаимодействия между учёными огромны и опубликовано уже более 5.5 миллионов геномов.
Автор предлагает найти способ вознаградить исследователей из Ботсваны и ЮАР опубликовавших сведения об Omicron сразу же после находки, 23 ноября, и благодаря этому правительства стран и ВОЗ начали реагировать максимально оперативно.
И здесь есть два важнейших аспекта:
1) Это реальный настоящий и непрерывно действующий пример критичности открытости данных. Как минимум в решении глобальных проблем. Если бы все самые опасные болезни и проблемы человечества решались так же, то, быть может, и мир был бы другим.
2) Межгосударственные организации, такие как ВОЗ, стремительно образующиеся консорциумы вокруг центров компетенций и так далее осознают важность открытых данных. То что в России на национальном уровне забыли про это, это не означает что тема потеряла актуальность в мире. Потому что нельзя быть частью мира и избегать делать то что делать нужно и важно.
Ссылки:
[1] https://www.theguardian.com/commentisfree/2021/nov/28/scientists-sharing-omicron-date-were-heroic-lets-ensure-they-dont-regret-it
#opendata #covid19
В рубрике полезных инструментов работы с данными, подборка инструментов для сбора и анализа данных с моими комментариями.
- Article extraction benchmark [1] сравнение качества работы большого числа инструментов с открытым кодом и некоторых коммерческих сервисов по извлечению статей/текстов из веб-страниц. В общей сложности 17 движков, с открытым кодом на первом месте trafilatura [2]
- Dagster [3] - ETL/ELT движок для data orchestration (управления потоками данных) с открытым кодом. Буквально совсем недавно они получили $14M финансирования на стартап Elementl [4] который будет предоставлять услуги в облаке, а открытый продукт останется в режиме open core, а то есть будет развиваться параллельно созданию облачного продукта. В целом стратегия понятная и распространённая и продукт неплохой, хочется надеяться что он станет ещё лучше.
- Apache Superset [5] и Metabase [6] - open-source инструменты по быстрому развертыванию систем визуализации бизнес аналитики. Superset только с открытым кодом, Metabase в гибридной модели где частично открытый код, а часть возможностей уже только в pro версии и в облаке за деньги.
- Frictionless Data [7] - на сегодняшний день наиболее проработанный стандарт обмена табличными данными а ля CSV. Данные упаковываются в специальный ZIP контейнер и включают необходимые метаданные для их использования. Авторы с самого начала нацелились на научную среду и много внедрений именно в каталогах исследовательских данных [8]. Формируют большую экосистему продуктов/сервисов/форматов с открытым кодом.
- Data Curator [9] один из продуктов поддерживающих Frictionless Data используемый для подготовки пакетов данных. Полезный для не-программистов поскольку позволяет заполнить необходимые метаданные в графическом интерфейсе. Много лет его авторы не развивали, но вернулись снова к проекту в 2020 году.
- Validata [10] сервис проверки CSV файлов на соответствие схемам данных во Франции. Создан их федеральной ИТ службой Etalab для проверки публикации данных местными властями. Также основан на инструментах и спецификации Frictionless Data.
- Open Data Blend [11] - набор коммерческих сервисов по доступу к данным, аналитике и другим инструментам по работе с открытыми данными в Великобритании. Был, отчасти, прообразом того что наша команда делает в виде проекта DataCrafter, но оформлено у них визуально получше, так что нам есть над чем работать.
Если знаете какие-то не самые популярные, но полезные продукты с открытым кодом или сервисы по работе с данными, приходите обсуждать их в чат @begtinchat к этому каналу.
Ссылки:
[1] https://github.com/scrapinghub/article-extraction-benchmark
[2] https://github.com/adbar/trafilatura
[3] https://dagster.io
[4] https://dagster.io/blog/decade-of-data
[5] https://superset.apache.org/
[6] https://www.metabase.com/
[7] https://frictionlessdata.io
[8] https://frictionlessdata.io/adoption/#pilot-collaborations
[9] https://github.com/qcif/data-curator
[10] https://validata.fr/doku.php
[11] https://www.opendatablend.io/
#data #tools #opensource #datatools
- Article extraction benchmark [1] сравнение качества работы большого числа инструментов с открытым кодом и некоторых коммерческих сервисов по извлечению статей/текстов из веб-страниц. В общей сложности 17 движков, с открытым кодом на первом месте trafilatura [2]
- Dagster [3] - ETL/ELT движок для data orchestration (управления потоками данных) с открытым кодом. Буквально совсем недавно они получили $14M финансирования на стартап Elementl [4] который будет предоставлять услуги в облаке, а открытый продукт останется в режиме open core, а то есть будет развиваться параллельно созданию облачного продукта. В целом стратегия понятная и распространённая и продукт неплохой, хочется надеяться что он станет ещё лучше.
- Apache Superset [5] и Metabase [6] - open-source инструменты по быстрому развертыванию систем визуализации бизнес аналитики. Superset только с открытым кодом, Metabase в гибридной модели где частично открытый код, а часть возможностей уже только в pro версии и в облаке за деньги.
- Frictionless Data [7] - на сегодняшний день наиболее проработанный стандарт обмена табличными данными а ля CSV. Данные упаковываются в специальный ZIP контейнер и включают необходимые метаданные для их использования. Авторы с самого начала нацелились на научную среду и много внедрений именно в каталогах исследовательских данных [8]. Формируют большую экосистему продуктов/сервисов/форматов с открытым кодом.
- Data Curator [9] один из продуктов поддерживающих Frictionless Data используемый для подготовки пакетов данных. Полезный для не-программистов поскольку позволяет заполнить необходимые метаданные в графическом интерфейсе. Много лет его авторы не развивали, но вернулись снова к проекту в 2020 году.
- Validata [10] сервис проверки CSV файлов на соответствие схемам данных во Франции. Создан их федеральной ИТ службой Etalab для проверки публикации данных местными властями. Также основан на инструментах и спецификации Frictionless Data.
- Open Data Blend [11] - набор коммерческих сервисов по доступу к данным, аналитике и другим инструментам по работе с открытыми данными в Великобритании. Был, отчасти, прообразом того что наша команда делает в виде проекта DataCrafter, но оформлено у них визуально получше, так что нам есть над чем работать.
Если знаете какие-то не самые популярные, но полезные продукты с открытым кодом или сервисы по работе с данными, приходите обсуждать их в чат @begtinchat к этому каналу.
Ссылки:
[1] https://github.com/scrapinghub/article-extraction-benchmark
[2] https://github.com/adbar/trafilatura
[3] https://dagster.io
[4] https://dagster.io/blog/decade-of-data
[5] https://superset.apache.org/
[6] https://www.metabase.com/
[7] https://frictionlessdata.io
[8] https://frictionlessdata.io/adoption/#pilot-collaborations
[9] https://github.com/qcif/data-curator
[10] https://validata.fr/doku.php
[11] https://www.opendatablend.io/
#data #tools #opensource #datatools
GitHub
GitHub - scrapinghub/article-extraction-benchmark: Article extraction benchmark: dataset and evaluation scripts
Article extraction benchmark: dataset and evaluation scripts - scrapinghub/article-extraction-benchmark
Для тех кто интересуется где взять интересных данных для отраслевых проектов напомню о проекте "Карты данных" [1] со схемами данных:
- «Данные об авиации»
- «Данные об экологии»
- «Данные в образовании»
- «Данные о госфинансах»
- «Данные в здравоохранении»
- «Данные в законотворчестве»
- «Данные о нефти и газе».
С 2018 года мы их не обновляли, часть ссылок может устареть, но большая часть всё ещё актуальны. Карты данных не помогают в обработке данных, но дают возможность структурировать поиск нужных данных.
Поэтому сейчас мы не делаем карты потому что большую ценность имеет каталогизация данных, но и уже созданное может пригодится в работе.
Ссылки:
[1] https://www.infoculture.ru/2018/12/10/datamaps/
#opendata #datasets
- «Данные об авиации»
- «Данные об экологии»
- «Данные в образовании»
- «Данные о госфинансах»
- «Данные в здравоохранении»
- «Данные в законотворчестве»
- «Данные о нефти и газе».
С 2018 года мы их не обновляли, часть ссылок может устареть, но большая часть всё ещё актуальны. Карты данных не помогают в обработке данных, но дают возможность структурировать поиск нужных данных.
Поэтому сейчас мы не делаем карты потому что большую ценность имеет каталогизация данных, но и уже созданное может пригодится в работе.
Ссылки:
[1] https://www.infoculture.ru/2018/12/10/datamaps/
#opendata #datasets
Для тех кто ищет международные данные и не знает где они могут быть, порталы и проекты данных ООН.
Многие недооценивают влияние открытости данных на работу межгосударственных организаций, между тем почти все они переходят к открытости данных как основе открытости их работы.
- UN Data Catalog - каталог данных ООН. 4500+ датасетов от 76 структур ООН
- UnData - портал данных подразделения статистики ООН. API, выгрузка данных
- UN Comtrade Database - детальные данные по международной торговле. API, выгрузка данных
- Human Development Reports Data - данные индекса человеческого капитала UNDP. Выгрузка данных
- Urban Indicators Database - база городских индикаторов Unhabitat. Выгрузка данных
- Refugee Data Finder - базы данных по беженцам от UNHCR. Выгрузка данных
- UN Covid-19 data hub - хаб данных по COVID-19 от UNStata DESA
- UN Women data portal - портал данных UN Women
- COVID-19 data portal - портал данных по COVID-19 от UN Info
- UNOps Open data - открытые данные по стандарту IATI по операциям UNOPS
- Migration Data Portal - портал данных по миграции IOM
- UNIDO Statistics Data Portal - портал статических данных UNIDO
- FAOSTAT - статистика сельского хозяйства на портале FAO
- UNICEF Data - данные UNICEF
- UN ESCWA Data Portal - портал открытых данных UN ESCWA
А также многочисленные другие порталы и разделы с открытыми данным у других структур ООН.
#datasets #opendata #un
Многие недооценивают влияние открытости данных на работу межгосударственных организаций, между тем почти все они переходят к открытости данных как основе открытости их работы.
- UN Data Catalog - каталог данных ООН. 4500+ датасетов от 76 структур ООН
- UnData - портал данных подразделения статистики ООН. API, выгрузка данных
- UN Comtrade Database - детальные данные по международной торговле. API, выгрузка данных
- Human Development Reports Data - данные индекса человеческого капитала UNDP. Выгрузка данных
- Urban Indicators Database - база городских индикаторов Unhabitat. Выгрузка данных
- Refugee Data Finder - базы данных по беженцам от UNHCR. Выгрузка данных
- UN Covid-19 data hub - хаб данных по COVID-19 от UNStata DESA
- UN Women data portal - портал данных UN Women
- COVID-19 data portal - портал данных по COVID-19 от UN Info
- UNOps Open data - открытые данные по стандарту IATI по операциям UNOPS
- Migration Data Portal - портал данных по миграции IOM
- UNIDO Statistics Data Portal - портал статических данных UNIDO
- FAOSTAT - статистика сельского хозяйства на портале FAO
- UNICEF Data - данные UNICEF
- UN ESCWA Data Portal - портал открытых данных UN ESCWA
А также многочисленные другие порталы и разделы с открытыми данным у других структур ООН.
#datasets #opendata #un
data.unhabitat.org
Urban Indicators Database
Explore, visualize, compare and download urban indicators data