Вчера команда Твиттера выложила в открытый доступ описание [1] их рекомендательного алгоритма с подробностями и описанием его работы. И, более того, они выложили два репозитория открытого кода их рекомендательной системы и модели для машинного обучения [2] [3].
Здесь важно понимать правильно этот шаг, это не открытые библиотеки кода для совместной разработки или проект с открытым кодом передаваемый сообществу, это явно именно раскрытие кода для разговоров с регуляторами которыеспят и видят всерьёз рассматривают введение требований к социальным сетям именно в части формирования рекомендательных списков для чтения.
Кто последует в след за Twitter'ом? Увидим ли мы исходный код формирования ленты в Facebook'е, например?
Ссылки:
[1] https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm
[2] https://github.com/twitter/the-algorithm
[3] https://github.com/twitter/the-algorithm-ml
#opensource #twitter #machinelearning
Здесь важно понимать правильно этот шаг, это не открытые библиотеки кода для совместной разработки или проект с открытым кодом передаваемый сообществу, это явно именно раскрытие кода для разговоров с регуляторами которые
Кто последует в след за Twitter'ом? Увидим ли мы исходный код формирования ленты в Facebook'е, например?
Ссылки:
[1] https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm
[2] https://github.com/twitter/the-algorithm
[3] https://github.com/twitter/the-algorithm-ml
#opensource #twitter #machinelearning
Для тех кто ищет данные, в том числе не всегда документированные, оказывается у Роскосмоса есть точка подключения к геоданным [1] по спецификации STAC. Он внесён в STAC Index как ERS open data [3] и, похоже, нигде в русскоязычных/российских ресурсах и каталогах данных не упомянут.
Условия использования там проприетарные, тем не менее сам по себе этот факт интересен, о доступности подобных данных и в стандартизированных форматах удаётся узнать из международных инициатив, а не российских.
Причём, судя по метаданным, STAC каталог Роскосмоса добавили в глобальный в октябре 2022 года.
Ссылки:
[1] https://s3ext.gptl.ru/stac-web-free/catalog.json
[2] https://stacspec.org/
[3] https://stacindex.org/catalogs/ers-open-data#/
#opendata #roscosmos #datasets
Условия использования там проприетарные, тем не менее сам по себе этот факт интересен, о доступности подобных данных и в стандартизированных форматах удаётся узнать из международных инициатив, а не российских.
Причём, судя по метаданным, STAC каталог Роскосмоса добавили в глобальный в октябре 2022 года.
Ссылки:
[1] https://s3ext.gptl.ru/stac-web-free/catalog.json
[2] https://stacspec.org/
[3] https://stacindex.org/catalogs/ers-open-data#/
#opendata #roscosmos #datasets
Существенный элемент открытой инфраструктуры геопространственных данных в Европейском союзе - это каталоги геоданных стран входящих в ЕС, где в последние годы появились каталоги данных и метаданных на базе движка с открытым кодом Geonetwork [1]. Geonetwork - это каталог геоданных с открытым кодом [2] созданный Open Source Geospatial Foundation, поддерживаемый компанией GeoCat [3] и доступный, как для самостоятельной установки и использования, так и с поддержкой по типичной бизнес модели продуктов с открытым кодом.
Geonetwork приобрёл существенную популярность в последние годы и именно его используют разработчики многие национальных порталов открытых геоданных в развитых странах. В частности большая часть национальных каталогов геоданных в Европейском союзе созданных или развивающихся в рамках программы INSPIRE работают на Geonetwork [4]. Например, на Geonetwork работает портал геоданных Новой Зеландии [5] и Эстонии [6].
Хотя разработчики продукта и собирают информацию о его установках и есть список из 65 порталов данных, на самом деле их больше, поскольку многие устанавливают самостоятельно. Например, там не перечислены порталы геоданных на базе Geonetwork в Армении:
- The Armenian Soil Information System (ArmSIS) [8]
- The Center for Ecological-Noosphere Studies NAS RA Data Portal [9]
или в Киргизии:
- Каталог метаданных [10]
или в России
- Каталог ГГМ РАН [11]
Таких примеров множество. Geonetwork постепенно становится, а может быть уже и стал стандартом де-факто для публикации геоданных, по аналогии с CKAN, API которого стало стандартом для публикации открытых данных. При том что продукту уже 19 лет, он активно развивается.
Данные из серверов Geonetwork активно агрегируются наднациональными порталами данных, таких как data.europe.eu и видны и находимы в основном благодаря именно этому, поскольку сами сервера Geonetwork никогда не оптимизировались под поисковые системы и не попадают, например, в поиск наборов данных Google.
Ссылки:
[1] https://geonetwork-opensource.org
[2] https://github.com/geonetwork
[3] https://www.geocat.net
[4] https://inspire-geoportal.ec.europa.eu/overview.html?view=thematicEuOverview&theme=none
[5] https://geodata.nz
[6] https://metadata.geoportaal.ee
[7] https://github.com/geonetwork/doc/blob/develop/source/annexes/gallery/gallery-urls.csv
[8] https://armsis.cas.am
[9] http://gn.cens.am:8080/geonetwork
[10] http://nsdi.kg:8070/geonetwork/
[11] https://maps.geologyscience.ru/geonetwork/
#opendata #geodata #datasets #opensource #likbez
Geonetwork приобрёл существенную популярность в последние годы и именно его используют разработчики многие национальных порталов открытых геоданных в развитых странах. В частности большая часть национальных каталогов геоданных в Европейском союзе созданных или развивающихся в рамках программы INSPIRE работают на Geonetwork [4]. Например, на Geonetwork работает портал геоданных Новой Зеландии [5] и Эстонии [6].
Хотя разработчики продукта и собирают информацию о его установках и есть список из 65 порталов данных, на самом деле их больше, поскольку многие устанавливают самостоятельно. Например, там не перечислены порталы геоданных на базе Geonetwork в Армении:
- The Armenian Soil Information System (ArmSIS) [8]
- The Center for Ecological-Noosphere Studies NAS RA Data Portal [9]
или в Киргизии:
- Каталог метаданных [10]
или в России
- Каталог ГГМ РАН [11]
Таких примеров множество. Geonetwork постепенно становится, а может быть уже и стал стандартом де-факто для публикации геоданных, по аналогии с CKAN, API которого стало стандартом для публикации открытых данных. При том что продукту уже 19 лет, он активно развивается.
Данные из серверов Geonetwork активно агрегируются наднациональными порталами данных, таких как data.europe.eu и видны и находимы в основном благодаря именно этому, поскольку сами сервера Geonetwork никогда не оптимизировались под поисковые системы и не попадают, например, в поиск наборов данных Google.
Ссылки:
[1] https://geonetwork-opensource.org
[2] https://github.com/geonetwork
[3] https://www.geocat.net
[4] https://inspire-geoportal.ec.europa.eu/overview.html?view=thematicEuOverview&theme=none
[5] https://geodata.nz
[6] https://metadata.geoportaal.ee
[7] https://github.com/geonetwork/doc/blob/develop/source/annexes/gallery/gallery-urls.csv
[8] https://armsis.cas.am
[9] http://gn.cens.am:8080/geonetwork
[10] http://nsdi.kg:8070/geonetwork/
[11] https://maps.geologyscience.ru/geonetwork/
#opendata #geodata #datasets #opensource #likbez
GitHub
GeoNetwork opensource
GeoNetwork is a catalog suited to publish information about geospatial (and other) (open and closed) data. - GeoNetwork opensource
Новости закрытия открытых данных в России
Портал открытых данных http://opendata25.primorsky.ru отключен, вместо него Администрация области запустила портал https://opendata.primorsky.ru. Впрочем если на первом публиковалось 7 наборов административных данных, то на новом не сильно больше, 13 наборов данных. Все про инфраструктуру, ничего существенного.
Портал открытых данных города Перми https://opendata.perm.ru более недоступен, ранее там публиковалось более 480 наборов данных. Вместо него власти города разместили одностраничный лендинг https://opendata.gorodperm.ru с двумя наборами данных: режим работы и телефонный справочник. Последнее выглядит как форменное издевательство если честно.
В остальном открытые данные не исчезают с российских госпорталов только по той причине что это довольно бессмысленные административные данные с общими сведениями об учреждениях, но даже они не обновляются, некоторые по 5-6, а некоторые и по 9 лет.
#opendata #closeddata #russia
Портал открытых данных http://opendata25.primorsky.ru отключен, вместо него Администрация области запустила портал https://opendata.primorsky.ru. Впрочем если на первом публиковалось 7 наборов административных данных, то на новом не сильно больше, 13 наборов данных. Все про инфраструктуру, ничего существенного.
Портал открытых данных города Перми https://opendata.perm.ru более недоступен, ранее там публиковалось более 480 наборов данных. Вместо него власти города разместили одностраничный лендинг https://opendata.gorodperm.ru с двумя наборами данных: режим работы и телефонный справочник. Последнее выглядит как форменное издевательство если честно.
В остальном открытые данные не исчезают с российских госпорталов только по той причине что это довольно бессмысленные административные данные с общими сведениями об учреждениях, но даже они не обновляются, некоторые по 5-6, а некоторые и по 9 лет.
#opendata #closeddata #russia
В рубрике как это работает у них
Я где-то год назад рассказывал том что правительства многих стран создают специализированные порталы для разработчиков в виде каталогов API [1]. Это такие страны как Великобритания, Франция, Австралия, Арабские Эмираты, например.
А вот и свежий пример, портал API Домиканской республики [2]. API там пока немного, всего 5, зато систематизировано.
Во Франции тем временем теперь уже крупнейший каталог госAPI в api.gouv.fr, более 100 задокументированных точек подключения [3]
Причём во всех странах практически есть API у правительственных информационных систем даже если те кто их эксплуатируют об этом не знают, то всё равно будут недокументированные API. Но такое незнание может быть только об необразованности, обычно всё знают, и обычно всё совершенно не систематизировано.
Порталы каталогов API - это, по сути, работы исключительно по документированию того что уже и так есть.
Через API часто предоставляют доступ к данным, особенно данным реального времени, сервисам требующим авторизации, иным сервисам необходимым для взаимодействия с государственными системами.
Ссылки:
[1] https://t.me/begtin/4608
[2] https://developer.digital.gob.do
[3] https://api.gouv.fr
#opendata #apis #government #dominicana
Я где-то год назад рассказывал том что правительства многих стран создают специализированные порталы для разработчиков в виде каталогов API [1]. Это такие страны как Великобритания, Франция, Австралия, Арабские Эмираты, например.
А вот и свежий пример, портал API Домиканской республики [2]. API там пока немного, всего 5, зато систематизировано.
Во Франции тем временем теперь уже крупнейший каталог госAPI в api.gouv.fr, более 100 задокументированных точек подключения [3]
Причём во всех странах практически есть API у правительственных информационных систем даже если те кто их эксплуатируют об этом не знают, то всё равно будут недокументированные API. Но такое незнание может быть только об необразованности, обычно всё знают, и обычно всё совершенно не систематизировано.
Порталы каталогов API - это, по сути, работы исключительно по документированию того что уже и так есть.
Через API часто предоставляют доступ к данным, особенно данным реального времени, сервисам требующим авторизации, иным сервисам необходимым для взаимодействия с государственными системами.
Ссылки:
[1] https://t.me/begtin/4608
[2] https://developer.digital.gob.do
[3] https://api.gouv.fr
#opendata #apis #government #dominicana
Команда Meltano, ETL/ELT продукта вышедшего из инженерной команды Gitlab, преданонсировали запуск Meltano Cloud [1], облачной версии их продукта, пока без цен, что чуть ли не самое важное, так что ждём.
А также они полностью обновили интерфейс хаба коннекторов Meltano Hub [2] где можно подобрать коннектор для специфичных сервисов и подключить его в свой экземпляр Meltano.
Облачные продукты на базе open source довольно распространены, это чуть ли не основная бизнес модель сейчас для новых СУБД и инфраструктурных продуктов. В этом смысле Meltano один из продуктов за которыми я давно слежу, от активного использования их ETL лично меня сдерживают те же ограничения что у большинства ETL/ELT продуктов - это ориентация на модель SQL-only и преимущественно на работу с плоскими таблицами. Не для всех задач с которыми лично я сталкиваюсь это годится.
В остальном, Meltano один из продуктов и стартапов по работе с данными за которыми я лично наблюдаю. Как-нибудь сделаю список из всех о которых я писал и за которыми слежу. Они преимущественно с открытым кодом, таких дата продуктов немало.
Ссылки:
[1] https://meltano.com/cloud/
[2] https://hub.meltano.com/
#opensource #etl #startups #data #elt
А также они полностью обновили интерфейс хаба коннекторов Meltano Hub [2] где можно подобрать коннектор для специфичных сервисов и подключить его в свой экземпляр Meltano.
Облачные продукты на базе open source довольно распространены, это чуть ли не основная бизнес модель сейчас для новых СУБД и инфраструктурных продуктов. В этом смысле Meltano один из продуктов за которыми я давно слежу, от активного использования их ETL лично меня сдерживают те же ограничения что у большинства ETL/ELT продуктов - это ориентация на модель SQL-only и преимущественно на работу с плоскими таблицами. Не для всех задач с которыми лично я сталкиваюсь это годится.
В остальном, Meltano один из продуктов и стартапов по работе с данными за которыми я лично наблюдаю. Как-нибудь сделаю список из всех о которых я писал и за которыми слежу. Они преимущественно с открытым кодом, таких дата продуктов немало.
Ссылки:
[1] https://meltano.com/cloud/
[2] https://hub.meltano.com/
#opensource #etl #startups #data #elt
arch.dev
Arch: the bridge between your customers' data & your code
Arch is the bridge between your customers' data & your code. Stop wasting time on your own OAuth flows, API integrations, and embeddings pipelines. Instantly access all your customers’ data sources; raw, mapped, or as vector embeddings
В Великобритании Центральный офис по цифре и данным анонсировал появление Data Maturity Assessment for Government (DMA) [1] руководство по оценке дата-зрелости органов власти и государственных организаций. Подробный документ с критериями уровней зрелости по 97 пунктам.
Там, конечно, есть и про открытые данные, но важнее не это а блок Topic 9: Setting your data direction в котором по умолчанию принимается что у организации есть стратегия работы с данными и далее лишь вопрос качества этой стратегии и коммуникации.
Что характерно в России ни на национальном уровне, ни на уровне отдельных органов и правительств субъектов федерации таких стратегий нет. Поэтому оценка по уровням зрелости будет невысокой.
А вот для многих постсоветских стран ещё раздумывающих над созданием офисов по цифре и данным стоит обратить внимание на этот документ, по сути он является руководством о том как системно организуется работа с данными в госсекторе.
Ссылки:
[1] https://cddo.blog.gov.uk/2023/03/27/strengthening-outcomes-for-the-public-through-better-data-maturity/
[2] https://www.gov.uk/government/publications/data-maturity-assessment-for-government-framework/data-maturity-assessment-for-government-framework-html
#opendata #data #government #regulation #policies #uk
Там, конечно, есть и про открытые данные, но важнее не это а блок Topic 9: Setting your data direction в котором по умолчанию принимается что у организации есть стратегия работы с данными и далее лишь вопрос качества этой стратегии и коммуникации.
Что характерно в России ни на национальном уровне, ни на уровне отдельных органов и правительств субъектов федерации таких стратегий нет. Поэтому оценка по уровням зрелости будет невысокой.
А вот для многих постсоветских стран ещё раздумывающих над созданием офисов по цифре и данным стоит обратить внимание на этот документ, по сути он является руководством о том как системно организуется работа с данными в госсекторе.
Ссылки:
[1] https://cddo.blog.gov.uk/2023/03/27/strengthening-outcomes-for-the-public-through-better-data-maturity/
[2] https://www.gov.uk/government/publications/data-maturity-assessment-for-government-framework/data-maturity-assessment-for-government-framework-html
#opendata #data #government #regulation #policies #uk
Когда пишешь про любое недокументированное API, неочевидные данные и тд. всегда есть риск что прочитают об этом ответственные за ту систему откуда это API или данные доступны и всё исчезнет. Поэтому я приведу несколько примеров недокументированных API и данных которые не очень жалко, но они иллюстративны.
В качестве примеров порталы геоданных:
- сайт Новые инвестиционные проекты от Минэкономразвития России работает на базе GeoServer [1] и экспортирует 25 слоёв геоданных. Удивительное дело, их не было на портале data.gov.ru, наверное потому что сотрудники Минэка России про него и не знают;)
- сайт Транспорт Москвы тоже на базе GeoServer [2], но московских данных там нет, только какие-то международные
- открытое и документированное API есть у геопортала Ульяновской области [3], но о том что оно есть надо знать, поскольку оно мало где упоминается, если вообще упоминается
Всё это вдогонку к огромному числу сайтов с CMS позволяющими экспортировать данные, геосерверам ArcGIS, сайтам с REST API и graphql на бэкэнде.
В этом смысле в России много данных просто потому что в создание этих информационных систем вбуханы огромные деньги. Если поискать по сайтам большей части среднеазиатских стран или Армении, то данных там гораздо меньше просто из-за меньших затрат на информатизацию.
Зато могу сказать что в Иране тоже есть общедоступные геоданные в рамках национальной инфраструктуры геопространственных данных и тоже на GeoServer [4]. От открытых данных эти данные отличаются только отсутствием свободных лицензий.
Ссылки:
[1] https://mnp.economy.gov.ru/geoserver
[2] https://transport.mos.ru/geoserver/
[3] http://geo.ulgov.ru/docs/developer/api
[4] https://iransdi.ncc.gov.ir/geoserver
#opendata #datasets #undocumentedapi #apis #russia #iran #geodata
В качестве примеров порталы геоданных:
- сайт Новые инвестиционные проекты от Минэкономразвития России работает на базе GeoServer [1] и экспортирует 25 слоёв геоданных. Удивительное дело, их не было на портале data.gov.ru, наверное потому что сотрудники Минэка России про него и не знают;)
- сайт Транспорт Москвы тоже на базе GeoServer [2], но московских данных там нет, только какие-то международные
- открытое и документированное API есть у геопортала Ульяновской области [3], но о том что оно есть надо знать, поскольку оно мало где упоминается, если вообще упоминается
Всё это вдогонку к огромному числу сайтов с CMS позволяющими экспортировать данные, геосерверам ArcGIS, сайтам с REST API и graphql на бэкэнде.
В этом смысле в России много данных просто потому что в создание этих информационных систем вбуханы огромные деньги. Если поискать по сайтам большей части среднеазиатских стран или Армении, то данных там гораздо меньше просто из-за меньших затрат на информатизацию.
Зато могу сказать что в Иране тоже есть общедоступные геоданные в рамках национальной инфраструктуры геопространственных данных и тоже на GeoServer [4]. От открытых данных эти данные отличаются только отсутствием свободных лицензий.
Ссылки:
[1] https://mnp.economy.gov.ru/geoserver
[2] https://transport.mos.ru/geoserver/
[3] http://geo.ulgov.ru/docs/developer/api
[4] https://iransdi.ncc.gov.ir/geoserver
#opendata #datasets #undocumentedapi #apis #russia #iran #geodata
В рубрике как это работает у них, инфраструктура научных данных в Германии включает большое число исследовательский и университетских репозиториев данных и других результатов научной деятельности. Многие репозитории работают на без open-source ПО каталога научных данных Dataverse, например, DaRUS [1] университета Штудгарта или HeiData [2] Университета Хельдельберга. Всего в Германии мне известно 10 репозиториев научных данных именно на базе Dataverse.
Одновременно с Dataverse активно используется относительно новый open-source продукт каталога данных InvenioRDM, на нём работает репозиторий научных данных Университета Гамбурга [3] и архив данных RODARE [4]
Но гораздо более популярными являются репозитории данных на базе таких продуктов как DSpace и специфичного для Германии MyCore. DSPace - это распространённый продукт в академической и архивной среде для хранения условно любого контента с метаданными, в Германии DSpace весьма распространён и на его базе публикуются, в том числе наборы данных. К примеру, архив OpARA [5] Технического университета Дрездена.
И отдельно про MyCore [6], это аналог DSpace особенно распространённый в Германии. На нём созданы десятки порталов раскрытия научных результатов университетов по всей стране [7] и как и DSpace он создан для сохранения и поиска любого контента с расширяемыми наборами метаданных, что особенно актуально в научной среде. В MyCore часто сохраняют данные о статьях, научных тезисах, диссертациях, архивах, изображениях и, в том числе, исследовательских данных. А некоторые репозитории изначально создаются на MyCore чтобы сохранять только данные. Например, реестр научных данных Университета Киель [8]
И, дополнительно, необходимо отметить такие проекты как PANGAEA [9], огромный репозиторий научных данных о земле и поисковик по научным данным Германии [10] на базе сервиса da|RA по выдаче DOI.
Данные германских исследовательских центров практически все в значительном объёме проиндексированы в общеевропейском проекте OpenAIRE.
Ссылки:
[1] https://darus.uni-stuttgart.de
[2] https://heidata.uni-heidelberg.de/
[3] https://www.fdr.uni-hamburg.de
[4] https://rodare.hzdr.de/
[5] https://opara.zih.tu-dresden.de/xmlui/
[6] https://www.mycore.de/
[7] https://www.mycore.de/site/applications/list/
[8] https://opendata.uni-kiel.de
[9] https://pangaea.de/
[10] https://www.da-ra.de/search
#opendata #germany #datasets #openaccess #openscience
Одновременно с Dataverse активно используется относительно новый open-source продукт каталога данных InvenioRDM, на нём работает репозиторий научных данных Университета Гамбурга [3] и архив данных RODARE [4]
Но гораздо более популярными являются репозитории данных на базе таких продуктов как DSpace и специфичного для Германии MyCore. DSPace - это распространённый продукт в академической и архивной среде для хранения условно любого контента с метаданными, в Германии DSpace весьма распространён и на его базе публикуются, в том числе наборы данных. К примеру, архив OpARA [5] Технического университета Дрездена.
И отдельно про MyCore [6], это аналог DSpace особенно распространённый в Германии. На нём созданы десятки порталов раскрытия научных результатов университетов по всей стране [7] и как и DSpace он создан для сохранения и поиска любого контента с расширяемыми наборами метаданных, что особенно актуально в научной среде. В MyCore часто сохраняют данные о статьях, научных тезисах, диссертациях, архивах, изображениях и, в том числе, исследовательских данных. А некоторые репозитории изначально создаются на MyCore чтобы сохранять только данные. Например, реестр научных данных Университета Киель [8]
И, дополнительно, необходимо отметить такие проекты как PANGAEA [9], огромный репозиторий научных данных о земле и поисковик по научным данным Германии [10] на базе сервиса da|RA по выдаче DOI.
Данные германских исследовательских центров практически все в значительном объёме проиндексированы в общеевропейском проекте OpenAIRE.
Ссылки:
[1] https://darus.uni-stuttgart.de
[2] https://heidata.uni-heidelberg.de/
[3] https://www.fdr.uni-hamburg.de
[4] https://rodare.hzdr.de/
[5] https://opara.zih.tu-dresden.de/xmlui/
[6] https://www.mycore.de/
[7] https://www.mycore.de/site/applications/list/
[8] https://opendata.uni-kiel.de
[9] https://pangaea.de/
[10] https://www.da-ra.de/search
#opendata #germany #datasets #openaccess #openscience
www.pangaea.de
Data Publisher for Earth & Environmental Science
Где искать большие данные для исследований? Машинного обучения? Тренировки алгоритмов?
Источников много, я упомяну сейчас те о которых ранее не писал:
- Academic Torrents https://academictorrents.com/ - торрент-трекер для исследователей для публикации данных особо большого объёма. Более 14ТБ данных, большая часть для машинного обучения
- Archive.org datasets https://archive.org/details/datasets - наборы данных собранные в коллекции Интернет архива. Наборов данных более 9 тысяч и данные большого объёма
- Hyper.ai Datasets https://hyper.ai/datasets наборы данных китайской компании Hyper.AI. Тоже большого объёма и раздают данные через torrent'ы
- Toloka Datasets https://toloka.ai/datasets/ - открытые наборы данных компании Toloka, все про машинное обучение, варьируются от очень небольших, до десятков гигабайт
- The SpaceNet Datasets https://spacenet.ai/datasets/ - коллекция наборов данных проекта SpaceNet, открытые наборы данных от компании Maxar, поставщика данных спутникового мониторинга
- Granular Datasets https://granular.ai/datasets - много наборов данных для машинного обучения на данных спутниковых снимков и иных снимков
- Наборы данных Центра диагностики и телемедицины https://mosmed.ai/datasets/ - один из немногих открытых источников больших и открытых данных для машинного обучения в России, большая часть данных открыты или доступны по запросу. Публикуется профильным ГБУ при правительстве Москвы
#opendata #datasets #data #machinelearning
Источников много, я упомяну сейчас те о которых ранее не писал:
- Academic Torrents https://academictorrents.com/ - торрент-трекер для исследователей для публикации данных особо большого объёма. Более 14ТБ данных, большая часть для машинного обучения
- Archive.org datasets https://archive.org/details/datasets - наборы данных собранные в коллекции Интернет архива. Наборов данных более 9 тысяч и данные большого объёма
- Hyper.ai Datasets https://hyper.ai/datasets наборы данных китайской компании Hyper.AI. Тоже большого объёма и раздают данные через torrent'ы
- Toloka Datasets https://toloka.ai/datasets/ - открытые наборы данных компании Toloka, все про машинное обучение, варьируются от очень небольших, до десятков гигабайт
- The SpaceNet Datasets https://spacenet.ai/datasets/ - коллекция наборов данных проекта SpaceNet, открытые наборы данных от компании Maxar, поставщика данных спутникового мониторинга
- Granular Datasets https://granular.ai/datasets - много наборов данных для машинного обучения на данных спутниковых снимков и иных снимков
- Наборы данных Центра диагностики и телемедицины https://mosmed.ai/datasets/ - один из немногих открытых источников больших и открытых данных для машинного обучения в России, большая часть данных открыты или доступны по запросу. Публикуется профильным ГБУ при правительстве Москвы
#opendata #datasets #data #machinelearning
Academic Torrents
A distributed system for sharing enormous datasets - for researchers, by researchers. The result is a scalable, secure, and fault-tolerant repository for data, with blazing fast download speeds.
Bloomberg (компания) анонсировали создание FOSS Contributor Fund (Фонда поддержки свободного программного обеспечения) [1] и обещают каждый квартал отбирать по 3 проекта с открытым кодом и раздавать им по $10 000 каждому. В первый раз поддержали такие проекты как: Apache Arrow, curl и Celery. Причём, Apache Arrow - это проект про данные точно, curl - скорее про базовое ПО используемое повсюду, а Celery про цифровую инфраструктуру.
Кстати, фонд поддержки открытого кода был у Salesforce, но потом они его заменили на прямую поддержку тех проектов которые им нравятся [2], а также FOSS fund есть у Microsoft [3], они раздают по $500, а в Indeed опубликовали книжку Investing in Open Source: The FOSS Contributor Fund [4] в 2019 году.
Ещё FOSS fund есть у компании Prisma [5] и многих других.
Фонды поддержки открытого ПО - это хорошая форма корпоративной социальной ответственности. Жаль лишь что их так немного, и хорошо что становится больше.
Ссылки:
[1] https://www.bloomberg.com/company/stories/bloomberg-ospo-launches-foss-contributor-fund/
[2] https://engineering.salesforce.com/open-source/
[3] https://github.com/microsoft/foss-fund
[4] https://opensource.indeedeng.io/Investing-in-Open-Source/
[5] https://www.prisma.io/blog/prisma-foss-fund-announcement-XW9DqI1HC24L
#opensource #funding #fundrising
Кстати, фонд поддержки открытого кода был у Salesforce, но потом они его заменили на прямую поддержку тех проектов которые им нравятся [2], а также FOSS fund есть у Microsoft [3], они раздают по $500, а в Indeed опубликовали книжку Investing in Open Source: The FOSS Contributor Fund [4] в 2019 году.
Ещё FOSS fund есть у компании Prisma [5] и многих других.
Фонды поддержки открытого ПО - это хорошая форма корпоративной социальной ответственности. Жаль лишь что их так немного, и хорошо что становится больше.
Ссылки:
[1] https://www.bloomberg.com/company/stories/bloomberg-ospo-launches-foss-contributor-fund/
[2] https://engineering.salesforce.com/open-source/
[3] https://github.com/microsoft/foss-fund
[4] https://opensource.indeedeng.io/Investing-in-Open-Source/
[5] https://www.prisma.io/blog/prisma-foss-fund-announcement-XW9DqI1HC24L
#opensource #funding #fundrising
Bloomberg L.P.
Bloomberg Launches FOSS Fund to Support Free and Open Source Projects
Bloomberg's OSPO and Corporate Philanthropy teams partnered to enable direct employee engagement to help sustain open source projects critical to our work.
Я ранее рассказывал про каталог API правительства Доминиканской республики [1], а ещё ранее про примеры каталогов API в других странах.
А вот и дополнительные примеры.
Портал для разработчиков Правительства Нидерландов developer.overheid.nl [2]. Включает каталог репозиториев правительственного открытого кода (на Github и Gitlab), всего более 1300 репозиториев [3] и каталог из 100 API со спецификациями и документацией [4]
Более же всего порталов для разработчиков существует в США, они есть у многих, почти всех, центральных органов власти и отдельных штатов, например, портал для разработчиков в рамках Medicaid [5] или портал для разработчиков Департамента труда [6].
Ссылки:
[1] https://t.me/begtin/4750
[2] https://developer.overheid.nl/
[3] https://developer.overheid.nl/repositories
[4] https://developer.overheid.nl/apis
[5] https://developer.cms.gov/
[6] https://developer.dol.gov/
#opensource #apis #netherlands #government
А вот и дополнительные примеры.
Портал для разработчиков Правительства Нидерландов developer.overheid.nl [2]. Включает каталог репозиториев правительственного открытого кода (на Github и Gitlab), всего более 1300 репозиториев [3] и каталог из 100 API со спецификациями и документацией [4]
Более же всего порталов для разработчиков существует в США, они есть у многих, почти всех, центральных органов власти и отдельных штатов, например, портал для разработчиков в рамках Medicaid [5] или портал для разработчиков Департамента труда [6].
Ссылки:
[1] https://t.me/begtin/4750
[2] https://developer.overheid.nl/
[3] https://developer.overheid.nl/repositories
[4] https://developer.overheid.nl/apis
[5] https://developer.cms.gov/
[6] https://developer.dol.gov/
#opensource #apis #netherlands #government
В рубрике как это устроено у них, 3 репозитория открытых научных данных созданные Варшавским университетом в 2017-2021 годах в рамках проекта Dziedzinowe Repozytoria Otwartych Danych Badawczych [1] переводится как Открытые репозитории доменных исследовательских данных.
В рамках проекта созданы репозитории:
- RepOD https://repod.icm.edu.pl - репозиторий открытых данных
- RDS https://rds.icm.edu.pl/ репозиторий социологических данных
- MX-RDR http://mxrdr.icm.edu.pl/ - репозиторий первичных данных в области макромолекулярной кристаллографии.
В общей сложности на них опубликовано около 1300 наборов данных. Данные в разных форматах: CSV, Excel, Nb, Ods, Tab и другие. Научные наборы данных также, часто отличаются тем что содержат первичные данные на которых проводилось исследование: тексты или изображения, например.
Общая стоимость проекта 4 998 889 злотых, по текущему курсу - это 95 миллионов рублей, всё это на 4 года.
Ссылки:
[1] https://drodb.icm.edu.pl/opis-projektu/
#opendata #openaccess #openscience #poland #eu #datasets
В рамках проекта созданы репозитории:
- RepOD https://repod.icm.edu.pl - репозиторий открытых данных
- RDS https://rds.icm.edu.pl/ репозиторий социологических данных
- MX-RDR http://mxrdr.icm.edu.pl/ - репозиторий первичных данных в области макромолекулярной кристаллографии.
В общей сложности на них опубликовано около 1300 наборов данных. Данные в разных форматах: CSV, Excel, Nb, Ods, Tab и другие. Научные наборы данных также, часто отличаются тем что содержат первичные данные на которых проводилось исследование: тексты или изображения, например.
Общая стоимость проекта 4 998 889 злотых, по текущему курсу - это 95 миллионов рублей, всё это на 4 года.
Ссылки:
[1] https://drodb.icm.edu.pl/opis-projektu/
#opendata #openaccess #openscience #poland #eu #datasets
В профессиональных сообществах сейчас активно обсуждают Stanford Alpaca [1] языковую модель, по некоторым признакам сравнимую с ChatGPT, но созданной за какие-то маленькие средства в $600.
В издании New Atlas автор Loz Blain пишет о том что это как выпустить джина из бутылки [2] потому что ИИ могут разрабатывать теперь буквально хоть школьники потому что обучить Alpaca можно за ночь и на посредственном оборудовании (вспомним про расходы менее $600). Для сравнения ChatGPT обучали на 1 023 видео процессорах A100 в течении 34 дней.
Что это значит? Это означает массовость и неистребимость новых разработок в области ИИ. Даже если какая-нибудь ядерная страна изменила бы ядерную доктрину для превентивного нанесения ядерного удара по датацентрам используемых для обучения ИИ - это бы не сработало. Если создавать и развивать новые языковые модели станет столь дешево, то и законодательные ограничения будут малоэффективны.
В любом случае нас ждёт новый неизвестный мир, возможно очень неожиданный.
Ссылки:
[1] https://crfm.stanford.edu/2023/03/13/alpaca.html
[2] https://newatlas.com/technology/stanford-alpaca-cheap-gpt/
#ai #opensource #languagemodels
В издании New Atlas автор Loz Blain пишет о том что это как выпустить джина из бутылки [2] потому что ИИ могут разрабатывать теперь буквально хоть школьники потому что обучить Alpaca можно за ночь и на посредственном оборудовании (вспомним про расходы менее $600). Для сравнения ChatGPT обучали на 1 023 видео процессорах A100 в течении 34 дней.
Что это значит? Это означает массовость и неистребимость новых разработок в области ИИ. Даже если какая-нибудь ядерная страна изменила бы ядерную доктрину для превентивного нанесения ядерного удара по датацентрам используемых для обучения ИИ - это бы не сработало. Если создавать и развивать новые языковые модели станет столь дешево, то и законодательные ограничения будут малоэффективны.
В любом случае нас ждёт новый неизвестный мир, возможно очень неожиданный.
Ссылки:
[1] https://crfm.stanford.edu/2023/03/13/alpaca.html
[2] https://newatlas.com/technology/stanford-alpaca-cheap-gpt/
#ai #opensource #languagemodels
В рубрике как это устроено у них портал раскрытия данных о переписях в Индии Census Digital Library [1] создан на базе открытого ПО NADA для публикации микроданных, я писал о нём совсем недавно [2].
Этот портал включает более 29 тысяч наборов данных и охватывает данные переписей начиная с 1901 года. Это больше чем на российском госпортале открытых данных о его закрытия.
А это лишь один из порталов публикации открытых данных в Индии.
Например, на портале data.gov.in опубликовано более 600 тысяч ресурсов, большая часть в форме машиночитаемых данных под свободными лицензиями.
А портал раскрытия данных переписей интересен крайне подробными метаданными по каждому набору данных и существенной гранулярностью, данные переписи там представлены с детализацией до округов (districts) и на их основе можно анализировать и визуализировать данные на довольно детальном уровне.
Такой способ публикации данных тоже не идеален, ведь большая часть файлов на портале в Excel формате, там не менее масштаб раскрытия данных и их использование весьма значительны.
Ссылки:
[1] https://censusindia.gov.in/nada/index.php
[2] https://t.me/begtin/4710
#opendata #datasets #india
Этот портал включает более 29 тысяч наборов данных и охватывает данные переписей начиная с 1901 года. Это больше чем на российском госпортале открытых данных о его закрытия.
А это лишь один из порталов публикации открытых данных в Индии.
Например, на портале data.gov.in опубликовано более 600 тысяч ресурсов, большая часть в форме машиночитаемых данных под свободными лицензиями.
А портал раскрытия данных переписей интересен крайне подробными метаданными по каждому набору данных и существенной гранулярностью, данные переписи там представлены с детализацией до округов (districts) и на их основе можно анализировать и визуализировать данные на довольно детальном уровне.
Такой способ публикации данных тоже не идеален, ведь большая часть файлов на портале в Excel формате, там не менее масштаб раскрытия данных и их использование весьма значительны.
Ссылки:
[1] https://censusindia.gov.in/nada/index.php
[2] https://t.me/begtin/4710
#opendata #datasets #india
Полезное чтение про данные, технологии и не только:
- Microsoft Intelligence platform data integration plan [1] план обновлений сервисов в Microsoft Intelligence platform на апрель-сентябрь 2023 года. Там много изменений полезных для тех кто пользуется их платформой
- Life after orchestrators [2] автор делится мыслями о том как работать с оркестраторами данных и без них. Автор рекламирует сервис Popsink [3], но сам пост содержит и вполне здравые мысли (не рекламу). Действительно оркестраторы нужны не везде и не всегда.
- Introducing Segment Anything: Working toward the first foundation model for image segmentation [4] - модель и данные по сегментации изображений от Meta AI, набор данных, кстати большой, более 11 миллионов изображений
- Datasets for Advancing AI Research [5] другие наборы данных для машинного обучения от Facebook. С ручной разметкой, большого объёма и тд. Не полноценный каталог данных, а интегрировано в их сайт по ИИ, но в целом оформлено неплохо и, главное!, это содержание.
- Data Modeling – The Unsung Hero of Data Engineering: An Introduction to Data Modeling (Part 1) [6] про моделирование данных в блоге Airbyte, хороший текст как вводный и явно с продолжением.
- Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality [7] просто какая-то эпидемия (шутка) языковых моделей которые делаются маленькими ресурсами и приближающимися по качеству к ChatGPT и GPT-4. Вот и свежий открытый продукт. Похож на Alpaca, обучали его ещё дешевле, всего за $300.
Ссылки:
[1] https://learn.microsoft.com/en-us/power-platform/release-plan/2023wave1/data-integration/
[2] https://stkbailey.substack.com/p/life-after-orchestrators
[3] https://www.popsink.com/
[4] https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/
[5] https://ai.facebook.com/datasets/
[6] https://airbyte.com/blog/data-modeling-unsung-hero-data-engineering-introduction
[7] https://vicuna.lmsys.org/
#readings #data #ai #datatools #machinelearning #dataengineering
- Microsoft Intelligence platform data integration plan [1] план обновлений сервисов в Microsoft Intelligence platform на апрель-сентябрь 2023 года. Там много изменений полезных для тех кто пользуется их платформой
- Life after orchestrators [2] автор делится мыслями о том как работать с оркестраторами данных и без них. Автор рекламирует сервис Popsink [3], но сам пост содержит и вполне здравые мысли (не рекламу). Действительно оркестраторы нужны не везде и не всегда.
- Introducing Segment Anything: Working toward the first foundation model for image segmentation [4] - модель и данные по сегментации изображений от Meta AI, набор данных, кстати большой, более 11 миллионов изображений
- Datasets for Advancing AI Research [5] другие наборы данных для машинного обучения от Facebook. С ручной разметкой, большого объёма и тд. Не полноценный каталог данных, а интегрировано в их сайт по ИИ, но в целом оформлено неплохо и, главное!, это содержание.
- Data Modeling – The Unsung Hero of Data Engineering: An Introduction to Data Modeling (Part 1) [6] про моделирование данных в блоге Airbyte, хороший текст как вводный и явно с продолжением.
- Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality [7] просто какая-то эпидемия (шутка) языковых моделей которые делаются маленькими ресурсами и приближающимися по качеству к ChatGPT и GPT-4. Вот и свежий открытый продукт. Похож на Alpaca, обучали его ещё дешевле, всего за $300.
Ссылки:
[1] https://learn.microsoft.com/en-us/power-platform/release-plan/2023wave1/data-integration/
[2] https://stkbailey.substack.com/p/life-after-orchestrators
[3] https://www.popsink.com/
[4] https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/
[5] https://ai.facebook.com/datasets/
[6] https://airbyte.com/blog/data-modeling-unsung-hero-data-engineering-introduction
[7] https://vicuna.lmsys.org/
#readings #data #ai #datatools #machinelearning #dataengineering
Docs
Overview of data integration 2023 release wave 1
В рубрике как это работает у них Research Resource Identifiers (RRIDs) [1] научный проект по систематизации общедоступных научных ресурсов изначально в области биоинформатики, а далее и для научных дисциплин. Создаётся FAIR Data Informatics Lab в рамках инициативы SciCrunch [2] организованной для повышения доступности ресурсов, баз данных, инструментов для исследователей в их дисциплинах.
В сентябре 2022 года объём RRID составил 500 тысяч записей [3] и включает не только реестры инструментов и данных, но и организмов, плазмидов и других объектов интегрированных из других баз данных. Этот проект как и проект Fairsharing можно сказать является экспансией из управления данными в мире биоинформатики в остальные научные дисциплины. Оба они изначально построены на банках данных в области наук о жизни (life sciences), но позиционируемые как универсальные.
Многие национальные порталы открытых данных также отмечены в RRIDs, например, это портал открытых данных США Data.gov с идентификатором RRID:SCR_004712 [4]. Кстати, портал открытых данных США один из немногих пока национальных порталов данных включённых именно в каталоги научных репозиториев, таких как Re3Data [5]. Таких порталов немного, к ним можно отнести ещё Data.gov.au в Австралии и data.gov.uk в Великобритании, в остальном же обычно национальные порталы скорее агрегируют часть данных из некоторых репозиториев исследовательских данных.
Кстати, если бы власти США решили бы закрыть свой портал открытых данных как это сделало Минэкономразвития в России, то именно учёные там отреагировали бы первыми массовыми запросами, потому что их портал является заметным инструментом распространения открытых данных научных исследований. А то есть перед чиновниками не стоит вопрос зачем он нужен, ответ тут очевиден.
RRID - это пример одного из десятков проектов по систематизации инструментов, результатов, процессов, баз данных и любых элементов научных исследований. Проект существует уже 10 лет, ссылки идентификаторы в нём присутствуют, например, в статьях в PubMed [6].
Ссылки:
[1] https://scicrunch.org/resources
[2] https://scicrunch.org/page/scicrunch
[3] https://scicrunch.org/scicrunch/about/blog/2486
[4] https://scicrunch.org/resources/data/record/nlx_144509-1/SCR_004712/resolver?q=data.gov&l=data.gov&i=rrid:scr_004712
[5] https://www.re3data.org/repository/r3d100010078
[6] https://pubmed.ncbi.nlm.nih.gov/36793799/
#opendata #openaccess #openscience
В сентябре 2022 года объём RRID составил 500 тысяч записей [3] и включает не только реестры инструментов и данных, но и организмов, плазмидов и других объектов интегрированных из других баз данных. Этот проект как и проект Fairsharing можно сказать является экспансией из управления данными в мире биоинформатики в остальные научные дисциплины. Оба они изначально построены на банках данных в области наук о жизни (life sciences), но позиционируемые как универсальные.
Многие национальные порталы открытых данных также отмечены в RRIDs, например, это портал открытых данных США Data.gov с идентификатором RRID:SCR_004712 [4]. Кстати, портал открытых данных США один из немногих пока национальных порталов данных включённых именно в каталоги научных репозиториев, таких как Re3Data [5]. Таких порталов немного, к ним можно отнести ещё Data.gov.au в Австралии и data.gov.uk в Великобритании, в остальном же обычно национальные порталы скорее агрегируют часть данных из некоторых репозиториев исследовательских данных.
Кстати, если бы власти США решили бы закрыть свой портал открытых данных как это сделало Минэкономразвития в России, то именно учёные там отреагировали бы первыми массовыми запросами, потому что их портал является заметным инструментом распространения открытых данных научных исследований. А то есть перед чиновниками не стоит вопрос зачем он нужен, ответ тут очевиден.
RRID - это пример одного из десятков проектов по систематизации инструментов, результатов, процессов, баз данных и любых элементов научных исследований. Проект существует уже 10 лет, ссылки идентификаторы в нём присутствуют, например, в статьях в PubMed [6].
Ссылки:
[1] https://scicrunch.org/resources
[2] https://scicrunch.org/page/scicrunch
[3] https://scicrunch.org/scicrunch/about/blog/2486
[4] https://scicrunch.org/resources/data/record/nlx_144509-1/SCR_004712/resolver?q=data.gov&l=data.gov&i=rrid:scr_004712
[5] https://www.re3data.org/repository/r3d100010078
[6] https://pubmed.ncbi.nlm.nih.gov/36793799/
#opendata #openaccess #openscience
Я регулярно пишу тут в канале про порталы открытых данных , научные каталоги и другие каталоги данных, а за всем этим стоит пока небольшой проект создания общедоступного поискового индекса по всем доступным данным, открытый аналог Google Search. Он так и называется Common Data Index.
Причём этот проект 4-х этапный, где каждый этап отдельный под проект.
Чтобы создать поисковую систему нужно:
1. Создать реестр большинства каталогов данных
2. Собрать описания наборов данных в первичные индексы
3. Создать единый поисковый индекс и веб интерфейс над ним
4. Создать систему архивации ключевых данных и обогащение поискового индекса информацией из сохранённых наборов данных
Вот так это выглядит в майндмапе.
А вот так выглядит первая часть этого проекта, каталог каталогов данных [1] пока в виде репозитория где каждому каталогу соответствует отдельный YAML файл с метаданными и единый набор данных каталога каталогов собирается в JSONL файл.
Сейчас в этом каталоге каталогов 1736 записей, часть из них надо вычищать как уже недоступные, а многие просто ещё не найдены. потенциально их около 2500-3000. Чем-то проект похож на datacatalogs.ru который мы в @infoculture делали в прошлые годы и тоже как потенциальную основу для поисковика по данным в России.
Сейчас есть понимание что делать поисковик только по российским данным - это недостаточные амбиции, если делать то сразу глобально.
Пока об этом проекте я пишу только тут в телеграм канале, он в стадии проектирования и я его только начал выводить из собственного pet проекта в активную фазу, но что могу сказать сразу так это то что есть большое желание сделать поисковую систему по данным используя технологии о которых я ранее писал - идентификацию семантических типов данных, а также инструменты автоматизации data discovery.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry
#opendata #opensource #projects
Причём этот проект 4-х этапный, где каждый этап отдельный под проект.
Чтобы создать поисковую систему нужно:
1. Создать реестр большинства каталогов данных
2. Собрать описания наборов данных в первичные индексы
3. Создать единый поисковый индекс и веб интерфейс над ним
4. Создать систему архивации ключевых данных и обогащение поискового индекса информацией из сохранённых наборов данных
Вот так это выглядит в майндмапе.
А вот так выглядит первая часть этого проекта, каталог каталогов данных [1] пока в виде репозитория где каждому каталогу соответствует отдельный YAML файл с метаданными и единый набор данных каталога каталогов собирается в JSONL файл.
Сейчас в этом каталоге каталогов 1736 записей, часть из них надо вычищать как уже недоступные, а многие просто ещё не найдены. потенциально их около 2500-3000. Чем-то проект похож на datacatalogs.ru который мы в @infoculture делали в прошлые годы и тоже как потенциальную основу для поисковика по данным в России.
Сейчас есть понимание что делать поисковик только по российским данным - это недостаточные амбиции, если делать то сразу глобально.
Пока об этом проекте я пишу только тут в телеграм канале, он в стадии проектирования и я его только начал выводить из собственного pet проекта в активную фазу, но что могу сказать сразу так это то что есть большое желание сделать поисковую систему по данным используя технологии о которых я ранее писал - идентификацию семантических типов данных, а также инструменты автоматизации data discovery.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry
#opendata #opensource #projects