Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Для тех кто мог упустить, в прошлом году, в октябре вышла записка The future of open data [1] за авторством Карлоса Иглесиаса о том в какую сторону развиваются тренды в открытости данных в мире. Записка там вышла довольно короткая, ключевое в ней 7 пунктов большая часть которых вообще не про технологии, а про людей. И даже конкретно про сообщества, обучение, организацию процессов и так далее.

Я хотел написать об этом тексте ещё в конце 2021 года, но в начале 2022 вышел другой текст с идентичным (!) названием, также The Future of Open Data [2], но с авторством двух канадок
и с очень чётким фокусом на геоданные.

Чего не хватает в этих документах, так это понимания того кто аудитория порталов открытых данных и инициатив по открытости. А ещё точнее кто уже является аудиторией и кто должен быть аудиторией. Часто это разные группы: программисты, создатели стартапов, корпорации, журналисты, ученые, госслужащие, активисты и студенты. Есть много пользовательских сценариев, и не только для порталов открытых данных, но и для открытых данных в принципе.

Пока я не видел ни одного полномасштабного исследования в этой теме, даже от крупных институций, но, всё это, проделанные работы в вроде той что сделал Карлос Иглесиас, не обесценивает.

Важное отличие развитие открытых данных в демократических странах в том что остальные инициативы по работе с данными в госсекторе связаны с ними и так или иначе их дополняют.

В России государственный портал открытых данных и иные дата-продукты государства существуют почти не пересекаясь. Это не хотят понимать, ни те кто должны обеспечивать открытость гос-ва, ни те кто оценивают эту открытость.

Открытые и общедоступные данные у нас окончательно рассинхронизуются уже давно. Данные которые мы собирали с порталов государственных информационных системы мы собирали, как минимум, на два порядка больше данных чем с официальных порталов открытых данных.

Ссылки:
[1] https://datos.gob.es/en/documentacion/future-open-data
[2] https://ruor.uottawa.ca/handle/10393/43648

#opendata #research
В рубрике о нас пишут, о нашем исследовании приватности мобильных приложений написали:
- Эксперты оценили долю американских трекеров в RuStore РБК
- «Инфокультура» исследовала приватность мобильных приложений в RuStore Роскомсвобода
- Почти 90% приложений в RuStore имеют встроенный иностранный трекер Runet.News
- В приложениях российского магазина RuStore нашли зарубежные модули слежки Ferra
а также ещё пара десятков СМИ и телеграм каналов.

Не менее важно кто ничего о нём не написал: CNews, Коммерсант, Ведомости и ещё ряд изданий. Как говорится, Бог простит, а я запишу (с) ;)

Это не последнее наше исследование, будут и другие и не только про мобильные приложения.

#research #privacy #mobileapps
У Postman вышел их ежегодный обзор 2022 State of the API Report [1] составленный через опрос разработчиков пользующихся их платформой и схожий с исследованиями JetBrains.

Исследование полезное, много графиков, большая выборка, много чего любопытного. Конечно, с оговоркой что они делают акценты там где их собственный продукт посильнее, а некоторые темы вроде предпочтений по корпоративной интеграции или языки разработки охватывают мало или недостаточно.

Полезно будет, в первую очередь, тем кто выбирает приоритеты в изучении новых технологий.

Ссылки:
[1] https://www.postman.com/state-of-api/how-to-share-the-report/

#api #studies #research #postman
Онтология типов данных

Когда я только-только начинал возиться с семантическими типами данных то столкнулся с тем что онтологического моделирования типов данных очень мало. Есть исследование и онтология OntoDT [1] ещё 2016 года, но сайт с ним уже недоступен, и сама онтология кое-где ещё доступна как RDF/OWL [2]. Основной автор Panče Panov явно переключился на более прикладные исследования [3]

В качестве других примеров։
- онтология EDAM [4] в биоинформатике, с акцентом на особенности анализа и майнинга данных в этой области
- CDM (Common Data Model) [5] не-формальная онтологии от Microsoft привязанная с акцентом на продажах, пользователях, маркетинге и тд.
- онтология типов данных при ответах на вопросы по геоаналитике [6] прошлогоднее исследование с акцентом на геоданные.

Есть, также, какое-то количество других научных и не только научных публикаций на эту тему, но в целом их довольно мало. Они чаще всего происходят в контексте задач по анализу данных и его автоматизации. Самое развитое идёт в сторону автоматизации создания и аннотирование моделей для ИИ. Проект D3M (Data-Driven Discovery of Models) [7] от DARPA в США. Я не так давно писал о нём и порождённых им стартапах. [8]

По тому что я вижу, рано или поздно, но с практической или научной или обеих точек зрения будет продолжение развитие моделирования типов данных. Помимо задач автоматизации обработки данных, есть явный тренд на развитие инструментов их хранения.

Ещё какое-то время назад в СУБД на родном уровне поддерживались только самые базовые типы данных։ INT, FLOAT, STRING/VARCHAR, BLOB и тд. с небольшими вариациями. Сейчас, современные СУБД, поддерживают многочисленные дополнительные типы данных, перешедших из смысловых (семантических) в базовые типы. Пример: ip-адреса и mac-адреса уже достаточно давно имеющиеся в некоторых СУБД [9] и недавно добавляемые в другие [10].

Ранее всего это произошло с датами и временем в разных вариациях, с геоданными для которых есть сейчас много отдельных функций и индексов внутри СУБД. Также происходит с сетевыми наиболее популярными данными.

Мои ощущения что на этом процесс не остановится. Например, меня удивляет что всё ещё нет СУБД общего типа с отдельными типами данных под хэши (SHA1, SHA256 и др.).

Многие составные идентификаторы и коды классификаторов сейчас в СУБД хранятся как строки, при том что часто они нужны в декомпозированной форме и, в итоге, создаётся избыточность разбирая этот код на части. Пример в России: Вы можете хранить код КЛАДР как есть, а можете разделить его на подэлементы и осуществлять поиск по ним когда это необходимо.

Не знаю появится ли когда-либо движок для СУБД дающий возможность значительно большей гибкости в хранении и индексировании данных иди же, на самом деле, это далеко от насущных необходимостей, но важно то что к у каждого смыслового типа данных есть важная связка с практиками обработки данных и эволюция СУБД в этом направлении явно происходит.

Ссылки:
[1] https://fairsharing.org/FAIRsharing.ydnwd9
[2] https://kt.ijs.si/panovp/OntoDM/archive/OntoDT.owl
[3] https://orcid.org/0000-0002-7685-9140
[4] http://edamontology.org/page
[5] https://docs.microsoft.com/en-us/common-data-model/
[6] https://digitalcommons.library.umaine.edu/josis/vol2020/iss20/2/
[7] https://datadrivendiscovery.org
[8] https://t.me/begtin/3926
[9] https://www.postgresql.org/docs/current/datatype-net-types.html
[10] https://mariadb.com/kb/en/inet4/

#data #rdbms #research #metadata #semanticdatatypes
The Open Data Canvas–Analyzing Value Creation from Open Data [1] научная статья за авторством Yingyng Gao и Marijn Janssen посвящённая созданию аналога канвы для бизнес модели, но для проектов на открытых данных. Авторы неплохо поработали над структурой канвы, с научной точки зрения интересны полезна их логика рассуждения, с практической - это структура запуска проекта на открытых данных. Составление таких канв проектов полезно когда ты проектируешь новый проект, или в процессе обучения, или, не в меньшей степени, на хакатонах и конкурсах, когда участники вначале проектируют то что они хотят сделать.

В статье примеры канвы по COVID-19 Dashboard, в целом отражающей действительности.

Со своей колокольни я вижу то чего в такой канве не хватает - это устойчивости (sustainability). В канве бизнес-модели этого нет потому что предполагается что бизнес приносит деньги, а если он не приносит, то это не бизнес. Иначе говоря, бизнес модель всегда предполагает наличие кэш флоу если не от клиентов, то от инвесторов.

В случае с любыми некоммерческими проектами, такими как проекты на открытых данных, кэш флоу может не быть. То что указано в Costs может быть как постоянным, частью деятельности чего-то, как COVID-19 Dashboard часть деятельности института Джона Хопкинса, так и может быть и, чаще, является потребностью в поиске финансирования/смены структуры продукта и проекта.

Как бы то ни было этот шаблон канвы вполне пригоден и полезен в работе. Осталось его только красиво оформить, поместить во что-нибудь вроде Miro и похожие инструменты.

Ссылки:
[1] https://dl.acm.org/doi/pdf/10.1145/3511102

#opendata #canvas #businessmodel #research
В рубрике интересных наборов данных новость о том что DBLP, открытая база научных публикаций о компьютерных науках, интегрировали их данные с другой открытой научной базой OpenAlex и пишут об этом [1].

Для тех кто не знает, OpenAlex - это открытый продукт базы данных ссылок на научные публикации созданный НКО OutResearch на базе Microsoft Academic Knowledge Graph, большого набор данных опубликованного компанией Microsoft для помощи в развитии инструментов анализа библиографических данных.

DBLP - это проект университета Триера существующий с 1993 года и ведущий крупнейшую в мире систематизированную базу научных публикаций в области компьютерных наук.

Интеграция даёт возможность увидеть категории/концепты к которым относится данная публикация, а ранее уже DBLP интегрировали с базами Semantic Scholar, Crossref и OpenCitations.

Пока это всё происходит на уровне веб-интерфейсов, но, ничто не мешает использовать открытые данные DBLP [2] что автоматизации анализа в нужных областях.

Лично мне в DBLP всегда не хватало возможности подписаться на новые статьи по конкретной теме, исследователю, исследовательскому центру, ключевым словам, но это то что можно делать в других сервисах вроде Semantic Scholar.

Я читаю на регулярной основе ключевые научные работы по цифровой архивации, открытым данным и "пониманию данных" (семантическим типам данных, идентификации шаблонов и тд.). Удобные инструменты для поиска таких публикаций очень помогают.

Ссылки։
[1] https://blog.dblp.org/2022/08/31/openalex-integration-in-dblp/
[2] https://dblp.uni-trier.de/xml/

#opendata #research #openaccess #datasets
Незаслуженно упущенная мной публикация июля этого года What is the value of data? A review of empirical methods [1] от исследователей из Bennett Institute for Public Policy Университета Кэмбриджа. Они разбирают методы оценки стоимости/ценности данных, в первую очередь, с точки зрения экономических оценок их использования и ссылаются на их же работу 2020 года Value of Data report [2], а также на оценки ОЭСР и других.

С научной точки зрения и с точки зрения лоббирования раскрытия данных и принятия политик представления данных (data sharing) в странах где прислушиваются к доводам исследователей - это полезный текст.

Ссылки:
[1] https://www.bennettinstitute.cam.ac.uk/publications/value-of-data/
[2] https://www.bennettinstitute.cam.ac.uk/wp-content/uploads/2020/12/Value_of_data_summary_report_26_Feb.pdf

#opendata #research #policies
9. Одна из наиболее внятных и разумных инициатив - конкурсы Код-ЦТ и Код-ИИ организуемые Фондом содействия инноваций - это реальные попытки хоть что-то изменить и попытаться опереться на те ИТ компании и ИТ команды которые готовы и умеют развивать продукты с открытым кодом. ФСИ даёт гранты даже большие чем германский Prototype Fund, но это капля в море по сравнением с субсидиями академическим институтам и университетам на научную деятельность результат которой не виден, не известен и закрыт.
10. Аналогично с инициативами связанными с Национальным репозиторием кода, Гостехом и ещё много чем. Для понимания, в основе Гостех в Сингапуре или в Эстонии открытый код. Все лучшие примеры цифровизации госухи в мире на которые сотрудники РосГосТеха могут ссылаться тоже будут открытыми, а вот их платформа даже намеков на открытость не имеет
11. В случае с национальным репозиторием кода, то что он заменит ФАП не означает что код там будет открыт. Скорее он будет открыт для технического аудита, но даже не факт что разработка будет вестись в нём, а не использоваться только для публикации кода в момент сдачи контрактной отчетности. Это уже прогресс, но медленный.
12. Но, я повторюсь, что всё начинается с открытости результатов научных исследований. Почему он не публикуется? Спросите Минобрнауки, но там даже отвечать некому;)

Тут надо бы добавить что всё это было справедливо в мирные времена, а сейчас многие из тех кто понимает что и как можно было бы исправить и изменить, не будут работать с российскими госорганами ни на каких условиях, даже если госполитика цифровизации была бы иной.

Ссылки:
[1] https://data.world/ibegtin/open-source-government-project
[2] https://government.github.com/

#government #opensource #it #opendata #openaccess #research
Вышел доклад/исследование State of Frontend [1] по технологиям фронтэнд разработки основанный на опросе 3703 разработчиков и с комментариями нескольких экспертов. Хотя я лично и далёк от темы фронтэнда, но тут большой любопытный текст с интересными результатами.

Вот подборка фактов:
- большинство прошедших опрос работают дистанционно: 59.7%, ещё 35.3% в гибридном формате
- в безусловных лидерах фреймворки Angular (51%) и React (25%), наиболее перспективные Svelte и Next.js
- самые популярные дизайн системы Material UI, Tailwind UI и Bootstrap
- Typescript используют 84% разработчиков и большинство (43%) считают что он заменит Javascript однажды
- большинство используют сервера AWS (Amazon) или свои собственные
- подавляющее большинство используют Visual Studio Code: 74.4%

И там ещё много всего, что-то кажется очевидным, что-то совсем нет. Например, про VS Code или про Typescript.

Ссылки:
[1] https://tsh.io/state-of-frontend/

#reports #research #frontend #javascript #development
This media is not supported in your browser
VIEW IN TELEGRAM
Совсем свежая статья с видеопримерами от команды NVIDIA про языковую модель по генерации видео на основе описания текстом [1]. Проще говоря: генеративный ИИ текст-в-видео.

Что характерно там не только примеры общей модели, но и обучения на видеозаписях, например, кота и генерации видео на их основе. Иначе говоря, возможность создавать персонализированный видео-контент на основе предоставленных материалов.

Про математическую и техническую реализацию лучше посмотреть в самой статье, а я про практическое применение.

Возможно полнометражные фильмы появятся ещё не скоро, но что неизбежно появится очень быстро и будет иметь различные социальные и экономические последствия - это:
1) Персонифицированная порнография и падение доходов у порноактрис и эротических моделей, поскольку можно нагенерировать множество изображений и видео предобучив на имеющихся. Это уже происходит для изображений, теперь будет и для видео.

2) Оживление мёртвых людей в виртуальном пространстве. Продажа вечной "цифровой жизни" и тд. Оно и так есть, оно и так развивается, а генерация качественного видео это усилит.

Ссылки:
[1] https://research.nvidia.com/labs/toronto-ai/VideoLDM/

#ai #research
В рубрике интересных источников данных Wolfram Data Repository [1] каталог из 1041 набора данных от команды Wolfram Research.

Из плюсов есть примеры использования данных прямо в платформе Wolfram и на языке Wolfram Language который является частью Wolfram Alpha.

Из минусов всё то же самое, за пределами их платформы использовать неудобно или невозможно.

Лично мне продукты Wolfram Research с годами нравятся всё меньше из-за их замкнутости на собственную экосистему и невозможностью интегрировать их с более продвинутыми узкотематическими инструментами, но у платформы всё ещё немало пользователей в академической среде и поклонников, так что от репозитория данных польза всё же есть.

P.S. Хотя для меня он скорее пример того как не надо делать каталоги данных.

Ссылки:
[1] https://datarepository.wolframcloud.com

#opendata #openscience #research #wolfram
К вопросу о каталогах научных данных, я писал про многие инициативы, а про одну всё не упоминал. В научной среде существуют продукты которые называются CRIS (Current Research Information System) которые также называют RIMS (Research Information Management System) [1].

В отличие от систем публикации статей или каталогов научных данных эти системы создаются для учёта всей научной деятельности научной организации/отрасли (научной дисциплины) или страны. Например, в CRIS вносятся данные по исследовательским центрам, исследователям, научным публикациям, данным, лабораториям, оборудованиям и так далее.

Такие системы могут быть как внутренними, так и открытыми. В последние годы эти системы почти все являются открытыми, или по большей части открытыми, но есть они далеко не у всех исследовательских центров и университетов, но их становится всё больше. Большая их часть создаётся на базе примерно десятка коммерческих продуктов и некоторого числа продуктов с открытым кодом.

Для университетов у которых есть такие системы, публикация данных является частью таких систем.

Реестр таких систем ведёт НКО euroCRIS [2] существующая при поддержке Евросоюза, этот реестр называется DRIS [3], там 1387 репозиториев по всему миру, большая часть из которых находятся в Индии и Норвегии, но, в принципе, рассеяны по всему миру.

Данные из систем CRIS собираются в глобальные агрегаторы такие как OpenAIRE, для чего разработан стандарт CERIF [4] для описания метаданных и для их предоставления через REST API, а у OpenAIRE есть ещё и подробное руководство для работы CRIS систем [5].

Большая часть CRIS систем - это университетские системы, но есть и крупные национальные CRIS системы в: Австралии, Испании, Финляндии и многих других странах. В реестре DRIS упомянуто 24 такие системы национального уровня, о каждой из них можно рассказывать долго и по отдельности.

Так вот CRIS системы можно также рассматривать как каталоги открытых научных данных, с оговоркой что данные там не приоритет, а скорее сопутствующий результат, а основное - это функции предоставления информации о всех результатах и инструментах исследований.

И, напоследок, можно посмотреть как это устроено на примерах националных CRIS систем, в Бразилии BrCRIS [6], в Словакии [7], в Латвии [8], в Норвегии [9].

Ссылки:
[1] https://en.wikipedia.org/wiki/Current_research_information_system
[2] https://eurocris.org/
[3] https://dspacecris.eurocris.org/cris/explore/dris
[4] https://eurocris.org/services/main-features-cerif
[5] https://guidelines.openaire.eu/en/latest/cris/index.html
[6] https://brcris.ibict.br
[7] https://www.skcris.sk/portal/
[8] https://sciencelatvia.lv
[9] https://www.cristin.no/

#openaccess #openresearch #opendata #research
В рубрике как это работает у них о публикации открытых научных данных в Финляндии. В Финляндии Министерство образования и культуры создало и поддерживает портал Fairdata.fi [1] для распространения подхода принципов FAIR при публикации научных данных [2].

Помимо руководств и обучения инициатива включает 5 проектов помогающих исследователям:
- IDA Research Data Storage
- Etsin Research Dataset Finder
- Qvain Research Dataset Description Tool
- Digital Preservation Service for Research Data
- AVAA Open Data Publishing Platform

Например, система Etsin позволяет искать по более чем 5 тысячам наборам данных и размещать там свои наборы. А в системе AVAA доступны каталоги геоданных.

Кроме всего прочего данные из Etsin доступны на иследовательском портале страны Research.fi [3]. В свою очередь Research.fi был создан в 2020 году как CRIS (Current Research Information System) страны и включает, как открытые научные данные, так и базу публикаций, исследователей, исследовательских центров.

Ссылки:
[1] https://www.fairdata.fi/en/
[2] https://www.go-fair.org/fair-principles/
[3] https://research.fi/en/results/datasets

#finland #research #openaccess #opendata #openscience
Команда Mozilla опубликовала очередное интересное исследование по приватности, на сей раз приватности при использовании автомобилей 25 брендов и о том как вендоры собирают информацию [1] из которого можно узнать что:
- все без исключения вендоры собирают персональные данные
- 84% вендоров закладывают право передавать или продавать эти данные
- 92% вендоров не дают контроля над своими персональными данными
- 56% вендоров закладывают право передавать данные по запросу госорганов, вне зависимости официальные ли это запросы или "неформальные"
- ни один из вендоров не соответствует минимальным стандартам безопасности которые Mozilla продвигала ранее.
- Nissan, кроме всего прочего, собирает данные о сексуальной активности, не шутка.

В исследовании есть развернутая информация по каждому вендору, а анализ проходил путем изучения их условий использования, политик приватности и иных связанных с техническим оснащением документов. Иначе говоря исследователи проводили бумажный анализ, а не полевой с выявлением куда и как передаются данные, но и юридический бумажный анализ рисует вот такую неприглядную картину.

Ссылки:
[1] https://foundation.mozilla.org/en/privacynotincluded/articles/its-official-cars-are-the-worst-product-category-we-have-ever-reviewed-for-privacy/

#privacy #data #mozilla #research
Свежий европейский доклад Mapping the landscape of data intermediaries [1] о таких посредниках в работе с данными как: системы управления персональной информацией (PIMS), информационные кооперативы, трасты данных, профсоюзы данных, рынки данных и пулы обмена данными.

Много примеров из европейской практики, включая разбор бизнес моделей каждого из 6 типов посредников.

Например, малоизвестные мне ранее, профсоюзы данных (data unions) объединяющие людей предоставляющих свои данные, их примеры: TheDataUnion [2] и Unbankx [3].

А также многое другое. Полезно всем кто хочет знать как изнутри устроены _некоторые_, не все, рынки данных.

Ссылки:
[1] https://publications.jrc.ec.europa.eu/repository/handle/JRC133988
[2] https://thedataunion.eu
[3] https://www.unbanx.me

#data #research #readings #eu
Data Provenance Explorer [1] большая инициатива по анализу, систематизации и аудиту наборов данных используемых для обучения больших языковых моделей.

В общей сложности более 1800 наборов данных с указанием их происхождения, лицензий, создателей, источников и других метаданных.

Проект является результатом написания одноимённой научной статьи The Data Provenance Initiative:
A Large Scale Audit of Dataset Licensing & Attribution in AI
[2] коллективом 18 авторов из разных академических и коммерческих организаций.

Статья не менее интересная и полезная и сама идея кажется очень правильной, заглянуть на то чём обучаются языковые модели и исправлять там где надо исправлять.

Ссылки:
[1] https://dataprovenance.org
[2] https://www.dataprovenance.org/paper.pdf

#opendata #datasets #ai #research #data
Команда исследователей из Microsoft и Github'а разместили препринт статьи Open Data on GitHub: Unlocking the Potential of AI [1], о том что на Github'е хостится порядка 800 миллионов файлов открытых данных общим объёмом около 142 терабайт.

Статья интересная самим фактом рассмотрения Github'а в роли портала открытых данных, но с большими методическими ошибками из-за которых цифрам верить нельзя. Я также анализировал Github как источник наборов данных и главное что понял что как хостинг файлов он хорош, а в остальном, не особо.

Конкретно в этом случае у исследователей есть три фундаментальные ошибки:
1. Недостаточная фильтрация файлов с расширениями вроде .json которые не про данные, а разного рода конфиги из-за чего завышенное число файлов
2. Отсутствие учёта файлов в формате XML, что особенно поразительно, из-за чего, наоборот, занижение числа файлов
3. Отсутствие учёта файлов архивов XZ, GZip, BZ2 и ZIP, которые могут использоваться для хранения всякого, но можно было хотя бы учесть файлы с двойными расширениями .csv.xz, .xml.gz и так далее. Из-за этого очень сильное занижение объёмов хранимых данных.

В любом случае статья полезна для всех кто ищет данные, думает о том как их искать, и, в целом, думает про данные.

Ссылки:
[1] https://arxiv.org/abs/2306.06191

#opendata #research #microsoft #github #readings
Возвращаюсь из недельной командировки совмещённой с отпуском, надеюсь что читатели не заскучали по материалам про данные. И сразу же интересный свежий доклад The State of Open Data 2023 [1] от команды Digital Science, стартапа/компании предоставляющих Figshare и другие порталы и сервисы для открытой инфраструктуры для научных публикаций.

Доклад не про то что вы можете подумать публикуется на порталах открытых данных, а про то как исследователи публикуют свои данные. В каких дисциплинах чаще, с какой мотивацией, что они об этом думают, помогают ли им и так далее. Тем кто хочет знать как развивается открытость науки в головах исследователей - это полезный документ. Он составлен через опросы как и большая часть докладов жанра "The State of ...", и главный вывод который можно сделать в том что открытость данных в науке - это долговременный постепенно развивающийся и не останавливающийся тренд.

Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2023/24428194

#opendata #openaccess #research #science
Любопытная статья [1] и связанные с ней наборы данных [2] про WikiWebQuestions, набор данных SPARQL аннотированных данных из Wikidata и о том что большие языковые модели вроде LLaMa меньше галлюцинируют и точность их ответов повышается. Всячески полезное чтение и возвращение к вопросу о том насколько и как структурированные и качественно аннотированные базы данных могут повлиять на качество ИИ-инструментов. До сих пор в основе больших языковых моделей были очень большие базы текстов, а тут базы фактов. При всей неидеальности и неполноте Wikidata баз таких объёмов и такой структуризации одновременно очень мало.

Ссылки:
[1] https://arxiv.org/abs/2305.14202
[2] https://github.com/stanford-oval/wikidata-emnlp23

#ai #opendata #wikidata #datasets #research #readings