Ivan Begtin

Тем временем, буквально недавно, в июле, появилось предложение по изменению в стандарт HTTP добавлением типа запроса QUERY для запросов в базы данных [1] [2] нечто что имеет самое непосредственное отношение к современным базам данных, индексированию веб сайтов и работе большого числа веб ресурсов.

По сути идея в том чтобы иметь тип запросов который, с одной стороны, должен нести нагрузку при передаче от клиента, а с другой поддерживать кеширование, то что сейчас не обеспечивается для POST запросов ну или вернее обеспечивается путем настройки кеширующих веб-серверов, на уровне кеш серверов ключ-значение и так далее.

У меня лично нет уверенности в строгой необходимости такого изменения. Запросы в HTTP ещё давно проектировались по модели CRUD (GET, POST, DELETE, PUT и PATCH), а аналога SELECT никогда небыло. Большая часть REST API и запросов Ajax работают на базе GET или POST запросов.

Будет ли эффективен запрос QUERY? Хочется увидеть референсную реализацию и тестирование производительности.

Ссылки:
[1] https://datatracker.ietf.org/doc/draft-ietf-httpbis-safe-method-w-body/
[2] https://horovits.medium.com/http-s-new-method-for-data-apis-http-query-1ff71e6f73f3

#data #standards

1.9K viewsIvan Begtin, edited 14:39

Ivan Begtin

Полезная статья [1] о применении машинного обучения и глубокого обучения для задач VDU (Visual document understanding), распознавания текстов (и образов) в документах. Автор пишет о том как на базе библиотеки transformers [2] от HuggingFaces, модели Donut [3] (Document understanding transformer) и базы сканированных чеков она настроила их автоматическое распознавание в структурированный формат в JSON так что на выходе получается не текст неким свободным образом написанный, а структура объекта чтобы сразу класть в базу данных.

Скорее всего если сравнивать с промышленными платными OCR движками, то качество их распознавание должно быть лучше, но тут автор сравнивает с открытым движком Tesseract который, по её утверждению, справляется хуже.

Donut выглядит интересным открытым продуктом, его определённо стоит попробовать на каких-то живых сканах структурированный сведений чтобы понять границы его применимости.

Ссылки:
[1] https://towardsdatascience.com/ocr-free-document-understanding-with-donut-1acfbdf099be
[2] https://huggingface.co/docs/transformers/index
[3] https://github.com/clovaai/donut
[4] https://github.com/zzzDavid/ICDAR-2019-SROIE

#data #opensource #ml #datascience

2.1K viewsIvan Begtin, edited 18:13

Ivan Begtin

Milvus [1] векторная база NoSQL данных позволяющая быстро реализовывать поиск по подобиям, например, поиск по похожим изображениям или поиск похожих химических структур. Является одним из проектов The Linux Foundation [2].

Из особенностей, интерфейс работы в виде коллекций чем-то похожий на MongoDB, но с преднастроенной схемой данных.

Для веб интерфейса к нему идёт отдельно надстройка Attu [3]․
А также есть много примеров построения разных видов поиска [4].

Ссылки:
[1] https://milvus.io/
[2] https://lfaidata.foundation/projects/
[3] https://github.com/zilliztech/attu
[4] https://milvus.io/docs/v2.1.x/image_similarity_search.md

#datatools #databases #opensource

1.8K viewsIvan Begtin, 06:44

Ivan Begtin

Когда много пишешь всегда наступает момент когда надо систематизировать написанное.

Я собрал мои тексты про информатизацию государства, открытые государственные данные, качество госданных, государственные финансы, государственную политику и т.д. в одну большую подборку в рассылке [1].

Там только большие тексты, без учёта опубликованного в этом телеграм канале, в фэйсбуке и тд. Тексты вышедшие колонками в Ведомостях, Forbes, РБК и в моих блоге и в рассылке. Я мог упустить колонки в других изданиях, но большую часть материалов должен быть охватить.

Полезного чтения!

Ссылки:
[1] https://begtin.substack.com/p/29

#opendata #government #policy #dataquality #govfinances

1.7K viewsIvan Begtin, edited 17:23

Ivan Begtin

В рубрике как это работает у них проект Nueva Economía de la Lengua [1], Новая языковая экономика в Испании.

В его основе инвестиции в размере 1.1 миллиарда евро в изучение испанского языка из которых:
- 475 миллионов евро идёт на создание цифровой платформы изучение языка и оцифровку материалов Института Сервантеса
- 330 миллионов евро идёт на создание языковых моделей для работы искусственного интеллекта.

Эти модели уже активно создаются. Из последних можно привести в пример ESCORPUS [2] языковая модель высокого качества на 50 миллионов слов, а также исходный код и многочисленные другие модели языков и публикации научные и популярные [3] создаваемые в суперкомпьютерном центре в Барселоне.

Обо всём этом, проектах и результатах, на сайте Министерства экономики Испании [4], результатов там немало.

Всё это делает испанский язык наиболее вероятным языком после английского языка по появлению новых продуктов на базе языковых моделей. Может быть ещё китайский язык составляет конкуренцию, разве что.

С точки зрения работы с данными можно рассматривать этот план как создание огромных качественных открытых наборов данных с чётко сформулированными целями в рамках долгосрочной государственной политики.

Испанский язык один из наиболее распространённых в мире и его распространение явно продолжится.

А есть ли на постсоветском пространстве похожие инициативы? Есть ли государственные инвестиции и открытые модели для русского, казахского, армянского, узбекского и других языков? Можно ли сохранять свои языки популярными и востребованными не вкладываясь в технологии их применения?

Ссылки:
[1] https://planderecuperacion.gob.es/como-acceder-a-los-fondos/pertes/perte-nueva-economia-de-la-lengua
[2] https://huggingface.co/datasets/LHF/escorpius
[3] https://github.com/PlanTL-GOB-ES
[4] https://plantl.mineco.gob.es/Paginas/index.aspx

#opendata #datasets #spain #languages #government #policy #eu

planderecuperacion.gob.es

PERTE Nueva economía de la lengua

Una oportunidad para aprovechar el potencial del español y de las lenguas cooficiales como factor de crecimiento económico y competitividad internacional.

1.7K viewsIvan Begtin, 18:10

Ivan Begtin

Интересные базы данных созданные на территории пост-СССР. В случае некоторых продуктов их авторы могли в последние годы переехать, но можно говорить что создавать их они начинали до переезда:
- Unum [1] облачная СУБД и её вариант с открытым кодом, создана в Ереване (Армения), одноименной компанией. Про инвестиции ничего неизвестно, в бенчмарках утверждают [2] что производительность выше чем у RocksDb, LevelsDb и др. լավ արված !
- OrioleDb [3] как я понимаю происхождение у проекта из Республики Беларусь, это движок для PostgreSQL повышающий эффективность использования в облаках (cloud-native).
- Akumuli [4] база для временных рядов с открытым кодом. Как я понимаю автор перестал ей заниматься примерно 2 года назад.
- SednaXML [5] некогда известная российская XML СУБД, поначалу интересная, но что-то случилось и материалы не обновлялись более 11 лет
- Datascript [6] СУБД с открытым кодом с поддержкой Datalog'а для Clojure и JavaScript
- Tarantool [7] хорошо известная СУБД от команды из Mail.ru (VK). С корпоративными и частными внедрениями и подробной документацией.
- YDB [8] распределенная отказоустойчивая СУБД от Яндекса используемая во многих внутренних продуктах
- EJDB [9] внедряемая NoSQL система управления базами данных, похожая на NoSQL. В основном под мобильные устройства.

Какие-то мог пропустить, основатели каких-то проектов могли переехать. Если есть что добавить, обязательно напишите!

Ссылки:
[1] https://unum.cloud/
[2] https://unum.cloud/post/2021-11-25-ycsb/
[3] https://github.com/orioledb/orioledb/
[4] https://akumuli.org
[5] https://www.sedna.org/
[6] https://github.com/tonsky/datascript
[7] https://www.tarantool.io/ru/
[8] https://ydb.tech/
[9] https://ejdb.org/

#dbms #russia #postussr #datatools #data

1.7K viewsIvan Begtin, edited 06:21

Ivan Begtin

В рубрике как это работает у них, в Канаде проект FRDR (Federated Research Data Repository) [1] централизованный репозиторий всех научных данных создаваемыми исследовательскими центрами в Канаде.

Появился он давно, ещё в 2016 году, но только в 2021 году перешёл в промышленное использование и поэтому объёмы его относительно невелики, около 77 тысяч наборов данных из 103 научных репозиториев [2]. По сравнению с европейскими проектами Zenodo и OpenAIRE - это немного, но для Канады с её 38 миллионным населением, вполне немало.

Из особенностей:
- по сути, выступает поисковиком данных для исследователей
- кроме научных репозиториев агрегируют данные с порталов открытых данных
- собирают данные канадских исследовательских центров из глобальных репозиториев вроде Dryad
- как и большая часть других публичных ресурсов в Канаде - двуязычен на английском и французском языках
- является частью большого проекта Цифровой научной инфраструктуры [3]

Всё это не так масштабно как европейские, китайские или австралийские проекты по открытому доступу именно к данным, но показательно с точки зрения рассмотрения открытых государственных данных с точки зрения повышения их находимости и использования исследователями.

Ссылки:
[1] https://www.frdr-dfdr.ca
[2] https://www.frdr-dfdr.ca/stats/en/
[3] https://ised-isde.canada.ca/site/digital-research-infrastructure/en

#opendata #canada #openaccess #casestudies #government #science

1.6K viewsIvan Begtin, 04:15

Ivan Begtin

Самые полезные инструменты те которые делаешь сам и пользуешься ими каждый день (с)

Много лет назад я сталкивался с тем что я читаю и делаю обзоры материалов из сотни источников, но в половине из них отсутствовали RSS/ATOM ленты и агрегаторы новостей с ними не работали. Сейчас это всё стало проще, почти у каждого значимого или оперативного источника информации есть какая-то социальная сеть или рассылка, но, как ни странно, до сих пор в 2022 году есть новости публикуемые на сайтах без экспорта в RSS или ATOM.

Примерно 14 лет назад я сделал специальную программу автоматического (!) создания новостных лент из сайтов. Не автоматизированного, а именно автоматического. Получающего на вход ссылку и на выход выдающего RSS или JSON с данными.

А в 2018 году я выложил её в открытый код под названием newsworker и с тех пор почти не обновлял.

Но, как ни странно, до сих пор существуют ситуации когда такие инструменты нужны. Например, новости UNFPA публикуются без RSS аналогично с новостями венчурного фонда Runa Capital.

На скриншотах примеры JSON данных извлекаемых из этих страниц, на основе которых быстро воссоздаётся RSS или ATOM.

Тогда, 14 лет назад, это была реально сложная задача. Решая её пришлось написать автоматическое распознавание дат в виде библиотеки qddate, и достаточно сложную, на тот момент, логику анализа структуры веб-страниц.

Оснастку инструмента и библиотеки сейчас я бы написал по другому, а основа, похоже, останется актуальной ещё надолго, даже при распространении социальных сетей.

#opensource #datatools

1.7K viewsIvan Begtin, 07:57

Ivan Begtin

Коммерсант пишет про то что Реестр российских IT-компаний ждет еще одна чистка, там и мои комментарии есть.

Лично мне довольно безразлично что критиковать, Минцифры или создаваемый совет. Важно не путать глав ассоциаций и экспертов - глава ассоциации, это, как правило менеджер, лоббист и говорящая голова, а эксперт это человек погруженный в проблемную область. Совмещение, обычно, приводит к душевным травмам, посмотрите на меня, я живой пример;) и радости и результата не приносит.

А вот благодарность мне Максут Шадаев за помощь в чистке реестра так и не выдал. Наверное бумага в министерстве закончилась;)

Ну а если серьёзно, я повторю ещё раз всё ту же ключевую идею. Не надо "танцевать вокруг реестра", есть решение проще. Реестр аккредитованных = реестру ИТ льготников. Нет подтверждения ФНС - нет аккредитации. Все остальные модели сложнее объяснить, сложнее реализовать и так далее.

#government #digital #itmarket

1.8K viewsIvan Begtin, edited 08:49

Ivan Begtin

Все ещё не наигрались с искусственными изображениями создаваемыми ИИ MidJourney, а уже появился движок Stable Diffusion от стартапа Stability AI умеющие генерировать изображения людей, например, знаменитостей. В TechCrunch большая статья про потенциальные последствия и возможности этой системы [1].

Опуская технические подробности её реализации, как вы думаете какие последствия для человечества может принести развитие этой технологии?

Ссылки:
[1] https://techcrunch.com/2022/08/12/a-startup-wants-to-democratize-the-tech-behind-dall-e-2-consequences-be-damned/

#ai #ethics

1.8K viewsIvan Begtin, 13:35

Ivan Begtin

Языковые модели могут учить себя программировать лучше

"Пугающее" название научной статьи по весьма актуальной теме Language Models Can Teach Themselves to Program Better [1] о том что языковые модели, в данном случае модель Codex, умеют не только решать программные задачи, но и улучшать код этих решений.

Тема интересная и я считаю что её категорически нельзя недооценивать. Программная инженерия всё более стремится к автоматизации. Как это поменяет рынок труда сейчас говорить рано, но определённо поменяет.

Ссылки:
[1] https://arxiv.org/abs/2207.14502

#ai #languagemodels #programming

2.1K viewsIvan Begtin, 15:04

Ivan Begtin

Для тех кто пользуется MongoDB и постоянно ищет альтернативы, OxideDB [1] эмуляция MongoDB поверх PostgreSQL. Внутри движок которые запихивает объёкты документов в тип JSON для PostgreSQL и умеет конвертировать запросы MongօDB (язык MQL) в сложные SELECT.

Это не первая попытка проделать такое, эмулировать интерфейсы MongoDB в других СУБД и определенно эта попытка внимания заслуживает.

Зачем это нужно?
Две важнейшие причины:
1. Недооткрытый код MongoDB под SSPL лицензией. Для открытых сообществ - это как красная тряпка, для инфраструктурного бизнеса это ограничитель к облачному применению.
2. MongoDB далеко не оптимально по производительности, а тут возможность использовать наработки других СУБД.
3. Многим хочется иметь SQL и NoSQL сразу из коробки и давать удобные инструменты для каждой команды.

Ссылки:
[1] https://github.com/fcoury/oxide

#opensource #dbms #datatools #nosql #mongodb

1.8K viewsIvan Begtin, 12:23

Ivan Begtin

Я недавно критиковал ГосТех [1] за плохое описание международного опыта, но реальная критика будет в том что про международный опыт они вообще никак и ни в какой форме не должны были и не должны писать. Они могут и, я считаю, что должны писать про российский опыт. Про то почему технологии выбираются, применяются, используются и почему вообще всё это нужно. Потому что, в отличие от текстов про других, тексты про себя не проСММить.

У меня есть заготовка для большого лонгрида почему в России всё катастрофически плохо с публичным технологическим евангелизмом для госпроектов, но, пока, покидаю Вам ссылок на то как рассказывают о технологиях в гос-ве в других странах и органах власти.

В Великобритании существует большой портал blog.gov.uk в котором очень много технологических блогов и тем из которых я бы выделил Inside GOV.UK [2] где, например, рассказывают как отказались от JQuery для портала gov.uk, как проектировали его веб-интерфейсы, как портал улучшается. Казалось бы ничего сложного, но это сделано системно и публикации там регулярные.

Другой их блог Data in Government [3] про то как работают с данными аналитики и разработчики. Там много всего интересного, мне было любопытно читать их тексты про Reproducible Analytical Pipelines (RAP) [4] о системном подходе к госаналитике данных. Кроме этих блогов есть ещё многие другие, про цифру, про технологии, про данные.

В США про госИТ пишет лучше всего команда 18F [5] про переделку госпорталов на новых технологиях и многое другое. Про данные там меньше, про документирование, фронтэнд, архитектуру и пользователей немало. В США куда хуже с централизованным блоггингом, блоги рассеяны по сайтам ведомств, но их много, просто очень много.

Сингапурский Гостех ведёт около десятка публичных блогов, например, вот такой основной Government Digital Services, Singapore [6], а вот ещё Open Government Products [7].

Новая Зеландия относительно небольшая страна, но там тоже есть блог у местного цифрового ведомства с кучей технических подробностей [8]․

В России культура государственных блогов, в том числе технологических, пропала где-то 5 лет назад. Она выродилась в ограниченное число блогов в твиттере и инстаграм политических персон, значительно меньшее число телеграм каналов некоторых госинициатив и почти тотальный запрет на публичные блоги госслужащих/чиновников.

Ну а блоги многих госинициатив как и их сайты слишком часто превращаются в бесконечный непрофильный СММ, пресс релизы, "новости отрасли" и прочий шлак.

Даже не знаю что рекомендовать читать на русском языке.

Ссылки:
[1] https://t.me/begtin/4152
[2] https://insidegovuk.blog.gov.uk/
[3] https://dataingovernment.blog.gov.uk/
[4] https://analysisfunction.civilservice.gov.uk/policy-store/reproducible-analytical-pipelines-strategy/
[5] https://18f.gsa.gov/blog/
[6] https://medium.com/singapore-gds
[7] https://opengovsg.medium.com/
[8] https://www.digital.govt.nz/blog/

#government #digital #blogging

Ivan Begtin

Как и многие имевшие отношение к госИТ я читаю телеграм канал ГосТех'а и их последние тексты про мировой опыт ИТ в государстве.

Как бы при этом сказать, уровень этих текстов удручающий, ещё лет 7-8 назад я видел куда более детальный анализ того что делается…

2.3K viewsIvan Begtin, 14:23

Ivan Begtin

В рубрике как это работает у них, порталы открытых данных латиноамериканских стран.

Портал открытых данных Перу [1] создан на базе движка CKAN в 2020 году согласно декрету цифровой трансформации страны. Содержит 7363 набора данных включая 56 наборов данных про COVID-19

Портал открытых данных Мексики [3] включает 9.8 тысяч наборов данных (40.7 тысяч файлов) от 280 органов власти. Также создан на базе движка CKAN. Большая часть данных опубликованы по темам качества жизни, инфраструктуры и образования.

Портал открытых данных Парагвая [4]. Данных пока немного, всего 251 набор данных. Также на базе CKAN.

Аналогично порталы открытых данных есть у всех стран Латинской Америки. Как правило на базе открытого кода, обновляющиеся, чаще всего с данными в форматах CSV.

В испаноязычном мире открытые данные (datos abiertos) - это одна из актуальных тем и таких порталов появляется всё больше.

Ссылки:
[1] https://www.datosabiertos.gob.pe/
[2] https://www.gob.pe/institucion/pcm/normas-legales/395320-006-2020
[3] https://datos.gob.mx/
[4] https://www.datos.gov.py

#opendata #spanish #government #opengov

2.4K viewsIvan Begtin, 13:55

Ivan Begtin

Свежая и полезная книжка Fundamentals of Data Observability от Andy Petrella из стартапа Kensu в виде первых двух глав. Можно скачать через форму на сайте Kensu, а можно и сразу по этой прямой ссылке. По прямой ссылке не надо оставлять свои контакты;)

Книга полезная тем что хотя и автор из стартапа профильного в теме наблюдаемости данных (data observability) в книге не самореклама, а реальное объяснение компонентной структуры и концепций наблюдения за данными и процессами.

#data #books #review

1.9K viewsIvan Begtin, 15:23

Ivan Begtin

Вы беременны и используете приложение для отслеживания своего здоровья? Почти 100% за Вами следят

Если бы я писал статью в популярный журнал, я бы начал именно с такого заголовка

У фонда Mozilla интересный проект Privacy not included по анализу приватности в мобильных приложениях. Я писал о нём коротко в мае 2022 г. [1], но тема шире и интереснее.

Исследователи в Mozilla проверяют приложения на предмет того:
- как компания использует данные
- можете ли Вы управлять Вашими данными
- какова история компании в использовании данных
- дружелюбность информации о приватности
- можно ли продукт использовать оффлайн

А также минимальные проверки безопасности:
- используется ли шифрование
- позволяют ли они использовать слабые пароли

А также несколько критериев применения ИИ:
- используется ли ИИ?
- доверенный ли ИИ?
- прозрачны ли решения компании по использованию ИИ?

и ещё много чего другого, почитайте методологию [2]

А теперь пример, в Mozilla проверили 20 наиболее популярных приложений для отслеживания здоровья в период беременности и признали 18 из 20 как не обеспечивающие приватность. [3]

При этом они не анализировали наличие кода передачи данным третьим сторонам (трекерам). Например, приложение Period Tracker [4] помечено как не обеспечивающее приватность, а если ещё и посмотреть на отчет в Exodus Privacy [5] то можно найти внешние 8 трекеров в этом приложении.

Почему Mozilla эту информацию не учитывают не знаю, по своему важны оценки, и их ручной проверки, и автоматической от Exodus Privacy.

А теперь, внимание вопрос, неужели кто-то полагает что аналогичные приложения в России или в других не-англоязычных странах существуют иначе?

Год назад примерно мы публиковали доклад от приватности мобильных приложений публикуемых госорганами [6]․ Всего 44 приложения тогда было и, как Вы догадываетесь, их приватность была далека от совершенства.

В качестве преданонса, и я об этом уже писал, в этом году мы скоро опубликуем исследование на ту же тему.

Оно обязательно выйдет в Телеграм канале Информационная культура, подписывайтесь и не переключайте каналы!

Ссылки:
[1] https://t.me/begtin/3826
[2] https://foundation.mozilla.org/en/privacynotincluded/about/methodology/
[3] https://foundation.mozilla.org/en/privacynotincluded/categories/reproductive-health/
[4] https://foundation.mozilla.org/en/privacynotincluded/period-tracker/
[5] https://reports.exodus-privacy.eu.org/en/reports/com.period.tracker.lite/latest/
[6] https://privacygosmobapps.infoculture.ru/

#privacy #android #mobile #surveillance

Инфокультура

Новости Информационной культуры. https://infoculture.ru

2.9K viewsIvan Begtin, 09:08

About

Blog

Apps

Platform