Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Тем временем в Японии специалисты NICT разработали и создали технологию передачи данных со скоростью в 1.02 Петабита в секунду [1] по кабелю длиной 51.7 километра.

Авторы исследования и ранее немало добились в экспериментах по передаче данных, даже интересно когда такие скорости доберутся до потребителей.

Ссылки:
[1] https://www.sciencealert.com/researchers-just-set-a-new-record-for-data-transmission-speed

#tech
Для тех кто интересуется тем что такое Modern Data Stack [1] у вики сервиса дата каталога Castor собрана большая подборка технологий / стека данных используемых многими компаниями и стартапами такими как Coca-Cola, Airbnb, Amazon, Canva, Uber и другие. Стартапы чаще рассказывают о своих технологиях чтобы привлечь инженеров к решению интересных задач используя современные технологии, так что стартапов там будет больше.

Другой интересный источник того чтобы понимать какие технологии в компаниях используются - это сервис StackShare [2] где разработчики/команды делятся впечатлениями от использования сервисов и программных продуктов и там же описаны многие технологические стеки стартапов, компаний, проектов и не только в части данных. Например, стек образовательного сервиса Udemy [3]․

И, наконец, сайт Modern Data Stack [4] с каталогом именно современных стеков данных разных компаний. Здесь всё расписано по группам продуктов и сфокусировано только на данных. Стеков описано меньше, зато фокус чётче. К примеру, стек данных LinkedIn [5]

Конечно, воспроизводить один в один чужой стек данных - занятие довольно бессмысленное, у большинства нетиповых компаний нетиповые потребности и свой технический долг под который собирает стек данных. Но регулярно изучать что делают компании на рынке схожего с Вашей бизнес моделью и размером - всегда полезно.

Ссылки:
[1] https://castordoc.notion.site/15b14f305db6416f9e6d4772ffaeef07?v=c9fd105e248c4feca587b0462e066b4d
[2] https://stackshare.io
[3] https://stackshare.io/udemy/udemy
[4] https://www.moderndatastack.xyz
[5] https://www.moderndatastack.xyz/stacks/linkedin

#moderndatastack #datatools
Forwarded from DRC LAW: IT-юристы
​​Лето в цифре: чем Школа киберправа снова готова привлечь бизнес?

Бизнесу в нынешней ситуации приходится тяжело: санкции, постоянно меняющееся законодательство, риск попасть под блокировку сайта и потерять на этом деньги, вопросы защиты товарных знаков и брендов и многое, многое другое. А если ваш бизнес связан с IT, криптой или авторскими правами — то без знания юридических тонкостей современной “цифры” и вовсе не обойтись. Даже в том случае, если у вас есть юридическое образование или профессия.

Приглашаем всех предпринимателей, IT-стартаперов и юристов, так или иначе связанных с цифровым миром, высокими технологиями и новыми финансовыми активами, на новый запуск Школы киберправа — с 20 по 24 июня в Москве. Посетив его, вы сможете избежать многих подводных камней по организации и ведению бизнеса “с цифровым лицом”, а также увеличить свою прибыль, невзирая на непростые времена!

На протяжении пяти дней наши опытные практикующие эксперты и тренеры в онлайн- и оффлайн режиме разберут действующее законодательство и лучшие бизнес-кейсы в рамках семи специализированных модулей:

1.Big Data & AI
2.Digital assets & crypto/blockchain
3.Tax & Ad
4.Intermediaries & ISP
5.Forensic & Digital evidence
6.IP & Copyright & Domains
7. Privacy & Security

Хотите попасть в число счастливых слушателей? Тогда успевайте зарегистрироваться — ведь старт Школы намечен уже на 20 июня, а количество мест ограничено!

Регистрируйтесь по ссылке:
https://clck.ru/arSfJ
Если Вам кажется что всё плохо в России и то что "дно ещё не нащупано", всегда полезно оглядываться на тех кто глубже. В UN OCHA (Управлениտ ООН по правам человека) заметка с критикой экспертами ООН в адрес цифровой диктатуры в Мьянме где не только заблокировали соцсети, но и 31 городе отключали интернет и 23городах сильно его замедляли. В основном в городах с особо сильной критикой военной хунты. А сейчас там рассматривают законопроект о кибербезопасности по которому можно блокировать любой сайт без суда, а за использование VPN дают до 3 лет тюрьмы.

Ссылки:
[1] https://www.ohchr.org/en/press-releases/2022/06/myanmar-un-experts-condemn-militarys-digital-dictatorship

#internet #privacy #freedom
Многие научные журналы в мире требуют от учёных публиковать вместе со статьями так называемый DAS (Data availability statement), заявление о доступности данных. Оно включает, или ссылку на открытые опубликованные данные, или объявление о доступности данных по запросу.

Группа исследователей провела анализ того как такие заявления публиковались в ряде медицинских журналов и написали статью о том что DAS, фактически, не работает Many researchers were not compliant with their published data sharing statement: mixed-methods study[1]

Они запрашивали данные у тех кто размещал DAS с объявление о доступности данных по запросу и тех кто это не делал и в обоих случаях на их запросы получить данные реагировало не более 7% учёных. Фактически можно говорить о том что многие ученые к подходят к заявлениям о готовности предоставить данные очень формально, не будучи к этому фактически готовыми.

У Sergio Uribe [2] из Балтийского биомедицинского центра в большой серии твитов подборка примеров декларируемой доступности и фактической недоступности данных и как один из сценариев решения - чтобы журналы требовали обязательного раскрытия информации и осуществляли за этим контроль, не принимая статьи без FAIR Data.

Ссылки:
[1] https://www.jclinepi.com/article/S0895-4356(22)00141-X/fulltext
[2] https://twitter.com/sergiouribe

#opendata #openaccess
В рубрике интересных наборов данных инициатива Microsoft Data for Society [1] по публикации открытых данных необходимых для решения наиболее значимых проблем общества.

Данных там много, какие-то создаются компанией и раскрываются на Github, например, Solar farms mapping in India [2], другие создаются в партнерских лабораториях, например, HKH glacier mapping [3], но все вместе их можно рассматривать одновременно и как научную инициативу по открытому доступу и как модель корпоративной социальной ответственности.

Там же много ссылок на другие их инициативы в области развития общества через данные и ИИ. Сейчас это крупнейшая подобная корпоративная инициатива в мире, по масштабам она превосходит раскрытие данных многими городами и странами.

Ссылки:
[1] https://www.microsoft.com/en-us/ai/data-for-society
[2] https://github.com/microsoft/solar-farms-mapping
[3] https://lila.science/datasets/hkh-glacier-mapping

#opendata #ai #datasets #microsoft #corporateresponsibility
На Cnews феноменальная по кликбейтовости и отсутствию проработки очередная публикация про то что Ростех ещё в марте писал в Минцифру идеи по расширению ИТ льгот и компенсации ИТ-шникам половины аренды, с общим завершением статьи что мол неизвестно чем всё это закончилось. Ссылку на Cnews я давать не буду.

Так вот, чем это закончилось вполне известно, со 2 марта по 20 апреля 2022 года в реестр аккредитованных ИТ компаний было включено 17 юридических лиц относящихся к ГК Ростех.

АО "РТ-ПРОЕКТНЫЕ ТЕХНОЛОГИИ"
АКЦИОНЕРНОЕ ОБЩЕСТВО "ЦЕНТР СУПЕРКОМПЬЮТЕРНОГО МОДЕЛИРОВАНИЯ"
АО "НИИ "РУБИН"
ООО "МАСТЕРСКАЯ СИСТЕМ"
ООО "РТ-ИНФОРМ"
ООО "СПЕКТР"
АО "СИП РС"
АО "ИНФОРМАКУСТИКА"
АО "ПО "ЭЛЕКТРОПРИБОР"
АО "КОНЦЕРН "АВТОМАТИКА"
ООО "НТ"
АО "ПНИЭИ"
АО "ЦНИИАГ"
ООО "РТ-ЦТ"
АО "КНИРТИ"
АО "РАДИОЗАВОД"
АО "НИИМА "ПРОГРЕСС"
АО "КОМПАНИЯ "СУХОЙ"

Источник - Cписок аккредитованных организаций։ https://digital.gov.ru/ru/activity/govservices/1/

Всё это общедоступные сведения и журналисты CNews, даже при небольшом желании, могли бы и сами это узнать.

И, конечно же, большая часть этих компаний, конечно, же никакого отношения к ИТ отрасли не имеют.

#russia #datasets #registry #it
Не могу не повторить что очень хотелось бы комментировать что-то более позитивное, но приходится комментировать СМИ разное. Например, Forbes [1] про оценку уехавших ИТшников и РБК про инициативу цифровых платформ получить ИТ льготы [2].

Но в целом я хочу повторить два важных тезиса:
1. Токсичный оптимизм - не только раздражает, но и ощущение что "правительство на другой планете живёт, родной" (с) Кин-дза-дза
2. После того как закончится острый период кризиса, я напомню что правоохранители и налоговики 100% начнут рыть под всех кто получил льготы и с хоть малейшей вероятностью им не соответствует.

Ссылки:
[1] https://www.forbes.ru/tekhnologii/468055-cto-mozno-uznat-ob-abonente-po-sim-karte-i-pri-cem-tut-vozvrasenie-ajtisnikov
[2] https://www.rbc.ru/technology_and_media/08/06/2022/629f7a099a7947322474d15d

#it #russia
Сейчас в разных, в основном в помоечных, телеграм каналах пишут о том что часть физ. лиц инагентов были признаными такими из-за работы с Republic и Эхо Москвы.

Я не могу не вспомнить и напомнить что кроме того что я тут пишу про технологии и, всё таки, первично ИТшник, но я довольно много чего писал и пишу публицистического про технологии.

Мои колонки есть в РБК [1], российском Forbes [2], Ведомостях [3], Полит.ру [4] и ещё много где, включая Republic [5]․

Так что если и меня надумают включать в инагенты, то далеко ходить не надо, вот оно.

Ссылки:
[1] https://www.rbc.ru/persons/begtin.shtml
[2] https://www.forbes.ru/person/327221-begtin-ivan
[3] https://www.vedomosti.ru/authors/ivan-begtin
[4] https://polit.ru/author/289686/
[5] https://republic.ru/authors/100519

#russia
Свежее чтение про данные:
- Make a data engineer cry with just 4 words [1] очень смешной тред в твиттере, многое напоминает истории с открытыми данными. А варианты вроде Dataset stored in PowerPoint прекрасны и это тоже из жизни
- The Death of Data Modeling - Pt. 1 [2] о том что процесс моделирования данных требует перезапуска
- Data Mesh: Topologies and domain granularity [3] о гранулярности в проектах Data Mesh. Взгляд скорее сверху, чем от живых примеров, но для общего понимания полезно
- We should phase the "SQL Interview" out [4] о том почему интервью разработчиков с тестированием знания SQL бессмысленны и надо чтобы они понимали природу данных и умели бы работать разными инструментами
- Duo, the Push, and the Bandits [5] о том как устроена мотивационная система в Duolingo и о их технической архитектуре
- HTREC 2022 [6] конкурс по распознаванию греческих и византийских текстов на папирусе. Приз скромный - трэвел грант поездки в Венецию, но сама задача сложная и интересная. Участвовать можно почти из любой страны

Ссылки:
[1] https://twitter.com/AdiPolak/status/1533490998562660352
[2] https://dataproducts.substack.com/p/the-death-of-data-modeling-pt-1
[3] https://towardsdatascience.com/data-mesh-topologies-and-domain-granularity-65290a4ebb90
[4] https://counting.substack.com/p/we-should-phase-the-sql-interview
[5] https://vicki.substack.com/p/duo-the-push-and-the-bandits
[6] https://www.aicrowd.com/challenges/htrec-2022

#reading #news #data #ai
Я выложил в открытый код очередной компонент нашей платформы по публикации данных APICrafter с таким же названием apicrafter это инструмент/утилита/библиотека кода по автоматическому созданию API поверх NoSQL СУБД, сейчас это MongoDB. Внутри используется REST API фреймворк Python Eve, а сам движок предполагает создание только read-only API, для публикации и раскрытия данных.

Его особенности:
- автоматическое обнаружение таблиц и генерация схем данных для MongoDB
- все настройки через файлы YAML
- управление API в проектном режиме, для каждого проекта создаётся отдельный проект.

Основной сценарий использования - это когда Вы не хотите детально моделировать данные которые у Вас есть в наличии, но Вам необходимо кому-то их предоставить или использовать для интеграции систем. Тогда данные закидываются в MongoDB как есть и с помощью этой утилиты создаётся API.

Скажу сразу сейчас это упрощённая утилита, не отрабатывающая сложных сценариев, без уникальных урлов каждого объекта и тд., необходимая именно для того чтобы быстро выставить наружу API к какой-либо базе данных

Всё это отдельные внутренние части каталога данных DataCrafter (datacrafter.ru). Изначально она была сделана по монолитному режиму и в последний год я её разбирал и выкладывал по компонентам:
- metacrafter - идентификация семантических типов данных
- datacrafter - ETL для работы с большими батчами (как правило в открытых данных)
- apicrafter - фреймворк для создания API поверх MongoDB

Следующая версия каталога уже будет иметь какое-то другое название и собираться из этих компонентов почти по новой.


#opendata #data #opensource #datatools #apicrafter #datacrafter
IBM ушёл из России, но сервера и ПО IBM госзаказчики покупать не перестали. Свежий контракт на 800 млн. руб. подведа Федерального Казначейства (ФКУ ЦОКР) с ООО "Интегрейтед Сервисес Групп" [1] на поставку серверов и комплектующих. Сервера, вроде как, декларируются как российские сервера Аквариус, а в списке аппаратного обеспечения сплошняком оборудование и программное обеспечение IBM, вроде IBM AIX Enterprise Edition.

Так может IBM ещё не ушёл из России или ушёл только номинально?

Ссылки:
[1] https://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=1770989550922002235&contractInfoId=73395724

#government #procurement
В рубрике интересных наборов данных база стоимости услуг госпиталей в США [1] размещённая на платформе Dolthub. Особенность в том что Dolthub организуют регулярные конкурсы краудсорсингового сбора данных и эта база данных также собирается волонтерами которым за это ещё и существенно платят, нельзя сказать что копейки, общий бюджет на создание такого набора данных - $15 тысяч и в списке лидеров есть те кто заработал уже более $5 тысяч.

Dolthub позиционируют себя как Git для данных и у них, действительно, хороший продукт с интересными возможностями.

Но вот свой потенциал в части организации таких конкурсов они недооценивают.

По моему скромному мнению рано или поздно их купит один из крупных международных big tech холдингов вроде MS, IBM, Oracle, Google, Amazon или кто-то вроде и поставят такие конкурсы на поток совместно с инициативами Data4Good и другими гуманитарными проектами связанными с работой с данными.

Ссылки:
[1] https://www.dolthub.com/repositories/dolthub/hospital-price-transparency-v3

#opendata #dolthub #dataplatforms #datasets
В рубрике интересных инструментов с открытым кодом для работы с данными:
- sowego [1] утилита и библиотека для Python по линковке больших каталогов данных с Wikidata
- vector [2] ETL от Datadog по созданию труб данных для работы с логами и метриками.
- RecordLinkage [3] библиотека для Python по связыванию похожих структур
- Inception [4] инструмент/платформа для семантического аннотирования текстов
- Dedupe [5] ещё один инструмент для избавления дубликатов в Python
- Streamlit [6] платформа по быстрому развертыванию дата приложений на Python.
- Bdbag [7] инструмент работы со стандартом научных данных BagIT и большими данными
- schema.data.gouv.fr [8] исходный код французского правительственного репозитория схем [9]․ Все схемы в JSON, с документацией, отслеживанием изменений и тд. Очень редкий для гос-ва системный подход
- NoProto [10] ещё один стандарт сериализации данных, с поддержкой схем, сортировкой и другими фичами. К нему же референсные реализации на JS и Rust
- Confluent Schema Registry [11] реестр схем данных для Kafka, на базе JSON Schema
- Records [12] библиотека для Python для удобной работы с SQL, поддерживает только SQL СУБД.
- Miraql [13] удобный визуализатор API и схем Graphql

Ссылки:
[1] https://github.com/Wikidata/soweego
[2] https://github.com/vectordotdev/vector
[3] https://github.com/J535D165/recordlinkage
[4] https://github.com/inception-project/inception
[5] https://github.com/dedupeio/dedupe
[6] https://github.com/streamlit/streamlit
[7] https://github.com/fair-research/bdbag
[8] https://github.com/etalab/schema.data.gouv.fr
[9] https://schema.data.gouv.fr
[10] https://github.com/only-cliches/NoProto
[11] https://github.com/confluentinc/schema-registry
[12] https://github.com/kennethreitz/records
[13] https://github.com/oslabs-beta/miraql

#datatools #data #opensource
В рубрике больших открытых наборов данных стандарт сериализации данных HDT [1], используется для бинарной сериализации данных в формате RDF, используемом при разработке проектов в области семантического веба и онтологий. На сайте стандарта опубликовано множество датасетов [2] самый большой из них - набор данных Wikidata размером в 149GB.

Для работы с этим форматом есть библиотеки для C++ и Java, а также настольное приложение.

Ссылки:
[1] https://www.rdfhdt.org/
[2] https://www.rdfhdt.org/datasets/

#opendata #datasets
Вышла версия 2.0 Meltano [1] ELT движка интегрированного в Modern Data Stack, все изменения как раз про эту интеграцию. В частности там поддерживается:
- dbt для трансформации данных
- Great Expectations для качества данных
- Airflow для управления потоками данных
- Superset для аналитики

И ещё много чего. На поляне ELT у Meltano сейчас возможно наилучший потенциал, растущее сообщество и хорошее развитие продукта. Если думать с каким ELT движком интегрировать свои продукты то Meltano - это хороший вариант.

Ссылки:
[1] https://meltano.com/blog/meet-meltano-2-0/

#opensource #datatools #etl #elt #moderndatastack
Я довольно давно хочу написать рефлексию по поводу продолжающегося закрытия данных в России, о причинах этого и о причинах того почему ранее открытость государства/информации/данных в какой-то форме присутствовали.

Дело в том что открытость - это одна из характеристик жизни экосистемы. Например, пока была хоть какая-то внешняя и внутренняя политическая жизнь в России то и были доступны данных связаны с этой политической жизнью.

Пока была живая экономика - открытость присутствовала потому что доступность информации необходима для инвесторов, владельцев бизнеса и иных лиц принимающих решения. В странах с сильным фондовым рынком финансовая и экономическая открытость данных очень высока и, обычно, если и имеет ограничения то только стоимостные.

Пока была жива какая-то внутрироссийская невоенная повестка была жива тема данных характеризующих качество жизни. Она и сейчас жива, в ней всегда были и есть разнонаправленные тенденции интересов держателей ресурсов и "подневольного населения", но сама тема и проблема никуда не исчезала.

Пока была жива наука там была повестка открытости и из-за мирового движения к Open Access, и из-за необходимости понимать что же за исследования по факту происходят. Сейчас ключевой вопрос открытости науки в России, в том а кому эта открытость будет нужна? Кто будет воспроизводить исследования если международной повестки более нет?

И так далее, какую тему не возьми, всюду открытость, является одной из характеристик жизни. Собственно когда доступная информация начинает превращаться в индикаторы смерти или глубокой болезни какой-то среды, то и политические власти, регуляторы, иные заинтересованные лица делают всё возможное для искажения данных или полного их сокрытия.

#opendata #thoughts
OpenOwnership, международный проект по стандартизации и содействию раскрытия реальных бенефициаров юридических лиц по всему миру, опубликовали руководство-обзор-рекомендации по введению санкций против стран которые не обеспечивают раскрытие информации о бенефициарных владельцах [1].

Документ полезный для специалистов по комплаенс и для понимания развития регулирования в мире в части прозрачности информации о владении компаниями.

Для тех кто не отслеживал мои прошлые публикации про Open Ownership, это одна из интересных международных инициатив по стандартизации публикации открытых данных с фокусом на раскрытие данных о реальных владельцах. Это главное что отличает их от проекта OpenCorporates где собрана информация только о учредителях. Уже сейчас по стандарту Open Ownership опубликованы реестры нескольких стран: Словакий, Украина, Великобритания, Дания и ряд других.

Ссылки:
[1] https://www.openownership.org/en/publications/designing-sanctions-and-their-enforcement-for-beneficial-ownership-disclosure/

#opendata #datastandards
У Ben Stancil очередное замечательное рассуждение Microsoft, Google, and the original purple people [1] о том как устроены экосистемы продуктов по работе с данными и, что мне отметилось, он разбирает экосистему Microsoft и Google и отмечает что большое преимущество Microsoft в хорошей упаковке и совместной работе продуктов несмотря на то что по отдельности их продукты хуже некоторых на рынке, но интеграция между ними реально хороша.

У Google такого нет и слишком часто каждый их продукт это вещь в себе, тяжелая в интеграции даже с другими Google продуктами.

Хороший текст, мне нравятся рассуждения Бена, для основателя стартапа он на редкость вдумчив и пишет без маркетинговых лозунгов, но так что вчитываешься.

Его рассуждения натолкнули и меня про рассуждения про российские облачные продукты.

И тут у меня есть тезис - их не существует. Не существует не в том смысле что их нет на рынке, вроде как есть там что-то у VK и даже Яндекс.Облако, как бы существует, а кто-то ещё вспомнит про Selectel и других, но, есть существенная проблема - ни Яндекс, ни VK существенной ставки на их продукты не делают. А все остальные слегка в незрелом состоянии. По идее они все должны были с начала февраля запускать программу миграции с зарубежных сервисов и вложится в маркетинг, предлагать бесплатные 2-3 месяца тем кто переезжает, предлагать услуги по миграции, потому что, казалось бы, вот такая гигантская рыночная возможность. Ну как её упустить?

Но ни Яндекс, ни VK, не рассматривают облака и сетевую инфраструктуру как инструмент заработка или рыночного доминирования. Как это делают Amazon, Google, Microsoft и ещё ряд международных big tech компаний.

Инфраструктуру обработки данных всё ещё удобнее делать не в России, а в международных облачных провайдерах. Если есть валюта, и возможность, конечно. Тем кто может это делать.

Кстати знает ли кто-либо в России какую-либо крупную инфраструктурную компанию похожую на Яндекс или VK, но с прицелом на облачную инфраструктуру или я прав утверждая что таких нет?


Ссылки:
[1] https://benn.substack.com/p/the-original-purple-people

#datainfrstructure #clouds #data #readings
Toolkit on Digital Transformation for People-Oriented Cities and Communities [1] руководство по цифровой трансформации городов от ITU и UNDP (структуры ООН).

Включает курс с рассказом о используемых инструментах. Также включает гайд в виде книжки [2].

В модуле 3 [3] Data Processing and Management одним из инструментов являются открытые данные в контексте доказательной политики (evidence- based policy making).

В целом ООН во всех сферах делает акцент на открытых данных, создаёт собственные порталы, упоминает в материалах всех своих структур.

Ссылки:
[1] https://toolkit-dt4c.itu.int/
[2] https://www.itu.int/en/publications/Documents/tsb/2022-Toolkit-on-digital-transformation-for-people-oriented-cities-and-communities/index.html
[3] https://toolkit-dt4c.itu.int/module-3/

#opendata #undp #itu