Тем временем в Японии специалисты NICT разработали и создали технологию передачи данных со скоростью в 1.02 Петабита в секунду [1] по кабелю длиной 51.7 километра.
Авторы исследования и ранее немало добились в экспериментах по передаче данных, даже интересно когда такие скорости доберутся до потребителей.
Ссылки:
[1] https://www.sciencealert.com/researchers-just-set-a-new-record-for-data-transmission-speed
#tech
Авторы исследования и ранее немало добились в экспериментах по передаче данных, даже интересно когда такие скорости доберутся до потребителей.
Ссылки:
[1] https://www.sciencealert.com/researchers-just-set-a-new-record-for-data-transmission-speed
#tech
ScienceAlert
Researchers Just Set a New Record For Data Transmission Speed
Even if you're enjoying gloriously fast broadband at home wherever you live in the world, you're still going to be a long, long way behind the new record for data transmission: an incredible 1.02 petabits per second.
Для тех кто интересуется тем что такое Modern Data Stack [1] у вики сервиса дата каталога Castor собрана большая подборка технологий / стека данных используемых многими компаниями и стартапами такими как Coca-Cola, Airbnb, Amazon, Canva, Uber и другие. Стартапы чаще рассказывают о своих технологиях чтобы привлечь инженеров к решению интересных задач используя современные технологии, так что стартапов там будет больше.
Другой интересный источник того чтобы понимать какие технологии в компаниях используются - это сервис StackShare [2] где разработчики/команды делятся впечатлениями от использования сервисов и программных продуктов и там же описаны многие технологические стеки стартапов, компаний, проектов и не только в части данных. Например, стек образовательного сервиса Udemy [3]․
И, наконец, сайт Modern Data Stack [4] с каталогом именно современных стеков данных разных компаний. Здесь всё расписано по группам продуктов и сфокусировано только на данных. Стеков описано меньше, зато фокус чётче. К примеру, стек данных LinkedIn [5]
Конечно, воспроизводить один в один чужой стек данных - занятие довольно бессмысленное, у большинства нетиповых компаний нетиповые потребности и свой технический долг под который собирает стек данных. Но регулярно изучать что делают компании на рынке схожего с Вашей бизнес моделью и размером - всегда полезно.
Ссылки:
[1] https://castordoc.notion.site/15b14f305db6416f9e6d4772ffaeef07?v=c9fd105e248c4feca587b0462e066b4d
[2] https://stackshare.io
[3] https://stackshare.io/udemy/udemy
[4] https://www.moderndatastack.xyz
[5] https://www.moderndatastack.xyz/stacks/linkedin
#moderndatastack #datatools
Другой интересный источник того чтобы понимать какие технологии в компаниях используются - это сервис StackShare [2] где разработчики/команды делятся впечатлениями от использования сервисов и программных продуктов и там же описаны многие технологические стеки стартапов, компаний, проектов и не только в части данных. Например, стек образовательного сервиса Udemy [3]․
И, наконец, сайт Modern Data Stack [4] с каталогом именно современных стеков данных разных компаний. Здесь всё расписано по группам продуктов и сфокусировано только на данных. Стеков описано меньше, зато фокус чётче. К примеру, стек данных LinkedIn [5]
Конечно, воспроизводить один в один чужой стек данных - занятие довольно бессмысленное, у большинства нетиповых компаний нетиповые потребности и свой технический долг под который собирает стек данных. Но регулярно изучать что делают компании на рынке схожего с Вашей бизнес моделью и размером - всегда полезно.
Ссылки:
[1] https://castordoc.notion.site/15b14f305db6416f9e6d4772ffaeef07?v=c9fd105e248c4feca587b0462e066b4d
[2] https://stackshare.io
[3] https://stackshare.io/udemy/udemy
[4] https://www.moderndatastack.xyz
[5] https://www.moderndatastack.xyz/stacks/linkedin
#moderndatastack #datatools
Castor on Notion
Who uses what?
A new tool for teams & individuals that blends everyday work apps into one.
Forwarded from DRC LAW: IT-юристы
Лето в цифре: чем Школа киберправа снова готова привлечь бизнес?
Бизнесу в нынешней ситуации приходится тяжело: санкции, постоянно меняющееся законодательство, риск попасть под блокировку сайта и потерять на этом деньги, вопросы защиты товарных знаков и брендов и многое, многое другое. А если ваш бизнес связан с IT, криптой или авторскими правами — то без знания юридических тонкостей современной “цифры” и вовсе не обойтись. Даже в том случае, если у вас есть юридическое образование или профессия.
Приглашаем всех предпринимателей, IT-стартаперов и юристов, так или иначе связанных с цифровым миром, высокими технологиями и новыми финансовыми активами, на новый запуск Школы киберправа — с 20 по 24 июня в Москве. Посетив его, вы сможете избежать многих подводных камней по организации и ведению бизнеса “с цифровым лицом”, а также увеличить свою прибыль, невзирая на непростые времена!
На протяжении пяти дней наши опытные практикующие эксперты и тренеры в онлайн- и оффлайн режиме разберут действующее законодательство и лучшие бизнес-кейсы в рамках семи специализированных модулей:
1.Big Data & AI
2.Digital assets & crypto/blockchain
3.Tax & Ad
4.Intermediaries & ISP
5.Forensic & Digital evidence
6.IP & Copyright & Domains
7. Privacy & Security
Хотите попасть в число счастливых слушателей? Тогда успевайте зарегистрироваться — ведь старт Школы намечен уже на 20 июня, а количество мест ограничено!
Регистрируйтесь по ссылке: https://clck.ru/arSfJ
Бизнесу в нынешней ситуации приходится тяжело: санкции, постоянно меняющееся законодательство, риск попасть под блокировку сайта и потерять на этом деньги, вопросы защиты товарных знаков и брендов и многое, многое другое. А если ваш бизнес связан с IT, криптой или авторскими правами — то без знания юридических тонкостей современной “цифры” и вовсе не обойтись. Даже в том случае, если у вас есть юридическое образование или профессия.
Приглашаем всех предпринимателей, IT-стартаперов и юристов, так или иначе связанных с цифровым миром, высокими технологиями и новыми финансовыми активами, на новый запуск Школы киберправа — с 20 по 24 июня в Москве. Посетив его, вы сможете избежать многих подводных камней по организации и ведению бизнеса “с цифровым лицом”, а также увеличить свою прибыль, невзирая на непростые времена!
На протяжении пяти дней наши опытные практикующие эксперты и тренеры в онлайн- и оффлайн режиме разберут действующее законодательство и лучшие бизнес-кейсы в рамках семи специализированных модулей:
1.Big Data & AI
2.Digital assets & crypto/blockchain
3.Tax & Ad
4.Intermediaries & ISP
5.Forensic & Digital evidence
6.IP & Copyright & Domains
7. Privacy & Security
Хотите попасть в число счастливых слушателей? Тогда успевайте зарегистрироваться — ведь старт Школы намечен уже на 20 июня, а количество мест ограничено!
Регистрируйтесь по ссылке: https://clck.ru/arSfJ
Если Вам кажется что всё плохо в России и то что "дно ещё не нащупано", всегда полезно оглядываться на тех кто глубже. В UN OCHA (Управлениտ ООН по правам человека) заметка с критикой экспертами ООН в адрес цифровой диктатуры в Мьянме где не только заблокировали соцсети, но и 31 городе отключали интернет и 23городах сильно его замедляли. В основном в городах с особо сильной критикой военной хунты. А сейчас там рассматривают законопроект о кибербезопасности по которому можно блокировать любой сайт без суда, а за использование VPN дают до 3 лет тюрьмы.
Ссылки:
[1] https://www.ohchr.org/en/press-releases/2022/06/myanmar-un-experts-condemn-militarys-digital-dictatorship
#internet #privacy #freedom
Ссылки:
[1] https://www.ohchr.org/en/press-releases/2022/06/myanmar-un-experts-condemn-militarys-digital-dictatorship
#internet #privacy #freedom
OHCHR
Myanmar: UN experts condemn military’s “digital dictatorship”
GENEVA (7 June 2022) – UN human rights experts* today condemned the Myanmar military junta’s attempts to establish a “digital dictatorship” in Myanmar by imposing further restrictions on the access to internet, internet shutdowns, online censorship, surveillance…
Многие научные журналы в мире требуют от учёных публиковать вместе со статьями так называемый DAS (Data availability statement), заявление о доступности данных. Оно включает, или ссылку на открытые опубликованные данные, или объявление о доступности данных по запросу.
Группа исследователей провела анализ того как такие заявления публиковались в ряде медицинских журналов и написали статью о том что DAS, фактически, не работает Many researchers were not compliant with their published data sharing statement: mixed-methods study[1]
Они запрашивали данные у тех кто размещал DAS с объявление о доступности данных по запросу и тех кто это не делал и в обоих случаях на их запросы получить данные реагировало не более 7% учёных. Фактически можно говорить о том что многие ученые к подходят к заявлениям о готовности предоставить данные очень формально, не будучи к этому фактически готовыми.
У Sergio Uribe [2] из Балтийского биомедицинского центра в большой серии твитов подборка примеров декларируемой доступности и фактической недоступности данных и как один из сценариев решения - чтобы журналы требовали обязательного раскрытия информации и осуществляли за этим контроль, не принимая статьи без FAIR Data.
Ссылки:
[1] https://www.jclinepi.com/article/S0895-4356(22)00141-X/fulltext
[2] https://twitter.com/sergiouribe
#opendata #openaccess
Группа исследователей провела анализ того как такие заявления публиковались в ряде медицинских журналов и написали статью о том что DAS, фактически, не работает Many researchers were not compliant with their published data sharing statement: mixed-methods study[1]
Они запрашивали данные у тех кто размещал DAS с объявление о доступности данных по запросу и тех кто это не делал и в обоих случаях на их запросы получить данные реагировало не более 7% учёных. Фактически можно говорить о том что многие ученые к подходят к заявлениям о готовности предоставить данные очень формально, не будучи к этому фактически готовыми.
У Sergio Uribe [2] из Балтийского биомедицинского центра в большой серии твитов подборка примеров декларируемой доступности и фактической недоступности данных и как один из сценариев решения - чтобы журналы требовали обязательного раскрытия информации и осуществляли за этим контроль, не принимая статьи без FAIR Data.
Ссылки:
[1] https://www.jclinepi.com/article/S0895-4356(22)00141-X/fulltext
[2] https://twitter.com/sergiouribe
#opendata #openaccess
Twitter
Sergio Uribe (@sergiouribe) | Twitter
The latest Tweets from Sergio Uribe (@sergiouribe). Researcher @bbcentre_eu & Assoc Prof @RSUinfo @fame_uach | PhD OMFR DDS | #dataScience #EBD #epi #opensci #ml4h | https://t.co/ZBa0PJSfjS…. Cēsis, Latvija
В рубрике интересных наборов данных инициатива Microsoft Data for Society [1] по публикации открытых данных необходимых для решения наиболее значимых проблем общества.
Данных там много, какие-то создаются компанией и раскрываются на Github, например, Solar farms mapping in India [2], другие создаются в партнерских лабораториях, например, HKH glacier mapping [3], но все вместе их можно рассматривать одновременно и как научную инициативу по открытому доступу и как модель корпоративной социальной ответственности.
Там же много ссылок на другие их инициативы в области развития общества через данные и ИИ. Сейчас это крупнейшая подобная корпоративная инициатива в мире, по масштабам она превосходит раскрытие данных многими городами и странами.
Ссылки:
[1] https://www.microsoft.com/en-us/ai/data-for-society
[2] https://github.com/microsoft/solar-farms-mapping
[3] https://lila.science/datasets/hkh-glacier-mapping
#opendata #ai #datasets #microsoft #corporateresponsibility
Данных там много, какие-то создаются компанией и раскрываются на Github, например, Solar farms mapping in India [2], другие создаются в партнерских лабораториях, например, HKH glacier mapping [3], но все вместе их можно рассматривать одновременно и как научную инициативу по открытому доступу и как модель корпоративной социальной ответственности.
Там же много ссылок на другие их инициативы в области развития общества через данные и ИИ. Сейчас это крупнейшая подобная корпоративная инициатива в мире, по масштабам она превосходит раскрытие данных многими городами и странами.
Ссылки:
[1] https://www.microsoft.com/en-us/ai/data-for-society
[2] https://github.com/microsoft/solar-farms-mapping
[3] https://lila.science/datasets/hkh-glacier-mapping
#opendata #ai #datasets #microsoft #corporateresponsibility
Open Data Collaboration and Sharing |Microsoft CSR
Open Data Collaboration and Sharing | Microsoft CSR
Realize the benefit of organizations sharing and collaborating around data to tackle the world's greatest challenges, with tools to guide policy and governance.
На Cnews феноменальная по кликбейтовости и отсутствию проработки очередная публикация про то что Ростех ещё в марте писал в Минцифру идеи по расширению ИТ льгот и компенсации ИТ-шникам половины аренды, с общим завершением статьи что мол неизвестно чем всё это закончилось. Ссылку на Cnews я давать не буду.
Так вот, чем это закончилось вполне известно, со 2 марта по 20 апреля 2022 года в реестр аккредитованных ИТ компаний было включено 17 юридических лиц относящихся к ГК Ростех.
АО "РТ-ПРОЕКТНЫЕ ТЕХНОЛОГИИ"
АКЦИОНЕРНОЕ ОБЩЕСТВО "ЦЕНТР СУПЕРКОМПЬЮТЕРНОГО МОДЕЛИРОВАНИЯ"
АО "НИИ "РУБИН"
ООО "МАСТЕРСКАЯ СИСТЕМ"
ООО "РТ-ИНФОРМ"
ООО "СПЕКТР"
АО "СИП РС"
АО "ИНФОРМАКУСТИКА"
АО "ПО "ЭЛЕКТРОПРИБОР"
АО "КОНЦЕРН "АВТОМАТИКА"
ООО "НТ"
АО "ПНИЭИ"
АО "ЦНИИАГ"
ООО "РТ-ЦТ"
АО "КНИРТИ"
АО "РАДИОЗАВОД"
АО "НИИМА "ПРОГРЕСС"
АО "КОМПАНИЯ "СУХОЙ"
Источник - Cписок аккредитованных организаций։ https://digital.gov.ru/ru/activity/govservices/1/
Всё это общедоступные сведения и журналисты CNews, даже при небольшом желании, могли бы и сами это узнать.
И, конечно же, большая часть этих компаний, конечно, же никакого отношения к ИТ отрасли не имеют.
#russia #datasets #registry #it
Так вот, чем это закончилось вполне известно, со 2 марта по 20 апреля 2022 года в реестр аккредитованных ИТ компаний было включено 17 юридических лиц относящихся к ГК Ростех.
АО "РТ-ПРОЕКТНЫЕ ТЕХНОЛОГИИ"
АКЦИОНЕРНОЕ ОБЩЕСТВО "ЦЕНТР СУПЕРКОМПЬЮТЕРНОГО МОДЕЛИРОВАНИЯ"
АО "НИИ "РУБИН"
ООО "МАСТЕРСКАЯ СИСТЕМ"
ООО "РТ-ИНФОРМ"
ООО "СПЕКТР"
АО "СИП РС"
АО "ИНФОРМАКУСТИКА"
АО "ПО "ЭЛЕКТРОПРИБОР"
АО "КОНЦЕРН "АВТОМАТИКА"
ООО "НТ"
АО "ПНИЭИ"
АО "ЦНИИАГ"
ООО "РТ-ЦТ"
АО "КНИРТИ"
АО "РАДИОЗАВОД"
АО "НИИМА "ПРОГРЕСС"
АО "КОМПАНИЯ "СУХОЙ"
Источник - Cписок аккредитованных организаций։ https://digital.gov.ru/ru/activity/govservices/1/
Всё это общедоступные сведения и журналисты CNews, даже при небольшом желании, могли бы и сами это узнать.
И, конечно же, большая часть этих компаний, конечно, же никакого отношения к ИТ отрасли не имеют.
#russia #datasets #registry #it
Министерство цифрового развития, связи и массовых коммуникаций Российской Федерации
Аккредитация ИТ-компаний
Не могу не повторить что очень хотелось бы комментировать что-то более позитивное, но приходится комментировать СМИ разное. Например, Forbes [1] про оценку уехавших ИТшников и РБК про инициативу цифровых платформ получить ИТ льготы [2].
Но в целом я хочу повторить два важных тезиса:
1. Токсичный оптимизм - не только раздражает, но и ощущение что "правительство на другой планете живёт, родной" (с) Кин-дза-дза
2. После того как закончится острый период кризиса, я напомню что правоохранители и налоговики 100% начнут рыть под всех кто получил льготы и с хоть малейшей вероятностью им не соответствует.
Ссылки:
[1] https://www.forbes.ru/tekhnologii/468055-cto-mozno-uznat-ob-abonente-po-sim-karte-i-pri-cem-tut-vozvrasenie-ajtisnikov
[2] https://www.rbc.ru/technology_and_media/08/06/2022/629f7a099a7947322474d15d
#it #russia
Но в целом я хочу повторить два важных тезиса:
1. Токсичный оптимизм - не только раздражает, но и ощущение что "правительство на другой планете живёт, родной" (с) Кин-дза-дза
2. После того как закончится острый период кризиса, я напомню что правоохранители и налоговики 100% начнут рыть под всех кто получил льготы и с хоть малейшей вероятностью им не соответствует.
Ссылки:
[1] https://www.forbes.ru/tekhnologii/468055-cto-mozno-uznat-ob-abonente-po-sim-karte-i-pri-cem-tut-vozvrasenie-ajtisnikov
[2] https://www.rbc.ru/technology_and_media/08/06/2022/629f7a099a7947322474d15d
#it #russia
Сейчас в разных, в основном в помоечных, телеграм каналах пишут о том что часть физ. лиц инагентов были признаными такими из-за работы с Republic и Эхо Москвы.
Я не могу не вспомнить и напомнить что кроме того что я тут пишу про технологии и, всё таки, первично ИТшник, но я довольно много чего писал и пишу публицистического про технологии.
Мои колонки есть в РБК [1], российском Forbes [2], Ведомостях [3], Полит.ру [4] и ещё много где, включая Republic [5]․
Так что если и меня надумают включать в инагенты, то далеко ходить не надо, вот оно.
Ссылки:
[1] https://www.rbc.ru/persons/begtin.shtml
[2] https://www.forbes.ru/person/327221-begtin-ivan
[3] https://www.vedomosti.ru/authors/ivan-begtin
[4] https://polit.ru/author/289686/
[5] https://republic.ru/authors/100519
#russia
Я не могу не вспомнить и напомнить что кроме того что я тут пишу про технологии и, всё таки, первично ИТшник, но я довольно много чего писал и пишу публицистического про технологии.
Мои колонки есть в РБК [1], российском Forbes [2], Ведомостях [3], Полит.ру [4] и ещё много где, включая Republic [5]․
Так что если и меня надумают включать в инагенты, то далеко ходить не надо, вот оно.
Ссылки:
[1] https://www.rbc.ru/persons/begtin.shtml
[2] https://www.forbes.ru/person/327221-begtin-ivan
[3] https://www.vedomosti.ru/authors/ivan-begtin
[4] https://polit.ru/author/289686/
[5] https://republic.ru/authors/100519
#russia
РБК
РБК – новости в реальном времени
Главные новости политики, экономики и бизнеса, комментарии аналитиков, финансовые данные с российских и мировых биржевых систем на сайте rbc.ru.
Свежее чтение про данные:
- Make a data engineer cry with just 4 words [1] очень смешной тред в твиттере, многое напоминает истории с открытыми данными. А варианты вроде Dataset stored in PowerPoint прекрасны и это тоже из жизни
- The Death of Data Modeling - Pt. 1 [2] о том что процесс моделирования данных требует перезапуска
- Data Mesh: Topologies and domain granularity [3] о гранулярности в проектах Data Mesh. Взгляд скорее сверху, чем от живых примеров, но для общего понимания полезно
- We should phase the "SQL Interview" out [4] о том почему интервью разработчиков с тестированием знания SQL бессмысленны и надо чтобы они понимали природу данных и умели бы работать разными инструментами
- Duo, the Push, and the Bandits [5] о том как устроена мотивационная система в Duolingo и о их технической архитектуре
- HTREC 2022 [6] конкурс по распознаванию греческих и византийских текстов на папирусе. Приз скромный - трэвел грант поездки в Венецию, но сама задача сложная и интересная. Участвовать можно почти из любой страны
Ссылки:
[1] https://twitter.com/AdiPolak/status/1533490998562660352
[2] https://dataproducts.substack.com/p/the-death-of-data-modeling-pt-1
[3] https://towardsdatascience.com/data-mesh-topologies-and-domain-granularity-65290a4ebb90
[4] https://counting.substack.com/p/we-should-phase-the-sql-interview
[5] https://vicki.substack.com/p/duo-the-push-and-the-bandits
[6] https://www.aicrowd.com/challenges/htrec-2022
#reading #news #data #ai
- Make a data engineer cry with just 4 words [1] очень смешной тред в твиттере, многое напоминает истории с открытыми данными. А варианты вроде Dataset stored in PowerPoint прекрасны и это тоже из жизни
- The Death of Data Modeling - Pt. 1 [2] о том что процесс моделирования данных требует перезапуска
- Data Mesh: Topologies and domain granularity [3] о гранулярности в проектах Data Mesh. Взгляд скорее сверху, чем от живых примеров, но для общего понимания полезно
- We should phase the "SQL Interview" out [4] о том почему интервью разработчиков с тестированием знания SQL бессмысленны и надо чтобы они понимали природу данных и умели бы работать разными инструментами
- Duo, the Push, and the Bandits [5] о том как устроена мотивационная система в Duolingo и о их технической архитектуре
- HTREC 2022 [6] конкурс по распознаванию греческих и византийских текстов на папирусе. Приз скромный - трэвел грант поездки в Венецию, но сама задача сложная и интересная. Участвовать можно почти из любой страны
Ссылки:
[1] https://twitter.com/AdiPolak/status/1533490998562660352
[2] https://dataproducts.substack.com/p/the-death-of-data-modeling-pt-1
[3] https://towardsdatascience.com/data-mesh-topologies-and-domain-granularity-65290a4ebb90
[4] https://counting.substack.com/p/we-should-phase-the-sql-interview
[5] https://vicki.substack.com/p/duo-the-push-and-the-bandits
[6] https://www.aicrowd.com/challenges/htrec-2022
#reading #news #data #ai
Twitter
Adi Polak
Make a data engineer cry with just 4 words
Я выложил в открытый код очередной компонент нашей платформы по публикации данных APICrafter с таким же названием apicrafter это инструмент/утилита/библиотека кода по автоматическому созданию API поверх NoSQL СУБД, сейчас это MongoDB. Внутри используется REST API фреймворк Python Eve, а сам движок предполагает создание только read-only API, для публикации и раскрытия данных.
Его особенности:
- автоматическое обнаружение таблиц и генерация схем данных для MongoDB
- все настройки через файлы YAML
- управление API в проектном режиме, для каждого проекта создаётся отдельный проект.
Основной сценарий использования - это когда Вы не хотите детально моделировать данные которые у Вас есть в наличии, но Вам необходимо кому-то их предоставить или использовать для интеграции систем. Тогда данные закидываются в MongoDB как есть и с помощью этой утилиты создаётся API.
Скажу сразу сейчас это упрощённая утилита, не отрабатывающая сложных сценариев, без уникальных урлов каждого объекта и тд., необходимая именно для того чтобы быстро выставить наружу API к какой-либо базе данных
Всё это отдельные внутренние части каталога данных DataCrafter (datacrafter.ru). Изначально она была сделана по монолитному режиму и в последний год я её разбирал и выкладывал по компонентам:
- metacrafter - идентификация семантических типов данных
- datacrafter - ETL для работы с большими батчами (как правило в открытых данных)
- apicrafter - фреймворк для создания API поверх MongoDB
Следующая версия каталога уже будет иметь какое-то другое название и собираться из этих компонентов почти по новой.
#opendata #data #opensource #datatools #apicrafter #datacrafter
Его особенности:
- автоматическое обнаружение таблиц и генерация схем данных для MongoDB
- все настройки через файлы YAML
- управление API в проектном режиме, для каждого проекта создаётся отдельный проект.
Основной сценарий использования - это когда Вы не хотите детально моделировать данные которые у Вас есть в наличии, но Вам необходимо кому-то их предоставить или использовать для интеграции систем. Тогда данные закидываются в MongoDB как есть и с помощью этой утилиты создаётся API.
Скажу сразу сейчас это упрощённая утилита, не отрабатывающая сложных сценариев, без уникальных урлов каждого объекта и тд., необходимая именно для того чтобы быстро выставить наружу API к какой-либо базе данных
Всё это отдельные внутренние части каталога данных DataCrafter (datacrafter.ru). Изначально она была сделана по монолитному режиму и в последний год я её разбирал и выкладывал по компонентам:
- metacrafter - идентификация семантических типов данных
- datacrafter - ETL для работы с большими батчами (как правило в открытых данных)
- apicrafter - фреймворк для создания API поверх MongoDB
Следующая версия каталога уже будет иметь какое-то другое название и собираться из этих компонентов почти по новой.
#opendata #data #opensource #datatools #apicrafter #datacrafter
GitHub
GitHub - apicrafter/apicrafter: REST API wrapper for MongoDB databases
REST API wrapper for MongoDB databases. Contribute to apicrafter/apicrafter development by creating an account on GitHub.
IBM ушёл из России, но сервера и ПО IBM госзаказчики покупать не перестали. Свежий контракт на 800 млн. руб. подведа Федерального Казначейства (ФКУ ЦОКР) с ООО "Интегрейтед Сервисес Групп" [1] на поставку серверов и комплектующих. Сервера, вроде как, декларируются как российские сервера Аквариус, а в списке аппаратного обеспечения сплошняком оборудование и программное обеспечение IBM, вроде IBM AIX Enterprise Edition.
Так может IBM ещё не ушёл из России или ушёл только номинально?
Ссылки:
[1] https://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=1770989550922002235&contractInfoId=73395724
#government #procurement
Так может IBM ещё не ушёл из России или ушёл только номинально?
Ссылки:
[1] https://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=1770989550922002235&contractInfoId=73395724
#government #procurement
В рубрике интересных наборов данных база стоимости услуг госпиталей в США [1] размещённая на платформе Dolthub. Особенность в том что Dolthub организуют регулярные конкурсы краудсорсингового сбора данных и эта база данных также собирается волонтерами которым за это ещё и существенно платят, нельзя сказать что копейки, общий бюджет на создание такого набора данных - $15 тысяч и в списке лидеров есть те кто заработал уже более $5 тысяч.
Dolthub позиционируют себя как Git для данных и у них, действительно, хороший продукт с интересными возможностями.
Но вот свой потенциал в части организации таких конкурсов они недооценивают.
По моему скромному мнению рано или поздно их купит один из крупных международных big tech холдингов вроде MS, IBM, Oracle, Google, Amazon или кто-то вроде и поставят такие конкурсы на поток совместно с инициативами Data4Good и другими гуманитарными проектами связанными с работой с данными.
Ссылки:
[1] https://www.dolthub.com/repositories/dolthub/hospital-price-transparency-v3
#opendata #dolthub #dataplatforms #datasets
Dolthub позиционируют себя как Git для данных и у них, действительно, хороший продукт с интересными возможностями.
Но вот свой потенциал в части организации таких конкурсов они недооценивают.
По моему скромному мнению рано или поздно их купит один из крупных международных big tech холдингов вроде MS, IBM, Oracle, Google, Amazon или кто-то вроде и поставят такие конкурсы на поток совместно с инициативами Data4Good и другими гуманитарными проектами связанными с работой с данными.
Ссылки:
[1] https://www.dolthub.com/repositories/dolthub/hospital-price-transparency-v3
#opendata #dolthub #dataplatforms #datasets
В рубрике интересных инструментов с открытым кодом для работы с данными:
- sowego [1] утилита и библиотека для Python по линковке больших каталогов данных с Wikidata
- vector [2] ETL от Datadog по созданию труб данных для работы с логами и метриками.
- RecordLinkage [3] библиотека для Python по связыванию похожих структур
- Inception [4] инструмент/платформа для семантического аннотирования текстов
- Dedupe [5] ещё один инструмент для избавления дубликатов в Python
- Streamlit [6] платформа по быстрому развертыванию дата приложений на Python.
- Bdbag [7] инструмент работы со стандартом научных данных BagIT и большими данными
- schema.data.gouv.fr [8] исходный код французского правительственного репозитория схем [9]․ Все схемы в JSON, с документацией, отслеживанием изменений и тд. Очень редкий для гос-ва системный подход
- NoProto [10] ещё один стандарт сериализации данных, с поддержкой схем, сортировкой и другими фичами. К нему же референсные реализации на JS и Rust
- Confluent Schema Registry [11] реестр схем данных для Kafka, на базе JSON Schema
- Records [12] библиотека для Python для удобной работы с SQL, поддерживает только SQL СУБД.
- Miraql [13] удобный визуализатор API и схем Graphql
Ссылки:
[1] https://github.com/Wikidata/soweego
[2] https://github.com/vectordotdev/vector
[3] https://github.com/J535D165/recordlinkage
[4] https://github.com/inception-project/inception
[5] https://github.com/dedupeio/dedupe
[6] https://github.com/streamlit/streamlit
[7] https://github.com/fair-research/bdbag
[8] https://github.com/etalab/schema.data.gouv.fr
[9] https://schema.data.gouv.fr
[10] https://github.com/only-cliches/NoProto
[11] https://github.com/confluentinc/schema-registry
[12] https://github.com/kennethreitz/records
[13] https://github.com/oslabs-beta/miraql
#datatools #data #opensource
- sowego [1] утилита и библиотека для Python по линковке больших каталогов данных с Wikidata
- vector [2] ETL от Datadog по созданию труб данных для работы с логами и метриками.
- RecordLinkage [3] библиотека для Python по связыванию похожих структур
- Inception [4] инструмент/платформа для семантического аннотирования текстов
- Dedupe [5] ещё один инструмент для избавления дубликатов в Python
- Streamlit [6] платформа по быстрому развертыванию дата приложений на Python.
- Bdbag [7] инструмент работы со стандартом научных данных BagIT и большими данными
- schema.data.gouv.fr [8] исходный код французского правительственного репозитория схем [9]․ Все схемы в JSON, с документацией, отслеживанием изменений и тд. Очень редкий для гос-ва системный подход
- NoProto [10] ещё один стандарт сериализации данных, с поддержкой схем, сортировкой и другими фичами. К нему же референсные реализации на JS и Rust
- Confluent Schema Registry [11] реестр схем данных для Kafka, на базе JSON Schema
- Records [12] библиотека для Python для удобной работы с SQL, поддерживает только SQL СУБД.
- Miraql [13] удобный визуализатор API и схем Graphql
Ссылки:
[1] https://github.com/Wikidata/soweego
[2] https://github.com/vectordotdev/vector
[3] https://github.com/J535D165/recordlinkage
[4] https://github.com/inception-project/inception
[5] https://github.com/dedupeio/dedupe
[6] https://github.com/streamlit/streamlit
[7] https://github.com/fair-research/bdbag
[8] https://github.com/etalab/schema.data.gouv.fr
[9] https://schema.data.gouv.fr
[10] https://github.com/only-cliches/NoProto
[11] https://github.com/confluentinc/schema-registry
[12] https://github.com/kennethreitz/records
[13] https://github.com/oslabs-beta/miraql
#datatools #data #opensource
GitHub
GitHub - Wikidata/soweego: Link Wikidata items to large catalogs
Link Wikidata items to large catalogs. Contribute to Wikidata/soweego development by creating an account on GitHub.
В рубрике больших открытых наборов данных стандарт сериализации данных HDT [1], используется для бинарной сериализации данных в формате RDF, используемом при разработке проектов в области семантического веба и онтологий. На сайте стандарта опубликовано множество датасетов [2] самый большой из них - набор данных Wikidata размером в 149GB.
Для работы с этим форматом есть библиотеки для C++ и Java, а также настольное приложение.
Ссылки:
[1] https://www.rdfhdt.org/
[2] https://www.rdfhdt.org/datasets/
#opendata #datasets
Для работы с этим форматом есть библиотеки для C++ и Java, а также настольное приложение.
Ссылки:
[1] https://www.rdfhdt.org/
[2] https://www.rdfhdt.org/datasets/
#opendata #datasets
Вышла версия 2.0 Meltano [1] ELT движка интегрированного в Modern Data Stack, все изменения как раз про эту интеграцию. В частности там поддерживается:
- dbt для трансформации данных
- Great Expectations для качества данных
- Airflow для управления потоками данных
- Superset для аналитики
И ещё много чего. На поляне ELT у Meltano сейчас возможно наилучший потенциал, растущее сообщество и хорошее развитие продукта. Если думать с каким ELT движком интегрировать свои продукты то Meltano - это хороший вариант.
Ссылки:
[1] https://meltano.com/blog/meet-meltano-2-0/
#opensource #datatools #etl #elt #moderndatastack
- dbt для трансформации данных
- Great Expectations для качества данных
- Airflow для управления потоками данных
- Superset для аналитики
И ещё много чего. На поляне ELT у Meltano сейчас возможно наилучший потенциал, растущее сообщество и хорошее развитие продукта. Если думать с каким ELT движком интегрировать свои продукты то Meltano - это хороший вариант.
Ссылки:
[1] https://meltano.com/blog/meet-meltano-2-0/
#opensource #datatools #etl #elt #moderndatastack
Meltano
Meet Meltano 2.0: Your End-to-end, Open Source DataOps Platform Infrastructure | Meltano
Meltano 2.0 represents a major step toward our vision of becoming the foundation of every team’s ideal data stack.
Я довольно давно хочу написать рефлексию по поводу продолжающегося закрытия данных в России, о причинах этого и о причинах того почему ранее открытость государства/информации/данных в какой-то форме присутствовали.
Дело в том что открытость - это одна из характеристик жизни экосистемы. Например, пока была хоть какая-то внешняя и внутренняя политическая жизнь в России то и были доступны данных связаны с этой политической жизнью.
Пока была живая экономика - открытость присутствовала потому что доступность информации необходима для инвесторов, владельцев бизнеса и иных лиц принимающих решения. В странах с сильным фондовым рынком финансовая и экономическая открытость данных очень высока и, обычно, если и имеет ограничения то только стоимостные.
Пока была жива какая-то внутрироссийская невоенная повестка была жива тема данных характеризующих качество жизни. Она и сейчас жива, в ней всегда были и есть разнонаправленные тенденции интересов держателей ресурсов и "подневольного населения", но сама тема и проблема никуда не исчезала.
Пока была жива наука там была повестка открытости и из-за мирового движения к Open Access, и из-за необходимости понимать что же за исследования по факту происходят. Сейчас ключевой вопрос открытости науки в России, в том а кому эта открытость будет нужна? Кто будет воспроизводить исследования если международной повестки более нет?
И так далее, какую тему не возьми, всюду открытость, является одной из характеристик жизни. Собственно когда доступная информация начинает превращаться в индикаторы смерти или глубокой болезни какой-то среды, то и политические власти, регуляторы, иные заинтересованные лица делают всё возможное для искажения данных или полного их сокрытия.
#opendata #thoughts
Дело в том что открытость - это одна из характеристик жизни экосистемы. Например, пока была хоть какая-то внешняя и внутренняя политическая жизнь в России то и были доступны данных связаны с этой политической жизнью.
Пока была живая экономика - открытость присутствовала потому что доступность информации необходима для инвесторов, владельцев бизнеса и иных лиц принимающих решения. В странах с сильным фондовым рынком финансовая и экономическая открытость данных очень высока и, обычно, если и имеет ограничения то только стоимостные.
Пока была жива какая-то внутрироссийская невоенная повестка была жива тема данных характеризующих качество жизни. Она и сейчас жива, в ней всегда были и есть разнонаправленные тенденции интересов держателей ресурсов и "подневольного населения", но сама тема и проблема никуда не исчезала.
Пока была жива наука там была повестка открытости и из-за мирового движения к Open Access, и из-за необходимости понимать что же за исследования по факту происходят. Сейчас ключевой вопрос открытости науки в России, в том а кому эта открытость будет нужна? Кто будет воспроизводить исследования если международной повестки более нет?
И так далее, какую тему не возьми, всюду открытость, является одной из характеристик жизни. Собственно когда доступная информация начинает превращаться в индикаторы смерти или глубокой болезни какой-то среды, то и политические власти, регуляторы, иные заинтересованные лица делают всё возможное для искажения данных или полного их сокрытия.
#opendata #thoughts
OpenOwnership, международный проект по стандартизации и содействию раскрытия реальных бенефициаров юридических лиц по всему миру, опубликовали руководство-обзор-рекомендации по введению санкций против стран которые не обеспечивают раскрытие информации о бенефициарных владельцах [1].
Документ полезный для специалистов по комплаенс и для понимания развития регулирования в мире в части прозрачности информации о владении компаниями.
Для тех кто не отслеживал мои прошлые публикации про Open Ownership, это одна из интересных международных инициатив по стандартизации публикации открытых данных с фокусом на раскрытие данных о реальных владельцах. Это главное что отличает их от проекта OpenCorporates где собрана информация только о учредителях. Уже сейчас по стандарту Open Ownership опубликованы реестры нескольких стран: Словакий, Украина, Великобритания, Дания и ряд других.
Ссылки:
[1] https://www.openownership.org/en/publications/designing-sanctions-and-their-enforcement-for-beneficial-ownership-disclosure/
#opendata #datastandards
Документ полезный для специалистов по комплаенс и для понимания развития регулирования в мире в части прозрачности информации о владении компаниями.
Для тех кто не отслеживал мои прошлые публикации про Open Ownership, это одна из интересных международных инициатив по стандартизации публикации открытых данных с фокусом на раскрытие данных о реальных владельцах. Это главное что отличает их от проекта OpenCorporates где собрана информация только о учредителях. Уже сейчас по стандарту Open Ownership опубликованы реестры нескольких стран: Словакий, Украина, Великобритания, Дания и ряд других.
Ссылки:
[1] https://www.openownership.org/en/publications/designing-sanctions-and-their-enforcement-for-beneficial-ownership-disclosure/
#opendata #datastandards
openownership.org
Designing sanctions and their enforcement for beneficial ownership disclosure
Having adequate sanctions in place, and enforcing them effectively, can drive up compliance with disclosure requirements and increase the accuracy and usability of beneficial ownership data
У Ben Stancil очередное замечательное рассуждение Microsoft, Google, and the original purple people [1] о том как устроены экосистемы продуктов по работе с данными и, что мне отметилось, он разбирает экосистему Microsoft и Google и отмечает что большое преимущество Microsoft в хорошей упаковке и совместной работе продуктов несмотря на то что по отдельности их продукты хуже некоторых на рынке, но интеграция между ними реально хороша.
У Google такого нет и слишком часто каждый их продукт это вещь в себе, тяжелая в интеграции даже с другими Google продуктами.
Хороший текст, мне нравятся рассуждения Бена, для основателя стартапа он на редкость вдумчив и пишет без маркетинговых лозунгов, но так что вчитываешься.
Его рассуждения натолкнули и меня про рассуждения про российские облачные продукты.
И тут у меня есть тезис - их не существует. Не существует не в том смысле что их нет на рынке, вроде как есть там что-то у VK и даже Яндекс.Облако, как бы существует, а кто-то ещё вспомнит про Selectel и других, но, есть существенная проблема - ни Яндекс, ни VK существенной ставки на их продукты не делают. А все остальные слегка в незрелом состоянии. По идее они все должны были с начала февраля запускать программу миграции с зарубежных сервисов и вложится в маркетинг, предлагать бесплатные 2-3 месяца тем кто переезжает, предлагать услуги по миграции, потому что, казалось бы, вот такая гигантская рыночная возможность. Ну как её упустить?
Но ни Яндекс, ни VK, не рассматривают облака и сетевую инфраструктуру как инструмент заработка или рыночного доминирования. Как это делают Amazon, Google, Microsoft и ещё ряд международных big tech компаний.
Инфраструктуру обработки данных всё ещё удобнее делать не в России, а в международных облачных провайдерах. Если есть валюта, и возможность, конечно. Тем кто может это делать.
Кстати знает ли кто-либо в России какую-либо крупную инфраструктурную компанию похожую на Яндекс или VK, но с прицелом на облачную инфраструктуру или я прав утверждая что таких нет?
Ссылки:
[1] https://benn.substack.com/p/the-original-purple-people
#datainfrstructure #clouds #data #readings
У Google такого нет и слишком часто каждый их продукт это вещь в себе, тяжелая в интеграции даже с другими Google продуктами.
Хороший текст, мне нравятся рассуждения Бена, для основателя стартапа он на редкость вдумчив и пишет без маркетинговых лозунгов, но так что вчитываешься.
Его рассуждения натолкнули и меня про рассуждения про российские облачные продукты.
И тут у меня есть тезис - их не существует. Не существует не в том смысле что их нет на рынке, вроде как есть там что-то у VK и даже Яндекс.Облако, как бы существует, а кто-то ещё вспомнит про Selectel и других, но, есть существенная проблема - ни Яндекс, ни VK существенной ставки на их продукты не делают. А все остальные слегка в незрелом состоянии. По идее они все должны были с начала февраля запускать программу миграции с зарубежных сервисов и вложится в маркетинг, предлагать бесплатные 2-3 месяца тем кто переезжает, предлагать услуги по миграции, потому что, казалось бы, вот такая гигантская рыночная возможность. Ну как её упустить?
Но ни Яндекс, ни VK, не рассматривают облака и сетевую инфраструктуру как инструмент заработка или рыночного доминирования. Как это делают Amazon, Google, Microsoft и ещё ряд международных big tech компаний.
Инфраструктуру обработки данных всё ещё удобнее делать не в России, а в международных облачных провайдерах. Если есть валюта, и возможность, конечно. Тем кто может это делать.
Кстати знает ли кто-либо в России какую-либо крупную инфраструктурную компанию похожую на Яндекс или VK, но с прицелом на облачную инфраструктуру или я прав утверждая что таких нет?
Ссылки:
[1] https://benn.substack.com/p/the-original-purple-people
#datainfrstructure #clouds #data #readings
benn.substack
Microsoft, Google, and the original purple people
And, of course, Pokémon.
Toolkit on Digital Transformation for People-Oriented Cities and Communities [1] руководство по цифровой трансформации городов от ITU и UNDP (структуры ООН).
Включает курс с рассказом о используемых инструментах. Также включает гайд в виде книжки [2].
В модуле 3 [3] Data Processing and Management одним из инструментов являются открытые данные в контексте доказательной политики (evidence- based policy making).
В целом ООН во всех сферах делает акцент на открытых данных, создаёт собственные порталы, упоминает в материалах всех своих структур.
Ссылки:
[1] https://toolkit-dt4c.itu.int/
[2] https://www.itu.int/en/publications/Documents/tsb/2022-Toolkit-on-digital-transformation-for-people-oriented-cities-and-communities/index.html
[3] https://toolkit-dt4c.itu.int/module-3/
#opendata #undp #itu
Включает курс с рассказом о используемых инструментах. Также включает гайд в виде книжки [2].
В модуле 3 [3] Data Processing and Management одним из инструментов являются открытые данные в контексте доказательной политики (evidence- based policy making).
В целом ООН во всех сферах делает акцент на открытых данных, создаёт собственные порталы, упоминает в материалах всех своих структур.
Ссылки:
[1] https://toolkit-dt4c.itu.int/
[2] https://www.itu.int/en/publications/Documents/tsb/2022-Toolkit-on-digital-transformation-for-people-oriented-cities-and-communities/index.html
[3] https://toolkit-dt4c.itu.int/module-3/
#opendata #undp #itu