Системы управления базами данных о которых, либо уже не помнят, либо ещё не знают, те что совсем не на слуху:
- BaseX [1] СУБД для XML документов с поддержкой языка запросов XQuery 3.1. Используется в ряде унаследованных систем которые строились вокруг XML
- eXist-db [2] также XML база данных с поддержкой XQuery как языка запросов. Возможно более популярная чем BaseX, но, в целом, также в основном в унаследованных системах.
- Metakit [3] популярная когда-то в корпоративных приложениях внедряемая база данных. Имела свой упрощённый язык запросов, очень была похожа на прообраз документальных баз данных, хотя и тогда там были только плоские таблицы. Перестало развиваться примерно 15 лет назад.
- Datomic [4] достаточно давняя проприетарная, более 10 лет, СУБД с поддержкой запросов с помощью языка Datalog. Теперь существует только в виде облачного и дорого on-prem продукта. Тут ещё можно вспомнить что автор продукта Rich Hickey, создатель языка Clojure
- TerminusDb [5] относительно новая графовая СУБД с поддержкой RDF и использующая внутри WOQL (web object query language) язык запросов основанный на Datalog. Лично я так и не понял есть у этой СУБД какие-либо реальные ключевые фичи из-за которых хотелось бы хотя бы протестировать, но ничего такого не нашёл. Хотя клиенты у них есть, в академической среде кое-где её используют.р
- ArcadeDB [6] сравнительно новая NoSQL база данных созданная автором OrientDB после его увольнения из SAP. Изначально Native Graph Database, но также реализуют MongoDB совместимый интерфейс и, в целом, 5 языков запросов: MongoDB, Cyther, GraphQL, Gremlin, SQL. Хороший кандидат на замену MongoDB если пройдет тесты на производительность
Ссылки:
[1] https://basex.org
[2] http://www.exist-db.org
[3] https://www.equi4.com/metakit/
[4] https://www.datomic.com/
[5] https://terminusdb.com/products/terminusdb/
[6] https://arcadedb.com/
#datatools #dbms #data
- BaseX [1] СУБД для XML документов с поддержкой языка запросов XQuery 3.1. Используется в ряде унаследованных систем которые строились вокруг XML
- eXist-db [2] также XML база данных с поддержкой XQuery как языка запросов. Возможно более популярная чем BaseX, но, в целом, также в основном в унаследованных системах.
- Metakit [3] популярная когда-то в корпоративных приложениях внедряемая база данных. Имела свой упрощённый язык запросов, очень была похожа на прообраз документальных баз данных, хотя и тогда там были только плоские таблицы. Перестало развиваться примерно 15 лет назад.
- Datomic [4] достаточно давняя проприетарная, более 10 лет, СУБД с поддержкой запросов с помощью языка Datalog. Теперь существует только в виде облачного и дорого on-prem продукта. Тут ещё можно вспомнить что автор продукта Rich Hickey, создатель языка Clojure
- TerminusDb [5] относительно новая графовая СУБД с поддержкой RDF и использующая внутри WOQL (web object query language) язык запросов основанный на Datalog. Лично я так и не понял есть у этой СУБД какие-либо реальные ключевые фичи из-за которых хотелось бы хотя бы протестировать, но ничего такого не нашёл. Хотя клиенты у них есть, в академической среде кое-где её используют.р
- ArcadeDB [6] сравнительно новая NoSQL база данных созданная автором OrientDB после его увольнения из SAP. Изначально Native Graph Database, но также реализуют MongoDB совместимый интерфейс и, в целом, 5 языков запросов: MongoDB, Cyther, GraphQL, Gremlin, SQL. Хороший кандидат на замену MongoDB если пройдет тесты на производительность
Ссылки:
[1] https://basex.org
[2] http://www.exist-db.org
[3] https://www.equi4.com/metakit/
[4] https://www.datomic.com/
[5] https://terminusdb.com/products/terminusdb/
[6] https://arcadedb.com/
#datatools #dbms #data
basex.org
The XML Framework: Lightweight and High-Performance Data Processing
BaseX: The XML Framework. Lightweight and High-Performance Data Processing
Полезное чтение про данные и технологии:
- перестаньте использовать CSV [1] статья с напоминанием что для data science следует использовать Parquet.
- об организации полнотекстового поиска на базе Clickhouse [2]
внутри Tinybird. Много технических подробностей
- очень подробно про новую версию Prefect 2.0 [3] для тех кто ищет себе ETL/ELT продукт
- ожесточенная конкуренция в США за госконтракты на облачные сервисы для государства [4], драка нешуточная между текущим контрактором Amazon и Microsoft которые пытаются вместе с Google и Oracle продать идею мультиоблачности. Сейчас ЦРУ и Пентагон используют только облака Amazon
- 7 советов для успешности проектов по машинному обучению [5] в промышленном применении. Самый первый совет самый важный не недооценивайте время на документирование!
- обзор NoSQL баз данных для начинающих [6], уже погруженным в природу NoSQL будет неинтересно, а когда надо объяснять с нуля студентам или начинающим, то полезно
- стартап Neon, облачный Postgres, получил $30M инвестиций [7]. Как я понимаю, большая часть команды из России, разработчики Postgres'а уехавшие и создавшие стартап на Кипре. На самом деле они делают альтернативу облачному AWS Aurora Postgres.
Ссылки:
[1] https://towardsdatascience.com/a-parquet-file-is-all-you-need-962df86886bb
[2] https://www.tinybird.co/blog-posts/text-search-at-scale-with-clickhouse
[3] https://www.prefect.io/guide/blog/the-global-coordination-plane/
[4] https://www.wsj.com/articles/microsoft-asks-google-oracle-to-help-crimp-amazons-u-s-government-cloud-leadership-11658926801
[5] https://medium.com/jellysmacklabs/7-tips-for-a-successful-machine-learning-project-in-production-4c5e7f10903c
[6] https://blog.leanxcale.com/distributed-database-concepts/nosql-jungle/
[7] https://neon.tech/blog/funding-a1/
#data #datatools #startups #readings
- перестаньте использовать CSV [1] статья с напоминанием что для data science следует использовать Parquet.
- об организации полнотекстового поиска на базе Clickhouse [2]
внутри Tinybird. Много технических подробностей
- очень подробно про новую версию Prefect 2.0 [3] для тех кто ищет себе ETL/ELT продукт
- ожесточенная конкуренция в США за госконтракты на облачные сервисы для государства [4], драка нешуточная между текущим контрактором Amazon и Microsoft которые пытаются вместе с Google и Oracle продать идею мультиоблачности. Сейчас ЦРУ и Пентагон используют только облака Amazon
- 7 советов для успешности проектов по машинному обучению [5] в промышленном применении. Самый первый совет самый важный не недооценивайте время на документирование!
- обзор NoSQL баз данных для начинающих [6], уже погруженным в природу NoSQL будет неинтересно, а когда надо объяснять с нуля студентам или начинающим, то полезно
- стартап Neon, облачный Postgres, получил $30M инвестиций [7]. Как я понимаю, большая часть команды из России, разработчики Postgres'а уехавшие и создавшие стартап на Кипре. На самом деле они делают альтернативу облачному AWS Aurora Postgres.
Ссылки:
[1] https://towardsdatascience.com/a-parquet-file-is-all-you-need-962df86886bb
[2] https://www.tinybird.co/blog-posts/text-search-at-scale-with-clickhouse
[3] https://www.prefect.io/guide/blog/the-global-coordination-plane/
[4] https://www.wsj.com/articles/microsoft-asks-google-oracle-to-help-crimp-amazons-u-s-government-cloud-leadership-11658926801
[5] https://medium.com/jellysmacklabs/7-tips-for-a-successful-machine-learning-project-in-production-4c5e7f10903c
[6] https://blog.leanxcale.com/distributed-database-concepts/nosql-jungle/
[7] https://neon.tech/blog/funding-a1/
#data #datatools #startups #readings
Medium
A Parquet File Is All You Need
Stop using CSV and move to Parquet
Критический разбор понятия Lakehouse [1] когда-то представленный в научной статье сотрудниками Databricks [2]․ Lakehouse декларируется как замена озер данных и хранилищ данных со специализацией на машинном обучении и data science. Одна из ключевых особенностей в хранении данных в форматах ORC и Parquet․ Но, в целом, автор критикует статью с акцентом на отсутствие вызовов которые решались бы предлагаемым подходом что всё это больше похоже на маркетинг, а не на новый подход.
Lakehouse было придумано в Databricks и Databricks, как и многие продукты в Modern Data Stack, всё более агрессивно продвигают свои архитектуру и маркетинговые термины.
На близкую тему у Benn Stancil очередная отличная заметка про "пороховую бочку в modern data stack" [3] о том что как бы создатели продуктов не играли в кооперацию и не пытались следовать совету Питера Тиля "не соревнуйтесь" [4], тем не менее многие компании уже действуют так словно они сражаются с конкурентами [5].
У того же было Benn Stancil хорошее определение Modern Data Stack [6] с точки зрения конечного выгодоприобретателя. Во многом оно сводится к решению о том как ... всем делать свою работу вместо того чтобы ожидать от них работу аналитиками.
Ссылки:
[1] https://0x0fff.com/lakehouse/
[2] https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf
[3] https://benn.substack.com/p/powder-keg
[4] https://www.wsj.com/articles/peter-thiel-competition-is-for-losers-1410535536
[5] https://news.yahoo.com/snowflake-ceo-why-you-must-declare-war-on-your-competitors-183109540.html
[6] https://benn.substack.com/p/the-modern-data-experience
#moderndatastack #data
Lakehouse было придумано в Databricks и Databricks, как и многие продукты в Modern Data Stack, всё более агрессивно продвигают свои архитектуру и маркетинговые термины.
На близкую тему у Benn Stancil очередная отличная заметка про "пороховую бочку в modern data stack" [3] о том что как бы создатели продуктов не играли в кооперацию и не пытались следовать совету Питера Тиля "не соревнуйтесь" [4], тем не менее многие компании уже действуют так словно они сражаются с конкурентами [5].
У того же было Benn Stancil хорошее определение Modern Data Stack [6] с точки зрения конечного выгодоприобретателя. Во многом оно сводится к решению о том как ... всем делать свою работу вместо того чтобы ожидать от них работу аналитиками.
Ссылки:
[1] https://0x0fff.com/lakehouse/
[2] https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf
[3] https://benn.substack.com/p/powder-keg
[4] https://www.wsj.com/articles/peter-thiel-competition-is-for-losers-1410535536
[5] https://news.yahoo.com/snowflake-ceo-why-you-must-declare-war-on-your-competitors-183109540.html
[6] https://benn.substack.com/p/the-modern-data-experience
#moderndatastack #data
Distributed Systems Architecture
Lakehouse
I have just read the “Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics” paper and decided to write a short blog post going through some of the key moments of the paper’s motivation. Let’s start. A decade ago…
В России когда ищешь где почитать про технологии сразу вспоминаешь про Хабр, в каком-то смысле, естественный монополист в технических публикациях, но у Хабра есть постепенный сдвиг в общетехнологические, а не технические темы.
Честно скажу в последние годы я читаю Хабр скорее реже чем чаще чем зарубежные блоги.
А вот из зарубежных платформ выбор есть, хотя и не так уж велик:
* Medium [1] - очень много технологических блогов и публикаций, про данные особенно в Towards data science [2]. Но, спектр тем там куда шире чем технологии, пишут обо всём. Из достоинств: хорошая персонализация и то что не все публикации маркетинговый буллшит.
* Dev.to [3] скорее платформа для начинающих разработчиков для публикации простых гайдов и рецептов. Это как обратная сторона Stackoverflow, но не вопросы, а ответы. Для начинающих полезно, а найти там глубокий текст сложно.
* Hashnode [4] что-то среднее между dev.to и medium по глубине текстов, много лонгридом, но большая часть публикаций про программирование фронтэнда. Совсем мало публикаций про данные.
В итоге самый интересный контент происходит из научных и крупных ненаучных конференций и личных блогов. А вот в части текстов про бизнес на данных и рынок данных большая часть самых интересных авторов на Substack [5]․ При том что Substack - это не про сообщество, а про вещание миру через рассылку и блог (первична рассылка). Там можно почитать Benn Stancil [6] которого я тут регулярно цитирую, там блог/рассылка dbt [7] и ещё много других блогов в категории Technology, всячески их рекомендую.
Я и сам веду там рассылку на русском языке [8], а на английском веду блог на Medium [9].
А где Вы находите интересное чтение? Какие ещё есть хорошие платформы, блоги для регулярного профессионального чтения?
Ссылки:
[1] https://medium.com
[2] https://towardsdatascience.com
[3] https://dev.to
[4] https://hashnode.com/
[5] https://substack.com/
[6] https://benn.substack.com/
[7] https://roundup.getdbt.com/
[8] http://begtin.substack.com/
[9] https://medium.com/@ibegtin
#readings #data #blogging
Честно скажу в последние годы я читаю Хабр скорее реже чем чаще чем зарубежные блоги.
А вот из зарубежных платформ выбор есть, хотя и не так уж велик:
* Medium [1] - очень много технологических блогов и публикаций, про данные особенно в Towards data science [2]. Но, спектр тем там куда шире чем технологии, пишут обо всём. Из достоинств: хорошая персонализация и то что не все публикации маркетинговый буллшит.
* Dev.to [3] скорее платформа для начинающих разработчиков для публикации простых гайдов и рецептов. Это как обратная сторона Stackoverflow, но не вопросы, а ответы. Для начинающих полезно, а найти там глубокий текст сложно.
* Hashnode [4] что-то среднее между dev.to и medium по глубине текстов, много лонгридом, но большая часть публикаций про программирование фронтэнда. Совсем мало публикаций про данные.
В итоге самый интересный контент происходит из научных и крупных ненаучных конференций и личных блогов. А вот в части текстов про бизнес на данных и рынок данных большая часть самых интересных авторов на Substack [5]․ При том что Substack - это не про сообщество, а про вещание миру через рассылку и блог (первична рассылка). Там можно почитать Benn Stancil [6] которого я тут регулярно цитирую, там блог/рассылка dbt [7] и ещё много других блогов в категории Technology, всячески их рекомендую.
Я и сам веду там рассылку на русском языке [8], а на английском веду блог на Medium [9].
А где Вы находите интересное чтение? Какие ещё есть хорошие платформы, блоги для регулярного профессионального чтения?
Ссылки:
[1] https://medium.com
[2] https://towardsdatascience.com
[3] https://dev.to
[4] https://hashnode.com/
[5] https://substack.com/
[6] https://benn.substack.com/
[7] https://roundup.getdbt.com/
[8] http://begtin.substack.com/
[9] https://medium.com/@ibegtin
#readings #data #blogging
Medium
Medium: Read and write stories.
On Medium, anyone can share insightful perspectives, useful knowledge, and life wisdom with the world.
Forwarded from Минцифры России
📑 Актуализирован реестр аккредитованных ИТ-компаний
В результате из реестра исключено более 400 компаний. Это те организации, для которых деятельность в сфере информационных технологий не является основной.
Среди исключенных из реестра компаний:
▫️ более 150 бюджетных учреждений
▫️ 32 банка
▫️ 12 страховых компаний
▫️ и ряд других компаний, не относящихся к ИТ
Минцифры регулярно анализирует информацию о компаниях из реестра на ее соответствие необходимым требованиям. Например, в сентябре прошлого года из реестра было исключено около 1,6 тыс. организаций.
В этот раз Минцифры использовало сведения о деятельности компаний из открытых источников (включая официальный сайт организации), как дополнительную информацию для принятия решения о включении в реестр.
Раньше компаниям было необходимо только иметь профильный ОКВЭД.
Можно ли аккредитоваться сейчас?
В соответствии с законом о поправках в Налоговый кодекс с 1 августа 2022 года приостановлена подача заявлений до принятия нового порядка аккредитации. Сейчас Минцифры совместно с профильными ассоциациями и регионами ведет работу над совершенствованием критериев и процедуры аккредитации ИТ-компаний.
@mintsifry
В результате из реестра исключено более 400 компаний. Это те организации, для которых деятельность в сфере информационных технологий не является основной.
Среди исключенных из реестра компаний:
▫️ более 150 бюджетных учреждений
▫️ 32 банка
▫️ 12 страховых компаний
▫️ и ряд других компаний, не относящихся к ИТ
Минцифры регулярно анализирует информацию о компаниях из реестра на ее соответствие необходимым требованиям. Например, в сентябре прошлого года из реестра было исключено около 1,6 тыс. организаций.
В этот раз Минцифры использовало сведения о деятельности компаний из открытых источников (включая официальный сайт организации), как дополнительную информацию для принятия решения о включении в реестр.
Раньше компаниям было необходимо только иметь профильный ОКВЭД.
Можно ли аккредитоваться сейчас?
В соответствии с законом о поправках в Налоговый кодекс с 1 августа 2022 года приостановлена подача заявлений до принятия нового порядка аккредитации. Сейчас Минцифры совместно с профильными ассоциациями и регионами ведет работу над совершенствованием критериев и процедуры аккредитации ИТ-компаний.
@mintsifry
По поводу вот этой "очистки реестра аккредитованных ИТ компаний" [1] не могу не добавить что список очищенных очень похож на тот что я передавал сотрудникам Минцифры РФ где-то месяц назад. И хорошо что хоть по нему они прошлись и проверили компании на соответствие их деятельности ИТ рынку, но это не значит что проверены все компании и проверка проведена полная.
Удивительно что в реестре аккредитованных нет до сих пор сайтов этих компаний и независимая проверка соответствия их деятельности ИТ рынку весьма затруднена, вернее трудоёмка.
Если бы я был человеком обидчивым и злопамятным, я бы расстроился что мои материалы сотрудники Минцифры теперь нигде не упоминают, но и ладно. В следующий раз просто никакие материалы не передам;)
А вот что важно - это то что реестр не ведётся как учётная система. Реестр должен быть не в виде Excel файла со списком, а в нём должна отражаться вся история изменений по компании, как это делается в нормальных реестрах.
В целом удивительно что Минцифра за эти годы так и не выпустила типового продукта ведения реестров, это кажется такой очевидной задачей, воспроизводимой во многих органах власти десятки раз.
Ссылки:
[1] https://t.me/mintsifry/1343
#data #itmarket #digital
Удивительно что в реестре аккредитованных нет до сих пор сайтов этих компаний и независимая проверка соответствия их деятельности ИТ рынку весьма затруднена, вернее трудоёмка.
Если бы я был человеком обидчивым и злопамятным, я бы расстроился что мои материалы сотрудники Минцифры теперь нигде не упоминают, но и ладно. В следующий раз просто никакие материалы не передам;)
А вот что важно - это то что реестр не ведётся как учётная система. Реестр должен быть не в виде Excel файла со списком, а в нём должна отражаться вся история изменений по компании, как это делается в нормальных реестрах.
В целом удивительно что Минцифра за эти годы так и не выпустила типового продукта ведения реестров, это кажется такой очевидной задачей, воспроизводимой во многих органах власти десятки раз.
Ссылки:
[1] https://t.me/mintsifry/1343
#data #itmarket #digital
Европейский проект Copernicus анонсировал Jupyter Notebook Competition большое соревнование по созданию цифровых тетрадей Jupyter Notebook на их данных [1].
Для тех кто не знает, Copernicus - это, возможно, крупнейший проект по сбору и раскрытию данных спутникового мониторинга Земли.
В конкурсе 4 трека:
- исследуйте данные Copernicus
- визуализируйте изменения окружающей среды
- применяйте искусственный интеллект
- расскажите об опасениях и вызовах на планете Земля
Заявки принимают до 4 сентября, участвовать можно с 18 лет. В правилах пишут что участвовать могут кто угодно из Евросоюза и за его пределами, непонятно, распространяется ли это на россиян. Я так подозреваю что нет, но, возможно, стоит спросить организаторов.
Ссылки:
[1] https://notebook.wekeo.eu/
#opendata #challenges
Для тех кто не знает, Copernicus - это, возможно, крупнейший проект по сбору и раскрытию данных спутникового мониторинга Земли.
В конкурсе 4 трека:
- исследуйте данные Copernicus
- визуализируйте изменения окружающей среды
- применяйте искусственный интеллект
- расскажите об опасениях и вызовах на планете Земля
Заявки принимают до 4 сентября, участвовать можно с 18 лет. В правилах пишут что участвовать могут кто угодно из Евросоюза и за его пределами, непонятно, распространяется ли это на россиян. Я так подозреваю что нет, но, возможно, стоит спросить организаторов.
Ссылки:
[1] https://notebook.wekeo.eu/
#opendata #challenges
it_anomalies_20220801.zip
53.6 KB
Минцифры, конечно, почистили реестр аккредитованных компаний, да вот незадача, не до конца, не полностью и все. В архиве списки компаний для которых, за некоторым исключением, основная область - это не ИТ.
Эти списки включают ИНН,Название компании и статус после фильтрации, на сегодня. Многие уже не действуют, но те кто захотят посмотреть, найдут и действующие:
- avia.csv - компании имеющие лицензии в авиастроении и иных работах в авиаотрасли. Некоторые ИТ, не все
- finorgs.csv - финансовые организации, имеющие банковские и брокерские лицензии. Почти все не ИТ, большая часть аннулированы
- insurance.csv - страховые компании, почти все не ИТ. Действующая осталаль только АО "БУДУ" (бывшее - Ренессанс Страхование). Очень интересно, как это её оставили.
- universities.csv - Высшие учебные заведения. Аннулировали почти все. Почему не аннулировали аккредитацию Университета Иннополиса?
- ngos.csv - некоммерческие организации. Некоторые из них ИТ, но большая часть это ГОНГО, псевдоведомственные учреждения в регионах. Нехорошо, мало аннулировали
- radiotv.csv - телерадиокомпании имеющие лицензии на телевещание. Аннулировали не всех, у тех что не аннулировали по факту не ИТ деятельность.
- telecom.csv - телекоммуникационные компании. По моему в Минцифре РФ путают телеком и ИТ рынок, а это разные рынки. Хотя телеком компании к ИТ рынку наиболее близки, но выручка у них не с продажи софта
- hasgov.csv - организации с учредителями госкорпорациями, госучреждениями и госорганами. Много аннулированных, но как то избирательно. А почему про Федеральный ресурсный центр (ФБУ ФРЦ) забыли ? Он то точно не ИТ или почему ФКУ ФСИН по инженерному-обеспечению и вооружению в Тюменской области не с аннулированной аккредитацией?
Я могу ещё много задать вопросов, но в качества итога два тезиса:
1. Много самых вопиющих случаев исправлено.
2. Много не самых вопиющих случаев не исправлено
3. А ещё много каких компаний вообще никакой деятельности не ведут и их даже нет в этих списках. О них как-нибудь позже.
#itmarket #digital #registries
Эти списки включают ИНН,Название компании и статус после фильтрации, на сегодня. Многие уже не действуют, но те кто захотят посмотреть, найдут и действующие:
- avia.csv - компании имеющие лицензии в авиастроении и иных работах в авиаотрасли. Некоторые ИТ, не все
- finorgs.csv - финансовые организации, имеющие банковские и брокерские лицензии. Почти все не ИТ, большая часть аннулированы
- insurance.csv - страховые компании, почти все не ИТ. Действующая осталаль только АО "БУДУ" (бывшее - Ренессанс Страхование). Очень интересно, как это её оставили.
- universities.csv - Высшие учебные заведения. Аннулировали почти все. Почему не аннулировали аккредитацию Университета Иннополиса?
- ngos.csv - некоммерческие организации. Некоторые из них ИТ, но большая часть это ГОНГО, псевдоведомственные учреждения в регионах. Нехорошо, мало аннулировали
- radiotv.csv - телерадиокомпании имеющие лицензии на телевещание. Аннулировали не всех, у тех что не аннулировали по факту не ИТ деятельность.
- telecom.csv - телекоммуникационные компании. По моему в Минцифре РФ путают телеком и ИТ рынок, а это разные рынки. Хотя телеком компании к ИТ рынку наиболее близки, но выручка у них не с продажи софта
- hasgov.csv - организации с учредителями госкорпорациями, госучреждениями и госорганами. Много аннулированных, но как то избирательно. А почему про Федеральный ресурсный центр (ФБУ ФРЦ) забыли ? Он то точно не ИТ или почему ФКУ ФСИН по инженерному-обеспечению и вооружению в Тюменской области не с аннулированной аккредитацией?
Я могу ещё много задать вопросов, но в качества итога два тезиса:
1. Много самых вопиющих случаев исправлено.
2. Много не самых вопиющих случаев не исправлено
3. А ещё много каких компаний вообще никакой деятельности не ведут и их даже нет в этих списках. О них как-нибудь позже.
#itmarket #digital #registries
"Когда алгоритм твой босс" [1] - это свежий подкаст от Mozilla с большим числом фактов, графиков в виде лонгрида [2] о экономике, влиянии, подотчетности ИИ и деятельности BigTech компаний.
Вот факты из этого лонгрида:
- $15.7 триллионов ожидаемый вклад ИИ в экономику мира к 2030 году
- $52.88 миллиарда - это частные инвестиции в ИИ в США, лидере инвестиций в этой области
- 0 из 100 баллов уровень прозрачности алгоритмов Apple, и 55 и 100 у Microsoft по оценке Ranking Digital Rights, 2022
- 71% просмотренных видео на YouTube о просмотре которых пользователи жалеют они смотрят через рекомендации сервиса
- 3-х кратной может быть разница за одинаковую услугу в дэйтинговых сервисах в США через персонифицированное ценообразование
- около 40% работников онлайн платформ, курьеров, водителей и т.д. (gig workers), получают ежемесячный доход ниже минимальной оплаты труда
- около 1 миллиарда камер видеонаблюдения установлено в мире
- в 3.8 раза выросло число учёных аффилированных с компаниями BigTech, с 12.77% в 2008 г. до 47.17% в 2018 г.
- лишь 3% исследований машинного обучения связаны с правами человека и этическими принципами
И там же рекомендации по регулированию ИИ и этическим принципам.
Практически весь материал - это факты со ссылками на другие исследования и публикации, он хорош именно как систематизированная постановка проблемы.
И, хотя многие материалы, звучат как призывы к цифровому социализму, например, про минимальную оплату работникам, это всё про то как мир меняется и BigTech компании довольно быстро становятся корпорациями зла в восприятии общества.
Всё это о том что компании BigTech уже сейчас находятся на развилке саморегулирования с существенными самоограничениями или гораздо более жесткого государственного регулирования.
Ссылки:
[1] https://2022.internethealthreport.org/episodes/when-an-algorithm-is-your-boss/
[2] https://2022.internethealthreport.org/facts/
#privacy #ai #regulation
Вот факты из этого лонгрида:
- $15.7 триллионов ожидаемый вклад ИИ в экономику мира к 2030 году
- $52.88 миллиарда - это частные инвестиции в ИИ в США, лидере инвестиций в этой области
- 0 из 100 баллов уровень прозрачности алгоритмов Apple, и 55 и 100 у Microsoft по оценке Ranking Digital Rights, 2022
- 71% просмотренных видео на YouTube о просмотре которых пользователи жалеют они смотрят через рекомендации сервиса
- 3-х кратной может быть разница за одинаковую услугу в дэйтинговых сервисах в США через персонифицированное ценообразование
- около 40% работников онлайн платформ, курьеров, водителей и т.д. (gig workers), получают ежемесячный доход ниже минимальной оплаты труда
- около 1 миллиарда камер видеонаблюдения установлено в мире
- в 3.8 раза выросло число учёных аффилированных с компаниями BigTech, с 12.77% в 2008 г. до 47.17% в 2018 г.
- лишь 3% исследований машинного обучения связаны с правами человека и этическими принципами
И там же рекомендации по регулированию ИИ и этическим принципам.
Практически весь материал - это факты со ссылками на другие исследования и публикации, он хорош именно как систематизированная постановка проблемы.
И, хотя многие материалы, звучат как призывы к цифровому социализму, например, про минимальную оплату работникам, это всё про то как мир меняется и BigTech компании довольно быстро становятся корпорациями зла в восприятии общества.
Всё это о том что компании BigTech уже сейчас находятся на развилке саморегулирования с существенными самоограничениями или гораздо более жесткого государственного регулирования.
Ссылки:
[1] https://2022.internethealthreport.org/episodes/when-an-algorithm-is-your-boss/
[2] https://2022.internethealthreport.org/facts/
#privacy #ai #regulation
The Internet Health Report 2022
When an Algorithm is Your Boss — The Internet Health Report 2022
Gig workers worldwide report directly to artificial intelligence in precarious jobs created by secretive corporations. What can be done?
Ещё находки про аккредитованные ИТ компании, как можно было догадаться самые интересные находки я не публиковал.
1. Мини-отель (хостел) Старый город (ООО Старый город) в Перми. ИНН 5902993839, аккредитованы как ИТ решением АО-20220310-3784246043-3 от 2022-03-11
Сайта нет, только отзывы в сервисах
- https://yandex.ru/maps/org/stary_gorod/174934420361/?ll=56.251450%2C58.016896&z=15
- https://www.tripadvisor.ru/Hotel_Review-g298516-d8655713-Reviews-Stary_Gorod-Perm_Perm_Krai_Volga_District.html
По ЕГРЮЛ основной ОКВЭД у них ИТшный, но никакого подтверждения этой деятельности нет.
2. Общество с ограниченной ответственностью Микрокредитная компания «Рубикон».
Это микрофинансовая организация с сайтом https://denginadom.ru, аккредитована в мае этого года АО-20220506-4449719929-3.
Страница на сайте ЦБ РФ https://cbr.ru/finorg/foinfo/?ogrn=1152468038568
Достаточно очевидно что занимается она не ИТ деятельности, а просто выдает микрозаймы. Даже к цифровым/технологическим компаниям отнести её сложно, ну а к ИТ рынку не имеет отношения.
3. Общество с ограниченной ответственностью Микрокредитная компания «БАСС»
Была аккредитована в марте 2022 г., решение АО-20220311-3795855648-3 сайт организации http://vzaim1.ru/ , страница в реестре ЦБ РФ https://cbr.ru/finorg/foinfo/?ogrn=1176820001621
В создании ИТ продуктов и иной ИТ деятельности не замечена.
—
Я могу продолжать такое публиковать бесконечно, потому что реестр аккредитованных ИТ компаний превратился в помойку.
И необходимо проверить каждую компанию в этом реестре, а не заниматься ситуативной чисткой.
Пока ещё аккредитация без ИТ льгот (подтверждения ФНС) давала лишь отсрочку от армии, но если она будет давать хоть какие-то преференции, то следователи могут, с легкостью, трактовать её как мошенничество по предварительному сговору.
И не могу не добавить что нахожу очень странным что аккредитацию у Ростелекома аннулировали, а у сотен других телеком компаний нет. В чёмправда критерии, брат (с) ?
Я продолжу время от времени публиковать апдейты и данные по этому реестру под хэштегом #itmarket
1. Мини-отель (хостел) Старый город (ООО Старый город) в Перми. ИНН 5902993839, аккредитованы как ИТ решением АО-20220310-3784246043-3 от 2022-03-11
Сайта нет, только отзывы в сервисах
- https://yandex.ru/maps/org/stary_gorod/174934420361/?ll=56.251450%2C58.016896&z=15
- https://www.tripadvisor.ru/Hotel_Review-g298516-d8655713-Reviews-Stary_Gorod-Perm_Perm_Krai_Volga_District.html
По ЕГРЮЛ основной ОКВЭД у них ИТшный, но никакого подтверждения этой деятельности нет.
2. Общество с ограниченной ответственностью Микрокредитная компания «Рубикон».
Это микрофинансовая организация с сайтом https://denginadom.ru, аккредитована в мае этого года АО-20220506-4449719929-3.
Страница на сайте ЦБ РФ https://cbr.ru/finorg/foinfo/?ogrn=1152468038568
Достаточно очевидно что занимается она не ИТ деятельности, а просто выдает микрозаймы. Даже к цифровым/технологическим компаниям отнести её сложно, ну а к ИТ рынку не имеет отношения.
3. Общество с ограниченной ответственностью Микрокредитная компания «БАСС»
Была аккредитована в марте 2022 г., решение АО-20220311-3795855648-3 сайт организации http://vzaim1.ru/ , страница в реестре ЦБ РФ https://cbr.ru/finorg/foinfo/?ogrn=1176820001621
В создании ИТ продуктов и иной ИТ деятельности не замечена.
—
Я могу продолжать такое публиковать бесконечно, потому что реестр аккредитованных ИТ компаний превратился в помойку.
И необходимо проверить каждую компанию в этом реестре, а не заниматься ситуативной чисткой.
Пока ещё аккредитация без ИТ льгот (подтверждения ФНС) давала лишь отсрочку от армии, но если она будет давать хоть какие-то преференции, то следователи могут, с легкостью, трактовать её как мошенничество по предварительному сговору.
И не могу не добавить что нахожу очень странным что аккредитацию у Ростелекома аннулировали, а у сотен других телеком компаний нет. В чём
Я продолжу время от времени публиковать апдейты и данные по этому реестру под хэштегом #itmarket
Яндекс Карты
Старый город, кафе, Петропавловская ул., 15, Пермь — Яндекс Карты
Рейтинг 3,7. 11 отзывов, 20 фото. Посмотреть номер телефона, часы работы, вход на карте и построить маршрут — вы можете в Яндекс Картах
В качестве регулярных напоминаний, если Вы изучаете открытые данные и хотите больше погрузиться в эту тему:
1. Работа с открытыми данными: особенности публикации и использования в российском правовом поле [1] аналитический доклад 2020 года про возможности и проблемы работы с открытыми данными.
2. Карты данных [2] по многим отраслям составленные нами 3.5 года назад в виде инфографики. Изначально это было куча майндмапов в виде вопросов и ответов. Для наглядности пришлось их переработать. То что получилось делалось, в первую очередь для печати и раздачи на хакатонах.
3. Хаб открытых данных [3] наш негосударственный портал открытых данных. Создавался как независимый от гос-ва портал для публикации данных. Мы его поддерживаем вот уже много лет.
Если хотите помочь Инфокультуре то сделать можно это на странице https://www.infoculture.ru/donation/ пожертвованием однократно или ежемесячно (лучше ежемесячно, конечно!).
Лично я считаю после всей той помощи что я оказал Минцифре РФ по чистке реестра аккредитованных ИТ компаний, сотрудники министерства, не могут пройти мимо и не пожертвовать кто сколько может на благое дело приведения наборов данных в порядок 😜
Ну а если серьёзно, то пандемийные годы были непростыми, а этот год - это ещё больший вызов многократно. До сих пор непонятно как продолжать развивать открытость данных, всё ещё понятно что можно делать в части цифровой архивации и всегда понятно что делать по теме приватности, хотя, это тоже стало сложнее.
А я не могу не напомнить что был и остаюсь в России, и пока рассматриваю варианты отъезда, только по состоянию здоровья (если аллергия на березы начнёт зашкаливать).
Ссылки:
[1] https://opendatareview.infoculture.ru/
[2] https://www.infoculture.ru/2018/12/10/datamaps/
[3] https://hubofdata.ru
#opendata #infoculture #donate
1. Работа с открытыми данными: особенности публикации и использования в российском правовом поле [1] аналитический доклад 2020 года про возможности и проблемы работы с открытыми данными.
2. Карты данных [2] по многим отраслям составленные нами 3.5 года назад в виде инфографики. Изначально это было куча майндмапов в виде вопросов и ответов. Для наглядности пришлось их переработать. То что получилось делалось, в первую очередь для печати и раздачи на хакатонах.
3. Хаб открытых данных [3] наш негосударственный портал открытых данных. Создавался как независимый от гос-ва портал для публикации данных. Мы его поддерживаем вот уже много лет.
Если хотите помочь Инфокультуре то сделать можно это на странице https://www.infoculture.ru/donation/ пожертвованием однократно или ежемесячно (лучше ежемесячно, конечно!).
Лично я считаю после всей той помощи что я оказал Минцифре РФ по чистке реестра аккредитованных ИТ компаний, сотрудники министерства, не могут пройти мимо и не пожертвовать кто сколько может на благое дело приведения наборов данных в порядок 😜
Ну а если серьёзно, то пандемийные годы были непростыми, а этот год - это ещё больший вызов многократно. До сих пор непонятно как продолжать развивать открытость данных, всё ещё понятно что можно делать в части цифровой архивации и всегда понятно что делать по теме приватности, хотя, это тоже стало сложнее.
А я не могу не напомнить что был и остаюсь в России, и пока рассматриваю варианты отъезда, только по состоянию здоровья (если аллергия на березы начнёт зашкаливать).
Ссылки:
[1] https://opendatareview.infoculture.ru/
[2] https://www.infoculture.ru/2018/12/10/datamaps/
[3] https://hubofdata.ru
#opendata #infoculture #donate
Telegram
Инфокультура
Новости Информационной культуры. https://infoculture.ru
В The Markup очередная хорошая статья про приватность [1], на сей раз о компаниях которые собирают данные из автомобилей и о автомобилях.
В общей сложности это 37 компаний связанных с индустрией подключений к автомобилям, в оригинале - connected vehicle data industry. При том что этот рынок считают относительно молодым, его оценивают от 300 до 800 миллиардов долларов США к 2030 году [2].
Из автомобиля собирается самая разная информация: местонахождение, скорость, когда нажат тормоз, какая музыка играет, была ли открыта дверь, внутренняя температура и так далее. Всё это собирается, обрабатывается локально и передаётся, например, производителю автомобиля.
В статье немало примеров, особенно компаний создающих хабы данных перепродаваемых, например, страховым компаниям.
Выводы там оптимистичные, в том что производители автомобилей начинают идти по пути Apple и предлагать приватность как часть услуги, давая возможность ограничивать передачу данными другим компаниям. Например, так делает Porshe, в этой индустрии.
Лично я не столь оптимистичен, потому что целью Apple было перестроить рынок под себя и не только повысить приватность, но снизить возможности её нарушения для конкурентов и сохранить такую возможность для себя.
Тем не менее я бы зафиксировал следующее именно в отношении автомобилей:
1. Тренд на усиление сбора данных с автомобилей сохраняется и усиливается. Данных собирается всё больше и с большей частотой и гранулярностью.
2. Технологии позволяют собирать данные хоть со всех машин в мире, ограничения скорее в количестве машин выпускаемых основными вендорами и наличию чипов для них.
3. Учитывая значимость этих данных национальные регуляторы точно будут требовать их локализацию, а полиция захочет иметь к ним доступ.
Ссылки:
[1] https://themarkup.org/the-breakdown/2022/07/27/who-is-collecting-data-from-your-car
[2] https://www.documentcloud.org/documents/22120767-capgeminiinvent_vehicledatamonetization_pov_sep2020#document/p5/a2130948
#privacy #data
В общей сложности это 37 компаний связанных с индустрией подключений к автомобилям, в оригинале - connected vehicle data industry. При том что этот рынок считают относительно молодым, его оценивают от 300 до 800 миллиардов долларов США к 2030 году [2].
Из автомобиля собирается самая разная информация: местонахождение, скорость, когда нажат тормоз, какая музыка играет, была ли открыта дверь, внутренняя температура и так далее. Всё это собирается, обрабатывается локально и передаётся, например, производителю автомобиля.
В статье немало примеров, особенно компаний создающих хабы данных перепродаваемых, например, страховым компаниям.
Выводы там оптимистичные, в том что производители автомобилей начинают идти по пути Apple и предлагать приватность как часть услуги, давая возможность ограничивать передачу данными другим компаниям. Например, так делает Porshe, в этой индустрии.
Лично я не столь оптимистичен, потому что целью Apple было перестроить рынок под себя и не только повысить приватность, но снизить возможности её нарушения для конкурентов и сохранить такую возможность для себя.
Тем не менее я бы зафиксировал следующее именно в отношении автомобилей:
1. Тренд на усиление сбора данных с автомобилей сохраняется и усиливается. Данных собирается всё больше и с большей частотой и гранулярностью.
2. Технологии позволяют собирать данные хоть со всех машин в мире, ограничения скорее в количестве машин выпускаемых основными вендорами и наличию чипов для них.
3. Учитывая значимость этих данных национальные регуляторы точно будут требовать их локализацию, а полиция захочет иметь к ним доступ.
Ссылки:
[1] https://themarkup.org/the-breakdown/2022/07/27/who-is-collecting-data-from-your-car
[2] https://www.documentcloud.org/documents/22120767-capgeminiinvent_vehicledatamonetization_pov_sep2020#document/p5/a2130948
#privacy #data
themarkup.org
Who Is Collecting Data from Your Car? – The Markup
A firehose of sensitive data from your vehicle is flowing to a group of companies you’ve probably never heard of
В рубрике интересных больших наборов данных OpenAlex [1], полностью открытая база о глобальной системе исследований включающая данных о исследователях, журналах, работах, институтах. Основано на Microsoft Academic Graph [2], далее поддерживается и развивается НКО OurResearch [3], создающими многие инструменты для исследователей.
Кроме того что данные доступны в виде API, также они выложены как наборы данных на Amazon AWS [4] в рамках проекта AWS Open Data Sponsorship Program [5], это когда Amazon спонсирует раскрытие больших наборов открытых данных на их инфраструктуре через покрытие стоимости их передачи и хранения.
Для всех кто исследует то устроена система исследований в мире - этот набор данных определенно будет очень интересен.
И, вдогонку к этому интереснейшему набору данных, один из крупнейших по объёму, а не количеству данных, источник - это Academic Torrents [6], сервисы раздачи датасетов для исследователей. Включает датасеты до 4.8ТБ, в основном для машинного обучения и число наборов данных там только растёт. Уже более 127ТБ в 867 наборах данных. Скажу что ни один государственный портал открытых данных в мире по объёмам с ним не сравнится. Кроме, может быть, data.gov в США где основной объём данных, также, составляют исследовательские данные крупнейших государственных научных центров.
Ссылки:
[1] https://docs.openalex.org/
[2] https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
[3] https://ourresearch.org/
[4] https://registry.opendata.aws/openalex/
[5] https://aws.amazon.com/opendata/open-data-sponsorship-program/
[6] https://academictorrents.com/
#opendata #academy #openscience #machinelearning #datasets
Кроме того что данные доступны в виде API, также они выложены как наборы данных на Amazon AWS [4] в рамках проекта AWS Open Data Sponsorship Program [5], это когда Amazon спонсирует раскрытие больших наборов открытых данных на их инфраструктуре через покрытие стоимости их передачи и хранения.
Для всех кто исследует то устроена система исследований в мире - этот набор данных определенно будет очень интересен.
И, вдогонку к этому интереснейшему набору данных, один из крупнейших по объёму, а не количеству данных, источник - это Academic Torrents [6], сервисы раздачи датасетов для исследователей. Включает датасеты до 4.8ТБ, в основном для машинного обучения и число наборов данных там только растёт. Уже более 127ТБ в 867 наборах данных. Скажу что ни один государственный портал открытых данных в мире по объёмам с ним не сравнится. Кроме, может быть, data.gov в США где основной объём данных, также, составляют исследовательские данные крупнейших государственных научных центров.
Ссылки:
[1] https://docs.openalex.org/
[2] https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
[3] https://ourresearch.org/
[4] https://registry.opendata.aws/openalex/
[5] https://aws.amazon.com/opendata/open-data-sponsorship-program/
[6] https://academictorrents.com/
#opendata #academy #openscience #machinelearning #datasets
docs.openalex.org
Overview | OpenAlex technical documentation
В OECD.ai, проекте ОЭСР по мониторингу инициатив внедрения ИИ в мире, на странице Российской Федерации [1] пропали все ссылки и упоминания инициатив по ИИ. Остались только новости которые, как я понимаю, собираются и отображаются автоматически.
По прямым ссылкам они ещё доступны [2], но по факту их более нет, даже при том что OECD.ai включает сведения не только по членам и кандидатам в ОЭСР.
Аналогично, теперь, недоступна страница страны в OECD Going Digital [3] где были профили стран по метрикам цифровой трансформации.
Хотя по России данных там теперь нет, проекты ОЭСР всё ещё хороший источник информации о госполитике в ИИ, цифровой трансформации и инноваций в госуправлении (OPSI) [4]
Ссылки:
[1] https://oecd.ai/en/dashboards/countries/RussianFederation
[2] https://oecd.ai/en/dashboards/policy-initiatives/2019-data-policyInitiatives-24901
[3] https://goingdigital.oecd.org/countries/rus
[4] https://oecd-opsi.org/
#opengov #government #oecd #ai
По прямым ссылкам они ещё доступны [2], но по факту их более нет, даже при том что OECD.ai включает сведения не только по членам и кандидатам в ОЭСР.
Аналогично, теперь, недоступна страница страны в OECD Going Digital [3] где были профили стран по метрикам цифровой трансформации.
Хотя по России данных там теперь нет, проекты ОЭСР всё ещё хороший источник информации о госполитике в ИИ, цифровой трансформации и инноваций в госуправлении (OPSI) [4]
Ссылки:
[1] https://oecd.ai/en/dashboards/countries/RussianFederation
[2] https://oecd.ai/en/dashboards/policy-initiatives/2019-data-policyInitiatives-24901
[3] https://goingdigital.oecd.org/countries/rus
[4] https://oecd-opsi.org/
#opengov #government #oecd #ai
OECD Going Digital Toolkit
How are countries going digital? The OECD’s Toolkit helps measure, compare and find policy solutions.
Global Data Governance - это свежий рейтинг/индекс стран по уровню/качеству управления данными [1]․ Публикуется институтом Джорджа Вашингтона, включает интерактивную карту [2] и профили отдельных стран, например, России [3].
Оценивается по 6 направлениям:
- Strategic. У правительства есть видение или план для разных типов данных в экономике и госполитике
- Regulatory. Правительство выстроило юридический режим вокруг типов данных и/или их использования
- Responsible. Правительство думает о этике, доверии и том как затронуты права человека при использовании и переиспользовании данных
- Structural. Правительство меняет институциональные структуры в ответ на трансформацию основанную на данных
- Participatory. Государство информирует граждан и бизнес о его активности и запрашивает публичные комментарии с целью применения обратной связи.
- International. Государство присоединяется к другим нациям в общих международных усилиях для установления общих правил и норм управления данными.
Если кратко, то у России всего 27 баллов из 100.
По нулям в направлениях Responsible, Participatory и International.
По направлению Strategic всего 25 баллов, в направлении Regulatory 60 и в направлении Structural 75.
В целом новость то неплохая, к примеру, у Нигерии, всего 21 балл, а у Ирана вообще их всего 3, но всё же, поменьше чем у Вьетнама, там всего 29 баллов.
Выглядит всё это куда менее политически ангажировано чем многие другие рейтинги, он даже не про открытость, а про системной работы правительств стран. О том что у нас с системностью в стране всё не очень я пишу давно( А вот и очередное подтверждение этого.
Ссылки:
[1] https://datagovhub.elliott.gwu.edu/
[2] https://datagovhub.letsnod.com
[3] https://datagovhub.letsnod.com/country-level-data/europe-central-asia/russia
#data #datagovernance #government #russia
Оценивается по 6 направлениям:
- Strategic. У правительства есть видение или план для разных типов данных в экономике и госполитике
- Regulatory. Правительство выстроило юридический режим вокруг типов данных и/или их использования
- Responsible. Правительство думает о этике, доверии и том как затронуты права человека при использовании и переиспользовании данных
- Structural. Правительство меняет институциональные структуры в ответ на трансформацию основанную на данных
- Participatory. Государство информирует граждан и бизнес о его активности и запрашивает публичные комментарии с целью применения обратной связи.
- International. Государство присоединяется к другим нациям в общих международных усилиях для установления общих правил и норм управления данными.
Если кратко, то у России всего 27 баллов из 100.
По нулям в направлениях Responsible, Participatory и International.
По направлению Strategic всего 25 баллов, в направлении Regulatory 60 и в направлении Structural 75.
В целом новость то неплохая, к примеру, у Нигерии, всего 21 балл, а у Ирана вообще их всего 3, но всё же, поменьше чем у Вьетнама, там всего 29 баллов.
Выглядит всё это куда менее политически ангажировано чем многие другие рейтинги, он даже не про открытость, а про системной работы правительств стран. О том что у нас с системностью в стране всё не очень я пишу давно( А вот и очередное подтверждение этого.
Ссылки:
[1] https://datagovhub.elliott.gwu.edu/
[2] https://datagovhub.letsnod.com
[3] https://datagovhub.letsnod.com/country-level-data/europe-central-asia/russia
#data #datagovernance #government #russia
В рубрике интересных инструментов по работе с данными.
PipeRider [1] - движок с открытым кодом по автоматизации оценки качества данных. Позволяет писать простые правила оценки типов данных, количества, максимальных и минимальных значений и многое другое. Поддерживает пока только три SQL СУБД: Postgres, Sqlite и Snowflake. Делается тайваньской компанией InfuseAI [2] с прицелом на облачную монетизацию в сервисе PipeRider Cloud, который они обещают вскоре выпустить. В целом выглядит как конкурент Soda, стоит потратить время для дополнительного изучения.
ByteBase [3] система управления изменениями в СУБД и версиями с открытым кодом. Существует в виде открытого кода и облачного сервиса, в облачном сервисе предлагают поддержку с SLA. Главное что позволяет - это подходы Database-as-Code и GitOps.
Поддерживает MySQL, Postgres, Clickhouse, TiDB и Snowflake. Они уже несколько месяцев стремительно набирают звёзды на Github'е [4]. Основатели выходцы из Google, часть команды находится в Шанхае. По данным в Crunchbase привлекли инвестиций на $3M, основной инвестор китайцы в Matrix China Partners. Для компаний внутри которых базы данных имеют клиентов/потребителей такой инструмент будет полезен.
QuestDB [5] быстрая база для временных рядов с открытым кодом, сами они пишут что быстрейшая, но это ещё надо проверять/доказать. Есть те кто сомневаются что QuestDB быстрее Clickhouse [6], тем не менее конкуренция присутствует. Создается одноименной компанией получившей $14.3M инвестиций из которых $12M в прошлом году. Самая очевидная применимость в сборе логов, данных сенсоров и разного рода телеметрии.
Ссылки:
[1] https://www.piperider.io/
[2] https://www.infuseai.io/
[3] https://www.bytebase.com/
[4] https://star-history.com/#bytebase/bytebase&Date
[5] https://questdb.io/
[6] https://telegra.ph/No-QuestDB-is-not-Faster-than-ClickHouse-06-15
#opensource #dbms #dbtools #data #startups
PipeRider [1] - движок с открытым кодом по автоматизации оценки качества данных. Позволяет писать простые правила оценки типов данных, количества, максимальных и минимальных значений и многое другое. Поддерживает пока только три SQL СУБД: Postgres, Sqlite и Snowflake. Делается тайваньской компанией InfuseAI [2] с прицелом на облачную монетизацию в сервисе PipeRider Cloud, который они обещают вскоре выпустить. В целом выглядит как конкурент Soda, стоит потратить время для дополнительного изучения.
ByteBase [3] система управления изменениями в СУБД и версиями с открытым кодом. Существует в виде открытого кода и облачного сервиса, в облачном сервисе предлагают поддержку с SLA. Главное что позволяет - это подходы Database-as-Code и GitOps.
Поддерживает MySQL, Postgres, Clickhouse, TiDB и Snowflake. Они уже несколько месяцев стремительно набирают звёзды на Github'е [4]. Основатели выходцы из Google, часть команды находится в Шанхае. По данным в Crunchbase привлекли инвестиций на $3M, основной инвестор китайцы в Matrix China Partners. Для компаний внутри которых базы данных имеют клиентов/потребителей такой инструмент будет полезен.
QuestDB [5] быстрая база для временных рядов с открытым кодом, сами они пишут что быстрейшая, но это ещё надо проверять/доказать. Есть те кто сомневаются что QuestDB быстрее Clickhouse [6], тем не менее конкуренция присутствует. Создается одноименной компанией получившей $14.3M инвестиций из которых $12M в прошлом году. Самая очевидная применимость в сборе логов, данных сенсоров и разного рода телеметрии.
Ссылки:
[1] https://www.piperider.io/
[2] https://www.infuseai.io/
[3] https://www.bytebase.com/
[4] https://star-history.com/#bytebase/bytebase&Date
[5] https://questdb.io/
[6] https://telegra.ph/No-QuestDB-is-not-Faster-than-ClickHouse-06-15
#opensource #dbms #dbtools #data #startups
Многие разработчики возмущены появлением Github Copilot [1] и использованием их кода ИИ для написания нового кода. А, тем временем, Brendan Dolan-Gavitt из NYU Tandon School of Engineering создал его аналог с открытым кодом и который можно использовать локально. Встречаем FauxPilot [2] в основе которого модели Salesforce CodeGet [3] и NVIDIA Triton Inference Server [4].
Для работы требуется процессор NVIDIA с объёмом видеопамяти от 2ГБ и где-то до 32ГБ для самых больших языковых моделей, выбор из нескольких моделей предусмотрен.
Для тех кто хочет поработать продуктами по кодогенерации локально и сделать что-то своё и уникальное, это хороший пример того с чего можно начать и что доступно с открытым кодом.
Ссылки:
[1] https://t.me/begtin/4020
[2] https://github.com/moyix/fauxpilot
[3] https://github.com/salesforce/CodeGen
[4] https://developer.nvidia.com/nvidia-triton-inference-server
#opensource #github #copilot #datatools #programming #fauxpilot
Для работы требуется процессор NVIDIA с объёмом видеопамяти от 2ГБ и где-то до 32ГБ для самых больших языковых моделей, выбор из нескольких моделей предусмотрен.
Для тех кто хочет поработать продуктами по кодогенерации локально и сделать что-то своё и уникальное, это хороший пример того с чего можно начать и что доступно с открытым кодом.
Ссылки:
[1] https://t.me/begtin/4020
[2] https://github.com/moyix/fauxpilot
[3] https://github.com/salesforce/CodeGen
[4] https://developer.nvidia.com/nvidia-triton-inference-server
#opensource #github #copilot #datatools #programming #fauxpilot
Telegram
Ivan Begtin
Вокруг ИИ помощника по написанию кода Github Copilot разгораются нешуточные баталии [1], НКО Software Freedom Conservancy призывают всех разработчиков покинуть Github [2].
Причём корень проблемы в том что открытый код не делает ограничений на его использование…
Причём корень проблемы в том что открытый код не делает ограничений на его использование…
Вжух и данные, вжух и продукт на данных (с)
В качестве небольшого отступления от новостей про продукты и стартапы на данных, я сформирую мысли вокруг трендов которые я вижу. Есть некоторый, не на поверхности, но, достаточно хорошо ощутимый тренд, это запрос на автоматизацию/ИИзацию работы с данными. Причём на всех уровнях от хранения данных до их визуализации и продукт-изации.
Во многом это не только про появление no-code инструментов для конечных пользователей, но и усилением этих инструментов инструментами понимания неструктурированных пользовательских запросов.
Например, пока нет инструментов которые могли бы принимать запросы вроде: "Возьми данные оттуда и оттуда, слинкуй их и подбери наилучшую визуализацию по показателям прошлого месяца".
При этом, есть системы ответов на вопросы пользователей, есть системы со-написания исходного кода, но нет, пока нет, аналогичных инструментов для аналитиков/маркетологов/руководителей, иначе говоря конечных потребителей внутренних дата-продуктов.
И бы не сказал что это феноменально сложно, это решаемо, но как и многие продукты такого типа будет вызывать неоднозначную реакцию у тех кто в индустрии работы с данными существует уже сейчас. Подобные инструменты не могут её не менять, причём непонятно, в сторону усиления специалистов среднего уровня или наоборот в сторону снижения их числа на тех же задачах.
Сейчас работа аналитиков - это, часто, очень много ручной работы. Работа дата сайентистов тоже, включает множество экспериментов и чистки данных. В этой области частично всё сдвигается в Automated ML (AutoML), в задачах поддающихся автоматизации. А вот Automated analytics и Automated dashboard в том виде как они существуют сейчас - это лишь преднастроенные отчеты и панели в которых автоматизируют потоки данных. Реальной автоматизации с анализом источников и природы данных пока не наблюдается. Есть на это спрос уже прямо сейчас? Я склоняюсь что он появится вместе с первыми продуктами в этой области.
В итоге я вижу достаточно четкий тренд на усиление конечных пользователей без обучения их дополнительным техническим навыкам. Причём, похоже, он будет только усиливаться в ближайшие годы и туда явно продолжат развитие существующие и новые продукты.
#thoughts #data #datatools
В качестве небольшого отступления от новостей про продукты и стартапы на данных, я сформирую мысли вокруг трендов которые я вижу. Есть некоторый, не на поверхности, но, достаточно хорошо ощутимый тренд, это запрос на автоматизацию/ИИзацию работы с данными. Причём на всех уровнях от хранения данных до их визуализации и продукт-изации.
Во многом это не только про появление no-code инструментов для конечных пользователей, но и усилением этих инструментов инструментами понимания неструктурированных пользовательских запросов.
Например, пока нет инструментов которые могли бы принимать запросы вроде: "Возьми данные оттуда и оттуда, слинкуй их и подбери наилучшую визуализацию по показателям прошлого месяца".
При этом, есть системы ответов на вопросы пользователей, есть системы со-написания исходного кода, но нет, пока нет, аналогичных инструментов для аналитиков/маркетологов/руководителей, иначе говоря конечных потребителей внутренних дата-продуктов.
И бы не сказал что это феноменально сложно, это решаемо, но как и многие продукты такого типа будет вызывать неоднозначную реакцию у тех кто в индустрии работы с данными существует уже сейчас. Подобные инструменты не могут её не менять, причём непонятно, в сторону усиления специалистов среднего уровня или наоборот в сторону снижения их числа на тех же задачах.
Сейчас работа аналитиков - это, часто, очень много ручной работы. Работа дата сайентистов тоже, включает множество экспериментов и чистки данных. В этой области частично всё сдвигается в Automated ML (AutoML), в задачах поддающихся автоматизации. А вот Automated analytics и Automated dashboard в том виде как они существуют сейчас - это лишь преднастроенные отчеты и панели в которых автоматизируют потоки данных. Реальной автоматизации с анализом источников и природы данных пока не наблюдается. Есть на это спрос уже прямо сейчас? Я склоняюсь что он появится вместе с первыми продуктами в этой области.
В итоге я вижу достаточно четкий тренд на усиление конечных пользователей без обучения их дополнительным техническим навыкам. Причём, похоже, он будет только усиливаться в ближайшие годы и туда явно продолжат развитие существующие и новые продукты.
#thoughts #data #datatools
В RSpectr свежая статья про реестр аккредитованных ИТ компаниям, в том числе с моими комментариями [1].
Я ещё раз зафиксирую мою позицию что реестр ИТ компаний получающих льготы (ведёт ФНС) и реестр аккредитованных ИТ компаний (ведёт Минцифры) должны быть одним реестром с правилом двух ключей. Аккредитация должна давать ИТ льготы и подтверждение их должны давать Минцифра и ФНС.
Все остальные "сложные схемы" формирования реестра аккредитованных ИТ компаний можно придумывать сколько угодно, но эта самая простая и понятная.
Ссылки:
[1] https://rspectr.com/articles/svet-moj-reestr-skazhi
#itmarket #digital
Я ещё раз зафиксирую мою позицию что реестр ИТ компаний получающих льготы (ведёт ФНС) и реестр аккредитованных ИТ компаний (ведёт Минцифры) должны быть одним реестром с правилом двух ключей. Аккредитация должна давать ИТ льготы и подтверждение их должны давать Минцифра и ФНС.
Все остальные "сложные схемы" формирования реестра аккредитованных ИТ компаний можно придумывать сколько угодно, но эта самая простая и понятная.
Ссылки:
[1] https://rspectr.com/articles/svet-moj-reestr-skazhi
#itmarket #digital
Rspectr
Свет мой, реестр, скажи… - RSpectr
Минцифры обновило реестр IT-компаний, исключив из него более 400 организаций, для которых деятельность в цифровой сфере не является основной.
Написал сегодня очередной текст в рассылку, на сей раз чуть подробнее рассказал о том как применяется и для чего делается утилита metacrafter [1] выявляющая семантические типы данных.
Если кратко, то это:
- выявление персональных данных
- улучшение data discovery
- автоматическое документирование
Тем временем могу сказать что утилита пополнилась новыми правилами и этой работы там ещё много, а также в базовом варианте она теперь позволяет анализировать XML файлы. В базовом, потому что у ей надо передавать название тега в который вложен объект, а автоматическое определение таких тегов где-то на следующем шаге.
Ссылки:
[1] https://begtin.substack.com/p/28
#metadata #metacrafter #datatools #data #opensource
Если кратко, то это:
- выявление персональных данных
- улучшение data discovery
- автоматическое документирование
Тем временем могу сказать что утилита пополнилась новыми правилами и этой работы там ещё много, а также в базовом варианте она теперь позволяет анализировать XML файлы. В базовом, потому что у ей надо передавать название тега в который вложен объект, а автоматическое определение таких тегов где-то на следующем шаге.
Ссылки:
[1] https://begtin.substack.com/p/28
#metadata #metacrafter #datatools #data #opensource
Ivan’s Begtin Newsletter on digital, open and preserved government
#28. Data discovery, автодокументирование и выявление персональных данных
Я довольно давно не писал про инструмент metacrafter [1] который я постепенно развиваю как небольшой экспериментальный проект по идентификации семантических типов данных, но которые имеет самое что ни на есть прямое применение.