Я ранее уже писал про Digital Public Infrastructure, то что государства создают цифровую инфраструктуру которую можно рассматривать как одну из форм общественной инфраструктуры и общественного блага, примерно как дороги, или общественные здания и тому подобное.
Оказывается существует The Digital Infrastructure Map проект по мэппингу национальных цифровых проектов по идентификации пользователей, цифровым платежам и инфраструктуре обмена данными и там же есть датасет с данными. Данных там количественно немного, а вот качественно немало.
Что можно оттуда узнать:
1. В большинстве стран создана или создается инфраструктура обмена данными
2. Самый популярный инструмент для этого вышедший из Эстонии X-Road и относительно недавно превращенный в Digital Public Good (не так уж недавно, на самом деле)
3. Во многих странах есть прямая архитектурная зависимость от одного из облачных провайдеров (Microsoft или Oracle). Не говоря уже о инфраструктурной зависимости, но её исследование вроде как никто пока не проводил
4. Ожидаемо российские технологии где-либо за пределами РФ отсутствуют.
#opendata #dpi #datasets #government
Оказывается существует The Digital Infrastructure Map проект по мэппингу национальных цифровых проектов по идентификации пользователей, цифровым платежам и инфраструктуре обмена данными и там же есть датасет с данными. Данных там количественно немного, а вот качественно немало.
Что можно оттуда узнать:
1. В большинстве стран создана или создается инфраструктура обмена данными
2. Самый популярный инструмент для этого вышедший из Эстонии X-Road и относительно недавно превращенный в Digital Public Good (не так уж недавно, на самом деле)
3. Во многих странах есть прямая архитектурная зависимость от одного из облачных провайдеров (Microsoft или Oracle). Не говоря уже о инфраструктурной зависимости, но её исследование вроде как никто пока не проводил
4. Ожидаемо российские технологии где-либо за пределами РФ отсутствуют.
#opendata #dpi #datasets #government
Telegram
Ivan Begtin
Я регулярно смотрю и слушаю выступления, читаю статьи и изучаю курсы про подготовке госслужащих в мире, сказывается то что я сам много лет выступал перед российскими госслужащими про работу с данными внутри гос-ва. Так вот поделюсь прочитанным, одна из наиболее…
👍6❤1
В рубрике как это устроено у них портал открытых научных данных Швеции Researchdata.se
Был запущен в марте 2025 года, сейчас включает 6362 наборов данных преимущественно в виде таблиц, текстов и геоданных.
Более половины данных происходят из области естественных наук, много лингвистических данных из Språkbanken Text.
Не все данные размещены на самом портале, многие ведут на оригинальные публикации в национальных и международных репозиториях данных.
Шведы не единственные кто создает национальные агрегаторы научных данных, в некоторых странах существуют агрегаторы любых результатов научной деятельности (Евросоюз, Германия), в других именно данных (Китай, Венгрия).
#opendata #data #datasets #researchdata #sweden
Был запущен в марте 2025 года, сейчас включает 6362 наборов данных преимущественно в виде таблиц, текстов и геоданных.
Более половины данных происходят из области естественных наук, много лингвистических данных из Språkbanken Text.
Не все данные размещены на самом портале, многие ведут на оригинальные публикации в национальных и международных репозиториях данных.
Шведы не единственные кто создает национальные агрегаторы научных данных, в некоторых странах существуют агрегаторы любых результатов научной деятельности (Евросоюз, Германия), в других именно данных (Китай, Венгрия).
#opendata #data #datasets #researchdata #sweden
👍7✍1⚡1
Разные мысли вслух:
- инструменты мониторинга потребления токенов и запросов к LLM становятся всё более актуальными. Что-то вроде deepeval или phoenix и других. Характерно, что в мире такие решения существуют и интегрированы со всеми основными сервисами, а российские сервисы типа Яндекса и Сбера исключены из мировой экосистемы. Это отдельная тема для размышлений: изменится ли это как-либо или нет.
- единственные по-настоящему успешные бизнесы, связанные с открытыми данными, не являются бизнесами на самих открытых данных, а бизнесами на инфраструктуре вокруг них. Hugging Face сейчас крупнейший хостинг данных для обучения ИИ, но это не бизнес на открытых данных, хотя портал и наполнен ими. Другой пример — Esri. Я наблюдаю, как всё больше городских порталов данных и геоданных создаются на их платформе, но бизнес Esri не в них, а в том, что создатели порталов используют их сервисы, а портал по открытости данных/геоданных создают в довесок.
#opendata #ai #thoughts
- инструменты мониторинга потребления токенов и запросов к LLM становятся всё более актуальными. Что-то вроде deepeval или phoenix и других. Характерно, что в мире такие решения существуют и интегрированы со всеми основными сервисами, а российские сервисы типа Яндекса и Сбера исключены из мировой экосистемы. Это отдельная тема для размышлений: изменится ли это как-либо или нет.
- единственные по-настоящему успешные бизнесы, связанные с открытыми данными, не являются бизнесами на самих открытых данных, а бизнесами на инфраструктуре вокруг них. Hugging Face сейчас крупнейший хостинг данных для обучения ИИ, но это не бизнес на открытых данных, хотя портал и наполнен ими. Другой пример — Esri. Я наблюдаю, как всё больше городских порталов данных и геоданных создаются на их платформе, но бизнес Esri не в них, а в том, что создатели порталов используют их сервисы, а портал по открытости данных/геоданных создают в довесок.
#opendata #ai #thoughts
GitHub
GitHub - confident-ai/deepeval: The LLM Evaluation Framework
The LLM Evaluation Framework. Contribute to confident-ai/deepeval development by creating an account on GitHub.
👍5❤4
Полезные ссылки про данные, технологии и не только:
- anton ИИ агент для анализа данных и построения дашбордов. Позволяет быстро сделать дашборды не привлекаявнимания санитаров выделенного аналитика. Выглядит как минимум любопытно, открытый код, AGPL. Но завязано на платформу MindsDB командой которой он и создан. У MindsDB минимальная подписка это $35 в месяц с привязкой карты, что для работы немного, а для тестирования, особенно когда тестируешь много сервисов, себя не оправдывает. Был бы аналогичный platform-agnostic инструмент - ценность его была бы выше для пользователей. Думаю что еще появится если еще не появился. P.S. Не понимаю тех кто называет продукты распространенными человеческими именами, не любят они людей.
- OpenScreen многоплатформенный инструмент для создания демок к софтверным продуктам. Открытый код, MIT, выглядит как наглядный и зрелый продукт. На практике надо проверять, если все как в его демо то можно использовать для создания пользовательской документации, презентаций инвесторам и тд.
- whylogs библиотека для ведения логов в задачах машинного обучения. Существует достаточно давно и, кроме всего прочего, умеет суммаризировать датасеты и выдавать их статистические профили. Не так много таких инструментов существует, как ни странно, а для данных очень большого объёма их практически нет, поскольку почти всегда они работают через датафреймы. Whylogs тоже основан на датафреймах поэтому и применимость его ограничена.
- Nicholas Carlini - Black-hat LLMs | [un]prompted 2026 о том как применять LLM (в данном случае Anthropic) для поиска 0-day уязвимостей. Полезно для тех кто занимается безопасностью ПО в любой шляпе.
- parallel.ai онлайн ИИ агент с ориентацией на машинное использование (хотя формат вывода для людей тоже есть) и умеющий в поиск, deep research и тд. Как продукт выглядит интересно и в части вывода промежуточной информации в процессе работы над задачами и в части в том что он сделан в формате machine-first и API-first (машинная выдача и доступ через API/MCP выведены в приоритет). Я его на автоматических задачах еще не проверял, только сравнивал работу в режиме deep research с другими сервисами.
P.S. И про deep research инструменты некоторые размышления вдогонку
У меня есть типовая задача по deep research с тестированием одной из идей развития Dateno. Она неплохо структурировано для аналитики результатом которой должна быть и оценка бизнес ниши и техническое проектирование. Я регулярно проверяю новые ИИ агенты на этой задаче. Что хорошо - оценку бизнес ниши parallel.ai выдал очень четкую, не идеальную, но логичную. А вот с техническим проектированием не очень. Я до этого сравнивал с десяток сервисов способных в deep research (Perplexity, ChatGPT, Kimi, MiroMind, Gemini, Antigravity, Cursor и др.) и пока только Kimi и MiroMind выдавали наиболее интересный результат в части продумывания архитектуры ПО.
#opensource #datatools #ai #thoughts
- anton ИИ агент для анализа данных и построения дашбордов. Позволяет быстро сделать дашборды не привлекая
- OpenScreen многоплатформенный инструмент для создания демок к софтверным продуктам. Открытый код, MIT, выглядит как наглядный и зрелый продукт. На практике надо проверять, если все как в его демо то можно использовать для создания пользовательской документации, презентаций инвесторам и тд.
- whylogs библиотека для ведения логов в задачах машинного обучения. Существует достаточно давно и, кроме всего прочего, умеет суммаризировать датасеты и выдавать их статистические профили. Не так много таких инструментов существует, как ни странно, а для данных очень большого объёма их практически нет, поскольку почти всегда они работают через датафреймы. Whylogs тоже основан на датафреймах поэтому и применимость его ограничена.
- Nicholas Carlini - Black-hat LLMs | [un]prompted 2026 о том как применять LLM (в данном случае Anthropic) для поиска 0-day уязвимостей. Полезно для тех кто занимается безопасностью ПО в любой шляпе.
- parallel.ai онлайн ИИ агент с ориентацией на машинное использование (хотя формат вывода для людей тоже есть) и умеющий в поиск, deep research и тд. Как продукт выглядит интересно и в части вывода промежуточной информации в процессе работы над задачами и в части в том что он сделан в формате machine-first и API-first (машинная выдача и доступ через API/MCP выведены в приоритет). Я его на автоматических задачах еще не проверял, только сравнивал работу в режиме deep research с другими сервисами.
P.S. И про deep research инструменты некоторые размышления вдогонку
У меня есть типовая задача по deep research с тестированием одной из идей развития Dateno. Она неплохо структурировано для аналитики результатом которой должна быть и оценка бизнес ниши и техническое проектирование. Я регулярно проверяю новые ИИ агенты на этой задаче. Что хорошо - оценку бизнес ниши parallel.ai выдал очень четкую, не идеальную, но логичную. А вот с техническим проектированием не очень. Я до этого сравнивал с десяток сервисов способных в deep research (Perplexity, ChatGPT, Kimi, MiroMind, Gemini, Antigravity, Cursor и др.) и пока только Kimi и MiroMind выдавали наиболее интересный результат в части продумывания архитектуры ПО.
#opensource #datatools #ai #thoughts
GitHub
GitHub - mindsdb/anton at producthunt
Most advanced AI coworker. Contribute to mindsdb/anton development by creating an account on GitHub.
👍6🔥5✍3❤1
Еще немного размышлений вслух про дата продукты и открытые данные. Я поизучал спецификацию ODPS (Open Data Product Specification) в её последней редакции версии 4.1. Её, кстати, правильно читать не как спецификацию про открытые дата продукты, а как открытую спецификацию на дата продукты. Это, конечно, неплохой документ и чуть ли не единственный описывающий данные именно к продукт и спецификация сама по себе имеет ценность не только для технического описания, но и как шаблона для внутреннего описания дата продуктов. Условно хороший документ спецификации для API к доступу к данным на этапе проектирования (скорее продуктового чем технического).
Но, при этом, со своими ограничениями:
1. Малая экосистема. У дата продукта может быть более одного интерфейса, это могут быть данные доступные через REST API, в формате для массовой выгрузки (bulk download), в формате специализированного API (WFC и OGC совместимые). Хотя в спецификации это всё предусмотрено, но каждый из этих интерфейсов, но нехватает инструментов тестирования этих множественных интерфейсов на основе спецификации.
2. Интеграция с ИИ агентами. Наличие ссылок на документацию - это важно, и, ИМХО, важно не просто наличие human-readable документации, но и документации для ИИ агента (в виде markdown похоже) для автоматизированного доступа к дата продукту.
Как я понимаю в части работы с общедоступными данными у ODPS есть реализация внутри X-Road, но при этом общедоступно действующих примеров нет и нет примеров её использования наиболее продвинутыми создателями открытых дата продуктов в госсекторе, к примеру, государственные API во Франции не описываются через ODPS хотя их описание и документация наиболее близки именно к описанию дата продуктов.
В принципе лично меня это смущает более всего, я знаю довольно много дата продуктов которые могли бы быть описаны с помощью ODPS, но не описываются по какой-то причине. Я подозреваю по той что за спецификацией не стоит кто-то достаточно крупный кто внедрил бы это в свой достаточно популярный каталог дата продуктов. К примеру достаточно крупных агрегатор сервисов API (но им спецификация не вполне подходит) или дата маркетплейс (таких крупных не так много). Кто-то вроде бывшего Quandl'а мог бы использовать подобную спецификацию.
#thoughts #data #specifications #dataengineering
Но, при этом, со своими ограничениями:
1. Малая экосистема. У дата продукта может быть более одного интерфейса, это могут быть данные доступные через REST API, в формате для массовой выгрузки (bulk download), в формате специализированного API (WFC и OGC совместимые). Хотя в спецификации это всё предусмотрено, но каждый из этих интерфейсов, но нехватает инструментов тестирования этих множественных интерфейсов на основе спецификации.
2. Интеграция с ИИ агентами. Наличие ссылок на документацию - это важно, и, ИМХО, важно не просто наличие human-readable документации, но и документации для ИИ агента (в виде markdown похоже) для автоматизированного доступа к дата продукту.
Как я понимаю в части работы с общедоступными данными у ODPS есть реализация внутри X-Road, но при этом общедоступно действующих примеров нет и нет примеров её использования наиболее продвинутыми создателями открытых дата продуктов в госсекторе, к примеру, государственные API во Франции не описываются через ODPS хотя их описание и документация наиболее близки именно к описанию дата продуктов.
В принципе лично меня это смущает более всего, я знаю довольно много дата продуктов которые могли бы быть описаны с помощью ODPS, но не описываются по какой-то причине. Я подозреваю по той что за спецификацией не стоит кто-то достаточно крупный кто внедрил бы это в свой достаточно популярный каталог дата продуктов. К примеру достаточно крупных агрегатор сервисов API (но им спецификация не вполне подходит) или дата маркетплейс (таких крупных не так много). Кто-то вроде бывшего Quandl'а мог бы использовать подобную спецификацию.
#thoughts #data #specifications #dataengineering
opendataproducts.org
Open Data Product Specification | Leading Data Product Standard
Discover how to transform your data strategy with the Open Data Product Specification (ODPS), driving value and innovation in the modern data economy.
🔥5👍2
Для тех кто интересуется регулированию ИИ в других странах, обзор последних правил закупок ИИ госорганами в США, скорее критичный чем хвалящий. Основная мысль в том что правила госзакупок исходят из того что государства получают лучшие (самые дешевые часто) сервисы на тех же условиях что они предоставляются на рынке и выигрывают за счет того что за счет рыночных внедрений у продуктов есть устоявшиеся цены, условия и тд. А в данном случае госорганы устанавливают большое число ограничений включая политические, ограничения на "Woke AI" и запрет на сбор телеметрии необходимой основным ИИ провайдерам. Все очень похоже на то что ИИ в госорганы в США будут поставлять, или ИИ-бигтех договариваясь об особых условиях, или "классические господрядчики" используя открытые модели и инфраструктуру внутри госинфраструктуры.
Сравнивать это регулирование с российским, к примеру, сложно. Российское регулирование, в форме ранее упомянутого законопроекта, предполагает жесткие ограничения не только для ИИ для гос-ва, но и для любых разработчиков ИИ в принципе и выведено оно в регулирование подзаконными актами Пр-ва, которые могут быть как весьма облегченными, так и убивающими рынок для всех кроме пары компаний (конечно никакой коррупции тут не может быть, даже думать об этом ни-ни).
Но возвращаясь к регулированию в США, оно далеко от идеала и говорит про тренд на усиление госконтроля к ИИ продуктам используемым госорганами, что для практики закупки ПО в США если не странно, то не общепринято.
#usa #ai #regulation
Сравнивать это регулирование с российским, к примеру, сложно. Российское регулирование, в форме ранее упомянутого законопроекта, предполагает жесткие ограничения не только для ИИ для гос-ва, но и для любых разработчиков ИИ в принципе и выведено оно в регулирование подзаконными актами Пр-ва, которые могут быть как весьма облегченными, так и убивающими рынок для всех кроме пары компаний (конечно никакой коррупции тут не может быть, даже думать об этом ни-ни).
Но возвращаясь к регулированию в США, оно далеко от идеала и говорит про тренд на усиление госконтроля к ИИ продуктам используемым госорганами, что для практики закупки ПО в США если не странно, то не общепринято.
#usa #ai #regulation
Default
The GSA’s Draft AI Clause Is Governance by Sledgehammer
The General Services Administration’s draft AI clause gets the governance problem right—then blows right past it.
✍4❤3❤🔥1
Да, но... собрал наблюдения за происходящим:
- Github - это крупнейшая платформа для разработки, хранения кода и тд. Это большой плюс. Минус в растущем объёме технологического спама основанного на активности на ней. Например, ты лайкаешь какой-то репозиторий, а потом тебе приходят письма "Я знаю что тебе нравится такой-то продукт, а я делаю альтернативный. Посмотри на него пожалуйста". Или "Я обнаружил что ты активен в таком то репозитори, а мы делаем альтернативный проект вот такой. Попробуй его". Это не личные письма, а полностью автоматизированные рассылаемые массово. Со временем их число растет.
- когда open source проект набирает популярность - это повод к нему присмотреться, там часто нужный код, нужная функциональность и отзывчивые к запросам разработчики. Как только проект получает венчурные инвестиции - это повод начинать искать альтернативы, потому что инвестиции в 99% случаях идут на создание облачного сервиса и разработчики приоритетно начинают развивать именно его, забрасывая или искажая имеющиеся функции к KPI переданным инвесторами
- цифровая суверенизация по которой идут некоторые страны в мире - это не то чтобы однозначно плохо, те кто ратуют и продвигают её могут быть правы со своей колокольни. Но важно не забывать что это губительно для той быстрой гонки в разработке что сейчас есть в мире и исключают многие интересные продукты из глобальных экосистем. К примеру, как бы ни были хороши российские ИИ продукты, в мире они представлены минимально
- многие принципиально правильные идеи вроде стандартов описания данных на RDF маргинализируются несмотря на опору на многие внедрения и институциональную основу потому что разработка ИИ, дата инженерия, ИИ инженерия воспринимает их исключительно как жесткое легаси и все стандарты исходящие от практиков игнорируют институциональные стандарты везде где это возможно
- корпоративные каталоги данных выглядят хорошей идеей и очень логичной, но правильнее сказать что казались. После попыток заменить их на идею data discovery видно что и она не особенно приживается. А теперь вместе со снижением стоимости внутренней разработки ПО еще и возникает ситуация когда сделать с помощью ИИ свой внутренний каталог данных/конвееров и тд. быстрее, дешевле и проще чем внедрить внешний. Похоже этот рынок будет быстро меняться
#thoughts
- Github - это крупнейшая платформа для разработки, хранения кода и тд. Это большой плюс. Минус в растущем объёме технологического спама основанного на активности на ней. Например, ты лайкаешь какой-то репозиторий, а потом тебе приходят письма "Я знаю что тебе нравится такой-то продукт, а я делаю альтернативный. Посмотри на него пожалуйста". Или "Я обнаружил что ты активен в таком то репозитори, а мы делаем альтернативный проект вот такой. Попробуй его". Это не личные письма, а полностью автоматизированные рассылаемые массово. Со временем их число растет.
- когда open source проект набирает популярность - это повод к нему присмотреться, там часто нужный код, нужная функциональность и отзывчивые к запросам разработчики. Как только проект получает венчурные инвестиции - это повод начинать искать альтернативы, потому что инвестиции в 99% случаях идут на создание облачного сервиса и разработчики приоритетно начинают развивать именно его, забрасывая или искажая имеющиеся функции к KPI переданным инвесторами
- цифровая суверенизация по которой идут некоторые страны в мире - это не то чтобы однозначно плохо, те кто ратуют и продвигают её могут быть правы со своей колокольни. Но важно не забывать что это губительно для той быстрой гонки в разработке что сейчас есть в мире и исключают многие интересные продукты из глобальных экосистем. К примеру, как бы ни были хороши российские ИИ продукты, в мире они представлены минимально
- многие принципиально правильные идеи вроде стандартов описания данных на RDF маргинализируются несмотря на опору на многие внедрения и институциональную основу потому что разработка ИИ, дата инженерия, ИИ инженерия воспринимает их исключительно как жесткое легаси и все стандарты исходящие от практиков игнорируют институциональные стандарты везде где это возможно
- корпоративные каталоги данных выглядят хорошей идеей и очень логичной, но правильнее сказать что казались. После попыток заменить их на идею data discovery видно что и она не особенно приживается. А теперь вместе со снижением стоимости внутренней разработки ПО еще и возникает ситуация когда сделать с помощью ИИ свой внутренний каталог данных/конвееров и тд. быстрее, дешевле и проще чем внедрить внешний. Похоже этот рынок будет быстро меняться
#thoughts
⚡6❤4🤔4✍1
На всякий случай регулярные напоминания:
- параллельно телеграм каналу я веду блог/рассылку на Substack begtin.substack.com и в последнее время я веду её куда регулярнее, как правила объединяя 3-4 поста из телеграм канала в одну публикацию там
- время от времени я публикую заметки на английском в LinkedIn, там меня довольно легко найти и пишу я в основном про Dateno
- хотя я пишу на многие темы тут, основная моя работа связана с проектами и продуктами по дата инженерии, а теперь и ИИ, но не все из того что я делаю анонсировано и публично, предпочитаю рассказывать не о планах, а о том что сделано. Остальное о чем я пишу - это скорее хобби чем работа. Например это все что касается цифровой архивации. Очень важное дело и очень безденежное
- параллельно телеграм каналу я веду блог/рассылку на Substack begtin.substack.com и в последнее время я веду её куда регулярнее, как правила объединяя 3-4 поста из телеграм канала в одну публикацию там
- время от времени я публикую заметки на английском в LinkedIn, там меня довольно легко найти и пишу я в основном про Dateno
- хотя я пишу на многие темы тут, основная моя работа связана с проектами и продуктами по дата инженерии, а теперь и ИИ, но не все из того что я делаю анонсировано и публично, предпочитаю рассказывать не о планах, а о том что сделано. Остальное о чем я пишу - это скорее хобби чем работа. Например это все что касается цифровой архивации. Очень важное дело и очень безденежное
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
👍5❤🔥1❤1
We The People свежий открытый проект по мониторингу лоббизма в США, отслеживающий по открытым источникам расходы крупных компания на лоббизм, их контракты с гос-вом, патенты и много другое. Проект с открытым исходным кодом, охватывает 11 секторов экономики, всех сенаторов и конгрессменов, 2.6 триллионов долларов контрактов и множество других значимых объектов гражданского интереса.
Сделан с помощью кодирующего ИИ ассистента, включает возможность делать промпты с помощь ИИ чат бота прямо на сайте
И с открытым кодом https://github.com/Obelus-Labs-LLC/WeThePeople под AGPL
Пока малоизвестный, но выглядит как реинкарнация общественных проектов по прозрачности государства.
Можно сказать что это новое поколение таких проектов. Для США такое реализовать было проще всего так как очень много открытых источников данных, но это не значит что для других стран такое или близкое по идеологии нельзя реализовать. Важно что стоимость такой разработки резко снизилась. Теперь самой сложной задачей будет не собрать все и упаковать в один продукт, а получить сами данные на которых можно такое собрать.
#opendata #governmenttransparence #opengovernment #opensource
Сделан с помощью кодирующего ИИ ассистента, включает возможность делать промпты с помощь ИИ чат бота прямо на сайте
И с открытым кодом https://github.com/Obelus-Labs-LLC/WeThePeople под AGPL
Пока малоизвестный, но выглядит как реинкарнация общественных проектов по прозрачности государства.
Можно сказать что это новое поколение таких проектов. Для США такое реализовать было проще всего так как очень много открытых источников данных, но это не значит что для других стран такое или близкое по идеологии нельзя реализовать. Важно что стоимость такой разработки резко снизилась. Теперь самой сложной задачей будет не собрать все и упаковать в один продукт, а получить сами данные на которых можно такое собрать.
#opendata #governmenttransparence #opengovernment #opensource
❤8🔥7❤🔥3🗿1
Полезное чтение про данные, технологии и не только:
Тексты для обдумывания
- A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI одна из немногих попыток переосмыслить подход к открытым данным в эпоху генеративного ИИ. Тексту уже почти 2 года, его авторы когда-то описывали концепцию 3-й волны открытых данных, а теперь пытаются нащупать основу для 4-й. С одной стороны это про полезный взгляд на мир, с другой стороны он скорее смотрит с регуляторной, а не с инженерной практики.
- Can AI Strengthen Policy Dialogue? Lessons from Building ReguLens рассказ про ReguLens, инструмент оценки регуляторных документов с помощью ИИ. Сам инструмент пока представлен только этим текстом и скриншотами и позиционируется как помощник специалиста, а не автономный агент. Достаточно очевидно что таким подходом очень скоро будут оценивать разные международные рейтинги в которых анализируется национальное регулирование.
Про ИИ
- Introducing Muse Spark: Scaling Towards Personal Superintelligence новая ИИ модель от Meta, в этот раз без открытого кода и похоже что бренд Llama пошел в утиль, а к этой модели надо присмотреться. Хотя выбирая между открытыми и закрытыми моделями, открытые предпочтительнее, если он немного, а не сильно хуже.
Сугубо технологическое
- Announcing General Availability of ClickHouse Full-text Search в Clickhouse появился/существенно обновился полнотекстовый поиск. Надо как можно скорее проверять и смотреть можно ли с его помощью заменить поиск в других продуктах. Использовать его вместо эластика в первую очередь
- Why I'm replacing Polars with DuckDB автор пишет про миграцию с Polars на DuckDB, текст короткий, но отражает и мои впечатления. Качество разработки у DuckDB существенно выше.
- profiling-explorer инструмент для визуализации файлов pstats при отладке приложений на Python. Полезный для отладки серверных и пользовательских приложений. Простая штука, хорошо дополняющая работу с profiling.tracing в Python
#opendata #ai #datatools #readings
Тексты для обдумывания
- A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI одна из немногих попыток переосмыслить подход к открытым данным в эпоху генеративного ИИ. Тексту уже почти 2 года, его авторы когда-то описывали концепцию 3-й волны открытых данных, а теперь пытаются нащупать основу для 4-й. С одной стороны это про полезный взгляд на мир, с другой стороны он скорее смотрит с регуляторной, а не с инженерной практики.
- Can AI Strengthen Policy Dialogue? Lessons from Building ReguLens рассказ про ReguLens, инструмент оценки регуляторных документов с помощью ИИ. Сам инструмент пока представлен только этим текстом и скриншотами и позиционируется как помощник специалиста, а не автономный агент. Достаточно очевидно что таким подходом очень скоро будут оценивать разные международные рейтинги в которых анализируется национальное регулирование.
Про ИИ
- Introducing Muse Spark: Scaling Towards Personal Superintelligence новая ИИ модель от Meta, в этот раз без открытого кода и похоже что бренд Llama пошел в утиль, а к этой модели надо присмотреться. Хотя выбирая между открытыми и закрытыми моделями, открытые предпочтительнее, если он немного, а не сильно хуже.
Сугубо технологическое
- Announcing General Availability of ClickHouse Full-text Search в Clickhouse появился/существенно обновился полнотекстовый поиск. Надо как можно скорее проверять и смотреть можно ли с его помощью заменить поиск в других продуктах. Использовать его вместо эластика в первую очередь
- Why I'm replacing Polars with DuckDB автор пишет про миграцию с Polars на DuckDB, текст короткий, но отражает и мои впечатления. Качество разработки у DuckDB существенно выше.
- profiling-explorer инструмент для визуализации файлов pstats при отладке приложений на Python. Полезный для отладки серверных и пользовательских приложений. Простая штука, хорошо дополняющая работу с profiling.tracing в Python
#opendata #ai #datatools #readings
❤3⚡3👍2🔥2
Полезные ссылки про exploratory data analysis с открытым кодом:
- pygwalker инструмент для Jupyter Notebook для исследования датафреймов, интегрирован с Graphic Walker опенсорсным аналогом Tableau
- ydata-profiling инструмент для анализа данных, работает как код для Python с экспортом в интерактивный HTML или в Jupyter Notebook. Умеет работать с командной строки
- Rath еще один аналог Tableau от той же команды что и pygwalker. В том числе умеет подготавливать данные
- sweetviz еще один, отчасти упрощенный визуализатор датафреймов, тоже умеет создавать HTML или интегрироваться в тетрадки
- dataprep давно не обновлявшийся инструмент для подготовки данных в режиме low code.
- cleanvision инструмент анализа наборов данных с изображениями, умеет находить разные ошибки вроде дубликатов и изображений плохого качества
- openrefine давний инструмент с богатой экосистемой расширений для чистки и обогащения данных и просмотра датасетов для этих задач. Не дает аналитику, но дает возможность приводить данные в порядок
- kangas инструмент для визуального анализа наборов данных с изображениями
- marmot малоизвестный каталог для корпоративных данных
#opensource #data #datatools #eda
- pygwalker инструмент для Jupyter Notebook для исследования датафреймов, интегрирован с Graphic Walker опенсорсным аналогом Tableau
- ydata-profiling инструмент для анализа данных, работает как код для Python с экспортом в интерактивный HTML или в Jupyter Notebook. Умеет работать с командной строки
- Rath еще один аналог Tableau от той же команды что и pygwalker. В том числе умеет подготавливать данные
- sweetviz еще один, отчасти упрощенный визуализатор датафреймов, тоже умеет создавать HTML или интегрироваться в тетрадки
- dataprep давно не обновлявшийся инструмент для подготовки данных в режиме low code.
- cleanvision инструмент анализа наборов данных с изображениями, умеет находить разные ошибки вроде дубликатов и изображений плохого качества
- openrefine давний инструмент с богатой экосистемой расширений для чистки и обогащения данных и просмотра датасетов для этих задач. Не дает аналитику, но дает возможность приводить данные в порядок
- kangas инструмент для визуального анализа наборов данных с изображениями
- marmot малоизвестный каталог для корпоративных данных
#opensource #data #datatools #eda
GitHub
GitHub - Kanaries/pygwalker: PyGWalker: Turn your dataframe into an interactive UI for visual analysis
PyGWalker: Turn your dataframe into an interactive UI for visual analysis - Kanaries/pygwalker
👍8✍5🔥5
Forwarded from Национальный цифровой архив
Ведомости пишут что Более 50% библиотечных фондов может быть изъято при буквальной трактовке законов из за закона об иноагентах и из-за признания многих организаций как нежелательных.
Пора ли начинать архивировать такую литературу или исходим из того что она не исчезает, а только недоступна в России? Но в других странах, не-российских онлайн библиотеках и в пиратских библиотеках эта литература останется?
Практически все эти книги находятся под авторским правом и их распространение почти наверняка нарушит копирайты и многие архивные проекты будут не готовы хранить такие материалы именно по причине нарушения авторского права и рисков блокировки в России.
#questions #digitalpreservation
Пора ли начинать архивировать такую литературу или исходим из того что она не исчезает, а только недоступна в России? Но в других странах, не-российских онлайн библиотеках и в пиратских библиотеках эта литература останется?
Практически все эти книги находятся под авторским правом и их распространение почти наверняка нарушит копирайты и многие архивные проекты будут не готовы хранить такие материалы именно по причине нарушения авторского права и рисков блокировки в России.
#questions #digitalpreservation
Ведомости
Более 50% библиотечных фондов может быть изъято при буквальной трактовке законов
Издатели книг предложили механизмы снижения правовых рисков для отрасли
😱11🕊5👍2🙏1
Я тут, было дело, написал для самого себя лонгрид про ограничения интернета в России, потом перечитал его и понял что ничего нового не скажу. А если кратко, то можно на это смотреть как на меру антиэкономическую, как и многие другие меры снятия льгот, повышения налогов и тд.
Я понимаю что у правительства много идей по приданию динамики экономике России, но может быть главная идея была бы в том чтобы поотменять все запретительное, ограничивающее и обременяющее регулирование как минимум последних лет ?
Там список длинный получится. Но, как я много раз упоминал, сейчас политические причины любого регулирования доминируют над экономическими. Экономике явно будет хуже, из этого и надо строить свои личные и семейные стратегии того чем и где заниматься в ближайшие годы.
#thoughts
Я понимаю что у правительства много идей по приданию динамики экономике России, но может быть главная идея была бы в том чтобы поотменять все запретительное, ограничивающее и обременяющее регулирование как минимум последних лет ?
Там список длинный получится. Но, как я много раз упоминал, сейчас политические причины любого регулирования доминируют над экономическими. Экономике явно будет хуже, из этого и надо строить свои личные и семейные стратегии того чем и где заниматься в ближайшие годы.
#thoughts
Ведомости
Песков: у правительства много идей по приданию динамики экономике России
Кремль не будет раскрывать закрытую часть совещания у Путина
😢10❤8👍3✍2🔥1
Полезные ссылки про данные, технологии и не только:
- Arckit набор команд для ИИ и фреймворк для проектирования архитектуры корпоративных информационных систем. Выглядит очень даже неплохо, надо поизучать. Интегрируется с разными ИИ агентами, включает много гайдов и примеров
- DuckLake v1.0 вышел production-ready DuckLake, однозначно надо пробовать и уже есть задачи на которых можно это делать. В общем-то озеро данных на Parquet файлах и SQL поверх - это выглядит как все более хорошая идея для много чего
- DuckDB 1.5.2 а заодно обновился движок DuckDB, теперь еще производительнее и с поддержкой новой онлайн оболочки и лучшей поддержки геоданных (тип GEOMETRY в расширении Iceberg)
- Dagster Pricing Update is Beyond Nuts пользователь на Reddit жалуется о том что Dagster резко подняли цену на их облачный сервис. Большинство реагируют в стиле, "ставьте же себе версию с открытым кодом", но в целом я могу сказать что полагаться на чужие внешние сервисы для обработки своих данных надо с большой осторожностью. Open source продукты тут в большем фаворе
#opensource #data #datatools #dataengineering
- Arckit набор команд для ИИ и фреймворк для проектирования архитектуры корпоративных информационных систем. Выглядит очень даже неплохо, надо поизучать. Интегрируется с разными ИИ агентами, включает много гайдов и примеров
- DuckLake v1.0 вышел production-ready DuckLake, однозначно надо пробовать и уже есть задачи на которых можно это делать. В общем-то озеро данных на Parquet файлах и SQL поверх - это выглядит как все более хорошая идея для много чего
- DuckDB 1.5.2 а заодно обновился движок DuckDB, теперь еще производительнее и с поддержкой новой онлайн оболочки и лучшей поддержки геоданных (тип GEOMETRY в расширении Iceberg)
- Dagster Pricing Update is Beyond Nuts пользователь на Reddit жалуется о том что Dagster резко подняли цену на их облачный сервис. Большинство реагируют в стиле, "ставьте же себе версию с открытым кодом", но в целом я могу сказать что полагаться на чужие внешние сервисы для обработки своих данных надо с большой осторожностью. Open source продукты тут в большем фаворе
#opensource #data #datatools #dataengineering
ArcKit
ArcKit - Enterprise Architecture Governance & Vendor Procurement
67 AI-assisted commands for systematic, compliant architecture governance following UK Government standards.
👍4🔥2
Forwarded from Цифровой архив госфинансов и госуправления
Датасет Цифрового архива: потребление семьями рабочих и служащих продуктов питания на одного члена семьи за год в килограммах в 1940-1958 г.
Мы уже публиковали сведения из справочника «Бюджеты рабочих, служащих и колхозников РСФСР. Статистический сборник» — о расходах рабочих и служащих на непродовольственные товары. Сегодня расскажем о продуктах питания для тех же категорий потребителей.
Так, в 1958 году в большинстве категорий семей самым востребованным продуктом оказались яйца: их тогда приходилось до 184,9 кг на человека в год (в семьях врачей). И только семьи рабочих совхозов употребили в 1958 больше молока, чем яиц — 201,6 кг на члена семьи в год.
Больше интересных наблюдений доступны в датасете «Потребление семьями рабочих и служащих продуктов питания на одного члена семьи за год в килограммах в 1940-1958 г.»
#датасет #статистика #ЦАГГ #история #РСФСР #продовольствие #csv
Мы уже публиковали сведения из справочника «Бюджеты рабочих, служащих и колхозников РСФСР. Статистический сборник» — о расходах рабочих и служащих на непродовольственные товары. Сегодня расскажем о продуктах питания для тех же категорий потребителей.
Так, в 1958 году в большинстве категорий семей самым востребованным продуктом оказались яйца: их тогда приходилось до 184,9 кг на человека в год (в семьях врачей). И только семьи рабочих совхозов употребили в 1958 больше молока, чем яиц — 201,6 кг на члена семьи в год.
Больше интересных наблюдений доступны в датасете «Потребление семьями рабочих и служащих продуктов питания на одного члена семьи за год в килограммах в 1940-1958 г.»
#датасет #статистика #ЦАГГ #история #РСФСР #продовольствие #csv
✍6❤5😱3👍2
Mozilla Thunderbolt корпоративный ИИ ассистент с открытым кодом от Mozilla. Судя по анонсу доступен в виде открытого кода прямо сейчас и можно записаться в лист ожидания. В основе продукта лежит Haystack от deepset.
Во всех анонсах и материалах явно видны акценты на европейский рынок, суверенный ИИ (в контексте ЕС) и решении на принципах local-first, а то есть можно выбрать какой LLM сервис использовать, облачный или локальный и с чем интегрироваться.
Не первый и не последний продукт такого рода, здесь интересно что происходит он изнутри Mozilla.
Чтобы развернуть его нужно сейчас много усилий, тем кто не хочет возиться со сложными конфигурациями проще будет дождаться готовых сборок.
Ещё удивительно что нет никаких демо, ни онлайн, ни в видео. Ну, можно и подождать
#opensource #ai #mozilla
Во всех анонсах и материалах явно видны акценты на европейский рынок, суверенный ИИ (в контексте ЕС) и решении на принципах local-first, а то есть можно выбрать какой LLM сервис использовать, облачный или локальный и с чем интегрироваться.
Не первый и не последний продукт такого рода, здесь интересно что происходит он изнутри Mozilla.
Чтобы развернуть его нужно сейчас много усилий, тем кто не хочет возиться со сложными конфигурациями проще будет дождаться готовых сборок.
Ещё удивительно что нет никаких демо, ни онлайн, ни в видео. Ну, можно и подождать
#opensource #ai #mozilla
👌4👍3
Вредные советы по продолжению ограничений Рунета:
- Обязательно надо заблокировать WeeChat. Во первых никто в Китае возмущаться не будет, это мессенжер который как раз активно мешает не китайцам его использовать, а во вторых это сильно попортит коммуникации российских импортеров из Китая и их поставщиками так что это хороший вариант, выражаясь образно, для ускорения отрицательной динамики роста экономики.
- Ввести квоты для компаний по минимальному использованию Max'а. Обязать все компании сдавать дополнительную отчетость по всем сотрудникам с их номерами телефонов и ввести мониторинг того у кого из них установлен Max и какую еженедельную активность они там ведут. При недостижении определенных квот, например, не менее чем 80% установлен Max и сотрудники отправляют не менее 100 сообщений в неделю, вводить штрафы. Очень хорошо сработает для ещё большего озлобления граждан и бизнеса.
- Цифровая таможня. Не в том смысле что оцифровка классической таможни, а в том чтобы доступ ко всем российским ресурсам (в сетях относящихся к РФ как стране) был бы только через специальный шлюз с авторизацией через Госуслуги и оплатой для неграждан. Зачем? Во первых до сих пор рунет недостаточно изолирован по мнению некоторых, во вторых сетевая нейтральность уже никого не волнует и в третьих бюджет то надо пополнять. И это альтернатива блокировкам VPN.
#мрачныйюмор #humour #russia
- Обязательно надо заблокировать WeeChat. Во первых никто в Китае возмущаться не будет, это мессенжер который как раз активно мешает не китайцам его использовать, а во вторых это сильно попортит коммуникации российских импортеров из Китая и их поставщиками так что это хороший вариант, выражаясь образно, для ускорения отрицательной динамики роста экономики.
- Ввести квоты для компаний по минимальному использованию Max'а. Обязать все компании сдавать дополнительную отчетость по всем сотрудникам с их номерами телефонов и ввести мониторинг того у кого из них установлен Max и какую еженедельную активность они там ведут. При недостижении определенных квот, например, не менее чем 80% установлен Max и сотрудники отправляют не менее 100 сообщений в неделю, вводить штрафы. Очень хорошо сработает для ещё большего озлобления граждан и бизнеса.
- Цифровая таможня. Не в том смысле что оцифровка классической таможни, а в том чтобы доступ ко всем российским ресурсам (в сетях относящихся к РФ как стране) был бы только через специальный шлюз с авторизацией через Госуслуги и оплатой для неграждан. Зачем? Во первых до сих пор рунет недостаточно изолирован по мнению некоторых, во вторых сетевая нейтральность уже никого не волнует и в третьих бюджет то надо пополнять. И это альтернатива блокировкам VPN.
#мрачныйюмор #humour #russia
1🔥5❤2👍2🤩2😁1