Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Для тех кто ищет бесплатные и открытые инструменты для работы с данными, любопытный инструмент VDK (Versatile Data Kit) от Vmware [1].

Это малоизвестная альтернатива Meltano или Dagster для извлечения и обработки данных. Чем-то похоже на dbt, но не такое проработанное.

Построено вокруг обработки данных в SQL источниках, ИМХО, достоинством может быть только большая простота чем у dbt в связке с одним из дата оркестраторов. Написано всё на Python.

Не могу сказать что я до конца понимаю в чём магия именно этого инструмента, но команда у него активная, код активно разрабатывается, документацию пишут, может быть и вырастет что-то неожиданно полезное.

P.S. Я стараюсь не лениться и когда нахожу какой-то инструмент который имеет открытый код на Github то вношу его в один из личных списков таких как: Data catalogs, Data pipelines, Data transformation, Data tools и так далее. Если хотите их видеть то они собраны на странице [2] и можно подписаться на то чтобы видеть их обновления зафолловив меня на Github

Ссылки:
[1] https://github.com/vmware/versatile-data-kit
[2] https://github.com/ivbeg?tab=stars

#opensource #datatools #datengineering
Многие считают что слежка компаний за пользователями не имеет значения. "За всеми следят, ничего не случится если последят ещё и за мной" (с). Это очень распространённый аргумент среди тех кто не понимает как развиваются технологии.

Тем временем компанию Adobe поймали на том что они следят за артистами чтобы обучать свой ИИ [1].

Причём сделано это так что включено по умолчанию и чтобы запретить это надо зайти в свой профиль и отключить эту галочку.

Будем ждать новых подобных конфликтов в этом году.

Главное помнить что если за вами ещё не следят это не значит что вас ещё не хотят заменить роботом.

Ссылки։
[1] https://www.fastcompany.com/90831386/artists-accuse-adobe-tracking-design-ai

#ai #privacy
В рубрике полезных инструментов с открытым кодом для работы с данными Memphis [1], продукт по обработке очередей сообщений по аналогии с RabbitMQ и, частично, Kafka. Продукту как продукту всего год, при этом у него весьма обстоятельная документация, много пользователей и активная команда разработки с детальной дорожной картой. Судя по качеству и скорости проработки, явно уже нашли или ищут инвестиции под облачный сервис [2].

Я бы сказал что для опенсорс проекта они очень хорошо себя подают(продают), посмотреть точно стоит, даже при то что не все функции уже реализованы.

Ссылки:
[1] https://memphis.dev
[2] https://www.crunchbase.com/organization/memphis-dev

#opensource #datatools #dataengineering
В Новая Газета Европа подробный текст про исследование отъезда российских разработчиков из РФ на основе изменений в локации в аккаунтах на Github [1]. Метод неидеальный, поскольку многие меняют локацию не уезжая, а многие уехавшие не меняют, но вполне достойный внимания в контексте сравнения с другими странами.

И тут я не могу не прокомментировать что мотивировать ИТ специалистов возвратом в Россию оплатой перелёта и тд. это довольно сомнительная затея. На самом деле у Минцифры нет инструментов удержания профессионалов позитивной или негативной мотивацией. Для позитивной мотивации доверие к российскому гос-ву, скажу мягко, на очень невысоком уровне. Даже обсуждаемая "бронь для ИТшников" не имеет нормативного статуса, а если бы и имело, то все прекрасно знают что законы могут поменять очень быстро. А негативная мотивация через повышение НДФЛ, будет либо обходится, либо разработчики и другие ИТ люди активно поувольняются из российских компаний.

Я обо всём этом уже много раз писал и лично я считаю что если Минцифры и все остальные захотят реально сохранить ИТ рынок в России, то надо не привозить ИТ специалистов обратно и не повышать налоги, а снижать и ещё раз снижать налоги.
1. Снизить налоговую ставку для ИТшников нерезидентов, сейчас 30%, до текущей ставки в 13% внутри страны. Почему? Чтобы российские ИТ компании чьи специалисты уехали сохранили бы своих сотрудников.
2. Привязать налоговую ставку к квалификации и местонахождению. Продумать механизм подтверждения квалификации. С джуниоров 13%, с миддлов 10% и сеньёров 7% например. Для тех кто остаётся российскими резидентами. Привязать к сдаче квалификационных экзаменов и тд. В общем хорошенько продумать как именно.
3. Снизить до 0% налоги для ИТ компаний работающих только не на российским рынке (только на экспорт) и с сотрудниками. Почему? Чтобы дать удобную юрисдикцию тем кто работает на зарубежные рынки. Работа таких компаний сейчас сильно ограничена, они, в основном, уже почти все убежали

Этого всего тоже недостаточно, но хоть что-то.

Ссылки։
[1] https://novayagazeta.eu/articles/2023/01/11/kod-na-iskhode

#policies #itmarket
Разные интересные свежие проекты с открытым кодом про данные и ИИ։
- gpt_index [1] библиотека для Python. На вход принимает коллекцию документов и на их основе даёт возможность делать к ним запросы естественным языком. Требует ключ для доступа к API OpenAI, использует модель text-davinci-003

- OpenAI Cookbook [2] коллекция рецептов по работе с продуктами/API OpenAI. Много примеров в формате Jupyter Notebook

- Papers we love [3] довольно давний открытый репозиторий научных статей про данные, ML, ИИ и всё что вокруг и рядом

- Lama Cleaner [4] довольно необычная штука позволяющая убирать закрашенные части с изображения. Например, если в паинтере нарисовать линии поверх фотографии то с помощью Lama Cleaner можно исходное изображение восстановить. Или не совсем исходное если было закрашено что-то целиком.

- AFFiNE [5] обещают альтернативу Miro и Notion с открытым кодом. Делает какая-то большая китайская команда, непонятно откуда инвестиции, но делают как-то очень бодро. Хотя и не видно пока возможностей аналогичных Miro, только неполная альтернатива Notion.

Ссылки։
[1] https://github.com/jerryjliu/gpt_index
[2] https://github.com/openai/openai-cookbook
[3] https://github.com/papers-we-love/papers-we-love
[4] https://github.com/Sanster/lama-cleaner
[5] https://affine.pro/

#opensource #ai #datatools
В прошлом году я сильно сократил всю активность связанную с общением с госорганами и вот только ходил на круглый стол в Мосгордуму посвящённую системам слежки.
Forwarded from РОСС
👁 Как за нами следят? Видео на 10 мин со слушаний в Мосгордуме

https://youtu.be/v3mrR7YfMwU

Москва занимает 13-е место в мире по количеству камер видеонаблюдения. Но кто именно регулирует систему распознавания лиц? Как происходит обработка полученной информации? И давали ли москвичи свое согласие на сбор их персональных данных?

Об этом и многом другом мы говорили 15 декабря 2022 года на круглом столе в Мосгордуме. Экспертами выступили депутаты, социологи, специалисты в области компьютерного зрения, вендоры и сотрудники исследовательских институтов. Спасибо депутату Максиму Круглову и фракции Яблоко в Мосгордуме за инициативу и организацию слушаний по этому важному вопросу на стыке новых технологий, безопасности и демократии.

Главные тезисы с нашего круглого стола — в видео по ссылке.
В рубрике открытых продуктов для работы с данными, в первую очередь с открытыми данными.

Datalad [1] - библиотека и утилита командной строки с открытым кодом для управления данными по аналогии с управлением кодом, через git и git подобные системы. Использует внутри git и git-anned и позволяет։
- отслеживать изменения в данных
- возвращаться к предыдущим версиям
- сохранять прослеживаемость данных
- обеспечивать полную воспроизводимость

Кроме того умеет создавать статистические html сайты с каталогами данных [2] и сами данные можно скачивать с помощью командной строки и клонировать, по аналогии с клонированием репозиториев кода.

Как можно догадаться, изначально создавался этот движок для работы с научными данными и в примерах его использования чаще фигурируют именно такие наборы данных. Делают его активно с 2015 года, уже 8 лет.
Всё это время он развивался на гранты Германского министерства образования и науки и Национального научного фонда США.

Проект полезный для тех кто работает с исследовательскими данными и публикует данные собственных исследований.

И, в качестве напоминания, аналогичный подход Git для данных также реализуется в таких проектах как DVC (Data version control) [3], Dolt [4] и lakeFS [5].

Ссылки։
[1] https://www.datalad.org/
[2] https://datalad.github.io/datalad-catalog/
[3] https://dvc.org/
[4] https://github.com/dolthub/dolt
[5] https://lakefs.io/

#datatools #opensource #opendata
В рубрике как устроены научные репозитории данных, проект DataOne [1]. Это каталог и сервис поиска данных и организации собственных каталогов данных для исследовательских центров о Земле (Earth sciences), по таким темам как։ метеорология, изучение океанов, гидрография, геология, биология, география и другие. Проект изначально был профинансирован Национальным научным фондом США на $21 миллион на 4 года с 2009 по 2013, получателем гранта был Университет Нью Мексико, сейчас он называется Университет Калифорнии, Санта Барбара. Этот университет и сейчас развивает этот проект и связанные с ним продукты.

В общей сложности DataOne агрегирует данные из более чем 60 порталов, часть из которых работают на его же движке в что и DataOne. В проекте сочетается его модель существования как открытого проекта и коммерческие сервисы через продукт для университетов по созданию հօsted repository когда сотрудники университета могут гибко управлять своим каталогом онлайн.

Важная особенность в том что собираются не только данные, но и метаданные которые специфичны для геонаук.

Например։
- методы исследования
- перечень исследователей с их идентификаторами (ORCID)
- георегион(-ы)
- временной диапазон
- информация о проекте
- источник финансирования

А также детальные метаданные по каждому полю в таблицах CSV, XML, XLS и др.

Это далеко не единственный портал данных в науках о Земле, существует немало национальных и тематических порталов данных.

Ссылки։
[1] https://dataone.org
[2] https://search.dataone.org/data

#opendata #datasets #dataportals #openaccess #openscience
Интересные стартапы по дата инженерии։
- Seek AI [1] позиционируют себя как Generative AI for Data. Ты формулируешь запрос/вопрос на аналитику общими словами, а они используют ИИ для генерации ответа. Привлекли $7.5m инвестиций в этом январе [2], очень интересно что будет их итоговым продуктом потому что общедоступной информации маловато.

- Metaplane [3] платформа для мониторинга данных включая базы данных, трубы данных, источники и тд. Позиционируют себя как Datadog for data. Позиционирование довольно грамотное, для облачной дата инфраструктуры это актуально начиная со средних размеров компаний. Привлекли $8.4m инвестиций в последнем раунде в этом январе [4]. Таких проектов всё больше, с разными акцентами и шансами на выживаемость. Делать аналог Datadog кажется вполне разумной затеей.

- XetData [5] ещё один проект Git для данных, с поддержкой версионности и git-подобного режима доступа к данным. Акценты делают на обучении моделей работы с данными, возможности исследования данных (data exploration) и на эффективной дедупликации данных с сильным сжатием оригинальных данных. Привлекли $7.5m инвестиций. Выглядят интересно, но это лишь ещё один проект "git for data" вроде тех о которых я писал недавно [7]. ИМХО, в этой области модель github'а не сработает, потому что код давно уже гораздо больше подходит под общественное достояние, а данные являются объектами монетизации. Скорее востребовано должна быть модель Gitlab для данных, с возможность делать свои инстансы бесплатно или за небольшие деньги и управлять хранилищем данных подключая разные опции. А сервисы вроде XetData или того же Dolt(-а) больше напоминают сервисы очень специализированного хостинга с монетизацией за гигабайт/терабайт и каналы доступа.

Ссылки։
[1] https://www.seek.ai
[2] https://www.seek.ai/press-01-11-23
[3] https://www.metaplane.dev
[4] https://www.metaplane.dev/blog/the-next-stage-of-metaplane
[5] https://xetdata.com
[6] https://xetdata.com/blog/2022/12/13/introducing-xethub/
[7] https://t.me/begtin/4532

#startups #data #dataquality #git #dataengineering
Свежее что почитать про данные

Measuring the value of data and data flows [1] любопытный документ от вышел от имени ОЭСР с подходами к оценке экономики данных, оценке значения данных и потоков данных. В основном основан он на экономике США, но упоминаются там и другие страны. Много цифр, графиков и оценок полезных для содержательных дискуссий.

European Research Data Landscape [2] результаты исследования в виде опроса учёных про инфраструктуру данных Евросоюза. Общая оценка что уровень использования и публикации данных довольно высокий и там же в исследовании есть рейтинг порталов научных данных по соответствию принципам FAIR. Этих порталов очень много! Основное что происходит - это ранее закрытые порталы открываются.

Semantic Media: Mapping Meaning on the Internet [3] свежая книга, платная, $18 про развитие semantic web и онтологий. Для тех кто не сталкивался, semantic web это довольно продвинутые, но сложные в изучении инструменты. Самая успешная практическая их адаптация - это Wikidata

Research in programming Wikidata [4] замечательная подборка курсов по тому как работать с Викидата, созданна командой Андрея Крижановского из Петрозаводского государственного университета. Есть и на русском языке [5]. Для тех кто хочет формировать интересные наборы данных там много практического SPARQL с примерами запросов.

Ссылки:
[1] https://www.oecd-ilibrary.org/science-and-technology/measuring-the-value-of-data-and-data-flows_923230a6-en
[2] https://op.europa.eu/en/publication-detail/-/publication/03b5562d-6a35-11ed-b14f-01aa75ed71a1/language-en
[3] https://www.wiley.com/en-us/Semantic+Media:+Mapping+Meaning+on+the+Internet-p-9781509542598
[4] https://en.wikiversity.org/wiki/Research_in_programming_Wikidata
[5] https://ru.wikiversity.org/wiki/%D0%9F%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%92%D0%B8%D0%BA%D0%B8%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85

#readings #data #opendata #wikidata #ontology #semanticweb
дарю идею совершенно безвозмездно (с)

Сделать аналог RSS читалки для телеграм каналов и, при желании, твиттера и мастодона который был бы исключительно про потребление инфы, а не для коммуникации. Специально для тех кто не пересылает и смешивать чтение и общение не хочет.

Зато сделать туда несколько важных фич։
1. Дайджестирование подписок. Иначе говоря, настраивать сгруппировывание постов от некоторых каналов сразу по n штук. Помогает читать чрезмерно частящие каналы
2. Спам фильтры. В некоторых телеграм каналах реклама уже за... раздражает. Нужны механизмы фильтрации по тегам или по ключевым словам и встроенные спам фильтры. На этом же можно монетизироваться. Спам фильтры можно [и нужно] вести централизованно.
3. Бьютификация контента. Удаление смайликов и тд.

Минус - экосистема телеграма вне контроля, поменяются правила и API и всё на... закончится.
Плюс - рынок точно есть, монетизация не конфликтует пока с монетизацией телеграма.

#ideas
К вопросу о том как искать данные, ключевой проект в этой области - это Google Dataset search [1] который до сих пор имеет статус исследовательского и "не вышел из инкубатора". Он всем хорош, например, использует разметку Dataset из Schema.org для идентификации наборов данных на сайтах и позволяет получать нужные данные быстро если владелец их разметил. Но у него есть системная проблема, она заключается в том что для наборов данных не работает ранжирование теми же методами что для других поисковых индексов, они редко ссылаются друг на друга. Так как определить данные по значимости при поиске? По ключевым словам? Поиск быстро "замусоривается"․ Что и произошло с ним в данном случае. Например, когда ищешь стат показатели по множеству запросов вылезают ссылки на коммерческий проект CEIC. Вроде такого [2], выдаётся первым на запрос "European statistics". Разметка на странице там есть, а вот содержания нет. Нет там и лицензий CC-BY, ни многого другого. Это типичная SEO страница для тех кто торгует данными. Это если мы ищем любые данные, не только бесплатные. А если сделаем фильтр на бесплатные и поищем "Russian statistics" то первым вылезет ссылка на набор данных Linkedin users in Russian Federation [3] сервиса NapoleonCat где нет никаких данных, только график картинкой.

Краткий вывод неутешителен, хороших поисковиков по данным сейчас нет. Задачи data discovery требуют больших усилий, с одной стороны, с другой это не рынок услуг, поскольку платить кому-то за целенаправленный поиск мало кто готов. Только рынок продуктов. Интересно когда появятся достойные альтернативы?

Ссылки:
[1] https://datasetsearch.research.google.com
[2] https://www.ceicdata.com/en/european-union/eurostat-trade-statistics-by-sitc-european-union-russia
[3] https://napoleoncat.com/stats/linkedin-users-in-russian_federation/2022/01/

#datadiscovery #datasets #opendata #searchengines #google
Как я обещал публикую результаты опроса по поводу организации Дня открытых данных в Москве в 2023 году. Всего опрошенных 100 человек, из опроса можно узнать что։
- большинство за его проведения
- 11 потенциальных докладчиков, плюс ещё несколько приглашённых, в итоге до 14-15
- большинство интересуют лекции и разборы кейсов
- ждут доклады средней сложности
- большинство специалисты по работе с данными и исследователи
- ключевые темы которые большинству интересны։
— где искать данные
— открытые государственные данные
— open source инструменты на данных

Результаты очень хорошие, видно что многим не хватало дня открытых данных в прошлом году.

Итого։ мы начинаем планировать ОДД, предварительный ориентир 4 марта, пока склоняемся к формату того чтобы сделать онлайн конференцию + митап вживую на следующий день. Докладчиков не так много поэтому пока непонятно нужен ли программный комитет, но если есть кого в него порекомендовать напишите мне в личку. Рекомендовать можно кого-то кроме самого себя.

Напомню что День открытых данных (ODD) - это ежегодные мероприятия происходящие одновременно по всему миру в форматах митапов, конференций, хакатонов и других мероприятий. Последний раз в России он проходил в 2021 году. Ранее на эти мероприятия мы активно приглашали российских чиновников и представителей бизнеса, сейчас мы возвращаемся к изначальному формату проведения сообществом ради сообщества.

И, конечно, если Вы захотите организовать локальный митап/хакатон/другое событие в своём городе в России, то напишите нам на infoculture@infoculture.ru или мне в личку о том какая нужна помощь, если она нужна.

#opendataday #opendata #events