Ivan Begtin
7.98K subscribers
1.83K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Если говорить про рынки основанные на данных, то 2022 год - это, безусловно, год Generative AI. Многие уже видели подборку продуктов в этой области [1] и это далеко не все продукты. Следующий год будет проходить под девизом "какую следующую креативную профессию мы собираемся [уничтожить] автоматизировать?".

На втором уровне этого рынка стремительно растёт вопрос на данные которыми можно обучать языковые модели, генеративные сервисы и иные многочисленные продукты.

Многие нынешние лидеры рынков проверки орфографии, поиска, чат-ботов, личных помощников, сервисов электронной почты и тд. столкнутся с необходимостью ожесточенной конкуренции с новичками, дающими лучший сервис с помощью ИИ.

P.S․ В данном случае ИИ это уже не только машинное обучение, но именно огромные языковые модели.

Ссылки։
[1] https://t.co/QiNl7VP8oI

#ai #itmarket #endoftheyear
В Новая Газета Европа подробный текст про исследование отъезда российских разработчиков из РФ на основе изменений в локации в аккаунтах на Github [1]. Метод неидеальный, поскольку многие меняют локацию не уезжая, а многие уехавшие не меняют, но вполне достойный внимания в контексте сравнения с другими странами.

И тут я не могу не прокомментировать что мотивировать ИТ специалистов возвратом в Россию оплатой перелёта и тд. это довольно сомнительная затея. На самом деле у Минцифры нет инструментов удержания профессионалов позитивной или негативной мотивацией. Для позитивной мотивации доверие к российскому гос-ву, скажу мягко, на очень невысоком уровне. Даже обсуждаемая "бронь для ИТшников" не имеет нормативного статуса, а если бы и имело, то все прекрасно знают что законы могут поменять очень быстро. А негативная мотивация через повышение НДФЛ, будет либо обходится, либо разработчики и другие ИТ люди активно поувольняются из российских компаний.

Я обо всём этом уже много раз писал и лично я считаю что если Минцифры и все остальные захотят реально сохранить ИТ рынок в России, то надо не привозить ИТ специалистов обратно и не повышать налоги, а снижать и ещё раз снижать налоги.
1. Снизить налоговую ставку для ИТшников нерезидентов, сейчас 30%, до текущей ставки в 13% внутри страны. Почему? Чтобы российские ИТ компании чьи специалисты уехали сохранили бы своих сотрудников.
2. Привязать налоговую ставку к квалификации и местонахождению. Продумать механизм подтверждения квалификации. С джуниоров 13%, с миддлов 10% и сеньёров 7% например. Для тех кто остаётся российскими резидентами. Привязать к сдаче квалификационных экзаменов и тд. В общем хорошенько продумать как именно.
3. Снизить до 0% налоги для ИТ компаний работающих только не на российским рынке (только на экспорт) и с сотрудниками. Почему? Чтобы дать удобную юрисдикцию тем кто работает на зарубежные рынки. Работа таких компаний сейчас сильно ограничена, они, в основном, уже почти все убежали

Этого всего тоже недостаточно, но хоть что-то.

Ссылки։
[1] https://novayagazeta.eu/articles/2023/01/11/kod-na-iskhode

#policies #itmarket
Я тут было подумал написать свежий текст о том что не так с госинформатизацией и с "Гостехом-в-вакууме" как одним из явлений этой же природы в России. Чуть менее чем год назад я тезисно об этом писал [1] и один из тезисов был то что в России много лет информатизация государства шла по пути технологической унитаризации. Это такое, в каком-то смысле уникальное российское явление о котором я писал ещё в 2011 году, но почти все мои тексты того времени куда подевались. Его суть в том что такое обилие глобальных федеральных государственных информационных систем (далее - ФГИС), совершенно монструозных по масштабу, потраченным деньгам и функциям, всё это следствие неявно обозначенной стратегии "поджирания полномочий" федеральными властями в отношении региональных и муниципальных властей.

ФГИС с которыми были и сейчас обязаны работать регионы и муниципалитеты чаще всего создавались по пограничной зоне ответственности федеральной и региональной власти, но, при этом под федеральным органом органом власти осуществляющим регулирование. Так создавалась единая система в сфере закупок, так создаётся единая система в сфере торгов , так создана ЕГР ЗАГС, Электронная школа и ещё многое другое. Только Москва всегда была исключением и московские чиновники ещё давно, при Лужкове, единственные на моей памяти говорили про то что некоторые федеральные законы не соответствуют Конституции РФ.

Такую централизацию всегда можно преподносить как благо, как возможность получить гарантированный сервис не зависящий от региона. Это федеральные власти и делали всё это время. Такие ФГИС закреплялись надолго федеральными законами и выдачей субсидий на информатизацию из федерального бюджета. Обычно происходило выведение из эксплуатации региональной информационной системы, например, системы закупок и переход региональных и муниципальных чиновников на ФГИС.

Часто, те кто писали про коррупцию при создании таких ФГИС не вполне понимали природу самого этого явления. То что при их создании коррупция может быть, да кто бы сомневался. Но важнее что их предназначение было изначально в централизации власти.

И власть это данные и данные это власть. Централизация данных в ФГИСах привела к тому что многие региональные власти не обладают полнотой доступа к собственным данным. Кое-где, например, в тех же госзакупках изначально вопрос открытости данных был необходим именно для доступа регионов. По этой же причине эти данные всё ещё сложно до конца закрыть, как бы кое-кто кое-где этого бы ни хотел. Но многие другие централизованно собираемые данные региональным властям доступны ограничено. Федеральная власть ведёт себя как некоторые корпорации и некоторые страны, это называется цифровой колонизацией и стратегией "данные приходят, данные не выходят".
Поэтому и странные фантазии некоторых не-российских политиков про сепаратизм в Российских регионах очень оторван от реальности, цифровая инфраструктура выстраивалась так чтобы эта вероятность была минимальной, а цена запредельной.

Из-за монструозности этих ФГИСов и тем что за каждой из них стоит, как правило, очень крупный системный интегратор и государственный интересант(-ы)/бенефициар(-ы), приводят к тому что они формируют, костяк цифровой системы госуправления, со всеми её плюсами и минусами. Любую из этих систем очень сложно убрать, сложно обслуживать. Любая из них, при неработоспособности, создаёт существенные проблемы для системы госуправления, граждан и/или бизнеса, потому что на них заворачивали большую часть сервисов и функций госорганов. И даже их модернизация, а уж тем более импортозамещение, это очень непростая задача. И по деньгам, и по мотивации интеграторов, и по рискам простоя и тд.

Далее вместо того чтобы писать длинный абзац того к чему всё это идёт, я задам лишь один, возможно, риторический вопрос. И вот где во всём этом место Гостеху?

Ссылки:
[1] https://t.me/begtin/3600

#government #govtech #itmarket
Свежий обзор европейских зарплат специалистов по данным - аналитики, дата-сайентисты и дата-инженеры на 2023 год [1] на оснований 500 объявлений о работе для специалистов в Европе.

Любопытные выводы։
1. Зарплаты в Берлине ниже чем в Лондоне или Дублине и в Германии, в принципе, зарплаты ниже.
2.Крупные бигтех компании в Европе платят больше других
3. Разница в средней годовой зарплате джунов ($70k) и миддлов ($83k) не так уже велика. Хотя лично меня удивляют такие зарплаты джунов в Европе, в России, к примеру, они резко отличаются. Конкуренция и квалификация у джунов невелика сейчас из-за безумного числа плохих ИТ курсов.

Ссылки։
[1] https://www.synq.io/blog/europe-data-salary-benchmark-2023

#europe #itmarket
Big Transitions in the Tech Industry [1] отчёт Hired State of Software Engineers за 2023 год в виде 55 слайдов по рынку труда для разработчиков ПО, в том числе тех кто работает с машинным обучением и дата-инженерией.

Все слайды приводить не буду, только некоторые которые меня больше заинтересовали и выводы։
1․ Python - язык номер один для работы с данными и в инфобезе, для других областей язык номер 2-3-5, в общем всё равно очень популярен
2. Самые "горячие" индустрии по мнению разработчиков։ AI/ML/Data science, Fintech, Healthtech, Cybersecurity

И самое удивительное, наибольший дефицит сейчас разработчиков на Ruby on Rails, Ruby и Go. Это про разрыв ожиданий рынка и того что эти языки совсем не так популярны, не самые популярные.

С важной оговоркой что Hired оценивали рынок США и частично Канады и Великобритании.

Ссылки:
[1] https://pages.hired.email/rs/289-SIY-439/images/Hired_2023%20State%20of%20Software%20Engineers.pdf

#data #readings #jobmarket #itmarket
Комментарии к происходящим российским новостям про рынок данных։
- о докладе ЦБ РФ про использование данных в фин. рынке [1] если вкратце, то проблема с качеством данных неизбежна потому что решать её можно только за счёт того чтобы все собираемые данные использовались бы для аналитики, как минимум. Если данные не используют, то их и не чистят и не верифицируют, и они как бы есть, но, как бы, непроверенные.

- о том что в Минцифре создаётся департамент больших данных и искусственного интеллекта. Я бы сказал так, у Минцифры большие провалы в системной, стратегической и нормативной работе и, при этом, если некоторые успехи в проектной работе и существенные успехи в антикризисной, кто бы что там говорил, на фоне других ФОИВов конечно. Вот этот департамент оказывается опять про проектную работу, а не про стратегии и про регулирование. Хорошо ли это? Я лично считаю что стратегии первичны, проекты вторичны.

- о слухах что Минэкономразвития собираются переносить портал открытых данных на платформу Гостех. Я скажу так, минус на минус плюсом не будет. Лично меня уже давно попустило то что российский федеральный портал открытых данных оказался настолько плох, я уже не вижу смысла объяснять тем кто его ведёт почему они делают это плохо и как делать это нормально, потому что это вопрос не технологий, а политической воли к раскрытию ключевых наборов данных и последовательной госполитики в открытости. И того и того сейчас есть достаточно острый дефицит.

Ссылки:
[1] https://www.cbr.ru/Content/Document/File/145403/Consultation_Paper_14032023.pdf

#opendata #itmarket #data #regulation
Про чистку ведомственных баз данных от излишков информации. Часть 1 из 2

Тут все активно обсуждают выступление главы Минцифры Максута Шадаева по поводу того чтобы сделать инвентаризацию данных и не выдавать данные из контуров ведомств [1] и пытаются проделать интерпретации этого выступления.

Признаться я не услышал в нём ничего нового, это ровно что и есть публичное подтверждение достаточно давнего тренда - тренда на ограничение доступа к данным в России. Этот тренд начался не с выступления министра и даже не с введения состояния мобилизационной экономики, этому тренду более 9 лет. Ещё в 2013 году Путин совместно с главами G8 подписывал декларацию открытости данных, а уже в 2014 году G8 превратилось в G7. Какое-то время в России шло два тренда параллельно, с одной стороны шла интенсивная информатизация и попытки формировать инновационный рынок, а с другой растущее число работ журналистов расследователей на данных, которые были доступны, именно благодаря цифровизации экономических отношений. Конечно системы ЕГРН, ЕГРЮЛ, госзакупок и др. создавались не для журналистов, они создавались для ускорения и развития экономических отношений, развития рынков, стартапов и интеграции государственных систем, а также выполнения тех международных обязательств которые имели место быть. Где-то года до 2020 российские госорганы ещё обращали внимание на позиции в международных рейтингах, например, Минфин волновали позиции России в Open Budget Index.

Но, параллельно с этим, закрывались данные о субсидиях, получателях госконтрактов по ряду направлений (госкорпорации по 223-ФЗ), в 2021 году скрыли данные об учредителях НКО, постепенно начали закрытие данных ЕГРН, быстро не могли это сделать из-за огромного рынка стройки и оборота недвижимости и земли, последствия были бы тяжёлыми и так далее. Тренд на закрытость постепенно перебивал тренд на открытость.

В основе этого тренда на закрытость два важнейших страха - страх экономического ущерба, государству, компанию и отдельным людям, в виде попадания под прямые и опосредованные санкции и страх деятельности журналистов расследователей. Причём первое многократно критичнее второго.

Всё это не только про открытые данные в строгом смысле (свободные лицензии, машиночитаемость), но и про доступные данные продаваемые гос-вом, данные в разных, не только машинных форматах и даже сведения к которым доступом получали на чёрном рынке пробива информации. Последнее самое сложное, до сих пор многим сотрудникам госорганов платят не настолько хорошо чтобы у них не возникало соблазна такой подработки.

Централизация данных, особенно персональных, лишь повышала вероятность появления если не утечек, то доступа к рынку пробива.

Но централизованные системы создавались, только делать их дозволялось и дозволяется не всем. Поэтому мне сложно до конца верить словам Максута, в первую очередь потому что относительно недавно был создан единый регистр населения и вот уже создаётся (создан?) реестр военнообязанных. Это системы объединяющие данные разных ведомств, я не поверю что данные там только по запросу. Собственно вся затея с НСУД была как раз для того чтобы избежать "ведомственного огораживания", как раз для интеграции данных для госуслуг и других задач. Фактически слова Максута противоречат политике Минцифры РФ как минимум последних лет.

Продолжение в следующем посте

#opendata #closeddata #data #russia #itmarket
Про чистку ведомственных баз данных от излишков информации. Часть 2 из 2

Важнее разговор про инвентаризацию. Инвентаризация данных, в нормальных, мирных условиях проводится с целью обмена ими. Данные - это ценный экономический ресурс, который может быть доступ в рамках открытости гос-ва (open data) или программ обмена данными (data sharing), но практически всегда конвертируется в новые продукты, бизнесы, научные работы, статьи, исследования и так далее. Инвентаризация же с целью информационной безопасности - это подтверждение что работа с данными в России окончательно переходит из режима развития в режим военной экономики. Для рынка информационной безопасности - это прекрасная новость, для рынков торговли данными, создания продуктов на их основе и любой аналитики - это растянувшаяся катастрофа. Это длительная неопределенность и непонимание того какой источник данных закроют завтра, послезавтра?

Мы уже видим это на примерах закрытого портала data.gov.ru, который при его никчёмности, номинально демонстрировал что в России госинициатива по открытости данных на федеральном уровне жива. Его закрыли тоже на инвентаризацию? Мы видим это на примере огромных штрафов за раскрытие данных ЕГРН, до 600 тысяч. Я думаю что всем очевидно что их применять будут, в первую очередь, к расследовательским СМИ и расследователям.

Всё это вызывает опасения закрытия всех иных "чувствительных и необходимых" данных. ЕГРЮЛ ещё доступен хотя бы и без данных о учредителях. Ограничат? Данные о госторгах и госзакупках ещё публикуются. Скроют и их? Про статистические показатели мы уже поняли что депутаты разрешили Пр-ву скрывать любую официальную статистику. Интересно, хотя бы постановления Пр-ва РФ по поводу сокрытия данных будут открытые или их тоже засекретят? Иногда мне удивительно что ещё законодательство страны не переводят в полу-секретный режим, это же тоже базы данных.

Как бы то ни было, мои финальные выводы из происходящего в том что ставки на экономическое развитие и малый и средний бизнес более нет. Есть военная экономика, есть несколько десятков Дзайбацу [2] на которых делается ставка, и окончательно нет малого-среднего бизнеса и все инновационной экономики. Учитывая что только развитие инновационной экономики было единственной более-менее допустимой опорой в части доступа к государственным данным, то и можно говорить об окончательной заморозке этой темы в России.

При этом надо понимать что не Максут Шадаев принимает об этом решения, он, в лучшем случае, озвучивает уже произошедшее. Система госуправления в России выстроена так что даже федеральные министры лишены значительной части субъектности, а решения принимаются на уровне премьера, вице-премьеров и ограниченного числа ключевых госкорпоратов и политической элиты. И началось всё не с его речи, конечно же, мы лишь услышали подтверждение того что было и раньше

Ссылки:
[1] https://rg.ru/2023/04/18/mincifry-zajmetsia-reviziej-vedomstvennyh-baz-dannyh.html
[2] https://ru.wikipedia.org/wiki/Дзайбацу

#opendata #closeddata #russia #data #itmarket
По всему миру неприятные новости по стартапы и увольнения, помимо того что теперь стало значительно сложнее найти венчурные средства, так ещё и увольнения идут не только в и бигтехе, но и в, казалось бы, очень неплохо чувствующим себя стартапам. И вот оказывается в dbt Labs увольнения [1] и это при том что год назад они привлекли $222M инвестиций и, в принципе, обладают одним из наиболее востребованных продуктов интегрированным в большую часть инфраструктуры входящей в Modern Data Stack.

Но, теперь они сокращают 15% сотрудников, а то есть дела не так хороши как хотелось бы.
Несмотря на это надо оговориться что рынок ИТ и рынок данных по прежнему остаётся рынком соискателя, а не работодателя. Сокращения уменьшают число комфортных и особенно интересных мест работы, но работы много и даже очень много.

Ссылки:
[1] https://www.getdbt.com/blog/dbt-labs-update-a-message-from-ceo-tristan-handy/
[2] https://www.crunchbase.com/organization/dbt-labs/company_financials

#itmarket #it #moderndatastack #dbt