Ivan Begtin
9.15K subscribers
2.66K photos
5 videos
114 files
5.48K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Разные мысли вслух про ИИ и не только:
- мысль которую я уже формулировал, но можно и повторить. Разработка с помощью ИИ агентов для зрелого разработчика большой плюс, для юниора большой минус. И готовность применять кратно различается. В общем если Вы начинающей разработчик/инженер/аналитик то вайб-кодинг в резюме совсем не плюс, а может быть и минус
- судя по ограничениям которые Anthropic наложили на модель Fable, публичный вариант Mythos, мир движется к тому что будут модели без ограничений за очень большие деньги и для особых клиентов, и модели с ограничениями для широкой аудитории. Интересно только как скоро появится открытая модель сравнимая с Mythos/Fable?
- продолжая мысль про открытые модели, это же во многом про демократизацию доступа технологиям двойного назначения. Условно возможно ли кибервойны будущего между несколькими крупными корпоративными или национальными автономными ИИ продуктами? Не то чтобы я хотел это видеть своими глазами, как писатель фантаст интересуюсь;)
- большое число ИИ продуктов локально приводит к большому числу ключей доступа к ИИ моделям и сервисам прописанных в переменных окружения. Чем дальше, тем это всё менее безопасно поскольку доступ к ним имеют вообще все приложения запущенные от текущего пользователя. С одной стороны ключи SSH тоже доступны также любому приложению, а с другой, неужели меня одного это волнует?

#thoughts #aiagents
👍115🤔5😱1
Полезные ссылки про данные, технологии и не только:
- dagster price increase 10x insane , don't ever use them тред на Reddit о том как Dagster подняли в 10 раз цены на их облачный сервис. Для тех кто не знает - Dagster это такой ETL/ELT продукт с открытым кодом по модели SaaS когда бесплатно открытый код и платно когда используешь в облаке. И вот они подняли цены в 10 раз. Продукт удобный, но с таким отношением я бы и от open source версии отказался. У них код под лицензией Apache 2.0 и хочется надеяться что кто-то его форкнет и начнет развивать альтернативу если они еще и open source код начнут портить.
- We had to build new evals for Fable обзор модели Fable 5 для задач дата аналитики от ребят из команды Hex (облачный сервис аналитических тетрадок). Если коротко то это хорошо, но недешево. Полезный обзор

#readings #ai #datatools
👍4
OpenSharing свежий стандарт/протокол/спецификация по обмену данными и другими цифровыми артефактами для работы ИИ агентов включая таблицы, коллекции файлов, схемы, глоссарии и так далее. Был передан компанией Databricks в Linux Foundation и основан на уже активно используемом протоколе Delta Sharing к которому уже есть действующая экосистема и множество продуктов его поддерживают.

Передача его в Linux Foundation - это хорошо, это позволяет расширить экосистему. Хочется надеяться что появятся еще и open source реализации серверной части delta sharing, чтобы не зависеть от облака Databricks.

#opensource #standards #ai #tools #datatools
7👍6🔥6👏1
Anthropic внезапно и по требованию властей США отключили Fable 5 для всех клиентов. Причем требование было про угрозу национальной безопасности без уточнения причин, но можно предполагать что причины в том что кто-то из пользователей таки смог преодолеть защиту от применения в целях кибербезопасности и других потенциально опасных тем/задач.

Всё это поднимает сразу два ключевых вопроса:
1. Неизбежность обязательного сильного государственного вмешательства в разработку и доступность наиболее передовых LLM и ИИ сервисов
2. Невозможность страновых ограничений для доступа. Власти США запретили предоставлять доступ всем негражданам США и Anthropic вынуждены были отключить вообще для всех, потому что гарантировать недоступность для всех несоответствующих этому критерию сложно.

Событие это важное, если не переломное. А что будет когда модель сравнимую с Fable/Mythos выпустят китайцы, ее власти США тоже запретят? И как, простите, они это сделают?

#ai #thoughts
12👍8🤨4
Мне много что есть сказать по поводу отзыва компанией GlobalSign сертификатов у российских доменов и недавнего изменения политики Let's Encrypt в части соблюдения санкций США (теперь соблюдают, если вкратце и не будут больше выдавать их санкционным компаниям).

Последствия этого будут для российских пользователей неприятными и пойдут эти действия скорее в копилку доводов тех кто говорит про суверенный интернет в РФ и как бы все не обернулось попытками усиления внедрения отечественных браузеров, сертификатов НУЦ и так далее. В чем, разумеется, ничего хорошего нет и быть не может, российский цифровой рынок не настолько большой чтобы усиливать собственную изоляцию, и множество продуктов поломается из-за невозможности проверки сертификатов так же как и риски взломов усилятся.

Но тема эта не про данные, а не про данные мне говорить скучно😉 так что я, всё таки, предложу посмотреть на эту проблему через данные.

Сертификаты для сайтов и других целей в мире выдаются не кем попало, а так называемыми Certificate Authority и крупнейшие вендоры браузеров, операционных систем и устройств проводят их верификацию/аттестацию и включают в списки признаваемых ими. Вот тут можно посмотреть примеры таких списков. Наиболее значимые - это списки Apple, Microsoft, Google для их операционных систем, но, в принципе, все они важны.

Наиболее крупный список Common CA Database ведет Linux Foundation в партнерстве с Microsoft, Mozilla, Cisco и Google. Он включает 10122 сертификата, выпущенных 186 корневыми CA из примерно 60 стран. Эти страны включают, практически все страны ЕС, многие азиатские и даже некоторые африканские страны.

А каких стран там нет? Из значимых там нет России, Беларуси и всех стран Центральной Азии и многих других.

Почему же так, спросите Вы? Может быть потому что они не могли бы пройти по требованиям для их аттестации? Может быть потому что не было и нет целенаправленной госполитики по их созданию? Или в том что зарубежные вендоры изначально не доверяют компаниям в области безопасности из ряда стран? Есть ли тут политические решения или только экономические?

У меня есть предположения и подозрения на этот счет, а пока для тех кто хочет изучить как устроен рынок CA в мире вот тут можно скачать напрямую этот файл для анализа в CSV формате. Он вполне поддается анализу и визуализации.

#opendata #certificates #russia #datasets #data
209🔥9
Датасет Цифрового архива: роспись расходов Государственного бюджета РСФСР на 1935 год

Один из самых крупных датасетов в нашей коллекции — «Роспись расходов Государственного бюджета РСФСР на 1935 год в тысячах рублей». В нем конечные цели расходов объединены в более крупные сущности — направления, типы, сферы расходов, а также показаны ведомства, в компетенции которых находятся те или иные затраты.

Например, учреждения Наркомата финансов (Наркомфин) получают средства в рамках разделов «Просвещение» и «Общее управление», а именно 11 млн 44 тыс.
и 2 млн 87 тыс. рублей соответственно.

При этом деньги, выделенные на просвещение, разделены по типам учебных заведений, далее — по уровню получаемой квалификации и наконец по конечным целям: заработная плата, административно-хозяйственные расходы, стипендии и так далее.

Что касается раздела «Общее управление», то соответствующие средства для учреждений Наркомфина имеют меньше уровней деления и сразу распределяются по конечным целям.

Разнообразные способы группировки помогают рассмотреть структуру финансирования разных отраслей и направлений народного хозяйства с разных точек зрения и глубже понять устройство бюджета РСФСР в 30-е годы.

Полностью ознакомиться с расходами РСФСР в 1935 году можно в соответствующем датасете на сайте Цифрового архива.

#бюджет #датасет #ЦАГГ #РСФСР #история #финансы #Наркомфин
👍136🔥4
Open Knowledge Format свежая спецификация для описания знания для LLM в продолжение идеи LLM-wiki сформулированной Andrej Karpathy. Спецификация уже декларируется как используемая внутри Google Cloud Knowledge Catalog.

Не они первые и не они последние кто реализует эту идею, она прямо таки уже стала одержимостью для многих в ИИ сообществе и неспроста, поскольку переосмысливает некоторые устоявшиеся подходы. Например, то что каталог данных/метаданных теперь может быть каталогом знаний. Вроде как очевидно, но не совсем.

Что мне нравится - открытая и простая спецификация, достаточно крупный/тяжелый бренд ее реализующий.

Что мне не нравится - хочется что-то отчуждаемое от конкретного проприетарного продукта, в данном случае облака Google.

Если будет реализация только в открытом коде и без привязки к облакам - это идеальный вариант. Впрочем, не забываем что реализаций/спецификаций много, так что будет ли эта популярна еще не очевидна.

P.S. Название, конечно, придумано весьма сомнительное учитывая существование Open Knowledge Foundation (OKF). Просто таки смешение терминов

#opensource #standards #ai #google #knowledge
👍112❤‍🔥2
Для тех кто интересуется разного рода международной таксономией, новая версия internacia-db управляемого справочника по странам и международным блокам в виде открытого репозитория приведенного к формату дата-продукта.

В новом релизе 1.5.0 по совокупности изменений:
- число стран/территорий расширено до 256 и теперь включает записи по непризнанным территориям вроде Приднестровья, Абхазии и тд.
- добавлены новые международные блоки которых теперь 1070, типы международных блоков по прежнему: экономические блоки, международные соглашения, межгосударственные организации и фонды, экономические группы стран (по классификация Всемирного банка и другим) и так далее. Всего более 86 типов международных группировок стран
- добавлена лицензия для данных которая CC-BY и provenance (происхождение) по отдельным полям данных в карточках записей.
- многие карточки включают обновленные метаданные: описания, официальные названия, сведения о странах участниках, статус участия и так далее.

Все данные опубликованы в форматах Parquet, YAML, JSON lines и в виде базы DuckDB.

Для чего нужна эта база?
1. Для обогащения данных при работе с любыми данными имеющими геопривязку к стране или международному блоку
2. Для задач визуализации данных, например, статистики в привязке к странам и международным блокам
3. Для сравнения стран и международных блоков

И тому подобных задач. Этот дата-продукт можно сравнить с pycountry пакетом для Python со справочником стран, но он больше, шире, детальнее и включает данные по международным блокам.


#opendata #dataproducts #data
👍10🔥82
Подборка ссылок про данные, технологии и не только:
- Running local models is good now - автор пишет что, внезапно, но разработка ПО с помощью локальных моделей стала реалистичной. Она приводит в пример новую LLM Gemma-4-12b-qat достаточно компактную чтобы работать на ноутбуке с 64GB памяти и достаточно эффективную чтобы решать задачи работы с кодом.
- SpaceX to acquire Cursor for $60B in stock если кратко то компания AnySphere создателей среды разработки Cursor теперь куплена SpaceX. Я бы сказал что если Grok не начнут навязывать через Cursor, то это хорошая новость. Думаю что не будут и думаю что это не последнее приобретение SpaceX
- GenSpark - стартап/сервис-ИИ агента сравнимый с Manus. В моих тестах неожиданно хорошо показал себя на Deep Research задачах. Сервисов таких до сих пор не так уж много и можно разориться уже если тестировать их все.
- Bigset агент с открытым кодом по созданию датасетов из веб-поиска. Вбиваешь что-то вроде "AI infrastructure startups hiring backend engineers" и получаешь CSV файл на выходе. Концептуально напоминает сервис Webhound, там открытого кода нет, только SaaS. Правда и Bigset хоть и с открытым кодом, но зависит от коммерческого сервиса Tinyfish через который он делает веб поиск.

#opensource #ai #tools
👍7🔥3❤‍🔥1
По поводу того что в Индии временно заблокировали Телеграм для борьбы со списыванием во вступительных экзаменах в ВУЗы, я бы думал об этом шире. Проблема не в Telegram, конечно же, она более системная и связана с доступностью цифровых устройств в целом и доступностью возможности обмена сообщениями и доступностью ИИ ассистентов в частности в экзаменах.

Это не индийская проблема, а глобальная. Студенты используют ИИ ассистенты для домашних заданий, любых текстовых работ. Никаких простых решений тут нет, кроме достаточно радикального - в создании центров предварительной экзаменационной подготовки в заведениях мало отличимых от тюрем.

В специальных зданиях, в районах далеких от основной инфраструктуры, с недоступностью в них сотовых сетей (глушилки), Wifi и спутниковой связи (тоже глушилки). С досмотром и невозможностью проноса любых цифровых устройств. С обширнейшими тематическими библиотеками на бумаге и отключенными от сети стационарными компьютерами. С тотальным видеонаблюдением. Отправлять туда студентов за несколько дней до экзамена, они там живут в режиме закрытого общежития, сдают экзамен, отправляются домой и через некоторое время (не сразу) узнают его результат.

Ну как, звучит как хороший сеттинг для фантастического рассказа или это уже не фантастика?🤣

#thoughts #ideas
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2312🤩6👍4❤‍🔥1🔥1
Свежая модель GLM 5.2 от Z.ai, её уже можно потестить в агентском режиме на chat.z.ai и выглядит в работе она неплохо

У меня есть набор тестовых кейсов для deep research задач которые я опробую на всех новых моделях. Они к основной работе не относятся, зато я сам очень хорошо понимаю контекстную среду и могу оценить результат. Например, промпт как на приведенном скриншоте. В результате получается отчет на 30-40 страниц, не идеальный, не так чтобы вау-вау, но так чтобы очень хорошо. Если бы я реально этим репозиторием и кодом занимался, я бы рекомендации из результатов анализа применил.

Необычное наблюдение что вместо режима выдачи результатов Markdown-по-умолчанию привычный по другим сервисам тут всегда выдается PDF или DOCX или оба файла, но не Markdown. Это скорее неудобно чем удобно, но точно не критично.

По разного рода бенчмаркам для разработки у GLM-5.2 тоже очень высокие оценки, пробовать в работе точно стоит.

#ai #tools
👍8531
Open Laws Foundation звучит как Фонд открытых законов, слишком пафосно, но де-факто - это open source проект двух разработчиков в виде спецификации пермалинков для нормативных документов и сохранения их метаданных. Для этого они вводят понятие OLF Identifier уникальный идентификатор схожий с DOI указывающий на конкретный документ. Со многих точек зрения это выглядит как человекочитаемый аналог DOI для законов. В основе проекта стандарт Akoma Ntoso (OASIS LegalDocML), а его создатели пытаются его применять как законам Франции и Италии.

Задумка мне нравится, будет ли она рабочей и востребованной - будет понятно позже. Законодательство и вообще нормативные документы имеют неприятность в высокой вариативности и в сложностях в выработке общих принципов за пределами одной страновой юрисдикции.

С законами все непросто, еще и то что те кто хорошо разбираются в их метаданных делают коммерческие продукты и вкладываться в общие стандарты не горят желанием. А те кто пытаются делать общественные продукты часто не знают всех нюансов.

#specifications #opensource #laws
🔥6
Полезные ссылки про данные, технологии и не только:
- Digital Government Outlook 2026 обзор ОЭСР по странам ОЭСР и странам которые они мониторят о их прогрессе в части цифровой инфраструктуры. Там много разного по развитым странам, из того что стоило бы отметить так это нулевые оценки Турции по Data accessibility и крайне низкие по открытости данных в целом, общая оценка 0.06. Чему я не удивлен, потому что в Турции на редкость много порталов открытых данных отдельных регионов и отсутствует национальная инициатива. Причем очень странно почему поскольку её есть из чего собирать. По другим странам тоже много интересного, полезно почитать всем кто изучает цифровизацию гос-ва.
- Clear свежий язык разработки и спецификаций одновременно созданный специально для работы ИИ агентов. Плюсы - он простой, минусы - примерно те же, он простой. В копилку языков ориентированных на работу с LLM больше чем на людей
- Lore система контроля версий нового поколения с акцентом на хранение бинарных файлов, а не просто текстового кода. Создано внутри Epic Games и надо полагать с акцентом на их задачи, работы не только с кодом, но и большими объемами бинарных ресурсов внутри игр
- Cursor Origin преданонсированный сервис от Cursor'а в виде Git'а для агентов. Звучит как заявка на конкуренцию с Github'ом, так что любопытно, хотя и не может быть просто

#ai #opensource #government #digital
👍311
Probably аналитический инструмент для работы с данными локально на своем компьютере. На вход получает датасет в одном из популярных форматов и далее позволяет в режиме чата делать к нему запросы. Позиционируется как local-first продукт где данные не загружаются в облако и облака используются только для вызовов к LLM.

Умеет делать графики и простой анализ данных.

Что нравится:
- неожиданно стабильно работает и многое может для относительно молодого продукта
- удобный и работоспособный интерфейс

Что не нравится:
- закрытый код, для меня open source вариант всегда приоритетнее
- нет режима local-only, скорее всего из-за бизнес модели подписки и кредитов
- непрозрачная работа с облачными LLM. Нет BYOK, нет поддержки локальных LLM сервисов для работы с командной строки, непонятно какая LLM используется в облаке и непонятно какой объем данных передается
- нет общедоступной информации о разработчике на сайте

Впрочем стартап этот совсем свежий, они только-только подняли $9 миллионов на Seed раунде и надо за ними внимательно понаблюдать.

#data #datatools #ai
🔥43👍3🤔321😁1
Новая популярная "игрушка" сервис In the weights по поиску себя или кого-угодно еще в ведущих LLM моделях.

Выглядит забавно, с одной стороны, а с другой косвенная демонстрация применимости LLM в OSINT задачах и что, к примеру, "законы о забвении" и все подобное по удалению результатов поиска будет слабо применимо к LLM, как минимум еще долгое время.

#funny #ai
1🔥19👍10🤔2
ORD (Open Reaction Database) открытая база реакций состоящая из более 500 наборов данных и сотен тысяч реакций описанных в структурированной форме.

У проекта открытый код и открытые данные на Github.

Из необычного данные публикуются в форматах Parquet и сжатом Protobuf (.pb.gz).

Основным источником является база патентов США, а кроме того там используется некоторое число открытых датасетов к которым привязаны реакции. Внутри используется CML (Chemical Markup Language) язык разметки для химических реакций.

Применений может быть множество, например, в автоматизации моделирования создания новых веществ, поиска новых реакций и так далее. Иначе говоря так и просится для специализированных ИИ задач.

#opendata #opensource #chemistry
👍7🔥32
findgovdata.org свежий поисковик по открытым данным США, конкретно по данным портала data.gov . Кажется очень небольшим по сравнению с нашим Dateno (тут около 540 тысяч датасетов, а в Dateno больше 20 миллионов). Однако тоже любопытен по своему.

По сути проект - это демка opensource поискового движка Amgix как альтернативы Elasticsearch. Внутри него векторные базы данных (можно выбрать одну из) и набор полезных фич.

Из заметных минусов - все под лицензией AGPL-3.0, а значит что создатели явно нацелились на то чтобы вскоре запилить SaaS продукт и получить на него венчурные инвестиции.

#opensoure #opendata #search #datasets
👍51
Про то как ИИ хайп влияет на открытость данных. Патентная служба США USPTO ограничила доступ к своему порталу открытых данных data.uspto.gov только для зарегистрированных пользователей. Теперь чтобы скачать большие слепки данных или подключится через API надо заполнить регистрационную форму, а с августа включать в нее еще и дополнительную информацию.

Делается это для борьбы с ботами - читай автоматизированным подключением через ИИ краулеры. Учитывая что USPTO - это крупнейшая патентная служба в мире и ранее она была одной из наиболее открытых, то и огромное число ботов обращались к ней для получения данных по патентам.

Понятно что данные не исчезают и многочисленные сервисы использующие их продолжат работу зарегистрировавшись там, но тенденция налицо. Это не первый и не последний подобный случай

#opendata #closeddata #usa #patents #ai
5😢52🤔2
Пишут что Sakana Fugu, японский оркестратор разных LLM, претендует на то что может выполнять задачи близкие к уровню Fable 5. При этом Sakana нет ни в одном из рейтингов LLM (мне не удалось найти) хотя у них самих на сайте их позиции в рейтингах упоминаются что наводит некоторые сомнения.

Но главные сомнения у меня в другом, какова вероятность появления модели сравнимой в Mythos/Fable и отсутствием угроз со стороны госдепартамента США в сторону ее разработчика? Может показаться что шутка, но вот как бы нет. Если высказанные опасения по поводу применения таких моделей для кибератак правда, то надо ожидать ужесточения регулирования и мер воздействия со стороны стран имеющих влияние на процесс.

#ai
3💯31🤣1