Ivan Begtin
7.98K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
PapersWithCode [1] компактный каталог научных исследований и статей в областях машинного обучения, алгоритмов, классификации изображений, идентификации объектов и много другого. С одной важной особенностью - статьи слинкованы с открытым кодом привязанным к тексту.

Что-то авторы делают вручную, что-то линкуется автоматически, у каких то статей нехватает привязки, но то уже есть уже очень удобно.

Наличие кода сразу же делает материал статьи практическим, а сами статьи отсортированы по числу "лайков" (звезд) в github'е

Ссылки:
[1] https://paperswithcode.com/

#data #papers
Для тех кто хочет поработать с большими данными, но не знает с какими, Национальная библиотека Новой Зеландии опубликовала набор данных Papers Past [1] включающей 235GB сканов газет Новой Зеландии с 1839 по 1899 годы и CSV файл с метаданными описывающими эти газеты. Всё вместе после распаковки 1.6TB данных

Ссылки:
[1] https://natlib.govt.nz/about-us/open-data/papers-past-metadata/papers-past-newspaper-open-data-pilot/dataset-papers-past-newspaper-open-data-pilot

#opendata #nz #papers #culture
Согласие без власти ведет к неравенству.

Не все знают, поэтому важно напомнить что Убунту - это не только дистрибутив Linux, но и африканская философская концепция [1]
Человек с убунту открыт и доступен для других, принимает других людей, не видит для себя опасности в том, что другие талантливы и добры, поскольку он твёрдо уверен в себе, понимая, что является частью большего целого, и, наоборот, человек с убунту угнетён, когда других оскорбляют или унижают, пытают или угнетают.

В публикации From Rationality to Relationality "Ubuntu as an Ethical & Human Rights Framework for Artificial Intelligence Governance" [2] автор Sabelo Mhlambi предлагает применить философию Убунту к регулированию искусственного интеллекта и автоматизированных алгоритмов.

Это текст для чтения, перечитывания и размышления, я всячески рекомендую его тем кто задумывается о природе этического регулирования ИИ.

Читая этот и другие тексты о этике ИИ я могу лишь в очередной раз посетовать дефициту этой темы в содержательном дискурсе по этой проблеме в России.

А один из тезисов статьи я бы вынес в отдельную большую тему для обсуждения: Согласие без власти ведет к неравенству.

Ссылки:
[1] https://ru.wikipedia.org/wiki/Убунту_(идеология)
[2] https://carrcenter.hks.harvard.edu/files/cchr/files/ccdp_2020-009_sabelo_b.pdf

#ai #regulation #discussion #papers #ubuntu
Полезное чтение для тех кто изучает политические эффекты использования искусственного интеллекта. В статье AI-tocracy [1], авторы Martin Beraja, Andrew Kao, David Y. Yang & Noam Yuchtman изучают зависимость между политической нестабильностью и закупками решений на базе ИИ автократическими правительствами. В фокусе, ожидаемо, Китай и с некоторыми упоминаниями России. Основной тезис который подтверждают авторы в том что государства начинают закупать ИИ в периоды социальной нестабильности и что проблемы нестабильности эти закупки не решают, хотя и расширяют и усиливают уже имеющиеся инструменты политического и социального подавления.

Статья на английском, полезная собственным анализом, большим числом примеров в приложениях и ссылками на работы в этой и близких областях.

Если перевести смысл статьи на разговорный язык, то чем чаще говорят о ИИ, тем больше государство использует ИИ для подавления политической нестабильности.

Ссылки:
[1] https://www.nber.org/papers/w29466

#ai #government #papers
Я несколько раз писал ранее о executable papers [1] [2], когда научные статьи готовятся сразу в виде кода в Jupyter Notebook и аналогах, предоставляя возможность простой и быстрой воспроизводимости и прозрачности исследования и его результатов.

Этот подход, executable papers, в принципе шире. Например, ещё один сервис Stencila [3] позиционируется создателями как Executable document pipelines. Он всё ещё скорее про executable papers, с акцентом на научное применение, но, тем не менее научная среда далеко не единственная область где подобное применимо. Напримео, идея executable documents вполне транслируема на техническую документацию или на аналитические отчеты или на корпоративную отчетность и ещё много на что. При наличии фантазии можно транслировать на нормативные документы для моделирования структуры и последствий изменений или на аудиторские отчеты или на государственные доклады или на отчеты перед инвесторами - пространство для полета мыслей есть.

Я не единственный кто думаю об этом, вот тут есть рассуждения нескольких авторов на близкие темы о executable software documentation [4] [5].

В каком-то смысле, например, Observable [6] это тоже про executable, только executable visualization. Но важно то что во всех случаях, в каждом из примеров, документ- это больше чем текст. Это ретроспектива, логика, воспроизводимость и код отражением которого является уже сформированный текст.

Пока же всё идет к тому что будущее научных публикаций именно за подобными executable papers и в каких-то науках, таких как как науки о жизни, инженерные науки или в компьютерной лингвистике они станут (а может уже становятся?) стандартом де-факто.


Ссылки:
[1] https://t.me/begtin/2147
[2] https://t.me/begtin/2607
[3] https://stenci.la/
[4] https://apiumacademy.com/blog/executable-documentation-benefits/
[5] https://craignicol.wordpress.com/2020/09/04/cloud-thinking-executable-documentation/
[6] https://observablehq.com/

#papers #science #executablepapers #data #opensource
Я ранее писал про сервис ExplainPaper [1] который генерировал сжатое изложение научных статей понятным языком. С той поры сервис быстро коммерциализировался, так что, очень похоже, что услуга эта востребована, а с появлением ChatGPT, GPT-4 и других языковых моделей ещё не раз реинкарнирует.

Из свежих подобных продуктов стартап OpenRead [2]. Сервис автоматически генерирует краткое изложение, так называемое Paper Expresso и позволяет естественным языком задать вопросы по научной статье и получить развернутые ответы. Я проверил на нескольких статьях которые сам читаю, перечитываю, учитываю в своей работе и результаты вполне практичные. Я, правда, не считаю что такие сервисы должны быть сами по себе, гораздо естественнее они будут как часть платформ вроде Google Scholar, Semantic Scholar или Arxive.org и др.

Например, будучи подписанным на рассылки Semantic Scholar по нескольким научным темам могу сказать что главное неудобство в отсутствии кратких понятных аннотаций к статьям. Но это только самое очевидное применение, более интересные модели в уже более серьёзном применении ИИ с предобучением на научных статьях по направлениям, почти наверняка такие AI ассистенты появятся (уже появились?) в ближайшем будущем.

Ссылки։
[1] https://t.me/begtin/4346
[2] https://www.openread.academy

#startups #ai #science #papers #readings