Полезное чтение про ИИ, языковые модели и не только։
- The Dark Risk of Large Language Models [1] от Gary Marcus об ограничениях языковых моделей и с предсказанием о том что в 2023 году хотя бы один человек умрёт/погибнет из-за советов или общения с чат-ботом
- AGI Debate [2] видеозапись недавних дебатов о возможности создания полноценного ИИ и прогресс текущих технологий по приближении к нему. Ведущий всё тот же Gary Marcus, а среди участников Noam Chomsky.
- Database of AI tools for every use case [3] подборка свежих отобранных инструментов на базе ИИ, чаще всего на базе ChatGPT. Много ссылок с описанием.
- Future Tools [4] база из 246 продуктов/стартапов разделённых по темам. Обновления чуть ли не ежедневно и тематические подборки там весьма неплохие. Думаю что и этот список неполон и реально сервисов и продуктов куда больше. Большая часть основаны на GPT-3 и ChatGPT.
- ChatGPT generated content vs McKinsey article on "How tools like ChatGPT can change your business" [5] консультанты из McKinsey написали статью о том как инструменты вроде ChatGPT могут поменять Ваш бизнес, а один из читателей попросил ChatGPT написать альтернативную таблицу применения ChatGPT по сравнению с той что была в статье. В комментариях многие пишут что в случае McKinsey важно не только содержание, но бренд.
Ссылки։
[1] https://www.wired.com/story/large-language-models-artificial-intelligence/
[2] https://www.youtube.com/watch?v=JGiLz_Jx9uI&t=393s
[3] https://bensbites.beehiiv.com/p/database-ai-tools-every-use-case
[4] https://www.futuretools.io/
[5] https://www.linkedin.com/feed/update/urn:li:share:7014223165421666304/
#ai #readings
- The Dark Risk of Large Language Models [1] от Gary Marcus об ограничениях языковых моделей и с предсказанием о том что в 2023 году хотя бы один человек умрёт/погибнет из-за советов или общения с чат-ботом
- AGI Debate [2] видеозапись недавних дебатов о возможности создания полноценного ИИ и прогресс текущих технологий по приближении к нему. Ведущий всё тот же Gary Marcus, а среди участников Noam Chomsky.
- Database of AI tools for every use case [3] подборка свежих отобранных инструментов на базе ИИ, чаще всего на базе ChatGPT. Много ссылок с описанием.
- Future Tools [4] база из 246 продуктов/стартапов разделённых по темам. Обновления чуть ли не ежедневно и тематические подборки там весьма неплохие. Думаю что и этот список неполон и реально сервисов и продуктов куда больше. Большая часть основаны на GPT-3 и ChatGPT.
- ChatGPT generated content vs McKinsey article on "How tools like ChatGPT can change your business" [5] консультанты из McKinsey написали статью о том как инструменты вроде ChatGPT могут поменять Ваш бизнес, а один из читателей попросил ChatGPT написать альтернативную таблицу применения ChatGPT по сравнению с той что была в статье. В комментариях многие пишут что в случае McKinsey важно не только содержание, но бренд.
Ссылки։
[1] https://www.wired.com/story/large-language-models-artificial-intelligence/
[2] https://www.youtube.com/watch?v=JGiLz_Jx9uI&t=393s
[3] https://bensbites.beehiiv.com/p/database-ai-tools-every-use-case
[4] https://www.futuretools.io/
[5] https://www.linkedin.com/feed/update/urn:li:share:7014223165421666304/
#ai #readings
WIRED
The Dark Risk of Large Language Models
AI is better at fooling humans than ever—and the consequences will be serious.
Восстанавливаю привычку писать в блог тексты длиннее половины страницы. Написал в рассылку большой пост [1] про общедоступные каталоги межгосударственных структур вроде ООН того как они развиваются и с множеством примеров каталогов данных таких организаций.
Если коротко։
1. Развиваются хорошо, открытых данных всё больше
2. Десятки порталов открытых данных создано межгосударственными структурами.
Ссылки։
[1] https://begtin.substack.com/p/cb4
#opendata #un #datasets #blogging
Если коротко։
1. Развиваются хорошо, открытых данных всё больше
2. Десятки порталов открытых данных создано межгосударственными структурами.
Ссылки։
[1] https://begtin.substack.com/p/cb4
#opendata #un #datasets #blogging
В рубрике интересных проектов на открытых данных и создающих открытые данные база DB Nomics [1]. Это общедоступная база открытых данных показателей собранных из 65 источников таких как UN Data, портал открытых данных Всемирного банка, данные центральных банков многих стран, Евростата и так далее. Даже с сайта российского Росстата собирается несколько показателей [2]. Все содержимое сайта доступно через через открытое API [3] и в репозиториях на Git вместе с его кодом, который также полностью открыт [4]. Кроме того существуют клиенты для доступа к данным для языков программирования Python, R, Julia и для продуктов Mathlab, Stata и многих других. В общей сложности там собрано 24862 показателя, многие из которых обновляются ежедневно.
DB Nomics можно отнести к проектам для исследователей экономистов. Его команда работает во французском мозговом центре CEPREMAP и данные индикаторов, собираемых в проекте, используются для формирования макроэкномических моделей и прогнозов․ Таких как Macroeconomic outlook [5] от 23 декабря 2022 года.
Проектов собирающих данные показателей по странам довольно много, но важное отличие именно DB Nomics в открытости данных и кода и при этом довольно высоком качестве реализации.
Ссылки։
[1] https://db.nomics.world/
[2] https://db.nomics.world/ROSSTAT
[3] https://api.db.nomics.world/v22/apidocs
[4] https://git.nomics.world/dbnomics
[5] https://www.cepremap.fr/depot/2022/12/2022-12-23-Macroeconomic-Outlook.pdf
#opendata #dataset #economy #france #indicators
DB Nomics можно отнести к проектам для исследователей экономистов. Его команда работает во французском мозговом центре CEPREMAP и данные индикаторов, собираемых в проекте, используются для формирования макроэкномических моделей и прогнозов․ Таких как Macroeconomic outlook [5] от 23 декабря 2022 года.
Проектов собирающих данные показателей по странам довольно много, но важное отличие именно DB Nomics в открытости данных и кода и при этом довольно высоком качестве реализации.
Ссылки։
[1] https://db.nomics.world/
[2] https://db.nomics.world/ROSSTAT
[3] https://api.db.nomics.world/v22/apidocs
[4] https://git.nomics.world/dbnomics
[5] https://www.cepremap.fr/depot/2022/12/2022-12-23-Macroeconomic-Outlook.pdf
#opendata #dataset #economy #france #indicators
Особый жанр в рынке данных - это стартапы-дискаунтеры, расширяющие доступность данных переводя премиум-продукты в разряд общедоступных меняя модель ценообразования. У Александра Горного интересный пост [1] про стартап Databento [2]. Данные те же что и у других провайдеров высокочастотных биржевых данных, но покупать можно небольшими порциями и иметь возможность обучать свои алгоритмы без очень дорогих коммерческих подписок. Получили $63M инвестиций за 3 года, последний раунд в $31.8M был анонсирован 19 декабря 2022 года. [3]
Другой пример стартапа Rejustify [4], это стартап по обогащению данных общедоступной статистикой. Можно сказать полноценно стартап на открытых данных. Они используют данные из проекта DB Nomics о котором я ранее писал [5] и помогают обогащать таблицы данными этих показателей. Сумма привлеченных инвестиций не раскрывается и, лично по мне, так у них всё плохо с маркетингом, но сама задумка более чем интересная.
Ещё один любопытный испанский стартап Citibeats [6] отслеживающий общественное мнение по публикациям в социальных сетях. От других подобных продуктов отличаются автоматическим построением отчетов и отслеживанием тем, в основном, связанных с международной повесткой. А то есть ориентированы они на международный бизнес и межгосударственные структуры. Привлекли $4M инвестиций, что немного и поэтому интересно где они берут данные и как их собирают. Потому что $4M будет достаточно только для интерфейса и обработки данных, а сбор тут самое дорогое.
Ссылки։
[1] https://t.me/startupoftheday/2752
[2] https://databento.com
[3] https://www.crunchbase.com/organization/databento
[4] https://rejustify.com
[5] https://t.me/begtin/4512
[6] https://www.citibeats.com
[7] https://www.crunchbase.com/organization/citibeats
#startups #data #opendata
Другой пример стартапа Rejustify [4], это стартап по обогащению данных общедоступной статистикой. Можно сказать полноценно стартап на открытых данных. Они используют данные из проекта DB Nomics о котором я ранее писал [5] и помогают обогащать таблицы данными этих показателей. Сумма привлеченных инвестиций не раскрывается и, лично по мне, так у них всё плохо с маркетингом, но сама задумка более чем интересная.
Ещё один любопытный испанский стартап Citibeats [6] отслеживающий общественное мнение по публикациям в социальных сетях. От других подобных продуктов отличаются автоматическим построением отчетов и отслеживанием тем, в основном, связанных с международной повесткой. А то есть ориентированы они на международный бизнес и межгосударственные структуры. Привлекли $4M инвестиций, что немного и поэтому интересно где они берут данные и как их собирают. Потому что $4M будет достаточно только для интерфейса и обработки данных, а сбор тут самое дорогое.
Ссылки։
[1] https://t.me/startupoftheday/2752
[2] https://databento.com
[3] https://www.crunchbase.com/organization/databento
[4] https://rejustify.com
[5] https://t.me/begtin/4512
[6] https://www.citibeats.com
[7] https://www.crunchbase.com/organization/citibeats
#startups #data #opendata
Telegram
Стартап дня. Александр Горный.
БИРЖЕВЫЕ ДАННЫЕ ПО ОДНОМУ
Если на рынке доминирует оплата за каждую транзакцию, то клиента легко привлечь подпиской – “всего 100 долларов за безлимит”. Если на рынке доминирует подписка, то привлекательное предложение клиенту может звучать как “оплачивайте…
Если на рынке доминирует оплата за каждую транзакцию, то клиента легко привлечь подпиской – “всего 100 долларов за безлимит”. Если на рынке доминирует подписка, то привлекательное предложение клиенту может звучать как “оплачивайте…
Исследователь безопасности Matt Kunze опубликовал большой текст [1] о том как он нашёл в колонке Google Home Mini уязвимость позволяющую превращать её в шпионское устройство и дающее возможность записывать всё что человек рядом с колонкой произносит. Автор нашёл эту уязвимость ещё в 2021 году, участвовал в программе баг баунти от Google и в итоге получил от них $107 500 наградой за обнаружение этой уязвимости.
Можно предположить что условием получение этого приза было то что он не мог публиковать подробности какое-то время и вот только уже в декабре 2022 года он разместил очень подробное и хорошо проработанное описание.
Почему это важно? Потому что даже если предположить что корпорации создающие подобные устройства не являются безусловным злом и сами не следят за Вами, это не значит что такая возможность отсутствует принципиально. Умными колонками могут использоваться для слежки хакерами, полицией, правительственными службами, кибервойсками противоборствующих стран, конкурентами и многими другими.
Это, конечно же, при том вольном предположении что корпорации не являются этим самым безусловным злом.
При этом важное отличие колонок и других "домашних умных вещей" в том что их, в том что их меняют реже чем телефоны. Их трафик ещё сложнее контролировать чем трафик настольных компьютеров или телефонов. Уязвимости в таких устройствах могут существовать достаточно долгое время, и неизвестно сколь многие могут их использовать. Не говоря уже о том что спецслужбы могут иметь прямое влияние на устанавливающие их компании и иметь возможность дистанционного подключения в нужных им случаях.
Как бы то ни было каждый для себя сам подбирает комфортный уровень паранойи, а подобные находки можно просто принимать для сведения.
Ссылки։
[1] https://downrightnifty.me/blog/2022/12/26/hacking-google-home.html
#privacy #security #iot #google
Можно предположить что условием получение этого приза было то что он не мог публиковать подробности какое-то время и вот только уже в декабре 2022 года он разместил очень подробное и хорошо проработанное описание.
Почему это важно? Потому что даже если предположить что корпорации создающие подобные устройства не являются безусловным злом и сами не следят за Вами, это не значит что такая возможность отсутствует принципиально. Умными колонками могут использоваться для слежки хакерами, полицией, правительственными службами, кибервойсками противоборствующих стран, конкурентами и многими другими.
Это, конечно же, при том вольном предположении что корпорации не являются этим самым безусловным злом.
При этом важное отличие колонок и других "домашних умных вещей" в том что их, в том что их меняют реже чем телефоны. Их трафик ещё сложнее контролировать чем трафик настольных компьютеров или телефонов. Уязвимости в таких устройствах могут существовать достаточно долгое время, и неизвестно сколь многие могут их использовать. Не говоря уже о том что спецслужбы могут иметь прямое влияние на устанавливающие их компании и иметь возможность дистанционного подключения в нужных им случаях.
Как бы то ни было каждый для себя сам подбирает комфортный уровень паранойи, а подобные находки можно просто принимать для сведения.
Ссылки։
[1] https://downrightnifty.me/blog/2022/12/26/hacking-google-home.html
#privacy #security #iot #google
Matt’s internet home
Turning Google smart speakers into wiretaps for $100k
I was recently rewarded a total of $107,500 by Google for responsibly disclosing security issues in the Google Home smart speaker that allowed an attacker within wireless proximity to install a “backdoor” account on the device, enabling them to send commands…
Полезное чтение про данные, технологии и не только։
- Data science has a tool obsession [1] о том что в data science все слишком много обсуждают инструменты и что не всё сводится к инструментам.
- What if we rewrite everything ? [2] рассуждения о техническом долге и мыслях многих разработчиков о том что "всё надо переписать!". Кстати о техническом долге, главное отличие миддлов от сеньёров в осознании что не всегда и не всё можно и нужно переписывать, а вот документировать надо всегда.
- HTTPIE AI [3] изначально httpie была очень удобной, я бы даже сказал элегантной утилитой командной строки чтобы делать запросы к API, а теперь анонсируют AI Assistant превращающий человеческий текст в запросы. В прошлом году они подняли $6.5M инвестиций [4] и активно делают облачный сервис. Я ещё удивлялся в чём их бизнес модель, а они нацеливаются на вот такие фишки. ИМХО, в таком виде бизнес преимуществ немного.
- Recap: A Data Catalog for People Who Hate Data Catalogs [5] автор сделал то о чём я лично давно думал, каталог данных не для людей, а я для машин. Вернее, сделал некий хороший прототип с поддержкой кучи СУБД, но без документации и тд. Посмотрю как будет развиваться.
- Introducing ADBC: Database Access for Apache Arrow [6] проект по универсализации доступа к СУБД без привязки к вендорам, альтернатива JDBC и ODBC и с поддержкой стандарта/формата Arrow по умолчанию. Выглядит логично и полезно․ Расшифровывается как Arrow Database Connectivity.
- Salesforce Guts Tableau After Spending $15.7 Billion in 2019 Deal [7] в Salesforce увольняют 10% сотрудников, включая тех кто работает в приобретённым ими ранее Tableau. Интересно как это отразится на продукте в итоге.
Ссылки։
[1] https://counting.substack.com/p/data-science-has-a-tool-obsession
[2] https://blog.malt.engineering/what-if-we-rewrite-everything-e1662e86da41
[3] https://httpie.io/blog/ai
[4] https://t.me/begtin/3871
[5] https://cnr.sh/essays/recap-for-people-who-hate-data-catalogs
[6] https://arrow.apache.org/blog/2023/01/05/introducing-arrow-adbc/
#data #datatools #readings #technology
- Data science has a tool obsession [1] о том что в data science все слишком много обсуждают инструменты и что не всё сводится к инструментам.
- What if we rewrite everything ? [2] рассуждения о техническом долге и мыслях многих разработчиков о том что "всё надо переписать!". Кстати о техническом долге, главное отличие миддлов от сеньёров в осознании что не всегда и не всё можно и нужно переписывать, а вот документировать надо всегда.
- HTTPIE AI [3] изначально httpie была очень удобной, я бы даже сказал элегантной утилитой командной строки чтобы делать запросы к API, а теперь анонсируют AI Assistant превращающий человеческий текст в запросы. В прошлом году они подняли $6.5M инвестиций [4] и активно делают облачный сервис. Я ещё удивлялся в чём их бизнес модель, а они нацеливаются на вот такие фишки. ИМХО, в таком виде бизнес преимуществ немного.
- Recap: A Data Catalog for People Who Hate Data Catalogs [5] автор сделал то о чём я лично давно думал, каталог данных не для людей, а я для машин. Вернее, сделал некий хороший прототип с поддержкой кучи СУБД, но без документации и тд. Посмотрю как будет развиваться.
- Introducing ADBC: Database Access for Apache Arrow [6] проект по универсализации доступа к СУБД без привязки к вендорам, альтернатива JDBC и ODBC и с поддержкой стандарта/формата Arrow по умолчанию. Выглядит логично и полезно․ Расшифровывается как Arrow Database Connectivity.
- Salesforce Guts Tableau After Spending $15.7 Billion in 2019 Deal [7] в Salesforce увольняют 10% сотрудников, включая тех кто работает в приобретённым ими ранее Tableau. Интересно как это отразится на продукте в итоге.
Ссылки։
[1] https://counting.substack.com/p/data-science-has-a-tool-obsession
[2] https://blog.malt.engineering/what-if-we-rewrite-everything-e1662e86da41
[3] https://httpie.io/blog/ai
[4] https://t.me/begtin/3871
[5] https://cnr.sh/essays/recap-for-people-who-hate-data-catalogs
[6] https://arrow.apache.org/blog/2023/01/05/introducing-arrow-adbc/
#data #datatools #readings #technology
Counting Stuff
Data science has a tool obsession
That we need to balance out
В блоге Clickhouse хороший разбор того как локальная версия clickhouse-local может использоваться для аналитики [1]. Фактически это про то что Clickhouse в локальной версии - это прекрасная альтернатива DuckDB. В общем-то и раньше не было сомнений, но тут ещё и хороший текст. Это же, кстати, делает Clickhouse хорошей СУБД для обучения студентов работе с данными.
Впрочем корректнее всего сравнивать DuckDB, Clickhouse и другие подобные базы даже не с СУБД, а с инструментами вроде csvkit, textql и тд. поскольку они заменяют именно их при работе с локальными CSV, JSON и другими файлами. Но и тут clickhouse интересен поддержкой очень большого числа форматов и типов файлов прямо из коробки [2].
Хороший продукт, главное чтобы его бесплатные возможности не "растерялись" при его коммерческом развитии.
Ссылки:
[1] https://clickhouse.com/blog/extracting-converting-querying-local-files-with-sql-clickhouse-local
[2] https://clickhouse.com/docs/en/sql-reference/formats
#data #datatools #analytics
Впрочем корректнее всего сравнивать DuckDB, Clickhouse и другие подобные базы даже не с СУБД, а с инструментами вроде csvkit, textql и тд. поскольку они заменяют именно их при работе с локальными CSV, JSON и другими файлами. Но и тут clickhouse интересен поддержкой очень большого числа форматов и типов файлов прямо из коробки [2].
Хороший продукт, главное чтобы его бесплатные возможности не "растерялись" при его коммерческом развитии.
Ссылки:
[1] https://clickhouse.com/blog/extracting-converting-querying-local-files-with-sql-clickhouse-local
[2] https://clickhouse.com/docs/en/sql-reference/formats
#data #datatools #analytics
ClickHouse
Extracting, Converting, and Querying Data in Local Files using clickhouse-local
Learn how you can use clickhouse-local to analyze and transform your local and remote files using just the power of SQL on your laptop
В рубрике как это работает у них, о том что не все форматы файлов для работы с данными сводятся к CSV, SQL, JSON и другим наиболее распространённым. На порталах открытых данных часто встречаются файлы в непривычных форматах, например PX [1], этот формат ещё называют PX-Axis потому что он используется в одноимённом программном продукте который позже переименовали в серию продуктов PxWeb, PxWin и PxEdit. PxWeb и PxWin были разработаны статистическим ведомством Швеции [2] и переведены, по большей части, в открытый код. А PxEdit сделали в статистическом ведомстве Финляндии [3].
Во многих странах и организациях собирающих статистику этот программный пакет весьма популярен. Например, в Испании на портале открытых данных страны в формате PX-Axis опубликовано 24 169 наборов данных [4]. Все эти файлы это индикаторы из национальных и региональных статистических систем. У многих регионов Испании они свои и практически все дают возможность получения данных показателей в разных форматах. Аналогично публикуются 7 131 статистический индикатор в Ирландии в виде наборов открытых данных на официальном портале [5] и, конечно же, непосредственно в Швеции, Финляндии и во многих других странах.
Столкнуться с этим форматом в России практически невозможно, российская статистика преимущественно использует свои внутренние форматы + некую версию SDMX. В других постсоветских странах, большая часть статистики публикуется только в Excel или самостоятельно разработанных информационных системах, вроде Талдау в Казахстане. Но если Вам доведётся поработать с данными в других странах, то с PX файлами можно столкнуться.
Ссылки։
[1] https://www.scb.se/en/services/statistical-programs-for-px-files/px-file-format/
[2] https://www.scb.se/en/services/statistical-programs-for-px-files/
[3] https://www.stat.fi/tup/tilastotietokannat/px-tuoteperhe_en.html
[4] https://datos.gob.es/es/catalogo?res_format_label=PC-Axis
[5] https://data.gov.ie/dataset?res_format=PX
#opendata #datasets #fileformats #data
Во многих странах и организациях собирающих статистику этот программный пакет весьма популярен. Например, в Испании на портале открытых данных страны в формате PX-Axis опубликовано 24 169 наборов данных [4]. Все эти файлы это индикаторы из национальных и региональных статистических систем. У многих регионов Испании они свои и практически все дают возможность получения данных показателей в разных форматах. Аналогично публикуются 7 131 статистический индикатор в Ирландии в виде наборов открытых данных на официальном портале [5] и, конечно же, непосредственно в Швеции, Финляндии и во многих других странах.
Столкнуться с этим форматом в России практически невозможно, российская статистика преимущественно использует свои внутренние форматы + некую версию SDMX. В других постсоветских странах, большая часть статистики публикуется только в Excel или самостоятельно разработанных информационных системах, вроде Талдау в Казахстане. Но если Вам доведётся поработать с данными в других странах, то с PX файлами можно столкнуться.
Ссылки։
[1] https://www.scb.se/en/services/statistical-programs-for-px-files/px-file-format/
[2] https://www.scb.se/en/services/statistical-programs-for-px-files/
[3] https://www.stat.fi/tup/tilastotietokannat/px-tuoteperhe_en.html
[4] https://datos.gob.es/es/catalogo?res_format_label=PC-Axis
[5] https://data.gov.ie/dataset?res_format=PX
#opendata #datasets #fileformats #data
Statistikmyndigheten SCB
Px file format
Px files can contain information in more than one language. Keywords that are language dependent are repeated for each language. For example CONTENTS=“Population”; CONTENTS[sv]=“Befolkning”Complete description of the px file format 2013 (pdf)Mandatory ...
Интересные продукты, проекты и не только декларирующие использование AI, ChatGPT или схожие инструменты։
- Buildt [1] поисковик по исходному коду умеющий находить нужный сниппет кода через запрос естественным языком
- Nostalgia.photo [2] восстанавливает старые фотографии с высокой степенью фотореалистичности
- The Jam Machine [3] музыкальный композитор на базе ИИ и множества midi файлов
- Fact GPT [4] генератор персонализированного контента с цитатами. Может создавать обзоры продуктов, новостей, мнения на события, сравнения продуктов и многое другое.
Разное для чтения։
- Top AI conference bans use of ChatGPT and AI language tools to write academic papers [5] заголовок в точности отражает смысл. Ведущие научные конференции по ИИ запретили использовать инструменты ИИ для написания академических статей.
- Open Source Highlights 2022 for Machine Learning & AI [6] обзор интересного произошедшего в открытом коде по ML за 2022 год
- Predictions for 2023 [7] набор любопытных предсказаний на этот год. Ключевое, ИМХО, в том что Тик Ток "сожрёт интернет"․ Не конкретно компания, а как медиа жанр.
Ссылки։
[1] https://www.buildt.ai/
[2] https://www.nostalgia.photo/
[3] https://huggingface.co/spaces/JammyMachina/the-jam-machine-app
[4] https://www.longshot.ai/features/longshot-fact-gpt
[5] https://www.theverge.com/2023/1/5/23540291/chatgpt-ai-writing-tool-banned-writing-academic-icml-paper
[6] https://sebastianraschka.com/blog/2023/open-source-highlights-2022.html
[7] https://latecheckout.substack.com/p/my-predictions-for-2023
#ai #data #readings #startups
- Buildt [1] поисковик по исходному коду умеющий находить нужный сниппет кода через запрос естественным языком
- Nostalgia.photo [2] восстанавливает старые фотографии с высокой степенью фотореалистичности
- The Jam Machine [3] музыкальный композитор на базе ИИ и множества midi файлов
- Fact GPT [4] генератор персонализированного контента с цитатами. Может создавать обзоры продуктов, новостей, мнения на события, сравнения продуктов и многое другое.
Разное для чтения։
- Top AI conference bans use of ChatGPT and AI language tools to write academic papers [5] заголовок в точности отражает смысл. Ведущие научные конференции по ИИ запретили использовать инструменты ИИ для написания академических статей.
- Open Source Highlights 2022 for Machine Learning & AI [6] обзор интересного произошедшего в открытом коде по ML за 2022 год
- Predictions for 2023 [7] набор любопытных предсказаний на этот год. Ключевое, ИМХО, в том что Тик Ток "сожрёт интернет"․ Не конкретно компания, а как медиа жанр.
Ссылки։
[1] https://www.buildt.ai/
[2] https://www.nostalgia.photo/
[3] https://huggingface.co/spaces/JammyMachina/the-jam-machine-app
[4] https://www.longshot.ai/features/longshot-fact-gpt
[5] https://www.theverge.com/2023/1/5/23540291/chatgpt-ai-writing-tool-banned-writing-academic-icml-paper
[6] https://sebastianraschka.com/blog/2023/open-source-highlights-2022.html
[7] https://latecheckout.substack.com/p/my-predictions-for-2023
#ai #data #readings #startups
cosine.sh
Cosine AI - Human Reasoning Lab
Cosine is a Human reasoning lab that trains AI to reason like a human. Creating AI colleagues that are truly autonomous.
В рубрике как это работает у них, данные о переписи населения в Великобритании в 2021 году․
В процессе переписи единицей географического измерения был переписной участок, или участок статистического наблюдения с весьма высокой степенью гранулярности, причём по каждому из них были выложены данные.
Например, таблица TS001 в данных переписи [1] содержит данные по числу жителей в привязке к такому кварталу. Это более 181 тысячи записи включающей код квартала, дату измерения и число резидентов. По объёму эти данные - это всего несколько мегабайт, по полезности же они весьма важны поскольку такие данные можно относить к ключевым, многие показатели на территориях рассчитываются в соотношении к числу жителей.
На основе этих данных можно довольно многое делать, и для бизнеса, и для государственных органов, например, инструмент определения численности населения по точке и радиусу [2] который скорее демонстрация возможностей, чем что-то востребованное, но на его примере можно увидеть что подумать о том востребованное можно создать։ инструменты планирования для ритейл компаний, системы измерения транспортной доступности на весьма гранулярном уровне и так далее.
Всё это происходит поскольку ONS (статистический орган Великобритании) раскрывает огромные объёмы данных и геоданных на портале геоданных [3] и на портале связанных данных [4] в интегрированном виде. А также через систему раскрытия данных о переписи Nomis [5].
Ссылки։
[1] https://www.nomisweb.co.uk/sources/census_2021_bulk
[2] https://www.datadaptive.com/pop/
[3] https://geoportal.statistics.gov.uk/
[4] https://statistics.data.gov.uk
[5] https://www.nomisweb.co.uk/
#opendata #datasets #uk #census
В процессе переписи единицей географического измерения был переписной участок, или участок статистического наблюдения с весьма высокой степенью гранулярности, причём по каждому из них были выложены данные.
Например, таблица TS001 в данных переписи [1] содержит данные по числу жителей в привязке к такому кварталу. Это более 181 тысячи записи включающей код квартала, дату измерения и число резидентов. По объёму эти данные - это всего несколько мегабайт, по полезности же они весьма важны поскольку такие данные можно относить к ключевым, многие показатели на территориях рассчитываются в соотношении к числу жителей.
На основе этих данных можно довольно многое делать, и для бизнеса, и для государственных органов, например, инструмент определения численности населения по точке и радиусу [2] который скорее демонстрация возможностей, чем что-то востребованное, но на его примере можно увидеть что подумать о том востребованное можно создать։ инструменты планирования для ритейл компаний, системы измерения транспортной доступности на весьма гранулярном уровне и так далее.
Всё это происходит поскольку ONS (статистический орган Великобритании) раскрывает огромные объёмы данных и геоданных на портале геоданных [3] и на портале связанных данных [4] в интегрированном виде. А также через систему раскрытия данных о переписи Nomis [5].
Ссылки։
[1] https://www.nomisweb.co.uk/sources/census_2021_bulk
[2] https://www.datadaptive.com/pop/
[3] https://geoportal.statistics.gov.uk/
[4] https://statistics.data.gov.uk
[5] https://www.nomisweb.co.uk/
#opendata #datasets #uk #census
www.nomisweb.co.uk
Census 2021 Bulk - Nomis - Official Census and Labour Market Statistics
nomis - official labour market statistics
В прошлом году мы командой Инфокультуры не проводили ежегодно проводившийся ранее День открытых данных в Москве (opendataday.ru) поскольку проводить его в марте 2022 года было совершенно неуместно. В течение всего этого года были большие сомнения проводить ли его в 2023 году, потому что значительная часть тех кто с кем ранее мы его организовывали теперь признаны инагентами, многие не признанные уехали и теперь формируют русскоязычную диаспору за пределами РФ, а госорганы в России сильно отходят от тематики открытости. Иначе говоря сомнений было и есть много.
Но День открытых данных не всегда был большой конференцией, в мире он проходит в разных форматах, от митапов и отдельных встреч и семинаров до недельных конференций. Главное - тематика открытости, открытых данных и открытости гос-ва/корпораций. Поэтому, возможно и никогда не поздно провести его хотя бы в сокращённом формате и по тем темам которые остаются актуальными.
Для того чтобы понять проводить ли мероприятие в этом году и если проводить то как мы сделали опрос https://forms.gle/p1EH8fSNTH6LsVEf7
Цель опроса понять актуален ли ещё День открытых данных, о чём хочется на нем услышать и есть ли достаточное число докладчиков. Чем больше заинтересованных в открытых данных его заполнит, тем больше вероятность проведения. Так что заполняйте и распространяйте;)
#opendata #opendataday
Но День открытых данных не всегда был большой конференцией, в мире он проходит в разных форматах, от митапов и отдельных встреч и семинаров до недельных конференций. Главное - тематика открытости, открытых данных и открытости гос-ва/корпораций. Поэтому, возможно и никогда не поздно провести его хотя бы в сокращённом формате и по тем темам которые остаются актуальными.
Для того чтобы понять проводить ли мероприятие в этом году и если проводить то как мы сделали опрос https://forms.gle/p1EH8fSNTH6LsVEf7
Цель опроса понять актуален ли ещё День открытых данных, о чём хочется на нем услышать и есть ли достаточное число докладчиков. Чем больше заинтересованных в открытых данных его заполнит, тем больше вероятность проведения. Так что заполняйте и распространяйте;)
#opendata #opendataday
В конце декабря прошлого года Белый дом (США) опубликовал пятый план по открытости государства
Fifth U.S. Open Government National Action Plan [1].
На что стоит обратить внимание։
- открытые данные составляют больше половины части этого плана
- важный акцент на безусловной общедоступности данных финансируемых государством исследований
- акцент на доказательной политике и доступе исследователей к конфиденциальным государственным данным
- повышение доступности информации из государственных архивов, включая полную оцифровку всех каталогов
- расширение объёма раскрываемых данных о получателях госконтрактов и грантов
- расширение раскрытие данных об окружающей среде и создание инструментов оценки окружающей среды (звучит как - environmental justice)
- развитие гражданской науки и участия граждан в научных проектах
- расширение действия закона о свободе доступа к информации (FOIA)
Там ещё довольно много всего, я выбрал только те пункты что относятся к доступу к данным и информации.
Ссылки:
[1] https://open.usa.gov/national-action-plan/5/
#opendata #usa #policies
Fifth U.S. Open Government National Action Plan [1].
На что стоит обратить внимание։
- открытые данные составляют больше половины части этого плана
- важный акцент на безусловной общедоступности данных финансируемых государством исследований
- акцент на доказательной политике и доступе исследователей к конфиденциальным государственным данным
- повышение доступности информации из государственных архивов, включая полную оцифровку всех каталогов
- расширение объёма раскрываемых данных о получателях госконтрактов и грантов
- расширение раскрытие данных об окружающей среде и создание инструментов оценки окружающей среды (звучит как - environmental justice)
- развитие гражданской науки и участия граждан в научных проектах
- расширение действия закона о свободе доступа к информации (FOIA)
Там ещё довольно много всего, я выбрал только те пункты что относятся к доступу к данным и информации.
Ссылки:
[1] https://open.usa.gov/national-action-plan/5/
#opendata #usa #policies
Для тех кто ищет бесплатные и открытые инструменты для работы с данными, любопытный инструмент VDK (Versatile Data Kit) от Vmware [1].
Это малоизвестная альтернатива Meltano или Dagster для извлечения и обработки данных. Чем-то похоже на dbt, но не такое проработанное.
Построено вокруг обработки данных в SQL источниках, ИМХО, достоинством может быть только большая простота чем у dbt в связке с одним из дата оркестраторов. Написано всё на Python.
Не могу сказать что я до конца понимаю в чём магия именно этого инструмента, но команда у него активная, код активно разрабатывается, документацию пишут, может быть и вырастет что-то неожиданно полезное.
P.S. Я стараюсь не лениться и когда нахожу какой-то инструмент который имеет открытый код на Github то вношу его в один из личных списков таких как: Data catalogs, Data pipelines, Data transformation, Data tools и так далее. Если хотите их видеть то они собраны на странице [2] и можно подписаться на то чтобы видеть их обновления зафолловив меня на Github
Ссылки:
[1] https://github.com/vmware/versatile-data-kit
[2] https://github.com/ivbeg?tab=stars
#opensource #datatools #datengineering
Это малоизвестная альтернатива Meltano или Dagster для извлечения и обработки данных. Чем-то похоже на dbt, но не такое проработанное.
Построено вокруг обработки данных в SQL источниках, ИМХО, достоинством может быть только большая простота чем у dbt в связке с одним из дата оркестраторов. Написано всё на Python.
Не могу сказать что я до конца понимаю в чём магия именно этого инструмента, но команда у него активная, код активно разрабатывается, документацию пишут, может быть и вырастет что-то неожиданно полезное.
P.S. Я стараюсь не лениться и когда нахожу какой-то инструмент который имеет открытый код на Github то вношу его в один из личных списков таких как: Data catalogs, Data pipelines, Data transformation, Data tools и так далее. Если хотите их видеть то они собраны на странице [2] и можно подписаться на то чтобы видеть их обновления зафолловив меня на Github
Ссылки:
[1] https://github.com/vmware/versatile-data-kit
[2] https://github.com/ivbeg?tab=stars
#opensource #datatools #datengineering
Многие считают что слежка компаний за пользователями не имеет значения. "За всеми следят, ничего не случится если последят ещё и за мной" (с). Это очень распространённый аргумент среди тех кто не понимает как развиваются технологии.
Тем временем компанию Adobe поймали на том что они следят за артистами чтобы обучать свой ИИ [1].
Причём сделано это так что включено по умолчанию и чтобы запретить это надо зайти в свой профиль и отключить эту галочку.
Будем ждать новых подобных конфликтов в этом году.
Главное помнить что если за вами ещё не следят это не значит что вас ещё не хотят заменить роботом.
Ссылки։
[1] https://www.fastcompany.com/90831386/artists-accuse-adobe-tracking-design-ai
#ai #privacy
Тем временем компанию Adobe поймали на том что они следят за артистами чтобы обучать свой ИИ [1].
Причём сделано это так что включено по умолчанию и чтобы запретить это надо зайти в свой профиль и отключить эту галочку.
Будем ждать новых подобных конфликтов в этом году.
Главное помнить что если за вами ещё не следят это не значит что вас ещё не хотят заменить роботом.
Ссылки։
[1] https://www.fastcompany.com/90831386/artists-accuse-adobe-tracking-design-ai
#ai #privacy
В рубрике полезных инструментов с открытым кодом для работы с данными Memphis [1], продукт по обработке очередей сообщений по аналогии с RabbitMQ и, частично, Kafka. Продукту как продукту всего год, при этом у него весьма обстоятельная документация, много пользователей и активная команда разработки с детальной дорожной картой. Судя по качеству и скорости проработки, явно уже нашли или ищут инвестиции под облачный сервис [2].
Я бы сказал что для опенсорс проекта они очень хорошо себя подают(продают), посмотреть точно стоит, даже при то что не все функции уже реализованы.
Ссылки:
[1] https://memphis.dev
[2] https://www.crunchbase.com/organization/memphis-dev
#opensource #datatools #dataengineering
Я бы сказал что для опенсорс проекта они очень хорошо себя подают(продают), посмотреть точно стоит, даже при то что не все функции уже реализованы.
Ссылки:
[1] https://memphis.dev
[2] https://www.crunchbase.com/organization/memphis-dev
#opensource #datatools #dataengineering
В Новая Газета Европа подробный текст про исследование отъезда российских разработчиков из РФ на основе изменений в локации в аккаунтах на Github [1]. Метод неидеальный, поскольку многие меняют локацию не уезжая, а многие уехавшие не меняют, но вполне достойный внимания в контексте сравнения с другими странами.
И тут я не могу не прокомментировать что мотивировать ИТ специалистов возвратом в Россию оплатой перелёта и тд. это довольно сомнительная затея. На самом деле у Минцифры нет инструментов удержания профессионалов позитивной или негативной мотивацией. Для позитивной мотивации доверие к российскому гос-ву, скажу мягко, на очень невысоком уровне. Даже обсуждаемая "бронь для ИТшников" не имеет нормативного статуса, а если бы и имело, то все прекрасно знают что законы могут поменять очень быстро. А негативная мотивация через повышение НДФЛ, будет либо обходится, либо разработчики и другие ИТ люди активно поувольняются из российских компаний.
Я обо всём этом уже много раз писал и лично я считаю что если Минцифры и все остальные захотят реально сохранить ИТ рынок в России, то надо не привозить ИТ специалистов обратно и не повышать налоги, а снижать и ещё раз снижать налоги.
1. Снизить налоговую ставку для ИТшников нерезидентов, сейчас 30%, до текущей ставки в 13% внутри страны. Почему? Чтобы российские ИТ компании чьи специалисты уехали сохранили бы своих сотрудников.
2. Привязать налоговую ставку к квалификации и местонахождению. Продумать механизм подтверждения квалификации. С джуниоров 13%, с миддлов 10% и сеньёров 7% например. Для тех кто остаётся российскими резидентами. Привязать к сдаче квалификационных экзаменов и тд. В общем хорошенько продумать как именно.
3. Снизить до 0% налоги для ИТ компаний работающих только не на российским рынке (только на экспорт) и с сотрудниками. Почему? Чтобы дать удобную юрисдикцию тем кто работает на зарубежные рынки. Работа таких компаний сейчас сильно ограничена, они, в основном, уже почти все убежали
Этого всего тоже недостаточно, но хоть что-то.
Ссылки։
[1] https://novayagazeta.eu/articles/2023/01/11/kod-na-iskhode
#policies #itmarket
И тут я не могу не прокомментировать что мотивировать ИТ специалистов возвратом в Россию оплатой перелёта и тд. это довольно сомнительная затея. На самом деле у Минцифры нет инструментов удержания профессионалов позитивной или негативной мотивацией. Для позитивной мотивации доверие к российскому гос-ву, скажу мягко, на очень невысоком уровне. Даже обсуждаемая "бронь для ИТшников" не имеет нормативного статуса, а если бы и имело, то все прекрасно знают что законы могут поменять очень быстро. А негативная мотивация через повышение НДФЛ, будет либо обходится, либо разработчики и другие ИТ люди активно поувольняются из российских компаний.
Я обо всём этом уже много раз писал и лично я считаю что если Минцифры и все остальные захотят реально сохранить ИТ рынок в России, то надо не привозить ИТ специалистов обратно и не повышать налоги, а снижать и ещё раз снижать налоги.
1. Снизить налоговую ставку для ИТшников нерезидентов, сейчас 30%, до текущей ставки в 13% внутри страны. Почему? Чтобы российские ИТ компании чьи специалисты уехали сохранили бы своих сотрудников.
2. Привязать налоговую ставку к квалификации и местонахождению. Продумать механизм подтверждения квалификации. С джуниоров 13%, с миддлов 10% и сеньёров 7% например. Для тех кто остаётся российскими резидентами. Привязать к сдаче квалификационных экзаменов и тд. В общем хорошенько продумать как именно.
3. Снизить до 0% налоги для ИТ компаний работающих только не на российским рынке (только на экспорт) и с сотрудниками. Почему? Чтобы дать удобную юрисдикцию тем кто работает на зарубежные рынки. Работа таких компаний сейчас сильно ограничена, они, в основном, уже почти все убежали
Этого всего тоже недостаточно, но хоть что-то.
Ссылки։
[1] https://novayagazeta.eu/articles/2023/01/11/kod-na-iskhode
#policies #itmarket
Новая газета Европа
Код на исходе
Объявление мобилизации в сентябре 2022 года вызвало очередную волну эмиграции россиян, и в ее авангарде снова оказались IT-специалисты. Точных данных о масштабах «утечки мозгов» нет, но отраслевые ассоциации, правительство и эксперты представляют свои оценки…
Разные интересные свежие проекты с открытым кодом про данные и ИИ։
- gpt_index [1] библиотека для Python. На вход принимает коллекцию документов и на их основе даёт возможность делать к ним запросы естественным языком. Требует ключ для доступа к API OpenAI, использует модель text-davinci-003
- OpenAI Cookbook [2] коллекция рецептов по работе с продуктами/API OpenAI. Много примеров в формате Jupyter Notebook
- Papers we love [3] довольно давний открытый репозиторий научных статей про данные, ML, ИИ и всё что вокруг и рядом
- Lama Cleaner [4] довольно необычная штука позволяющая убирать закрашенные части с изображения. Например, если в паинтере нарисовать линии поверх фотографии то с помощью Lama Cleaner можно исходное изображение восстановить. Или не совсем исходное если было закрашено что-то целиком.
- AFFiNE [5] обещают альтернативу Miro и Notion с открытым кодом. Делает какая-то большая китайская команда, непонятно откуда инвестиции, но делают как-то очень бодро. Хотя и не видно пока возможностей аналогичных Miro, только неполная альтернатива Notion.
Ссылки։
[1] https://github.com/jerryjliu/gpt_index
[2] https://github.com/openai/openai-cookbook
[3] https://github.com/papers-we-love/papers-we-love
[4] https://github.com/Sanster/lama-cleaner
[5] https://affine.pro/
#opensource #ai #datatools
- gpt_index [1] библиотека для Python. На вход принимает коллекцию документов и на их основе даёт возможность делать к ним запросы естественным языком. Требует ключ для доступа к API OpenAI, использует модель text-davinci-003
- OpenAI Cookbook [2] коллекция рецептов по работе с продуктами/API OpenAI. Много примеров в формате Jupyter Notebook
- Papers we love [3] довольно давний открытый репозиторий научных статей про данные, ML, ИИ и всё что вокруг и рядом
- Lama Cleaner [4] довольно необычная штука позволяющая убирать закрашенные части с изображения. Например, если в паинтере нарисовать линии поверх фотографии то с помощью Lama Cleaner можно исходное изображение восстановить. Или не совсем исходное если было закрашено что-то целиком.
- AFFiNE [5] обещают альтернативу Miro и Notion с открытым кодом. Делает какая-то большая китайская команда, непонятно откуда инвестиции, но делают как-то очень бодро. Хотя и не видно пока возможностей аналогичных Miro, только неполная альтернатива Notion.
Ссылки։
[1] https://github.com/jerryjliu/gpt_index
[2] https://github.com/openai/openai-cookbook
[3] https://github.com/papers-we-love/papers-we-love
[4] https://github.com/Sanster/lama-cleaner
[5] https://affine.pro/
#opensource #ai #datatools
GitHub
GitHub - run-llama/llama_index: LlamaIndex is a data framework for your LLM applications
LlamaIndex is a data framework for your LLM applications - run-llama/llama_index
В прошлом году я сильно сократил всю активность связанную с общением с госорганами и вот только ходил на круглый стол в Мосгордуму посвящённую системам слежки.