Ivan Begtin
7.98K subscribers
1.83K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Разработчики ИИ пугающими темпами создают сервисы и продукты замещающие людей творческих профессий։ художников, писателей, дизайнеров, музыкантов. Все уже слышали про Midjourney и Stable Diffusion, а тут подборка продуктов менее известных, но не менее интересных։
- Soundraw [1] сервис создающий музыку для заднего фона для Вашего видео, игры или ещё чего-либо. Лицензия не позволяет только использовать её для массового прослушивания именно как только музыку, а не как часть составного продукта. Зато просто таки напрашивается как часть продуктов вроде TikTok и его аналогов. Вместе пресета мелодий, тут можно создать музыку под себя настраивая длительность, стиль, ритм и тд.
- Metaphor [2] обещают не много, не мало, а заменить поисковые системы вроде Google. А пока генерируют набор ссылок по структурированному запросу. Выглядит как прототип экспериментальной поисковой системы. В чистом виде Google пока не заменит, но для некоторых областей будет очень интересно, например, в поиске научных публикаций по специализированным темам.
- LexicaArt [3] генератор изображений похожий на Stable Diffusion, но включающий поисковик по тому что успели нагенерировать другие. База там огромная, можно найти иногда необычные изображения, много примеров и, конечно, сгенерировать собственные
- Լex [4] сервис помогающий писателям дописывать куски текстов когда они застревают в какой-то части повествования. Ну, мы же понимаем, вначале помогает, потом заменяет писателей;) Сервис пока доступен ограниченно, но есть видео того как он работает [5]
- Runway [6] сервис по убиранию фона из видел, быстрому редактированию, преобразованию текста в 3D модели и ещё много чему по работе с видео с помощью ИИ

Таких сервисов и продуктов становится всё больше, они появляются каждую неделю и их станет всё больше.
Здесь можно порассуждать что ждёт креативные профессии в ближайшие годы и многочисленные области применения области применения креативного ИИ для развлечения или пользы человечеству.

Ссылки։
[1] https://soundraw.io
[2] https://metaphor.systems/
[3] https://lexica.art/
[4] https://lex.page/
[5] https://www.youtube.com/watch?v=4zctPN_mO4o&t=10s
[6] https://runwayml.com/

#ai #startups
В StackOverflow, сервисе вопросов и ответов, изначально для инженеров и программистов, запретили использование ChatGPT [1]. Пока временно, а там будет видно․ Главная причина в том что ChatGPT генерирует ответы которые выглядят как хорошие, а на самом деле не так уже хороши, а то и плохи.

А вот у Бена Томпсона в блоге пост AI Homework [2] о последствиях применения ChatGPT в некоторых областях, в частности в школе и студентами.

На всякий случай напомню что ChatGPT это свежий движок по генерации ответов и поддержания разговора
от команды которая делала языковую модель GPT-3. Его особенность в высокой осмысленности ответов, которые, даже если неверны, начинают походить на осмысленный диалог. У ChatGPT меньше чем за неделю уже более 1 миллиона пользователей, так что мы ещё немало услышим и о самом продукте и о том что в ближайшие месяцы будет появляться на его основе․

Ссылки։
[1] https://meta.stackoverflow.com/questions/421831/temporary-policy-chatgpt-is-banned
[2] https://stratechery.com/2022/ai-homework/

#ai #startups
В рубрике интересных продуктов по работе с данными с открытым кодом Monoid [1].

Основная идея в том чтобы дать возможность сканировать базы данных и вручную (!) размечать их на предмет наличия персональных данных. При этом для разметки можно указать свои типы данных (идентификаторы).

Поддерживает из коробки Redshift, Snowflake, Bigquery, MySQL и Postgres. Исходный код на Go и Typescript доступен [2] под лицензией MIT.

Также на сайте есть возможность использовать его как облачный продукт с оплатой начиная от $399 в месяц.

У меня лично смешанные ощущения от этого проекта. С одной стороны он выглядит проработанным, с интерфейсом, открытым кодом, некой простой завершённой функциональностью. С другой стороны, есть множество более сложных и комплексных продуктов которые обеспечивают автоматическую, а не ручную, разметку полей и не только для идентификации персональных данных. Тот же Datahub как каталог данных или утилита Metacrafter которую я лично разработал и которая позволяет автоматически идентифицировать типы данных почти из любого источника.

Впрочем у того же Monoid до сих пор нет инвестиций и нет подтверждения что их бизнес модель хоть как-то выгорит. Так что посмотрим.

Ссылки։
[1] https://monoid.co
[2] https://github.com/monoid-privacy/monoid

#startups #datatools #opensource #data #privacy
В рубрике интересных стартапов на рынке данных։
- Pathway [1] сервис потоковой реалтаймовой обработки данных включая инструменты подготовки данных для машинного обучения. Полностью женский состав основателей из Франции и Польши. Получили $4.5 миллиона инвестиций на стадии pre-seed (!). Очень много для такой стадии
- Husprey [3] продукт по замене дашбордов и BI на тетрадки с данными (Data Notebooks). Французский стартап и все клиенты у них также из Франции. Только что получили $3 миллиона на сид стадии продукта.

Ссылки։
[1] https://pathway.com/
[2] https://sifted.eu/articles/female-led-deeptech-pathway-ai/
[3] https://www.husprey.com
[4] https://www.husprey.com/blog/seed

#data #datatools #startups #france
Особый жанр в рынке данных - это стартапы-дискаунтеры, расширяющие доступность данных переводя премиум-продукты в разряд общедоступных меняя модель ценообразования. У Александра Горного интересный пост [1] про стартап Databento [2]. Данные те же что и у других провайдеров высокочастотных биржевых данных, но покупать можно небольшими порциями и иметь возможность обучать свои алгоритмы без очень дорогих коммерческих подписок. Получили $63M инвестиций за 3 года, последний раунд в $31.8M был анонсирован 19 декабря 2022 года. [3]

Другой пример стартапа Rejustify [4], это стартап по обогащению данных общедоступной статистикой. Можно сказать полноценно стартап на открытых данных. Они используют данные из проекта DB Nomics о котором я ранее писал [5] и помогают обогащать таблицы данными этих показателей. Сумма привлеченных инвестиций не раскрывается и, лично по мне, так у них всё плохо с маркетингом, но сама задумка более чем интересная.

Ещё один любопытный испанский стартап Citibeats [6] отслеживающий общественное мнение по публикациям в социальных сетях. От других подобных продуктов отличаются автоматическим построением отчетов и отслеживанием тем, в основном, связанных с международной повесткой. А то есть ориентированы они на международный бизнес и межгосударственные структуры. Привлекли $4M инвестиций, что немного и поэтому интересно где они берут данные и как их собирают. Потому что $4M будет достаточно только для интерфейса и обработки данных, а сбор тут самое дорогое.

Ссылки։
[1] https://t.me/startupoftheday/2752
[2] https://databento.com
[3] https://www.crunchbase.com/organization/databento
[4] https://rejustify.com
[5] https://t.me/begtin/4512
[6] https://www.citibeats.com
[7] https://www.crunchbase.com/organization/citibeats

#startups #data #opendata
Интересные продукты, проекты и не только декларирующие использование AI, ChatGPT или схожие инструменты։
- Buildt [1] поисковик по исходному коду умеющий находить нужный сниппет кода через запрос естественным языком
- Nostalgia.photo [2] восстанавливает старые фотографии с высокой степенью фотореалистичности
- The Jam Machine [3] музыкальный композитор на базе ИИ и множества midi файлов
- Fact GPT [4] генератор персонализированного контента с цитатами. Может создавать обзоры продуктов, новостей, мнения на события, сравнения продуктов и многое другое.

Разное для чтения։
- Top AI conference bans use of ChatGPT and AI language tools to write academic papers [5] заголовок в точности отражает смысл. Ведущие научные конференции по ИИ запретили использовать инструменты ИИ для написания академических статей.
- Open Source Highlights 2022 for Machine Learning & AI [6] обзор интересного произошедшего в открытом коде по ML за 2022 год
- Predictions for 2023 [7] набор любопытных предсказаний на этот год. Ключевое, ИМХО, в том что Тик Ток "сожрёт интернет"․ Не конкретно компания, а как медиа жанр.

Ссылки։
[1] https://www.buildt.ai/
[2] https://www.nostalgia.photo/
[3] https://huggingface.co/spaces/JammyMachina/the-jam-machine-app
[4] https://www.longshot.ai/features/longshot-fact-gpt
[5] https://www.theverge.com/2023/1/5/23540291/chatgpt-ai-writing-tool-banned-writing-academic-icml-paper
[6] https://sebastianraschka.com/blog/2023/open-source-highlights-2022.html
[7] https://latecheckout.substack.com/p/my-predictions-for-2023

#ai #data #readings #startups
Интересные стартапы по дата инженерии։
- Seek AI [1] позиционируют себя как Generative AI for Data. Ты формулируешь запрос/вопрос на аналитику общими словами, а они используют ИИ для генерации ответа. Привлекли $7.5m инвестиций в этом январе [2], очень интересно что будет их итоговым продуктом потому что общедоступной информации маловато.

- Metaplane [3] платформа для мониторинга данных включая базы данных, трубы данных, источники и тд. Позиционируют себя как Datadog for data. Позиционирование довольно грамотное, для облачной дата инфраструктуры это актуально начиная со средних размеров компаний. Привлекли $8.4m инвестиций в последнем раунде в этом январе [4]. Таких проектов всё больше, с разными акцентами и шансами на выживаемость. Делать аналог Datadog кажется вполне разумной затеей.

- XetData [5] ещё один проект Git для данных, с поддержкой версионности и git-подобного режима доступа к данным. Акценты делают на обучении моделей работы с данными, возможности исследования данных (data exploration) и на эффективной дедупликации данных с сильным сжатием оригинальных данных. Привлекли $7.5m инвестиций. Выглядят интересно, но это лишь ещё один проект "git for data" вроде тех о которых я писал недавно [7]. ИМХО, в этой области модель github'а не сработает, потому что код давно уже гораздо больше подходит под общественное достояние, а данные являются объектами монетизации. Скорее востребовано должна быть модель Gitlab для данных, с возможность делать свои инстансы бесплатно или за небольшие деньги и управлять хранилищем данных подключая разные опции. А сервисы вроде XetData или того же Dolt(-а) больше напоминают сервисы очень специализированного хостинга с монетизацией за гигабайт/терабайт и каналы доступа.

Ссылки։
[1] https://www.seek.ai
[2] https://www.seek.ai/press-01-11-23
[3] https://www.metaplane.dev
[4] https://www.metaplane.dev/blog/the-next-stage-of-metaplane
[5] https://xetdata.com
[6] https://xetdata.com/blog/2022/12/13/introducing-xethub/
[7] https://t.me/begtin/4532

#startups #data #dataquality #git #dataengineering
Существенный бесплатный и открытый сервис
Это с одной стороны сложная, с другой очень понятная модель очень хорошего моделирования разницы между бесплатными аккаунтами в своём сервисе и тем за что берутся деньги. Сложная потому что если дать слишком много возможностей в бесплатном аккаунте, то конверсия в платные может не происходить вовсе, а если не дать вообще, то пользователи не будут приходить чтобы попробовать и распространять. Хороший баланс возникает когда есть возможность выделить те функции которыми пользуются те кто не платят деньги или сделать обременение брендом. Например, сервисы визуализации данных позволяющие визуализировать данные и встраивать в свои сайты. В бесплатной версии всегда висит бренд и могут быть ограничения, например, по объёму данных или внешним источникам. В платной версии может быть white label. Иногда такая бизнес модель очень сложна из-за злоупотреблений. Например, я знаю несколько историй когда разработчики злоупотребляли бесплатными сервисами Google Big Query по триальным серверам и плодили их тысячами для снижения расходов на обработку данных на Amazon.
—————
Большая часть таких подходов требует существенных ресурсов, часто успешно применяется в проектах существующих на венчурных рынках. Я лично вижу десятки продуктов ежемесячно применяющих одну или несколько из из этих бизнес моделей. Иногда они чрезвычайно успешны. Тот же dbt сумели собрать огромное сообщество вокруг открытого и облачного продукта и теперь они что-то вроде центра притяжения в экосистеме Modern Data Stack. В то же время многие такие продукты, часто, после пары лет раскрутки могут терять открытость или переструктурировать развитие от открытости к коммерческим сервисам, предварительно воспользовавшись сообществом, и далее от него отдаляясь. Дебаты вокруг смены лицензии Elastic и отделение проекта OpenSearch - это именно про это.

Таких продуктов и проектов будет только больше и я ещё не все бизнес модели и бизнес практики вокруг открытости перечислил. Если Вы знаете интересные подходы к монетизации в экосистемах открытости, обязательно напишите об этом.

#opendata #opensource #business #startups #openness