Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Яндекс запустил сервис Яндекс.Патенты [1] где каждый может теперь поискать информацию о патентах которые когда-либо были зарегистрированы с 1924 года. Об этом пишет vc.ru [2]. Поиск по патентам - это полезный и хороший сервис и хочется искренне порадоваться за Яндекс, но, всегда есть свои но.

Среди множества сервисов поиска которые Яндекс делает очень мало тех которые основаны на данных государства. Может быть даже и нет ни одного основанного именно на данных из госреестров.

Какой ключевой и важнейший вопрос который следует задать самим же себе - как Яндекс получает эти данные? Использует ли компания открытые данные или же получает их эксклюзивным образом.

Я напомню что когда Открытое правительство существовало в России, одним из переломных моментов в восприятии его сообществом было проведение мероприятия в Яндексе где сотрудники Яндекса хвастались и подписывали соглашение с Дептрансом Москвы. Не открытых данных, а по закрытому непубличному соглашению с непрозрачными условиями доступа.

Слишком много подозрений в отношении Яндекса в том что компания стремится быть data монополией и ничего не вкладывает ни в открытость данных ни в экосистему вокруг неё.

Ссылки:
[1] https://yandex.ru/patents
[2] https://vc.ru/services/60286-yandeks-zapustil-poisk-po-patentam

#opendata #yandex #patents
Сделаю редкое отступление от жанра новостей и комментариев к ним и напишу краткий очень субъективный текст.

Все написали про покупку Яндекса Тиньковым Тинькова Яндексом и сейчас активно пишут про презентацию нового бренда СберБанка который, по сути, выстраивают вертикальный монобренд и с тем же Яндексом ещё более активно конкурирует после развода.

С одной стороны мне хочется искренне порадоваться что за Яндекс, что за Тинькова что за Сбер, что несмотря на происходящее в стране есть крупные цифровые холдинги. А с другой, конечно, очень важно чтобы цифровая среда в России не превратилась бы в "выжженую моно/олигопольную поляну" где ты либо принадлежишь к одному из дзайбацу / кейрецу / мега-холдингу, либо оказываешься в ситуации крайне неравного противостояния поскольку чем больше корпорация тем больше у неё ресурсов если не купить твой продукт, то сделать его клон.

Одна из проблем современных цифровых корпораций в том что давний лозунг Google - Don't be evil, ныне не работает. Одних лишь качественных продуктов, хорошей технической поддержки и даже хорошо профинансированного пиара теперь недостаточно для поддержания и сохранения репутации.

И от себя добавлю что если бы была новость о том что Яндекс купил Почту России, а Сбербанк купил Аэрофлот - то многие обрадовались бы куда больше. У Почты России появился бы шанс на трансформацию, а у Аэрофлота появилась бы хоть и "зелёная", но клиентская служба, взамен полного её отсутствия сейчас.

#sber #yandex #tinkoff #thoughts
Вопрос к знатокам, а Яндекс точно российская компания, а не швейцарская? В форме заявлений о нарушении авторских прав в Яндекс Дзен вот такая вот замечательная пометка про
«Яндекс Сервисиз АГ» Верфтештрассе 4, CH 6005 Люцерн, Швейцария (Werftestrasse 4, CH 6005 Lucerne, Switzerland)

https://yandex.ru/support/abuse/troubleshooting/zen/personal.html

#yandex #notrussiancompany
Яндекс закрыл социальную сеть Яндекс.Район, об этом можно прочитать в официальном анонсе [1] и в заметке на Roem [2]. Можно было предположить что закрытие, во многом, связано с ужесточением регулирования медиа, контента, а может быть, действительно, то что касается краудсорсинга контента и социальных сетей а даётся Яндексу с трудом. Та же соцсеть Аура также не взлетела и была закрыта, как и многие другие проекты Яндекса в этой области.

При этом, безусловно, жаль закрытия. Яндекс.Район - это один из немногих гиперлокальных проектов в России действующих на уровне конкретного района, города, поселения. И он, конечно, был бы куда полезнее, простите, довольно бессмысленного Яндекс.Кью и, несомненно прибыльного, но весьма неприятного Дзен.

Успешных гиперлокальных проектов в мире немного, из наиболее известных можно вспомнить Patch [3] в США, купленный AOL в 2009 году за неназванную сумму, но к концу 2018-2019 года он оценивался как [4] вполне прибыльный и приносящий до $20 дохода, в его сеть входило 1200 локальных сайтов, 150 сотрудников и 110 журналистов, включая журналистов национальных медиа.

Можно ли создать гиперлокальный проект не создавая полноценное медиа? Я не очень в это верю, а в России - это превращается из коммерческого проекта в проект управления рисками. Но что можно было бы сказать это то что Яндекс.Район мог бы быть совсем другим если бы не был соцсетью. У Яндекса много сервисов локального уровня, собрать их вместе на гиперлокальном уровне, партнёрство с муниципальными органами, интеграция открытых данных могли бы сделать проект/продукт куда более востребованным.

Ссылки:
[1] https://local.yandex.ru/moscow/top?event_id=4422133
[2] https://roem.ru/30-12-2020/284517/yandex-local-closed/
[3] https://patch.com
[4] https://en.wikipedia.org/wiki/Patch_(website)

#opendata #yandex #projects #hyperlocal
Как и ожидалось регулирование предустановки отечественного ПО расширяется и теперь ещё и Минцифры хочет обязать использование отечественного поиска по умолчанию в мобильных устройствах, о чём пишет "Ъ" [1], конечно, этой поисковой системой будет Яндекс, но скорее всего будет выбор.

Мне к этому много что есть сказать, но, честно говоря, я подорзреваю что и у Гуглу и Apple будет чем ассиметрично ответить Яндексу. При том что поиск у Яндекса может быть хороший, но не всем пользователям нравится безальтернативность поиска по умолчанию. А вот выбор - это хорошо, надеюсь в итоге пользователю будут предлагать поиск по умолчанию и он будет выбирать сам.

Ссылки:
[1] https://www.kommersant.ru/doc/4729428

#regulation #it #search #google #yandex
Честно говоря меня поражает как в 2021 году компании которые вроде бы умеют в открытый код, всё ещё не умеют/не понимают открытые данные. Хорошая новость в том что в исследовании "Как называется это место?
Населённые пункты на карте России" [1] в коей то веки команда исследователей Яндекса опубликовали данные [2]. Для некоммерческого использования, конечно, но и понятно. Но совершенно удивительно что в Яндексе нет людей знающих что такое свободные лицензии, Creative Commons или ODBl. Такое ощущение что данные публиковались специально именно таким образом чтобы их нельзя было легально загрузить в Википедию или OpenStreetMap.

Впрочем Яндекс это лишь один из примеров дата-корпораций живущих по модели data-in, no data-out (DINDO). Подобных DINDO корпораций довольно много, тот же Facebook до того как запустили инициативу Data for Good вполне были DINDO, в общем много таких. Что, впрочем, не оправдывает нынешних строителей суверенных экосистем во всепоглощающем пожирании данных и почти полном отсутствии политики их раскрытия для общественного блага.

Ссылки:
[1] https://yandex.ru/company/researches/2021/oikonyms
[2] https://yastatic.net/s3/milab/2021/toponyms/data/RussianOikonymsDataset.zip

#opendata #yandex #datasets
Яндекс выложили в открытый доступ систему управления базами данных YDB [1] с полным исходным кодом [2]. Эта распределенная SQL база данных, с собственным расширением языка SQL - YQL [3] и, в целом, выглядит любопытно.

Что стоит внимания:
- работа в кластере как часть системы
- обещанная простая масштабируемость

Что удивительно:
- база написана полностью на C++, хотя сейчас более популярно когда базы данных создаются на более высокоуровневых языках, в том числе и для того чтобы привлечь разработчиков которые хотят их изучать
- поддержка JSON и иерархических данных весьма скромная, по крайней мере документации об этом мало, хотя и упоминается
- вместо придумывания своего языка запросов расширяют SQL, что может быть и не плохо, просто +1 SQL диалект
- нет PostgreSQL или MySQL "совместимости из коробки", а это полезная фича которую декларируют многие новые СУБД и сервисы.

В целом база явно написана под высокие нагрузки, стоит пристального внимания и тестирования.

Ссылки:
[1] https://ydb.tech/
[2] https://github.com/ydb-platform/ydb
[3] https://ydb.tech/ru/docs/yql/reference/

#data #opensource #yandex #tools
Сразу две интересных новости про данные от Яндекса.

Первое - это открытие кода Datalens [1] и это вот просто таки прекрасно, очень-очень интересно попробовать уже в open source исполнении и хочется чтобы такой проект активно развивался. Больше BI инструментов хороших и разных. Инфа и документация продукта на отдельном сайте [2]

Вторая новость в публикации Geo Reviews Dataset 2023 [3] где собраны 500 000 уникальных отзывов на организации по России с января по июль 2023 года. Очень интересно и под MIT лицензией. Для исследовательских целей подходит очень хорошо.

Ссылки:
[1] https://github.com/datalens-tech/datalens
[2] https://datalens.tech
[3] https://github.com/yandex/geo-reviews-dataset-2023

#opendata #opensource #yandex
Симпатичная инициатива от Яндекса с программой грантов на открытый код и открытые данные [1]. Обещают распределить гранты Яндекс.Облака до 600 тысяч рублей на 15 проектов (итого 9 миллионов рублей) на проекты с открытым кодом по трекам:
- Обработка и хранение данных
- Разработка
- Машинное обучение

Правда призы даются не деньгами, а ресурсами Яндекс.Облака, но для состоявшихся проектов и это полезный ресурс. Особенно я бы обратил внимание на создание наборов данных. Потому что если получать приз на другие проекты, то эти 600 тысяч довольно быстро закончатся если использовать облако просто как хостинг. А если использовать для создания/оценки качества наборов данных то это более похоже на проектное использование. Например податься на эту грантовую программу Яндекса с небольшим датасетом, выиграть грант и податься на грантовую программу Фонда содействия инноваций (Фонд Бортника) также с датасетом, но расширенный и обогащённый через использование ресурсов Яндекс.Облака в рамках гранта Яндекса.

P.S. Не реклама, и жаль, конечно, что инициатива маленькая и явно спрятанная внутри маркетингового бюджета Яндекс.Облака, но сама идея правильная когда грантовые программы развивают и поощряют открытый код и открытые данные.

Ссылки:
[1] https://opensource.yandex/grants/

#opensource #opendata #yandex
Яндекс выпустил сервис геоаналитики [1] что очень любопытно в части изучения потребностей аудитории Яндекса, но, конечно, очень ограничено в части доступности данных.

Всё таки модель существования Яндекса - это довольно жёсткое правило что "данные входят, данные не выходят" или по английски Data in, no data out. Я называю это правило DINDO, которое часто встречается именно у дата-корпораций. Входят данные, а выходят дата продукты на их основе, но не сами данные, кроме очень редких исключений.

С точки зрения бизнеса это логично, с точки зрения открытости, хотелось бы чтобы было иначе, но мир несовершенен. Геоаналитические продукты в РФ есть также у Т-Банка, у сотовых операторов, Сбера и многих других.

Конкуренция - это хорошо, конкуренции нужно больше и охват других стран, а не только РФ.

Ссылки:
[1] https://yandex.ru/geoanalytics/platform

#yandex #dataproducts #data