Microsoft (команда Bing) опубликовали данные по распознанным образам 124 миллионов зданий в США [1] специально для сообщества OpenStreetMap и для загрузки в OpenStreetMap под свободной лицензией ODbL [2]
Все данные и код они же выложили на Github [3], а вся работа - это результат работы алгоритма RefineNet [4] где, конечно же, не обошлось и без глубокого обучения и CNTK (Microsoft Cognitive Toolkit) [5]
Во первых очень круто что крупнейшие дата-корпорации всё таки делятся данными с открытыми проектами, я бы сказал что российским есть с кого брать пример, но в России только Яндекс 5 лет назад помогал Wikidata [6], а сейчас, похоже, что и им не помогает.
Ссылки:
[1] https://blogs.bing.com/maps/2018-06/microsoft-releases-125-million-building-footprints-in-the-us-as-open-data/
[2] https://opendatacommons.org/licenses/odbl/
[3] https://github.com/Microsoft/USBuildingFootprints
[4] https://arxiv.org/abs/1611.06612
[5] https://github.com/Microsoft/CNTK
[6] https://www.wikimedia.de/wiki/Pressemitteilungen/PM_06_13_Wikidata_Yandex
#opendata #microsoft #bing
Все данные и код они же выложили на Github [3], а вся работа - это результат работы алгоритма RefineNet [4] где, конечно же, не обошлось и без глубокого обучения и CNTK (Microsoft Cognitive Toolkit) [5]
Во первых очень круто что крупнейшие дата-корпорации всё таки делятся данными с открытыми проектами, я бы сказал что российским есть с кого брать пример, но в России только Яндекс 5 лет назад помогал Wikidata [6], а сейчас, похоже, что и им не помогает.
Ссылки:
[1] https://blogs.bing.com/maps/2018-06/microsoft-releases-125-million-building-footprints-in-the-us-as-open-data/
[2] https://opendatacommons.org/licenses/odbl/
[3] https://github.com/Microsoft/USBuildingFootprints
[4] https://arxiv.org/abs/1611.06612
[5] https://github.com/Microsoft/CNTK
[6] https://www.wikimedia.de/wiki/Pressemitteilungen/PM_06_13_Wikidata_Yandex
#opendata #microsoft #bing
Bing
Microsoft Releases 130 million Building Footprints in the USA as Open Data
Bing has made very significant investments in the area of deep learning, computer vision and artificial intelligence to support a number of different search scenarios. The Bing Maps team has been applying these techniques as well with the goal to increase…
Майкрософт убрали возможность ставить Windows 10 без интернета как пишут на Reddit [1]. На самом деле это не совсем так, и теперь установка с локальным аккаунтом возможна только если у компьютера нет доступа в Интернет или если несколько раз неправильно ввести телефон. Но суть остаётся прежней, Microsoft загоняет пользователей в онлайн и завязывает в свою экосистему.
Ссылки:
[1] https://www.reddit.com/r/Windows10/comments/daim1y/ms_has_removed_the_use_offline_account_option/
#microsoft
Ссылки:
[1] https://www.reddit.com/r/Windows10/comments/daim1y/ms_has_removed_the_use_offline_account_option/
#microsoft
Reddit
MS has removed the "use offline account" option when installing : r/Windows10
658 votes, 418 comments. 428K subscribers in the Windows10 community. Welcome to the largest community for Microsoft Windows 10, the world's most…
Большая волна поднимает все корабли, но кто-то должен поднять эту большую волну.
Майкрософт объявил о старте кампании Closing the Data Divide: The Need for Open Data [1] (Закрывая неравенство в данных: Потребность в открытых данных) по популяризации открытости данных и по глобальному продвижению этой концепции. На фоне того что открытость данных, открытость государств начала отступать в мире, того что правительства стали если не отказываться, то забывать про обязательства открытости, инициатива со стороны одной из крупнейших цифровых корпораций - это, безусловно, хорошая новость.
И хороша она не только тем что именно Microsoft его запускает, а тем что Microsoft, Google, Amazon и другие цифровые лидеры умеют договариваться когда им это выгодно, и очень хочется надеяться на то что они сформируют собственное партнёрство по продвижению открытых данных.
Подробнее в блоге Microsoft [2]
Ссылки:
[1] https://news.microsoft.com/opendata/
[2] https://blogs.microsoft.com/on-the-issues/2020/04/21/open-data-campaign-divide/
#opendata #microsoft
Майкрософт объявил о старте кампании Closing the Data Divide: The Need for Open Data [1] (Закрывая неравенство в данных: Потребность в открытых данных) по популяризации открытости данных и по глобальному продвижению этой концепции. На фоне того что открытость данных, открытость государств начала отступать в мире, того что правительства стали если не отказываться, то забывать про обязательства открытости, инициатива со стороны одной из крупнейших цифровых корпораций - это, безусловно, хорошая новость.
И хороша она не только тем что именно Microsoft его запускает, а тем что Microsoft, Google, Amazon и другие цифровые лидеры умеют договариваться когда им это выгодно, и очень хочется надеяться на то что они сформируют собственное партнёрство по продвижению открытых данных.
Подробнее в блоге Microsoft [2]
Ссылки:
[1] https://news.microsoft.com/opendata/
[2] https://blogs.microsoft.com/on-the-issues/2020/04/21/open-data-campaign-divide/
#opendata #microsoft
В рубрике больших наборов данных команда Microsoft Bing опубликовала наборы данных со сведениями о зданиях [1] под открытой лицензией Open Data Commons Open Database License (ODbL) используемой в OpenStreetMap.
Наборы данных включают:
- США - 129.6 миллиона зданий
- Нигерия и Кения - 50.5 миллиона зданий
- Южная Африка - 44.5 миллиона зданий
- Уганда и Танзания - 17.9 миллионов зданий
- Канада - 11.8 миллионов зданий
- Австралия - 11.3 миллионов зданий
Это очень большое раскрытие данных, около сотни гигабайт в распакованном виде в формате GeoJSON.
P.S. Хотелось бы чтобы они так разметили и законтрибьютили данные по России, но подозреваю что в России так много конфликтов вокруг секретности геоданных что на это Microsoft не пойдет.
Ссылки:
[1] https://blogs.bing.com/maps/2022-01/New-and-updated-Building-Footprints/
#opendata #microsoft
Наборы данных включают:
- США - 129.6 миллиона зданий
- Нигерия и Кения - 50.5 миллиона зданий
- Южная Африка - 44.5 миллиона зданий
- Уганда и Танзания - 17.9 миллионов зданий
- Канада - 11.8 миллионов зданий
- Австралия - 11.3 миллионов зданий
Это очень большое раскрытие данных, около сотни гигабайт в распакованном виде в формате GeoJSON.
P.S. Хотелось бы чтобы они так разметили и законтрибьютили данные по России, но подозреваю что в России так много конфликтов вокруг секретности геоданных что на это Microsoft не пойдет.
Ссылки:
[1] https://blogs.bing.com/maps/2022-01/New-and-updated-Building-Footprints/
#opendata #microsoft
Bing
Microsoft has released new and updated building footprints
The Microsoft Maps team has been busy since our last Building footprints blog in 2020. Not only have we added Australia, South America, Nigeria & Kenya but we have also updated our previous collections from 2019 by leveraging newer imagery. As with our other…
Microsoft выпустили Open Data Social Framework [1] большой документ в помощь тем кто собирается достигать общественных и социальных целей с использованием открытых данных. Авторы его Open Data Policy Lab и сам документ подготовлен в рамках вот уже 2-х летней программы.
Microsoft молодцы в последовательной политике открытости, многие опасались что Github'у сильно похужеет после покупки и что компания, в принципе, не про открытость. Но в части открытых данных они и другие BigTech компании делают много полезного. Конечно, всегда не так много как хотелось бы, но много.
Ссылки:
[1] https://news.microsoft.com/open-data-social-impact-framework/
#opendata #microsoft #data
Microsoft молодцы в последовательной политике открытости, многие опасались что Github'у сильно похужеет после покупки и что компания, в принципе, не про открытость. Но в части открытых данных они и другие BigTech компании делают много полезного. Конечно, всегда не так много как хотелось бы, но много.
Ссылки:
[1] https://news.microsoft.com/open-data-social-impact-framework/
#opendata #microsoft #data
В рубрике интересных наборов данных инициатива Microsoft Data for Society [1] по публикации открытых данных необходимых для решения наиболее значимых проблем общества.
Данных там много, какие-то создаются компанией и раскрываются на Github, например, Solar farms mapping in India [2], другие создаются в партнерских лабораториях, например, HKH glacier mapping [3], но все вместе их можно рассматривать одновременно и как научную инициативу по открытому доступу и как модель корпоративной социальной ответственности.
Там же много ссылок на другие их инициативы в области развития общества через данные и ИИ. Сейчас это крупнейшая подобная корпоративная инициатива в мире, по масштабам она превосходит раскрытие данных многими городами и странами.
Ссылки:
[1] https://www.microsoft.com/en-us/ai/data-for-society
[2] https://github.com/microsoft/solar-farms-mapping
[3] https://lila.science/datasets/hkh-glacier-mapping
#opendata #ai #datasets #microsoft #corporateresponsibility
Данных там много, какие-то создаются компанией и раскрываются на Github, например, Solar farms mapping in India [2], другие создаются в партнерских лабораториях, например, HKH glacier mapping [3], но все вместе их можно рассматривать одновременно и как научную инициативу по открытому доступу и как модель корпоративной социальной ответственности.
Там же много ссылок на другие их инициативы в области развития общества через данные и ИИ. Сейчас это крупнейшая подобная корпоративная инициатива в мире, по масштабам она превосходит раскрытие данных многими городами и странами.
Ссылки:
[1] https://www.microsoft.com/en-us/ai/data-for-society
[2] https://github.com/microsoft/solar-farms-mapping
[3] https://lila.science/datasets/hkh-glacier-mapping
#opendata #ai #datasets #microsoft #corporateresponsibility
Open Data Collaboration and Sharing |Microsoft CSR
Open Data Collaboration and Sharing | Microsoft CSR
Realize the benefit of organizations sharing and collaborating around data to tackle the world's greatest challenges, with tools to guide policy and governance.
Из важного, Microsoft серьёзно пересматривают подход к этике ИИ, о чём пишут у себя в блоге [1], а также анонсируют вторую версию стандарта ответственного ИИ [2].
В контексте этого стандарта они закрыли для доступа их API распознавания лиц и эмоций [3] и это, также, весьма важный шаг саморегулирования ответственности корпораций.
И здесь я не могу не кинуть камень в огород российского кодекса этики ИИ [4] и важной разнице между ним и то в каком направлении сейчас движутся международные корпорации вроде Microsoft.
В российском кодексе этики ИИ явно декларируется требование соответствия законам, тем самым ставя компании которые имеют компетенции в этой области заведомо ниже законодателей у которых гарантированно компетенций в разы, если не на порядок меньше.
В стандарте Microsoft и иных подобных документах декларируется позиция корпорации которая и предполагается как будущая основа для законов.
Поэтому стандарт Microsoft будет иметь влияние на нашу с Вами жизнь, а российский кодекс этики ИИ не будет.
Ссылки:
[1] https://blogs.microsoft.com/on-the-issues/2022/06/21/microsofts-framework-for-building-ai-systems-responsibly/
[2] https://blogs.microsoft.com/wp-content/uploads/prod/sites/5/2022/06/Microsoft-Responsible-AI-Standard-v2-General-Requirements-3.pdf
[3] https://www.theverge.com/2022/6/21/23177016/microsoft-retires-emotion-recognition-azure-ai-tool-api
[4] https://bit.ly/3nfk7Lz
#ai #dataethics #aiethics #microsoft
В контексте этого стандарта они закрыли для доступа их API распознавания лиц и эмоций [3] и это, также, весьма важный шаг саморегулирования ответственности корпораций.
И здесь я не могу не кинуть камень в огород российского кодекса этики ИИ [4] и важной разнице между ним и то в каком направлении сейчас движутся международные корпорации вроде Microsoft.
В российском кодексе этики ИИ явно декларируется требование соответствия законам, тем самым ставя компании которые имеют компетенции в этой области заведомо ниже законодателей у которых гарантированно компетенций в разы, если не на порядок меньше.
В стандарте Microsoft и иных подобных документах декларируется позиция корпорации которая и предполагается как будущая основа для законов.
Поэтому стандарт Microsoft будет иметь влияние на нашу с Вами жизнь, а российский кодекс этики ИИ не будет.
Ссылки:
[1] https://blogs.microsoft.com/on-the-issues/2022/06/21/microsofts-framework-for-building-ai-systems-responsibly/
[2] https://blogs.microsoft.com/wp-content/uploads/prod/sites/5/2022/06/Microsoft-Responsible-AI-Standard-v2-General-Requirements-3.pdf
[3] https://www.theverge.com/2022/6/21/23177016/microsoft-retires-emotion-recognition-azure-ai-tool-api
[4] https://bit.ly/3nfk7Lz
#ai #dataethics #aiethics #microsoft
Microsoft On the Issues
Microsoft’s framework for building AI systems responsibly
Today we are sharing publicly Microsoft’s Responsible AI Standard, a framework to guide how we build AI systems. It is an important step in our journey to develop better, more trustworthy AI. We are releasing our latest Responsible AI Standard to share what…
Статья How China uses search engines to spread propaganda [1] и отчет Brookings Institution [2] о том как китайские власти манипулируют поисковой выдачей по теме Синцзяня и COVID-19.
Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.
Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".
Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.
Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.
Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/
#search #censorship #china #russia #usa #microsoft #google
Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.
Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".
Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.
Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.
Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/
#search #censorship #china #russia #usa #microsoft #google
Brookings
How China uses search engines to spread propaganda
Beijing has exploited search engine results to disseminate state-backed media that amplify the Chinese Communist Party’s propaganda. As we demonstrate in our recent report, users turning to search …
Microsoft, AWS, Meta и TomTom объединились и создали Overture Maps Foundation [1], фонд по созданию открытых картографических продуктов на основе открытых наборов данных, данных OpenStreetMap и других ресурсов. Почти наверняка к фонду присоединятся и другие игроки и, на сегодняшний день, это самый серьёзный вызов де-факто монополии Google в картографических сервисах. В какой-то другой исторический период я бы сказал что к этому фонду могли бы присоединиться и российские компании, но это маловероятно.
Что также важно։
- фонд создаётся при The Linux Foundation
- первые продукты могут появиться уже в первом квартале 2023 года.
- работа фонда предполагает создание новых стандартов схем данных и глобальной идентификации [2]
- картографические данные будут доступны вот свободными лицензиями [3]
Я бы предположил что следующие усилия фонда будут ещё и в направлениях։
- работы с органами власти по публикации открытых данных в определяемых фондом форматах
- грантовой поддержки проектов на открытых данных в области геоданных по созданию данных и инструментов
- создания инструментов совместной работы над геоданными։ разметки и тд.
В любом случае - это очень интересная инициатива которая добавит аргументов почему органам власти надо публиковать геоданные по определенным стандартам.
Ссылки։
[1] https://techcrunch.com/2022/12/15/meta-microsoft-aws-and-tomtom-launch-the-overture-maps-foundation-to-develop-interoperable-open-map-data/
[2] https://overturemaps.org/working-groups/
[3] https://www.linuxfoundation.org/press/linux-foundation-announces-overture-maps-foundation-to-build-interoperable-open-map-data
#opendata #data #cartography #microsoft #amazon #meta #tomtom
Что также важно։
- фонд создаётся при The Linux Foundation
- первые продукты могут появиться уже в первом квартале 2023 года.
- работа фонда предполагает создание новых стандартов схем данных и глобальной идентификации [2]
- картографические данные будут доступны вот свободными лицензиями [3]
Я бы предположил что следующие усилия фонда будут ещё и в направлениях։
- работы с органами власти по публикации открытых данных в определяемых фондом форматах
- грантовой поддержки проектов на открытых данных в области геоданных по созданию данных и инструментов
- создания инструментов совместной работы над геоданными։ разметки и тд.
В любом случае - это очень интересная инициатива которая добавит аргументов почему органам власти надо публиковать геоданные по определенным стандартам.
Ссылки։
[1] https://techcrunch.com/2022/12/15/meta-microsoft-aws-and-tomtom-launch-the-overture-maps-foundation-to-develop-interoperable-open-map-data/
[2] https://overturemaps.org/working-groups/
[3] https://www.linuxfoundation.org/press/linux-foundation-announces-overture-maps-foundation-to-build-interoperable-open-map-data
#opendata #data #cartography #microsoft #amazon #meta #tomtom
TechCrunch
Meta, Microsoft, AWS and TomTom launch the Overture Maps Foundation to develop interoperable open map data
The Linux Foundation has partnered with Meta, Microsoft, AWS and TomTom to create interoperable and open map data.
Из свежих интересных инструментов для работы с API Cadl [1] язык от Microsoft для описания облачных API и автогенерации кода для сервера и клиента. Существует в виде компилятора командной строки, расширений для VS Code и Visual Studio, написан полностью на nodejs, поддерживает спецификации OpenAPI, но ими не ограничивается.
Областей применения немало, в части работы с данными годится, например, для автогенерации API под разные источники данных.
Ссылки։
[1] https://microsoft.github.io/cadl/
#opensource #microsoft
Областей применения немало, в части работы с данными годится, например, для автогенерации API под разные источники данных.
Ссылки։
[1] https://microsoft.github.io/cadl/
#opensource #microsoft
47.8 миллионов километров дорог распознано в картах Bing и выложено Microsoft онлайн в виде открытых данных под лицензией ODbl [1]. В данных совсем нет Китая, Японии, Кореи, Папуа Новая-Гвинея.
Но Россия есть, и обитаемая зона её не так велика как географическая.
Все данные в формате TSV, сжатый объём около 10GB.
Ссылки։
[1] https://github.com/microsoft/RoadDetections
#opendata #datasets #microsoft
Но Россия есть, и обитаемая зона её не так велика как географическая.
Все данные в формате TSV, сжатый объём около 10GB.
Ссылки։
[1] https://github.com/microsoft/RoadDetections
#opendata #datasets #microsoft
Microsoft презентовали обновлённую поисковую систему Bing с встроенным чат-ботом на базе OpenAI [1] и множеством других связанных новаций, в том числе встраиванием ИИ в ранжирование в поисковой системе.
Изменит ли это нашу реальность больше чем ChatGPT ? Похоже нет, ChatGPT уже достаточно всех вдохновил и напугал.
А вот Microsoft может получить существенную долю поискового рынка для Bing.
Ссылки:
[1] https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/
#ai #microsoft #search
Изменит ли это нашу реальность больше чем ChatGPT ? Похоже нет, ChatGPT уже достаточно всех вдохновил и напугал.
А вот Microsoft может получить существенную долю поискового рынка для Bing.
Ссылки:
[1] https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/
#ai #microsoft #search
В рубрике интересных наборов данных Global ML Building Footprints [1] набор данных георасположения зданий по всему миру созданный компанией Microsoft в рамках Bing Maps на основе спутниковой и аэрофотосъёмки Maxar, Airbus и IGN France. В репозитории краткая документация и скрипты загрузки, а также ссылка на список всех файлов этого набора данных представленный в виде CSV [2]. В том числе этот набор данных даёт геоданные по странам где публичных геоданных немного: Россия, Казахстан, Кыргызстан, Армения, Туркменистан, Афганистан и многое другое. На мой взгляд датасет сильно недооценённый и очень интересный.
Первая его версия вышла в июле 2022 года и с тех пор неоднократно данные обновлялись, последний раз в марте 2023 года данными по Японии и по Северной Америке.
Сейчас в нём более 1.03 миллиарда зданий. Кроме того набор данных доступен под свободной лицензией ODbL, изначально создавался для интеграции в OpenStreetMap и кроме него существует ещё несколько наборов меньшего объёма с данными по зданиям в США, Австралии, Канаде, Уганде и Танзании, Южной Африке, Кении и Нигерии и Юго-восточной Азии, на них есть ссылки в этом репозитории.
Эти же данные есть в Microsoft Planetary Computer [3] доступные через платформу Azure и через API по стандарту STAC.
Как и во многих других случаях это из тех примеров когда можно найти интересные негосударственные данные о стране/странах за их пределами с потенциально большей достоверностью и свободой использования
Ссылки:
[1] https://github.com/microsoft/GlobalMLBuildingFootprints
[2] https://minedbuildings.blob.core.windows.net/global-buildings/dataset-links.csv
[3] https://planetarycomputer.microsoft.com/dataset/ms-buildings
#opendata #datasets #microsoft #geospatial
Первая его версия вышла в июле 2022 года и с тех пор неоднократно данные обновлялись, последний раз в марте 2023 года данными по Японии и по Северной Америке.
Сейчас в нём более 1.03 миллиарда зданий. Кроме того набор данных доступен под свободной лицензией ODbL, изначально создавался для интеграции в OpenStreetMap и кроме него существует ещё несколько наборов меньшего объёма с данными по зданиям в США, Австралии, Канаде, Уганде и Танзании, Южной Африке, Кении и Нигерии и Юго-восточной Азии, на них есть ссылки в этом репозитории.
Эти же данные есть в Microsoft Planetary Computer [3] доступные через платформу Azure и через API по стандарту STAC.
Как и во многих других случаях это из тех примеров когда можно найти интересные негосударственные данные о стране/странах за их пределами с потенциально большей достоверностью и свободой использования
Ссылки:
[1] https://github.com/microsoft/GlobalMLBuildingFootprints
[2] https://minedbuildings.blob.core.windows.net/global-buildings/dataset-links.csv
[3] https://planetarycomputer.microsoft.com/dataset/ms-buildings
#opendata #datasets #microsoft #geospatial
GitHub
GitHub - microsoft/GlobalMLBuildingFootprints: Worldwide building footprints derived from satellite imagery
Worldwide building footprints derived from satellite imagery - GitHub - microsoft/GlobalMLBuildingFootprints: Worldwide building footprints derived from satellite imagery
В The Verge очень подробное интервью Kevin Scott, CTO Microsoft о том что компания планирует поместить AI инструменты разработки практически во все свои инструменты [1]. В MS Office, в инструменты разработки, в терминал и всюду и всюду и всюду. Прям даже интересно, в ядро ОС они его тоже встроят или ещё рано?
Интервью интересное, не только разговорами про возвращение Sydney в Bing, но и стратегией компании в целом.
Я вот подозреваю что самое очевидное применение будет информационная безопасность и именно под этим соусом и соусом продуктивности ИИ появится в ядрах Windows, OSX, Linux и других.
Ссылки:
[1] https://www.theverge.com/23733388/microsoft-kevin-scott-open-ai-chat-gpt-bing-github-word-excel-outlook-copilots-sydney
#ai #readings #microsoft
Интервью интересное, не только разговорами про возвращение Sydney в Bing, но и стратегией компании в целом.
Я вот подозреваю что самое очевидное применение будет информационная безопасность и именно под этим соусом и соусом продуктивности ИИ появится в ядрах Windows, OSX, Linux и других.
Ссылки:
[1] https://www.theverge.com/23733388/microsoft-kevin-scott-open-ai-chat-gpt-bing-github-word-excel-outlook-copilots-sydney
#ai #readings #microsoft
The Verge
Microsoft CTO Kevin Scott thinks Sydney might make a comeback
The inside scoop on AI at Microsoft with CTO Kevin Scott.
В рубрике интересных наборов данных база [1] из 650 тысяч сегментов пользователей собранных исследователем Wolfie Christl из рекламной платформы Xandr (изначально созданно в AT&T, купленной Microsoft в 2021 году).
Записи включают: имя поставщика данных, ID поставщика, ID сегмента, название пользовательского сегмента.
Данные интересные и ещё интереснее публикация в The Markup по итогам анализа этих данных [2].
Выводы там неутешительные, очень многие сегменты используют самые что ни на есть персональные данные включая самые чувствительные, вроде медицинских данных.
Ссылки:
[1] https://github.com/the-markup/xandr-audience-segments
[2] https://themarkup.org/privacy/2023/06/08/from-heavy-purchasers-of-pregnancy-tests-to-the-depression-prone-we-found-650000-ways-advertisers-label-you
#opendata #privacy #admarket #microsoft
Записи включают: имя поставщика данных, ID поставщика, ID сегмента, название пользовательского сегмента.
Данные интересные и ещё интереснее публикация в The Markup по итогам анализа этих данных [2].
Выводы там неутешительные, очень многие сегменты используют самые что ни на есть персональные данные включая самые чувствительные, вроде медицинских данных.
Ссылки:
[1] https://github.com/the-markup/xandr-audience-segments
[2] https://themarkup.org/privacy/2023/06/08/from-heavy-purchasers-of-pregnancy-tests-to-the-depression-prone-we-found-650000-ways-advertisers-label-you
#opendata #privacy #admarket #microsoft
В рубрике больших наборов данных Open Buildings [1] от Google. Набор данных идентификации зданий в странах Глобального Юга: Африка, Латинская Америка и Юго-Восточная Азия. Набор данных относительно велик, 178GB. Работать с ним можно в облаке Google или скачать себе локально его целиком или отдельные сегменты разделённые по геометрии S2 [2]. Кроме того каждому зданию присваиваются Plus codes [3], уникальные идентификаторы используемые в Google Maps.
Это уже третья версия этого набора данных, в ней появилась Латинская Америка и Карибы.
А я напомню что похожий набор данных публикуется Microsoft и охватывает меньше стран, зато есть и развитые страны США, Австралия, Канада в виде отдельных наборов данных и весь мир в качестве единого набора данных [4].
Было бы интересно увидеть сравнения этих наборов данных.
Ссылки:
[1] https://sites.research.google/open-buildings/
[2] https://s2geometry.io/
[3] https://maps.google.com/pluscodes/
[4] https://github.com/microsoft/GlobalMLBuildingFootprints
#opendata #google #microsoft #earth #datasets #data
Это уже третья версия этого набора данных, в ней появилась Латинская Америка и Карибы.
А я напомню что похожий набор данных публикуется Microsoft и охватывает меньше стран, зато есть и развитые страны США, Австралия, Канада в виде отдельных наборов данных и весь мир в качестве единого набора данных [4].
Было бы интересно увидеть сравнения этих наборов данных.
Ссылки:
[1] https://sites.research.google/open-buildings/
[2] https://s2geometry.io/
[3] https://maps.google.com/pluscodes/
[4] https://github.com/microsoft/GlobalMLBuildingFootprints
#opendata #google #microsoft #earth #datasets #data
S2Geometry
S2 Geometry
The s2geometry.io website
Python внутри MS Excel [1] - это признание востребованности языка для дата-анализа и тем что Python уже стал стандартом де-факто для всех кто данные обрабатывает. Но то что только в облаке Microsoft Cloud сильно ограничивает корпоративное его применение для всех кто в облаке работать не готов.
Для тех кто использовал/использует MS Excel для очистки и обогащения данных не могу не напомнить про OpenRefine [2], продукт в котором Python (Jython) был встроен с самого начала. Когда надо полуавтоматически/полувручную проверять табличные данные - это незаменимый инструмент.
Ссылки:
[1] https://techcommunity.microsoft.com/t5/microsoft-365-blog/introducing-python-in-excel-the-best-of-both-worlds-for-data/ba-p/3905482
[2] https://openrefine.org
#microsoft #excel #datatools
Для тех кто использовал/использует MS Excel для очистки и обогащения данных не могу не напомнить про OpenRefine [2], продукт в котором Python (Jython) был встроен с самого начала. Когда надо полуавтоматически/полувручную проверять табличные данные - это незаменимый инструмент.
Ссылки:
[1] https://techcommunity.microsoft.com/t5/microsoft-365-blog/introducing-python-in-excel-the-best-of-both-worlds-for-data/ba-p/3905482
[2] https://openrefine.org
#microsoft #excel #datatools
Команда исследователей из Microsoft и Github'а разместили препринт статьи Open Data on GitHub: Unlocking the Potential of AI [1], о том что на Github'е хостится порядка 800 миллионов файлов открытых данных общим объёмом около 142 терабайт.
Статья интересная самим фактом рассмотрения Github'а в роли портала открытых данных, но с большими методическими ошибками из-за которых цифрам верить нельзя. Я также анализировал Github как источник наборов данных и главное что понял что как хостинг файлов он хорош, а в остальном, не особо.
Конкретно в этом случае у исследователей есть три фундаментальные ошибки:
1. Недостаточная фильтрация файлов с расширениями вроде .json которые не про данные, а разного рода конфиги из-за чего завышенное число файлов
2. Отсутствие учёта файлов в формате XML, что особенно поразительно, из-за чего, наоборот, занижение числа файлов
3. Отсутствие учёта файлов архивов XZ, GZip, BZ2 и ZIP, которые могут использоваться для хранения всякого, но можно было хотя бы учесть файлы с двойными расширениями .csv.xz, .xml.gz и так далее. Из-за этого очень сильное занижение объёмов хранимых данных.
В любом случае статья полезна для всех кто ищет данные, думает о том как их искать, и, в целом, думает про данные.
Ссылки:
[1] https://arxiv.org/abs/2306.06191
#opendata #research #microsoft #github #readings
Статья интересная самим фактом рассмотрения Github'а в роли портала открытых данных, но с большими методическими ошибками из-за которых цифрам верить нельзя. Я также анализировал Github как источник наборов данных и главное что понял что как хостинг файлов он хорош, а в остальном, не особо.
Конкретно в этом случае у исследователей есть три фундаментальные ошибки:
1. Недостаточная фильтрация файлов с расширениями вроде .json которые не про данные, а разного рода конфиги из-за чего завышенное число файлов
2. Отсутствие учёта файлов в формате XML, что особенно поразительно, из-за чего, наоборот, занижение числа файлов
3. Отсутствие учёта файлов архивов XZ, GZip, BZ2 и ZIP, которые могут использоваться для хранения всякого, но можно было хотя бы учесть файлы с двойными расширениями .csv.xz, .xml.gz и так далее. Из-за этого очень сильное занижение объёмов хранимых данных.
В любом случае статья полезна для всех кто ищет данные, думает о том как их искать, и, в целом, думает про данные.
Ссылки:
[1] https://arxiv.org/abs/2306.06191
#opendata #research #microsoft #github #readings
Я ничего не писал про увольнение Сэма Альтмана из OpenAI ожидая когда станут известны подробности и подробности уже прозвучали, он переходит в Microsoft, что, для Microsoft, несомненно большой выигрыш. Тем временем просто интереса ради почитать обзор того как менялся состав правления OpenAI за 6 лет [2], там немало любопытного и непрозрачного было.
Почему это важно?
OpenAI сейчас лидер рынка генеративного ИИ и изменения в связи с уходом Альтмана могут отразится на рынке в целом. Например, то что Microsoft сейчас наберёт компетенций и откажется от финансовой поддержки OpenAI.
Ссылки:
[1] https://twitter.com/satyanadella/status/1726509045803336122
[2] https://loeber.substack.com/p/a-timeline-of-the-openai-board
#ai #microsoft
Почему это важно?
OpenAI сейчас лидер рынка генеративного ИИ и изменения в связи с уходом Альтмана могут отразится на рынке в целом. Например, то что Microsoft сейчас наберёт компетенций и откажется от финансовой поддержки OpenAI.
Ссылки:
[1] https://twitter.com/satyanadella/status/1726509045803336122
[2] https://loeber.substack.com/p/a-timeline-of-the-openai-board
#ai #microsoft
Грустная новость, Microsoft закрывают Planetary Data Hub [1], это был специальный сервис в рамках проекта Planetary Computer который позволял работать с большими наборами геоданных с помощью научных тетрадок которые были прямо на инфраструктуре этого сервиса. По опыту и отзывам пользовавшихся - очень удобный.
Что ещё немаловажно, так это то что хаб закрывают под предлогом несоответствия его новым политикам безопасности онлайн сервисов принятым в Microsoft недавно [2].
Есть, правда, подозрение что шаг этот, на самом деле, про монетизацию данных поскольку у коммерческих пользователей Azure есть возможность доступа через платные сервисы облака.
Теперь Hub закрывается, если Вы им пользовались то поспешите перенести тетради и данные [3] если Вы их там заводили.
Ссылки:
[1] https://github.com/microsoft/PlanetaryComputer/discussions/347
[2] https://blogs.microsoft.com/blog/2024/05/03/prioritizing-security-above-all-else/
[3] https://planetarycomputer-hub.microsoft.com/
#opendata #datasets #data #geodata #microsoft
Что ещё немаловажно, так это то что хаб закрывают под предлогом несоответствия его новым политикам безопасности онлайн сервисов принятым в Microsoft недавно [2].
Есть, правда, подозрение что шаг этот, на самом деле, про монетизацию данных поскольку у коммерческих пользователей Azure есть возможность доступа через платные сервисы облака.
Теперь Hub закрывается, если Вы им пользовались то поспешите перенести тетради и данные [3] если Вы их там заводили.
Ссылки:
[1] https://github.com/microsoft/PlanetaryComputer/discussions/347
[2] https://blogs.microsoft.com/blog/2024/05/03/prioritizing-security-above-all-else/
[3] https://planetarycomputer-hub.microsoft.com/
#opendata #datasets #data #geodata #microsoft
GitHub
Retiring the Hub on June 6th, 2024 · microsoft/PlanetaryComputer · Discussion #347
NoteThe Planetary Computer Hub will be retired on the 6th of June 2024. This is a notice that the Planetary Computer Hub will be retired on the 6th of June 2024. Please note that this change only a...