Журналистика данных
5.27K subscribers
1K photos
32 videos
16 files
1.29K links
Инструменты современных медиа, массивы информации, наблюдения и тренды
Download Telegram
Присоединяясь к поздравлениям Google с 20-летием, вспоминаю первую, пожалуй, толковую статью о том, как работает алгоритм Google PageRank. Статья так и называлась: PageRank Explained — Растолкованный PageRank. На русский язык ее перевел Александр Садовский, который на тот момент занимался продвижением сайтов в поисковиках, а потом стал сотрудником Яндекса. Перевод по ссылке:
http://digits.ru/articles/promotion/pagerank.html
Читатель прислал еще одну карту цен на недвижимость — уже по всей стране, на основе объявлений на Avito
http://russia.duck.consulting/square_meter_price_heatmap
Данные ВТО по расходам туристов в разных странах. Показаны только страны, где показатель выше $1 млрд. Хорошо видно, что нам есть куда стремиться
Крейг Тейлор визуализирует городские сети в виде кораллов и утверждает, что это помогает понять город. Подробнее: https://towardsdatascience.com/coral-cities-an-ito-design-lab-concept-c01a3f4a2722
Минздрав предупреждает: если уж пить, то только то, что рекомендует И.В.Мальцев. Поздравляем его канал с выходом на рубеж 4000 подписчиков и превращением в базу данных по виски — просто используйте поиск
https://t.me/whisky_at_the_jar
Прецедент: в топе Яндекса сегодня тема (про дедолларизацию), поднятая медийным проектом The Bell, не имеющим лицензии СМИ — в реестре Роскомнадзора BellyDance есть, а Bell нет. Поэтому в топе Яндекса нет и ссылки на сам материал в The Bell. Но многочисленные ссылки в зарегистрированных СМИ, которые The Bell доверяют и без лицензии, вывели тему в топ.

Собственно, это аналог того, как в топ иногда выходит тема, например, с сайта госзакупок или ЕГРЮЛ, если ее подхватывают лицензированные СМИ. Просто сайт закупок и ЕГРЮЛ не называют себя медийными проектами, хотя и похожи на них
Иной раз и Википедию похвалишь, когда есть за что. Простой, но наглядный таймлайн по премьер-министрам России за без малого триста лет — кто был на посту, когда и как долго
https://upload.wikimedia.org/wikipedia/ru/timeline/538ca1e9d6ac3e1746485273eedd51bb.png
#обложкадня Канадский журнал Maclean’s вышел с 66349 разными обложками. На каждой — данные об одной из канадских жертв Первой Мировой. Вот база данных, прилагающаяся к журналу
К вопросу о Кокорине с Мамаевым. База данных ГАС "Правосудие" по запросу "стул кафе" выдает 150+ тыс. дел. Мы выбрали случайным образом пять таких, где удар стулом не причинил потерпевшему серьезных повреждений, чтобы понять, что примерно за это бывает

Самара: 1 год исправительных работ + 5% заработка в доход государства
Вологда: одному 60 тыс. руб. штрафа, другому 2 года условно
Похвистнево: 2 года условно
Новочебоксарск: 1 год исправительных работ + 10% заработка в доход государства
Москва: штраф 15 тыс. руб. + компенсация ущерба

https://bsr.sudrf.ru/bigs/portal.html
Forbes стал вторым после Associated Press крупнейшим медийным игроком, решившим поработать с блокчейн-платформой для журналистов Civil. По замыслу создателей, платформа должна решить две проблемы, стоящие перед современными медиа: микроплатежи и сохранность архивов. Многие издатели смотрят на проект скептически, но AP и Forbes, судя по всему, рассудили так, что пока не попробуешь, все равно не поймешь, как оно на самом деле
https://www.axios.com/forbes-major-media-company-publish-blockchain-b101f809-7c43-4f68-9b2a-cdb1e81de753.html
Дэниел Уэйнрайт, дата-журналист BBC News, рассказал, как он добыл данные для смешной заметки про лондонский аэропорт Хитроу, которую он написал два года назад. В заметке сообщалось, что с января по октябрь 2016 аэропорт получил 84 тыс. жалоб на шум — по одной каждые 5 минут. Причем летом половина жалоб шла всего от 10 человек. Заметка получила обильное цитирование.

Насладившись славой, Уэйнрайт подробно расписал в Online Journalism Blog, как он получил необходимые данные при помощи электронных таблиц Google Spreadsheets. Данные в принципе открытые — но собирать их руками было бы чрезвычайно муторно

https://onlinejournalismblog.com/2016/11/29/how-the-bbc-england-data-unit-scraped-airport-noise-complaints
Впечатление, что в современной России "английский знают все", не просто обманчиво, а чрезвычайно обманчиво. В ходе переписи населения в 2002 году владение инглишем указали 6,96 млн россиян, к 2010 году это количество оценочно приросло на 0,62 млн. Итого 7,58 млн, то есть английским владеет только каждый 19-й.

С другими иностранными языками ситуация еще печальнее. Более или менее заметны немецкий (2,09 млн) и французский (0,62 млн) языки, а вот следующими за ними испанским и турецким владеет только примерно каждый тысячный россиянин — всего по 140-150 тыс. чел.
Автоматизированная система подбора талантливых кадров в Amazon дискриминирует женщин, сообщает Reuters. Сексизм ни при чём — просто систему обучали на некорректных входных данных. Большинство резюме поступали от мужчин, вот система и решила, что "мужской стиль" этих документов предпочтительнее.
https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G
Большие городские данные: какие возникают задачи, где брать информацию и как её обрабатывать
http://www.sncmedia.ru/stars/kak-izmenilas-moskva-pogovorili-s-annoy-barinovoy/
В начале 2019 стартует некоммерческое медиа Markup. Оно будет посвящено технологиям и рассчитывает возбудить в обществе дискуссию о них, которой сейчас нет, потому что, в отличие от политики и спорта, как считают стартаперы, в технологиях никто не разбирается. В проект наберут 20 чел., в том числе дата-журналистов. Квоты в штате для женщин и небелых: по 30%. Инвестиции в $20 млн обещал Крейг Ньюмарк, владелец сервиса объявлений Craiglist
https://themarkup.org/
The New York Times делать-то нечего — так взяли нанесли на карту все дома Соединенных Штатов. Мы, кстати, тоже можем сделать нечто подобное без колоссальных усилий, воспользовавшись открытой базой Реформа ЖКХ
https://www.nytimes.com/interactive/2018/10/12/us/map-of-every-building-in-the-united-states.html
Карта политической ангажированности американских СМИ. Невооруженным глазом видно: чем больше у СМИ собственных невыдуманных фактов, тем его позиция нейтральнее и центричнее. За фейками — к радикалам
Картина "Искусственный интеллект", нарисованная самим искусственным интеллектом в лаборатории IBM Research. Как видим, ИИ протягивает руку человеческому креативу. Небось нашу бдительность усыпляет
Своим опытом визуализации данных поделился Йен Кристенсен, иллюстратор Scientific American. Огромный, но интересный и кстати хорошо иллюстрированный материал

"Мои любимые работы — результат объединения разных художников, чтобы создать окончательный образ, который опирается на сильные стороны каждого мастера, Например, привлекаю художника, который хорошо видит цветовую гамму, вместе с художником, который умеет технически грамотно визуализировать данные"
https://blogs.scientificamerican.com/sa-visual/visualizing-science-illustration-and-beyond/