Журналистика данных
4.35K subscribers
1K photos
32 videos
16 files
1.29K links
Инструменты современных медиа, массивы информации, наблюдения и тренды
Download Telegram
По данным ВЦИОМ, снижается доля россиян, склонных думать, что старшее поколение не учитывает мнения молодежи — с 37% в 2012 г. до 31% в 2018 г. При этом растет доля полагающих, что пожилые не получают того, что заслужили — рост с 78% в 2012 г. до 87% сейчас.

Проще говоря, старики стали все чаще слушать и даже понимать Монеточку, а вот молодежь заставлять послушать Led Zeppelin становится все сложнее
В память о безвременно ушедшем коллеге Александре Кондратьеве. Одна из моих любимых шуток его авторства:

Вдруг я проснулся. Будильник показывал 7:00. На нуль делить нельзя, подумал я и повернулся на другой бок
Графика из Nat Geo: футболисты сборных, родившиеся в других странах. Не учтен играющий за Россию бразилец Марио Фернандес: данные собирались по квалификационным матчам, а Россия участвует как хозяйка
Команда MoveHub составила рейтинг хипстерских городов, изучив ситуацию в 446 населенных пунктах из 20 стран. Критериев хипстерства выбрано пять: количество кофе-шопов, веганских закусочных, студий тату, винтажных бутиков и музыкальных магазинов на 100,000 человек населения.

Победила небольшая английская агломерация Брайтон-энд-Хов, за ней следуют три американских города Портленд, Солт Лейк Сити и Сиэтл, пятое место занял Лиссабон. До России исследователи пока, к сожалению, не добрались. Полная таблица результатов — по ссылке
https://www.movehub.com/blog/the-hipster-index/
Анимированная карта мира — извержения вулканов за 4000 лет. Язык португальский, но все понятно
https://www.nexojornal.com.br/grafico/2018/07/11/As-erup%C3%A7%C3%B5es-vulc%C3%A2nicas-dos-%C3%BAltimos-4.000-anos-em-um-mapa-animado
Мошенничество в е-коммерции приняло угрожающие масштабы. Более 90% попыток залогиниться в онлайн-магазинах по всему миру совершают преступники, чтобы проверить актуальность украденных данных. У авиации и банков показатель составляет 60%
https://qz.com/1329961/hackers-account-for-90-of-login-attempts-at-online-retailers
Нью-Йорк Таймс взялась проверить, а не врет ли компания Nike в своей рекламе, что в её новых кроссовках люди бегают быстрее? Замутили целое исследование и выяснили, что в общем-то не врет, хотя скорость повышается всего лишь на 3-4%. Очень предсказуемый результат — и вашим, и нашим
https://www.nytimes.com/interactive/2018/07/18/upshot/nike-vaporfly-shoe-strava.html
Эта ошибка вечна и неискоренима, но мы всё-таки будем пытаться с ней бороться. НДС у нас подняли с 18% до 20%, но это не значит, что его подняли на 2% — это значит, что его подняли на 2 п.п., то есть 2 процентных пункта. А поднятие в процентах считается так: 20/18*100 - 100 = 11,1. То есть НДС у нас повышается на 11,1%
в Блумберге симпатичная визуализация на тему, как используются земли в США — сколько пастибищ, леса etc
https://www.bloomberg.com/graphics/2018-us-land-use/
На конференции по статистике в Ванкувере товарищи из Гарварда и др. представили статистическую модель для определения точного авторства песен Beatles, в особенности Джона Леннона и Пола Маккартни.

Как известно, музыканты договорились поделить везде авторство пополам. Однако статистика позволяет отследить особенности слов и музыки композиций и определить, где чей вклад больше. Так, хит Help, по-видимому, преимущественно ленноновский, тогда как Michelle скорее всего в основном написал Маккартни.

Короче, тут благодатнейшая почва для произрастания статей музыкальных критиков. Они ведь могут и поспорить с наукой

https://marketbusinessnews.com/stylometry-lennon-mccartney/183472/
РАН запустила новую платформу для академических журналов. Выглядит аккуратно. Осталось наполнить архив, а то поиск пока что непонятно зачем нужен
https://ras.jes.su/
Google сделал сервис для дата-журналистов, облегчающий поиск наборов данных. Если вы хотите, чтобы ваши данные появлялись в поиске, добавьте их специальным образом на страницу (пример есть по ссылке). Google утверждает, что перед разработкой поговорил с 30 ведущими дата-журналистами. ProPublica уже стала энтузиастом нового сервиса
https://www.blog.google/outreach-initiatives/google-news-initiative/making-it-easier-discover-data-search/
Согласно порталу открытых данных правительства Москвы, самыми популярными именами новорожденных с июле стали:
Александр — 303 младенца; София — 300; Михаил — 240; Анна — 227; Мария — 223; Артём — 220.

Но если насчёт Артёмов понятно, что тут не обошлось без влияния Дзюбы, то откуда вдруг столько Софий? Как будто память уносит нас в 1970-е... Но тогда странно, что не Аллы.
Второе издание The Data Journalism Handbook, улучшенное и дополненное, выйдет уже осенью. Издатели, кстати, набирают переводчиков книжки еще на 11 языков (русского среди них нет)
https://datajournalismhandbook.org/
Полезный сервис для подготовки репортажа с места события еще до прибытия на место: топографическая карта; уличный вид и аэрофотосъемка на одном экране. Все, что нужно, отмечено и размечено.
http://data.mashedworld.com/dualmaps/map.htm?x=-87.981906&y=43.029482&z=16&gm=2&ve=4&gc=0&bz=1&bd=0&mw=1&mi=0&mg=1&mv=0
Занимательная математика от FIFA. Благодаря тому, что наша сборная пробилась на минувшем ЧМ в восьмёрку лучших команд мира, в рейтинге FIFA она сумела ворваться в первый полтинник. Правда, едва-едва — на 49-е место. То есть, участия в чемпионатах мира, судя по рейтингу, всё ещё не заслуживает
https://www.fifa.com/fifa-world-ranking/ranking-table/men/index.html
"Карта ветров" усредненной игры на ЧМ-2018. Более теплые и яркие цвета означают большее количество проходов игроков. Придумка Hilltop Analytics
Вот и всё — Ростелеком обанкротил свой поисковик Спутник. Он должен был составить конкуренцию Яндексу и Гуглу, но не завоевал даже десятой доли процента в общем объеме поиска. Ушло на эксперимент 2-2,5 млрд руб. Так в бизнесе бывает, конечно. Только в данном случае все было ясно с самого начала.

Начать с того, что для решения указанной задачи потраченная сумма очень мала. Масштабы Яндекса — 90 млрд. руб. выручки в год. Про Гугл вообще молчим. И вы хотели воевать с гигантами, располагая в сто раз меньшей суммой? И не располагая лучшими технологиями? Просто смешно. Хотя, конечно, грустно.

Грустно — и тоже с самого начала, с момента старта проекта в 2013 году — что деньги не пошли туда, где были бы потрачены с гораздо большей пользой. Речь тоже о поисковике — только не общего назначения, а по государственным базам данных. Закупки, суды, патенты, реестры, кадастры etc. Сейчас по каждому сайту собственный поиск, со своими особенностями и не всегда удобный. На поиски нужного документа уходит масса времени.

Вот эту проблему и мог бы решить государственный проект. Благодаря этому статусу он мог бы получить прямой доступ ко всем базам, а не парсить сайты правдами и неправдами. Его результатам бы больше доверяли, а добавить удобный интерфейс — всем было бы счастье. Журналистике данных уж точно.

А самое обидное, что сумма в 2 млрд руб. для решения такой задачи — вполне достаточна если не сказать огромна. Она не идет ни в какое сравнение с теми копейками, которые могут позволить себе частные инвесторы на проекты по поиску в гос базах. Но что поделать — Ростелеком не знает сослагательного наклонения
Работа с массивами данных вовсе не скучное занятие, как некоторым может показаться. Журнал Harvard Business Review — а там врать не будут — считает его самой сексуальной работой 21 века. Правда, 80% времени специалистов уходит на получение и сортировку данных, и только 20% на анализ, ну так это везде так.
https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
Визуализация токсичности дискуссий в твиттере
https://medium.com/cortico/visualizing-toxicity-in-twitter-conversations-3cd336e5db81
Визуализированная база о въездной и выездной миграции практически по всем странам мира. Всё наглядно и удобно в использовании.

За секунду можно узнать, что в Папуа проживает 26 росиян. Точнее, проживало в 2015. Более свежих данных пока нет. С демографической статистикой всегда так

http://www.iom.int/world-migration