Журналистика данных
4.38K subscribers
1K photos
32 videos
16 files
1.29K links
Инструменты современных медиа, массивы информации, наблюдения и тренды
Download Telegram
С особой теплотой вспоминаю выборы в Госдуму в декабре 2011 года, потому что тогда мне удалось тряхнуть своей математико-статистической стариной и неплохо развлечься.

Дело было в Известиях: в день выборов мы запустили на сайте табло, которое в реальном времени показывало, сколько людей уже проголосовало, с точностью до человека -- последние циферки менялись как сотые доли секунд на таймере. Читатели поражались: у вас что, моментальные данные со всех избирательных участков? Ну, конечно, нет.

Это работала математическая модель, основанная на исторических данных о том, с какой интенсивностью идет голосование по стране в разное время суток, и прогнозах явки на текущие выборы. Вот эти расчётные циферки и мелькали на табло. Потом подходили промежуточные данные из ЦИК о реальной явке, и это позволяло уточнять модель прямо на ходу.

В итоге ошибка была совсем невелика -- не больше, чем у всяких сервисов, показывающих онлайн население Земли -- это ведь тоже математические модели
Хорошая работа ZEIT. Журналисты проанализировали все речи депутатов бундестага после 1949 года. Теперь можно увидеть, какие темы когда были важны, в зависимости от чего они становились важными или наоборот. Например, субсидии на строительство жилья переставали обсуждать, когда стагнировал рынок аренды. Очень внятная визуализация
https://www.zeit.de/politik/deutschland/2019-09/bundestag-jubilaeum-70-jahre-parlament-reden-woerter-sprache-wandel
Шпионская история, которая помимо прочего показывает, что при помощи несложного поиска по базам можно вычислить то ли предателя, то ли того, кто пытается себя за него выдать. Но это уже не наше дело — нам достаточно того, что простые объявления о сделках с недвижимостью позволяют украшать тексты яркими подробностями
https://www.kommersant.ru/doc/4087921
Всех причастных и непричастных -- с 20-летием Газеты .Ru ! Причастным еще отдельно -- спасибо за четыре незабываемых года. В общих чертах все, что я об этом думаю, рассказал ещё 10 лет назад, повторяться не буду -- прилагаю линк.

Но должен сказать спасибо ещё одной важной персонажке того времени -- аське. Это онлайн мессенджер ICQ, если кто не знает или забыл -- ведь это было ещё до мобильного интернета. А я даже 8-значный (то есть беспонтовый) номер своей аськи помню до сих пор. Классная вещь

Сидит, бывало, огромный ньюсрум, и никто ни с кем не разговаривает, только мерно стрекочут клавы, перенося буквы из репортеров на сервак. И вдруг сюрреалистическая картина -- в разных концах зала одновременно встают человек шесть и молча направлятся к выходу. То есть на самом деле народ интенсивно общался по аське и в какой-то момент эти шестеро решили покурить.

Аська помогала и в работе, особенно со спикерами второго разбора, которым звонить лично жаль времени -- например, аналитикам. Тем более, что многие из них повадились не столько по-умному комментировать, сколько пиарить свои конторы. Ну и вот засылаешь, бывало, по аське один и тот же вопрос 7-8 аналитикам, получаешь первые 3-4 ответа и ставишь два лучших из них в заметку. Ну а с остальными как в том анекдоте -- зачем нам неудачники? Надо быстрее отвечать

Вы уж простите нас, аналитики. Вы пытались манипулировать нами, а мы вами, так что всё честно. С юбилеем, настоящая газета в интернете

http://10.gazeta.ru/history/3257160.shtml
Продолжаю вольные записки о медийных стартапах. Когда проект удаётся сдвинуть с нуля, начинается увлекательный этап разгона. Уже понятно, что кое-что получается, команда свежая, идей и амбиций полно, показатели растут. В таких условиях работается, не побоюсь этого слова, с огоньком.

Самое приятное на этапе разгона -- когда возникает пьянящее ощущение, что "мы делаем модный проект". Вдруг выясняется, что "все" (ну, то есть, ЦА) в курсе, о чем мы пишем, и "все" это обсуждают. То есть твои 70+ часов работы с огоньком в неделю -- это все было не зря.

Одна беда -- мода длится недолго и неизбежно проходит.

За полтора-два года начальная команда выдыхается, и дело не только в физической усталости и уж точно не в лени (ну, то есть, случай лени нет смысла обсуждать -- проект просто не пойдет). Например, руководитель проекта может быть прирожденным именно стартапером, которому заниматься органическим развитием просто скучно, а, может, он и не умеет. У других членов команды может убавиться энтузиазм
если не сбываются какие-то их надежды на зп или карьеру.

Даже если этого не происходит и команда продолжает упираться рогом, существуют некие естественные пределы креатива в рамках выбранного формата и концепции издания. За полтора-два года в этих рамках придумывается почти всё, что можно, и разрабатываются все источники

Наконец, сами новости и события не устроены так, что они с каждым днём всё сенсационнее. Когда я делал ЖЖ про закупки, то однажды нашел тему -- начальник какой-то деревни купил мерседес за 5 млн руб. Обсудили, поржали, повозмущались. А через день нахожу начальника другой деревни, который купил БМВ за 4 млн -- и это было после первой темы уже совсем не так интересно, и не зашло.

Читателю не объяснишь. Ему подавай всё более хрустящий лист салата со всё более сочной котлеткой. Вот мода и проходит, как глория мунди. Но нам ли быть в печали. Прошла мода на один продукт, формат и концепцию -- можно придумать другие. И сдвигать проект вверх уже не с нуля, а с того плато, на которое он вышел за первую пару лет.
Коул МакМахон, который год назад запустил обучающий курс по превращению данных при помощи визуализаций в истории, написал новую заметку — видимо, в поддержку курса. Мне там юмор понравился: "Танцуйте с вашими данными (дисклеймер: эту фразу придумал кто-то умный, но не я)" . https://depictdatastudio.com/data-visualization-special-powers/?ck_subscriber_id=209244156
Годовой аналитический отчет о визуализации данных. Половина специалистов имеют опыт не более 3 лет. Мужчин среди дата-визуализаторов в 2 раза больше чем женщин. И всякое другое любопытное
https://medium.com/nightingale/2019-annual-data-visualization-survey-results-334d3523073f
Одна и та же банальная шутка часто приходит сразу во многие головы, но такой вакханалии, как перевод глагола impeach как "я персик" , трудно припомнить. Google выдает сотни тысяч страниц, нарисованы сотни постеров и выпущены тысячи маек, даже какие-то банки со слабым алкоголем. Ну и конечно, журналистика с визуальными графическими находками тут как тут
This media is not supported in your browser
VIEW IN TELEGRAM
Никто и не сомневается, что с возрастом у людей возникают проблемы со сном. Но внятные графики и описания все равно полезны https://flowingdata.com/2019/09/06/sleeplessness/
Люди обсуждают увлекательнейшую тему — а что если в графике для обозначения полов людей использовать не традиционные голубой и розовый цвета, а слегка другие
https://flowingdata.com/2019/09/05/process-55/
Forwarded from Ivan Begtin (Ivan Begtin)
Git для данных - это давняя мечта многих разработчиков и дата-инженеров. Как организовать хранение и передачу данных так чтобы было похоже на систему контроля версий и учитывало объёмы и изменения в наборах данных.

Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML


Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/

#opendata #data #git #datatools
Любопытная статистика по причинам отказа от прививок, из которой, в частности можно узнать, что религиозный мотив отказа в наименьшей степени проявляется в Саудовской Аравии (2,3%) и Финляндии (2,6%), а в наибольшей — в Монголии (50,5%) и Таиланде (44,4%). Много инфографики
https://www.ebiomedicine.com/article/S2352-3964(16)30398-X/fulltext
Полный текст наезда Комиссии по ценным бумагам и биржам США (SEC) на Telegram. За непрозрачные действия компании SEC добилась через суд временного запрета на выпуск Telegram'ом криптовалюты
https://www.sec.gov/litigation/complaints/2019/comp-pr2019-212.pdf
❗️Советы по Телеграму (на собственном опыте) от @GlavMedia.

1. Не строчите огромные посты. Два-четыре абзаца - и хватит. Все, что больше - прячьте в medium.com, teletype.in или штатный дуровский telegra.ph (переделав ссылку через tgraph.io, чтобы открывалось без VPN).
2. Не перебарщивайте с эмоджи. Пост, в котором каждая строка начинается и заканчивается эмоджи, выглядит как шалава на балу - крикливо и паскудно.
3. Не пишите просроченные новости, вчерашние тренды, устаревшие сенсации и информацию, которая уже опровергнута. Не поленитесь проверить. Пришёл в Телеграм - успевай и соответствуй, это не семейный или подъездный WhatsApp с баянами.
4. Не воруйте контент из других каналов без ссылки. Если ссылку ставить западло не хочется - упомяните название канала-донора через "собачку" или в без в скобках (via название канала).
5. Если вы комментируете чей-то пост, лучше не делать его репост и ниже/выше - пост с мнением. Пишите свое мнение (комментарий), а под (!) ним давайте ссылку на исходный пост. Если вас будут репостить другие каналы или люди станут "растаскивать" по своим чатам и личкам - будет понятно, на что именно вы ответили.
6. Не творите зашквара.
7. Пишите грамотно. Как минимум - старайтесь. Иначе "инсайды" от канала, который пишет "с Москвы" или "загараживать" напоминают записи на парте или стене школьного сортира.
8. Реклама казино, «взлома казино», услуг кардеров и пирамид заживо убивают вашу человеческую карму и карму канала.
9. Реклама вроде «админов этого канала ищет ФСБ и боятся мэры», «они гонят инсайды из курилок Кремля» смешна. Все прекрасно понимают, что в 99% случаев админов таких каналов "ищут мамки, чтобы отобрать телефон и погнать инсайдера спать перед первой парой".
10. Не превращайте канал в доску подборок с вашим участием. Если делаете подборку - не ставьте в нее более 10 каналов, иначе ее не дочитают до конца.
11. Не публикуй (пиши, репость) в канале то, за что будет стыдно в случае деанонимизации. Платно или бесплатно.
12. Закрытый канал (joinchat-ссылка) - реальное закшварище. Таким образом админ "закрывает" читателя в свою клетку и не дает возможности почитать-подумать перед тем, как подписаться.
13. Главные агрегаторы Телеграма (уже) не помогут с подпис(чи)ками, но помогут узнать о существовании вашего канала.
14. Читайте умных людей, умеющих в телеграм
15. Грааль Телеграма лежит в TGStat.ru

Стей тюнд.
@GlavMedia
Товарищ Питер Коупленд все правильно пишет, но слегка случится в открытую дверь. Это же вековая истина, известная в любом агентстве — если бы первым передал сообщение с фактическими ошибками, то считай, что никакого не передал. В зачет идет только достоверная информация. Иначе мы такого напридумываем первыми...
https://t.me/dddjournalism/4441