Чартомойка
14.9K subscribers
750 photos
29 videos
4 files
624 links
О графиках: плохих, хороших и других. От восхищения до ненависти — один chart.
Заметили подозрительный график, присылайте — @bogachev11
Download Telegram
Рубрикатор видов и подборка кодов для создания соответствующих видов визуализации данных на языке R.

https://r-charts.com/
Физикализация данных — демонстрация их с помощью объектов реального мира. Редкий пример, сделанный в России:
Forwarded from Дата-арт
11 апреля на Дне открытых дверей НИУ ВШЭ студентки первого курса магистерской программы «Журналистика данных» представили проект по физикализации данных. Каждый абитуриент или родитель могли принять участие в сборе интерактивной статистики о будущих студентах Вышки: участники брали нить понравившегося цвета и отвечали на вопросы, наматывая нити вокруг своих ответ.

https://www.hse.ru/ma/datajourn/news/461711608.html
Сегодня исполнился год изданию «Важные истории». Поздравляю! Нам не хватало такого медиа. Важные истории — это расследования, фильмы, репортажи и мастерские. Что важно — все с качественной визуализацией данных. Подход Важных историй во многом новаторский для России в этом смысле.

Некоторые важные материалы:
Расследование о бывшем зяте Путина

Расследование о подставных понятых в наркотических делах

Исследование о последствиях "закона подлецов" о запрете иностранного усыновления

Помимо расследований ребята делают еще одно важное дело. Делятся своими знаниями о том, как собирать в интернете данные, как использовать питон для обработки, как делать визуализации.
Например:
Регулярные выражения в Гугл-таблицах

Очистка данных в Эксель

и многое другое можно найти в разделе Мастерская на сайте.

Поддержать Важные истории рублем можно тут: https://istories.media/donations/
Отличный пример от Экономист. Во-первых, это два рядом расположенных графика для ситуации, когда масштаб данных сильно отличается. Для обычной сборки кубика Рубика и сборки одной рукой справа сделан отдельный график со своей шкалой. Чтобы понять, что это те же данные, на левом графике это зона выделена бледно-голубым, и им же залит график справа, плюс есть стрелка, который указывает на график справа.

Второй важный момент. Здесь линейный график сделан ступеньками (step chart). Ступенчатый линейный график уместен тогда, когда нам важно показать, что какое-то событие длится во времени, в данном случае мы хорошо видим, как долго «держались» по времени рекорды. Обычный линейный график создавал бы ложное ощущение постепенного снижения, в то время как никакой постепенности здесь нет. Тот же вид графика следует использовать, например, для того, чтобы показать как менялись цены на бензин или акцизы.

И третье. Категории подписаны возле самих линий, так график можно прочитать максимально быстро.

#датавизприемы
То, о чем так долго говорили, наконец произошло. У Tableau появился полноценный браузерный режим для создания визуализаций.

(Раньше можно было исправлять сделанные в десктопе, теперь можно с нуля создавать прямо в окне браузера)
Очень хороший обзор стандарта визуализации данных IBCS от Романа Бунина. Стандарт рассказывал о том, как правильно (и неправильно) делать графики и диграммы для отчетов, презентаций и дэшбордов.
https://revealthedata.com/blog/all/obzor-standarta-ibcs/
🍾🍾🍾 Поздравляем коллег из Агентства Инфографика, чей проект «Почему утонул Курск» взял серебро престижной премии в мире инфографики Malofiej. Это настоящий успех и признание высокого качества. И в этом году единственный представитель из России среди призеров.

Напомню, что на премии Moscow Dataviz Awards этот проект взял золото )

Ссылка на сам проект: https://kursk.infografika.agency

Подробности о победителях Малофея можно почитать здесь: https://www.malofiejgraphics.com/awards/el-pais-and-errea-comunicacion-receive-the-best-of-show-awards/2021/06
Forwarded from Reveal the Data
Результаты первого спринта
На первые две недели сделали фокус на табличные вычисления, порядок операций и создание первого дашборда. Какой получился дашборд расскажу в следующий раз, чтобы сразу показать и версию после замечаний.

А пока поделюсь статьей, которую подготовили с Русланом по быстрым табличным вычислениям. Это было домашкой — собрать все виды вычислений и придумать для них бизнесовые примеры. Получилась короткая «шпаргалка» с яркими визуальными образами, чтобы быстро сориентироваться что и зачем существует. А ещё есть книга на Паблике с примерами использования вычислений.

Stay tuned, готовим следующую «серию». =)

#залетайвbi
1👍1
На сайте https://tazeros.com/russian_covid_stereotypes обнаружилось любопытное исследование о том, собираются ли россияне прививаться (дату актуальности увы не указали).
Был проанализирован миллион постов в соцсетях и мессенджерах, результаты иллюстрировал красивенький тримап

https://telegra.ph/Osmyslennyj-vybor-cvetov-v-trimehpe-Ili-ne-trimehpe-06-25

#разборыграфиков
Наконец написал несколько слов о распространенной ошибке при отображении избыточных смертей (excess deaths) – сидело в голове и черновиках долгие месяцы. Очень часто вертикальную ось на графике обрезают, чтобы получше было видно собственно данные. Это один из извечных холиваров визуализации данных. В целом, я занимаю по этому вопросу умеренную позицию и считаю, что иногда фокус на отображаемых значениях оправдан, и вертикальную ось можно обрезать. Но не в данном случае. Тут мы имеем дело с любопытным случаем, когда отсечение нуля серьезно искажает визуальный сигнал ключевой переменной. Дело в том, что на графиках избыточных смертей главная отображаемая переменная – соотношение площади между линией избыточных смертей и бэйслайном (красная штриховка на графике) и площади под бейслайном (зеленая штриховка). Это соотношение дает нам p-score – % превышения числа смертей над обычным уровнем. Обрезая вертикальную ось, мы визуально занижаем знаменатель, преувеличивая избыточные смерти.
👍1
Есть тут еще и чуть менее очевидная проблема с размером населения отображаемых стран. Чем больше население, тем меньше случайные отклонения в понедельных или помесячных смертях, а значит, плотнее ложатся на графике макаронины линий за предыдущие годы. Если обрезать вертикальную ось, то можно очень сильно приблизиться к бэйслайну. Напротив, в небольших населениях данные скачут, и как ни обрезай площадь под бэйслайном остается больше. В итоге при обрезании вертикальной оси сигнал о превышении смертности искажается больше для больших населений. Чуть подробнее с картинками в треде, ссылка в первом комментарии.

Илья Кашницкий объясняет, почему не надо обрезать ось Y в графике про избыточные смерти.
Весь тред тут: https://twitter.com/ikashnitsky/status/1409472089304690694
Симпатичный ход от авторов инфографики про индекс счастья. Картограмма сопровождается снизу стрип-плотом, где роль кружочков выполняют флаги стран.

Позволяет легко понять распределение стран по показателю, расположение одних стран относительно других и относительно общей картины.

Все картинки тут.

#датавизприемы
Еще один пример остроумной и наглядной визуализации данных (отсюда).

Процент вакцинированных по странам и континентам показан с помощью beeswarm plot'а. На русский это можно перевести как «пчелиный рой».

В отличие от обычного графика, преследующего ту же цель — показать распределение — типа штрихкод или стрип-плот (ленточная диаграмма), пример которой мы видели в предыдущем посте, этот тип визуализации позволяет разнести попадающие в один диапазон значения так, чтобы они не накладывались друг на друга, отлично сохраняя при этом картину распределения.

Его можно построить в rawgraphs.io, Tableau, Flourish, Python, R и других инструментах. Во Flourish правда нельзя изменять размер кружочков. UPD. Вроде бы можно, но через режим Survey.
Forwarded from LEFT JOIN
Подборки каналов
Никак не доберусь до составления собственного списка, поэтому по просьбе ребят из @it_resume делюсь подборкой авторских телеграмм-каналов для аналитиков. В подборке 20 каналов: про анализ данных, программирование, data engineering, data science и так далее. На большинство каналов подписан лично, поэтому согласен и могу рекомендовать 🙂
Детали в посте на хабре.
Хорошее объяснение, почему не надо использовать радарные диаграммы (пауки).
1. Кажется, что порядок лучей (и форма фигуры) имеют значение, но нет.
2. Кажется, что площадь кодирует сумму параметров, но нет.
3. Кажется, что параметры непрерывные, но нет — дискретные.

Авторы статьи советуют использовать "звездчатую" диаграмму. Согласен, что она лишена этих недостатков. Но она все же не очень компактная и менее наглядная, чем другие альтернативы.

В своей книге (https://t.me/chartomojka/623) и постере (https://t.me/chartomojka/600) я показываю более компактные и наглядные способы мультикатегориального сравнения.

https://flourish.studio/2020/10/21/create-online-radar-spider-charts/
Про графики в полярной системе координат от Rosamund Pearce из Financial Times. Пользоваться они ими не советуют, тк в таком формате график часто становится немножко (или множко) misleading.