Data Bar | О data-проектах
1.95K subscribers
131 photos
1 file
103 links
Авторский канал о данных, аналитике, визуализации и датапроектах, которые создаю сам или в коллабе.
Саша Варламов @agvarl, Tableau Zen Master, ex Playrix, ex InDrive
Download Telegram
Агрегаторы IT вакансий и их сравнение

Продолжаю рассказывать о совместном с Никитой (канал 'Joni in Web') проекте анализа зарплатных вилок в IT. Начали с ежедневного сбора актуальных вакансий Getmatch и вывода данных на дашборд. Штука оказалась популярной, поэтому, продолжаем развивать.

🪄 Новое на текущем этапе:
1. Подключены данные платформы 'Хабр Карьера'.
2. Переехали с PostgreSQL на Clickhouse. Несколько изменена логика таблиц.
3. Настроен свой VPN. Никита писал у себя в канале о разработке собственного VPN 🛡
4. Настроен экспорт в Google Sheets для ежедневного обновления дашборда
5. Пересмотрен и переделан алертинг сбора данных
6. В дашборд добавлено несколько фич, он переключен на Google Sheets

У Никиты в канале можно подробно прочитать о технической реализации ETL части и алертинга. Здесь коротко напишу что сделано:

1. Парсер вакансий Хабр Карьеры отрабатывал всю прошлую неделю утром. Данные собирались и записывались в базу данных. На выходных, когда руки дошли проверить что записалось, выяснили, что DAG не совсем верно отрабатывал, и часть данных не записалась. Лучше столкнуться с такими багами 🐞 на старте, чем через месяц. Это исправили, и сейчас есть 4 дня полных данных по Хабру.
2. Переезд с PostgreSQL на Clickhouse состоялся по архитектурным причинам.
3. Экспорт в Google Sheet нужен только для Tableau Public. Паблик не поддерживает обновления по запросу из других источников.
4. Было добавлено сравнение записей в БД с записями парсера
5. В дашборде +1 новая платформа агрегации вакансий. Можно сравнивать вакансии и зарплаты на разных платформах. Добавлена сортировка по нескольким метрикам в общей таблице. Лого компаний подтягиваются с Хабра в таблицы. Переключение на Google Sheets прошло не очень гладко - послетали форматы и цвета, пришлось восстанавливать.

❗️В итоге, в публичном даше оставили 8 последних дней с двух платформ. В своём внутреннем дашборде собираем все данные.

По данным Хабр Карьеры. На Хабре только 20% вакансий с зарплатами, но собираем все. Есть вакансии Junior и Intern, их нет на Getmatch. Прикольно посмотреть что есть по джунам. По IT направлениям пришлось делать матчинг по ключевым словам - таких категорий в данных не было. Ещё в вакансиях Хабра может быть указано несколько городов, а в Getmatch - только один. Эту проблему планируем решить в следующей итерации добавлением в базу таблицы Location.

📊 С унификацией данных для разных платформ проблем действительно хватает:
1. По-разному указываются компании, напр. 'Avito' и 'Aвито'.
2. Число локаций в вакансиях может быть >1.
3. Навыки могут сильно различаться. На Хабре много того, что можно не писать в навыках, напр. 'Программирование'. В Getmatch - по делу, основные инструменты.
4. Названия вакансий на могут быть совершенно непонятными или с ошибками.
5. Лого платформ в разных форматах и разрешениях - криво подтягиваются в дашборд.
6. Не всегда понятно, зарплаты указаны Net или Gross.
7. Удалёнка может быть неявно прописана где-то в тексте вакансии. Где-то есть part time.
В общем, куча задач для LLM рисуется.

Другие инсайты ищите в дашборде по вакансиям IT. Можно, например, порадоваться за инженера по безопасности с ЗП до 2 600 000. Или посмотреть сколько вакансий публикуют по понедельникам.

На следующем этапе подключим третью платформу, поднимем dbt. По мере реализации проекта может много интересного произойти (в идеале - дойти до прогнозирования вилок ЗП по любой вакансии). Следите за постами.

📊 Дашборд на Tableau Public обновляется ежедневно и собирает последние 8 полных дней
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥275🥰3👍1
Проект VILKY. Roadmap, API, dbt и MongoDB

Прошлая неделя была неожиданной для совместного с Никитой проекта анализа зарплатных вилок IT. Дашборд попал в IT паблики. Мы получили море фидбека и предложения сотрудничества. 🔥

Пришлось на ходу менять Roadmap . Да, теперь он есть у проекта. Про Roadmap и метрики напишем позже.
У проекта появилось название 'VILKY' и лого. Мы просто нарисовали вилку 🍴 🍽.

Сегодня проекту автоматизации ровно месяц. Малыш ещё, но уже полноценный проект с роадмапом, DWH, VPN, API и визуализацией.

Основные фичи этого релиза:
1. Добавлены данные 3го агрегатора вакансий: Geekjob
2. Глубина данных дашборда увеличена до 15и дней. Можете смотреть динамику
3. Развёрнут API
4. Развернут и работает dbt. Нужен для трансформаций данных
5. Развёрнута база MongoDB. Сервис может принимать вакансии в виде текстовых документов и складывать в БД

По фичам:
1. Парсер Geekjob работает нормально, но есть вопросы к чистоте данных. В сервисе можно указывать несколько грейдов, и непонятно для какого указывать вилку. Поэтому, выбираем наименьший, то есть, если указано Junior, Middle, Senior, в дашборде такая вакансия уйдёт в категорию Junior. Есть проблемы с указанием ЗП - могут написать 500 000K, например. Приходится обрабатывать такое пока на уровне дашборда. После сбора всех платформ будет нормализация на уровне DWH. В работодателях встречается такое: 'Рекрутёр Олег' или 'Агентство Эйчар'. Это всё собираем, но в дашборд не идёт.
2. Просто посмотрите на историчность 15и дней. Немного доработали для этого экспорт в Google Sheets, чтобы таблицы были меньше.
3. API - топ фича. Читайте у Никиты в канале 'Joni in Web' как и зачем это было сделано.
4. dbt - тоже топ, большой задел на будущее. Тоже Никита развернул подключил новые данные.
5. MongoDB по API может получать вакансии в виде документов. Потом парсим, и в DWH.

Далее - самое интересное, давно в работе, но не писали про это. Надеемся, всё получится ❗️

📊 Посмотреть IT вакансии и зарплаты на дашборде
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍42
Forwarded from Reveal the Data
Лучшее с Табло Паблик 2024
Собрал работы с Табло Паблик, которые запомнились мне больше всего в прошлом году. Получилось четырые категории: инфографика, карты, дашборды и технические трюки. Если знаете ещё крутые работы — кидайте в комментарии.

Отдельно хочу подсветить наших Табло гуру и джедаев: Настя Кузнецова, Саша Варламов, Лиза Горяйнова, Маша Мазюк, Аня Просветова. Вы просто огонь, очень классные работы!

Для затравки несколько картинок выше, а полная подборка с ссылками:
👉 в блоге 👈

Предыдущие: 2023 | 2022 | 2021 | 2020
#подборка
8👍1
12 работ в лонглисте премии "Information is beautiful Awards 2024"

В январе писал о премии в области визуализации данных "Information is Beautiful Awards", и как подавал 15 своих работ за прошлый год. Прошли 12 - считаю это успехом. Всего в лонглисте 876 работ.

📊 Дашборд по вилкам зарплат тоже вошел в лонглист. На момент подачи он был статичным, а позже мы автоматизировали процесс сбора данных с Никитой.

Приятно, что много работ от ребят из русскоязычного сообщества датавиза. Полный список составим совместно с сообществом, добавлю его сюда.

Есть сырой парсер, который собирает работы премии за всё время. Пока плохо работает, есть ошибки в данных. Нужно время чтобы проверить всё и сделать нормальный. После сбора всех данных, на таком датасете можно будет построить крутые датавизы.

🎆 Далее - этап шортлиста, на нём очень много работ отсеивается. Болеем за наших!

Все 12 работ в лонглисте 2024:

1. IT Jobs Dashboard
2. Global Flag Colors
3. Public Telegram Channels
4. NBA Gems
5. NBA Scorigami
6. Telegram Tech Channels
7. Glassdoor Data Analyst Jobs
8. The Tree of Life by AI
9. Cast & Crew IMDb Trends
10. Formula 1. World Constructors'
11. International Football Results
12. IMDB Top Movies
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1310🔥9
Проект VILKY. LLM, телеграм канал и дайджесты

Давно не писал про проект VILKY и анализ IT вакансий. Мы дошли до самого интересного: LLM и нормализации данных. Над этим работаем несколько месяцев, но не писали ещё.

К нам с Никитой присоединился Рома, и мы продолжаем развивать пет-проект. Рома занимается Data Quality, пишет и проводит тесты. И у него есть канал Котолитик - там подробнее про это.

🪄 Три больших новых этапа к этому моменту:
1. LLM и нормализация данных
2. Тесты качества нормализации и усложнение промптов.
3. TG канал со статистикой по вакансиям

Подключение дополнительных платформ пока было в меньшем приоритете, но забираем с HH по API для тестов.

🎆 Самая крутая фича, которая сейчас работает с данными - это комплексный анализ данных различных полей и их нормализация. Что это означает? Например, в вакансиях есть навыки, и в сервисе они складываются в отдельную таблицу БД. Навыки в вакансиях могут быть указаны как попало: "Python 3.8", "Python 2", "PYTHON", "Питон" и т.п.. В данных они должны быть в одном виде, то есть, их надо нормализовать. С этим у нас отлично справляется LLM (YandexGPT): она приводит одинаковые навыки к одному написанию по шаблонам LinkedIn и StackOverflow. Если в навыках указана ерунда - это убирается из данных. И, самое интересное, модель изучает полное описание вакансии и добавляет навыки, которые прямо или косвенно есть в тексте вакансии, но их не указали явно в категории скиллов. Мы стремились минимизировать число навыков, но LLM нагенерировала новые. Поэтому, сделаем справочник и по нему нормализуем.

Также мы нормализовали поля грейда и вилок зарплат. По описанию вакансии LLM может определить грейд (senior, middle и т.д.). Зарплатные вилки тоже указываются по-разному, бывают ошибки. Поэтому, нормализуем данные по ЗП до трёх полей: min ЗП, max ЗП, валюта.

В процессе и планах нормализации: локации, net или gross в указании зарплат, плюшки каждой вакансии и др..

Про техническую реализацию нормализации читайте в канале у Никиты, а Рома написал про создание, запуск тестов проверки корректности работы LLM и про картинки для постов.

Такую красоту данных нет смысла прятать, поэтому сделали TG канал 'VILKY', куда ежедневно автоматически публикуются прикольные рубрики с топами вакансий, компаний и всему что придумаем. Дизайн картинок и весь концепт придумывали и делали вместе. Я реализовал на Tableau Public. Кроме этого, ежедневно публикуются дайджесты по вчерашним данным и недельные дайджесты.

Ежедневный дайджест - набор из 5и визуализаций:
1️⃣ Метрики по всем подключенным платформам вакансий за вчера
2️⃣ Средняя ЗП и число вакансий по направлениям IT
3️⃣ Топ навыков в вакансиях
4️⃣ Топ новых вакансий по направлениям IT
5️⃣ Топ закрытых вакансий по направлениям IT

Дайджест сделали в виде слайдов. У Тиньков инвестиций примерно так же - понравилась эта концепция. Были другие варианты, но остановились на этом.

🥁 Сам телеграм канал 'VILKY. Вилки зарплат в IT' 🥁

Каждый день автоматически скидывается статистика вакансий IT. Добавим постепенно месячный и дайджесты по всем IT направлениям. Можно просто заходить и смотреть статистику.

Фидбек очень важен, будем прислушиваться и формировать роадмап. Комментарии и эмоджи открыты - можно писать в комменты что добавить, улучшить или убрать.

Все сообщения в канале автоматические, но, пока обкатываем, сделали себе в тестовый канал те же публикации, но на час раньше. Баги возможны, будем смотреть и фиксить.

📊 Детально можно смотреть вакансии в дашборде 📊

Его оптимизировали немного. В дашборд добавили статистику просмотров за последние 7 дней. Автоматически забирается по API Tableau Public. В дашборде сейчас 3 нормализованных поля, про которые писал выше. Поэтому, можно считать его AI powered.

Итого, мы построили систему, которая:
1️⃣. Автоматически собирает данные
2️⃣. Автоматически записывает всё в базу данных
3️⃣. Автоматически нормализует данные
4️⃣. Автоматически тестирует данные
5️⃣. Автоматически генерирует визуализации
6️⃣. Автоматически генерирует сообщения
7️⃣. Автоматически отправляет сообщения в канал
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍64
Visual Capitalist и Voronoi App как среда сторителлинга

Сегодня пост о большом известном СМИ графиков и диаграмм. Visual Capitalist позиционирует себя как СМИ, создающее и продвигающее Data-driven visual content. Компания находится в Ванкувере. В X (твиттере) сейчас больше 300k подписчиков. Сайт работает давно, там постоянно выходят статьи про визуализации и данные. Используют как свои визуализации, так и из сети.

Про мои работы они делали 2 статьи:
- Visualizing the Depth of the Great Lakes
- Animated Map: The History of U.S. Counties
Это статьи про Великие озера и таймлайн создания США. Текст их, оригинальный. Публикации привели на мой сайт несколько тысяч юзеров.

Чем же хорош Visual Capitalist как СМИ?

1️⃣. Они очень давно двигают подход визуализаций данных в СМИ.
2️⃣. Визуализации рассчитаны на широкую публику: простые и понятные.
3️⃣. Визуализации на небольшом объёме данных, буквально, несколько строк.
4️⃣. Чуть больше года назад они запустили Voronoi App. Более подробнее будет ниже.

Почти за 15 лет ребята собрали огромное сообщество, интересующихся визуализацией данных и инфографикой. Их аккаунты есть почти во всех соцсетях, инфографику используют "The Wall Street Journal", "The New York Times" и множество других известных изданий.

Мне Visual Capitalist нравится тем, что использует простые и понятные широкому кругу визуализации. Их инфографика далеко не всегда академична, какие-то работы вызывают осуждение т.н. "дата экспертов". Но целевая аудитория - точно не академики.

Теперь про проект Voronoi. Думаю что немногие про него знают, поэтому и сделал этот пост. Это приложение, в котором публикуются и обсуждаются визуализации. Там можно создавать аккаунты и публиковать свои визы. Но работы не интерактивны в самом приложении - это картинки, которые лучше отнести к инфографике.

Каждый пост содержит:
1️⃣. Сам виз
2️⃣. Описание визуализации
3️⃣. Датасет
4️⃣. Ссылки на источники данных

Это очень удобно, когда вся эта инфа, включая авторов, есть на экране телефона.

В Voronoi App есть аккаунты СМИ и дата-агентств, специализирующихся на инфографике и дата-журналистике. Это Statista, Econovis и др. А ещё можете найти аккаунты известных специалистов в области инфографики и дата-журналистики.

Приложение нишевое (в сторах 100+k инсталлов, зимой было 50k), но зато там нет скама, как в X, и только по делу общаются в комментариях. Выбирают виз недели, есть рубрика "Выбор редакции". То есть, это огромный архив инфографики с описанием и комментариями, где можно смотреть чужие работы и публиковать свои. Публикации могут набирать десятки тысяч просмотров.

Можно присоединиться к комьюнити и стать data-driven storyteller, публикуя свои работы. Получите и просмотры и фидбек. На мой взгляд, это хорошая возможность и показать свои работы и поучиться у других.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥124🥰3
Проекты, продукты
и продуктовый подход в пет-проекте


Сегодня расскажу как мы подходим к планированию и задачам в нашем пет-проекте анализа зарплатных вилок в IT. Команда: Саша, Рома, Никита.

Мы написали статью на vc.ru, где рассказали о процессе работы над проектом. Отдельно подсветили сколько стоят облачные мощности и LLM модели. Сам проект VILKY начинался с идеи актуального открытого анализа зарплат в IT. Есть дашборд 📊 с зарплатами и канал TG 🛫 со статистикой и отчётами.
В канале @vilky_it сейчас 143 человека. Запустили дайджесты по IT направлениям, начали публиковать исследования.

В посте затрону тему продуктов и проектов, расскажу как планируем и разрабатываем.

Любой проект всегда имеет сроки, фиксированный объём работ и ресурсы для его реализации. Проект может перерасти в продукт либо просто завершиться. Продукт же ориентируется на создание ценности для конечного пользователя, которая достигается за счёт непрерывного улучшения.

В нашем случае, на момент старта проекта был готов дашборд и скрипты парсинга. В проекте нужно было автоматизировать сбор данных, сделать проверки, алертинг и допилить сам дашборд. На выходе видели дашборд с ежедневным автообновлением и одним источником данных. Мы взяли на это 4 недели.

MVP был готов через 3 недели, и проект трансформировался в продукт. Продукт - это инструмент анализа "Дашборд VILKY". Продукт мы описали метриками. Главная метрика - число просмотров дашборда, её вывели в сам даш. Есть ещё метрики быстродействия, качества и количества данных, а также финансовые. Получилось небольшое дерево метрик, за которыми следим.

Про продуктовый подход много всего написано, отдельно про это не буду. Смысл в том, что выбираем метрики и растим их, непрерывно улучшая продукт.

Следующим проектом, переросшим в продукт, стал телеграм канал "Vilky_it". Он вырос из служебного канала, куда скидывали статистику по вакансиям. Этот продукт также имеет своё дерево метрик. Вот здесь с ценностью для пользователя пока не до конца ясно. Кажется, что ценность - это актуальная статистика по рынку вакансий в разных разрезах. Но может, и трансформируется во что-то другое.

Итого, внутри одного пет-проекта VILKY сейчас существуют несколько проектов и продуктов.

Все планы делаем на одной доске Miro 💨, где ведём диаграмму Ганта с задачами. Кусок доски - на заглавной картинке. Это помогает планировать, увидеть прогресс, понять кто и что делает. Также интересно посмотреть историю задач. Времени не так много - это всё-таки пет-проект, поэтому активно используем нейронки, и жёстких сроков не ставим. Выглядит лайтово, но движемся вперёд небольшими шагами.

На данный момент у нас в базе пара миллионов (!) вакансий (не только айтишных) с описаниями и параметрами за приличный срок. И здесь открывается колоссальный объём работ для нейросетей 🧬, но облачными нейронками всё это обрабатывать дорого, поэтому, придумываем как их разбирать подешевле.

Кроме этого, на таком объёме данных можно увидеть много интересного. Под исследования ресурсов пока маловато - нужно просто время. В канале начали вести рубрику "Инсайды", где рассказываем про какие-то неочевидные и нетривиальные вещи, делимся результатами исследований. В первом посте на эту тему рассказывали про мексиканский банк 'Plata Card' - это стартап который через 3 года существования стоит $1,5 млрд.. Корни российские, банк основан бывшими менеджерами Тинькофф, русскоязычная команда, есть открытые вакансии на удалёнку или в Мексику.

Исследованиями ходим проверять гипотезы на данных рынка вакансий. В сети очень часто встречаются "экспертные мнения" о рынке труда, где нет никаких данных - просто эксперт так видит. Мы хотим видеть доказательства. Доказательства без данных невозможны, поэтому в исследованиях будем прикладывать графики и диаграммы, ссылки на данные. Это обеспечит прозрачность анализа.

📊 Данные по зарплатам в вакансиях за последние 7 дней - в дашборде.

🛫 Канал со статистикой и отчётами @vilky_it
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥141
Истории из геймдева и недооценённые возможности

В геймдеве работал 3,5 года - одна из ярких полос в трудовой биографии. Сегодня расскажу свои истории из геймдева, и о том, как сильно недооценил проекты. Примечательны они тем, что 2 продукта, про которые пойдет речь, сейчас очень известны в мире, а на момент этих историй про них почти никто не знал. Попробуйте догадаться о чём идёт речь. Названия проектов буду закрывать спойлерами.

История 1. Год 2021, май.
Мне в LinkedIn пришло письмо о позиции дата-аналитика на одном гейминг-проекте. Писал рекрутёр из Ирландии, часть команды была в Питере, а студия бельгийская. В письме он рассказывал о разработке RPG проекта. Название игры я знал - её сделали ещё в 90х. Права на следующую часть купила другая студия, и под проект искали людей. Сама игра из 90х уже была классикой, её выпустила BioWare. Чтобы получился классный продукт, надо было очень постараться. Компания и команда были другие. Я скептически отнёсся к тому, что получится что-то адекватное, тем более, с замахом на классику. В общем, отказался. Но мне и так было в кайф - работал в Playrix, а это один из топов игровой индустрии.
Отказался и забыл. Через 2 года игру выпустили, и она разорвала все возможные рейтинги, став самой продаваемой игрой в Steam в день выхода. Узнал в новостях - писали почти все про успех игры.

Проект называется "Baldur's Gate 3", а студия - "Larian Studios".

История 2. Год 2019, ранняя весна.
Игровые компании тратят колоссальные деньги на рекламу. Самые большие партнеры - Facebook и Google. Однажды был на встрече по маркетингу, где рассказывали про китайские соцсети и рекламу в них. Названия сетей мне ни о чём не говорило, но маркетинг хотел часть денег отгрузить именно им, и почему-то одна сеть считалась перспективной. Посмотрел потом на контент соцсети - там была совершеннейшая дичь на китайском языке: какое-то видео, и непонятно кому вообще это надо. Подумал ещё, что деньги мы потеряем.
Через год про эту сеть знали примерно все.

Это Tik Tok, который через 2 года стал самым популярным ресурсом в сети, обогнав Facebook и Google.

Нас окружают возможности, а мы даже не придаём этому значения. Может выстрелить совершенно непонятный, на первый взгляд, проект.
🔥1411🤔3👍2
Слив личного расписания Трампа и визуализация плюс нейросети

Ещё в первое президентство Дональда Трампа в сеть слили приватные данные о рабочем расписании президента. Я визуализировал это и сделал рабочий график Трампа по типам активности. Визуализировал сливы, выходит.

Был очередной MakeoverMonday (https://makeovermonday.co.uk/ - там много ссылок на датасеты) - челлендж по построению визуализаций. Взяли данные слива, построили датасет и предложили по ним датавиз челлендж. Данные интересные - надо было пробовать.

📃 Сама статья по сливам данных на Axios.

В статье писали что инсайдер из Белого Дома раскрыл личное расписание Трампа. Слив в виде документа ещё остался в сети.
Там данные с ноября 2018 по февраль 2019г. А вот датасет с сайта data.world почему-то удалили.

Слив личного расписания Трампа в виде pdf (95 страниц) прикладываю в комментарии. Для экспериментов.

📊 Визуализацию можно посмотреть здесь.
В датавизе - диаграмма Ганта, стандартный тип диаграммы для расписаний. Но диаграмма нестандартная, сделана на полигонах.

Итак, что же делал Трамп в первое президентство.
Первая встреча в рабочий день обычно 11:30 на полчаса. Это встреча с главой администрации Белого Дома или брифинг. Очень много звонков и встреч. Встречи названиями и локациями, допускали прессу или нет. Обед обычно в 12:30, можно поискать в pdf по слову "Lunch".

60% времени - Executive Time. В это время играет в гольф что-то делает в овальном кабинете или резиденции. В Рождественские праздники Трамп не работал.

Сама визуализация - пример того как pdf на 95 листов умещается на одной диаграмме.

Скормите pdf нейросетям - пусть поищут инсайты. Я пробовал - классно получается. Можно позадавать вопросы сколько времени из какого места работал, кому давал интервью, где зажигал рождественскую елку и т.д..

Результаты прикладывать не буду - экспериментируйте сами. Но удивительно, конечно, что анализ документов дошёл до такого уровня.

Ждём новых сливов!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9😱3🔥2
2 300 000 вакансий Finder.work и геоанализ данных

Finder.work, а раньше - Finder.vc - сервис поиска работы и сотрудников. Задумывался как сервис размещения вакансий с удалёнкой, но сейчас там не только удалёнка. Говорят что все вакансии проходят модерацию, и как-будто мусора не должно быть. У сервиса есть свои блоги о работе и вакансиях на vc.ru, на самом сайте Finder и каналы в Телеграм, самый большой на 300 000 подписчиков. То есть, сервис довольно популярен. Число активных айтишных вакансий более 8000, это примерно 3% всех активных.

Всего 36 отраслей. Топ 3 отрасли:
- Розничная торговля (14% вакансий
- Производство (13% вакансий)
- Продажи (10% вакансий)

На сайте более 2 300 000 вакансий с 2020 года, и они уже есть в базе данных нашего пет-проекта VILKY. Собрали вообще все вакансии с описаниями. В проекте VILKY исследуем только IT вакансии, там сделаем пост по IT.

Из 2х млн вакансий можно вытащить много интересного. Сегодня расскажу про Spatial анализ.

Сервис Finder отдаёт широту и долготу для ряда вакансий, а также адреса, регионы и страны. Будем выбирать города и смотреть где плотность вакансий выше. Для этого разобьём каждый город на квадраты со стороной N, где N можно задавать вручную. Получим сетку, разбивающую город на кластеры. Внутри каждого кластера будем считать вакансии и закрашивать всю сетку по градиенту. Где квадрат ярче, там вакансий больше. Смысл в том, чтобы найти места максимального сосредоточения открытых вакансий и посмотреть как такие сетки будут выглядеть для разных отраслей. Также кластеры можно закрашивать по средней зарплате - увидим места с максимальной ЗП.

Есть опенсорсный инструмент от Uber, в котором можно строить визуализации на картах. Инструмент называется kepler.gl. Взял 3 города: Питер, Казань, Ростов-на-Дону и для каждого построил по 2 виза: 3D и 2D. Высота столбцов пропорцианальна количеству вакансий, а цвет - средней зарплате.

Заглавная картинка сделаны в Keppler. Все 6 визуализаций прикладываю в комменты.

- Питер - 125 000 вакансий. Длина стороны кластера - 200 метров.
- Казань - 30 000 вакансий. Радиус кластера - 100 метров.
- Ростов-на-Дону - 18 000 вакансий. Длина стороны кластера - 150 метров.

В Табло тоже сделал, не выкладывал ещё. Весь способ разбиения на кластеры описывать не буду (делал для данных AirBnB раньше), он работает на принципах математического округления координат и компенсации долготы на карте. Использовал полигоны для визуализации. Для каждого города построил сетку и посчитал число вакансий в кластерах. Кроме этого, можно закрашивать кластеры по средней зарплате - сразу выделяются деловые центры городов. Если переключать категории: "Производство", "Юриспрудсенция" и другие, то картинки сильно меняются.

Не решил ещё куда дальше двигаться. Могу или дашборд сделать с несколькими городами или интерактивную карту в Mapbox и статью написать про это. Либо конкретные города и острассли исследовать. Пишите в комменты и ставьте реакции, если интересно видеть данные в интерактиве.
9🔥9
May the 4th be with you и Звёздные Войны в датавизе

4е мая - день Звёздных Войн. Просто потому что самая известная фраза "May the Force be with you" созвучна "May the fourth be with you", поэтому фанаты и выбрали этот день. Введите "May the 4th be with you" в гугле сегодня и посмотрите что произойдёт.

В день "Звёздных войн" по миру происходят всякие движухи. В датавиз сообществе делают визуализации на данных "Звёздных войн".

Я сделал датавиз "Star Bars" ещё в 2019 году в Tableau. Тогда вышла фича density marks, она визуализирует плотность точек. У меня случайно получилось так, что прямая линия из точек, с density marks и градиентом от белого до синего выглядит как световой меч (lightsabre). В итоге получился барчарт из световых мечей, где длина лезвия меча - это сборы в кинотеатрах по каждому фильму. Можно переключать на значение с приведением к инфляции, тогда клинки красные. Позже добавил анимацию.

В общем, дата сообщество веселится как может. Вот визуализации, ставшие классикой в комьюнити, эпичны как сами "Звёздные войны":

🌟 Star Wars - Screen Time Analysis by Jacob Olsufka.
🌟 Starwars screen time by Varun Varma
🌟 Star Wars Films by George Koursaros
🌟 Star Wars Characters Screen Time Analysis by Filippo Mastroianni
🌟 Star Wars by Adam E McCann

Визуализируйте, и да пребудет с вами 4е Мая! 💫
Please open Telegram to view this post
VIEW IN TELEGRAM
18😁2
Что происходит на рынке труда и Indeed Job Posting Index

Вчера большие телеграм каналы копипастили одну и ту же новость "Айтишники всё!" с графиком падения некой величины Index во времени. График по данным Indeed и только для Software Development в США. Ссылок нет, но если поискать, то можно найти что данные отсюда. Это ссылка на сайт Федерального Резервного банка. Там много разных данных.

Первоисточник этих данных - Indeed (indeed.com). Это мировой хедхантер, только в несколько раз больше hh.ru и на 28и языках.

Давайте разберёмся что значит метрика Indeed Job Postings Index. Это ежедневный индикатор рынка труда, предложенный компанией Indeed. Точка отсчета 1е февраля 2022 года, начало COVID, берется за дату отсчёта и индекс приравнивается к 100 (это все опубликованные вакансии на indeed.com). В следующие даты индекс меняется; он показывает изменение в процентах относительно точки старта. То есть, если число вакансий увеличилось на 40%, индекс будет 140. Исследуют только 9 стран. Вот описание в статье "Introducing the Indeed Job Postings Index" от декабря 2022г.

У трекера вакансий Indeed есть аккаунт на GitHub "job_posting_tracker". Там можно забрать данные по 9и странам в разных разрезах. Для исследования данных у Indeed есть раздел на сайте . И есть целый сайт hiringlab.org где их команда Hiring Lab делится своими исследованиями рынка труда.

Самое интересное - строить графики у них на сайте (https://data.indeed.com/). Там есть динамика вакансий, зарплат, удаленки и актуалочка - динамика вакансий с требованиями AI. Можно смотреть по штатам и отраслям, убирать сезонность, смотреть скользящие средние, сравнивать по годам и т.д.. Посмотрите как графике делает мировой топ.

На заглавной картинке - графики четырёх отраслей. Можно сравнить что происходило с IT, спортом и туризмом. Разработка ПО стремительно росла в COVID, и с 2022го года постепенно снижается.

Что не учитывают кликбейтные посты в телеграм:
- Постепенно, с середины 2022 года снижается весь рынок в США со 160 до 106. Практически пришёл в доковидному уровню.
- Нет сравнения с данными до 2022 года. Просто нет данных.
- IT - это не только Software Development.

Итого: снижается весь рынок труда, но IT интенсивнее. Число вакансий с AI переживает второе рождение с 2021 года, и сейчас тренд восходящий.

В рамках проекта анализа IT вакансий и зарплат VILKY мы собрали статистику по РФ и сопоставили с данными Indeed. Получилось интересно и неожиданно. Скоро опубликуем в канале проекта @vilky_it.
🤝15🔥4