Что публикуется канале:
• собранные данные
• ссылки на источники открытых данных
• инструменты для поиска, сбора, обработки и анализа данных
• изменения в законодательстве РФ связанные со сбором и обработкой данных
• прочее по тематике канала
Используемые хештеги:
#забирай - собранные данные
#источники - источники данных
#инструменты - программные инструменты для работы с данными
#всемсидеть - посты про применимое законодательство
#мысли - соображения по тематике бизнеса
• собранные данные
• ссылки на источники открытых данных
• инструменты для поиска, сбора, обработки и анализа данных
• изменения в законодательстве РФ связанные со сбором и обработкой данных
• прочее по тематике канала
Используемые хештеги:
#забирай - собранные данные
#источники - источники данных
#инструменты - программные инструменты для работы с данными
#всемсидеть - посты про применимое законодательство
#мысли - соображения по тематике бизнеса
Госдума приняла во II чтении законопроект об административной ответственности за перепродажу сведений из госреестра недвижимости третьим лицам.
Как отмечают авторы инициативы, предложенные меры позволят эффективнее бороться с сайтами — двойниками Росреестра, которые не всегда предоставляют достоверные сведения.
#всемсидеть
Подписаться — Data Diggers
Как отмечают авторы инициативы, предложенные меры позволят эффективнее бороться с сайтами — двойниками Росреестра, которые не всегда предоставляют достоверные сведения.
#всемсидеть
Подписаться — Data Diggers
Web Scraper — браузерное расширение для парсинга данных с сайтов
Плюсы:
• не требует программирования nocode
• визуальный редактор через расширение к браузерам (Firefox, Chrome)
• хорошая документация с примерами, есть видео на YouTube
• можно буквально за пару кликов сделать рабочий парсер
• можно копировать (экспортировать и импортировать) созданные парсеры
• есть выгрузка данных в excel и csv
Минусы:
• относительно медленный
• в некоторых случаях нужно знать основы html, path, regex
Резюме: отличный инструмент для быстрого разового или редкого периодического сбора данных с сайта с ручным запуском скрипта.
#инструменты
Подписаться — Data Diggers
Плюсы:
• не требует программирования nocode
• визуальный редактор через расширение к браузерам (Firefox, Chrome)
• хорошая документация с примерами, есть видео на YouTube
• можно буквально за пару кликов сделать рабочий парсер
• можно копировать (экспортировать и импортировать) созданные парсеры
• есть выгрузка данных в excel и csv
Минусы:
• относительно медленный
• в некоторых случаях нужно знать основы html, path, regex
Резюме: отличный инструмент для быстрого разового или редкого периодического сбора данных с сайта с ручным запуском скрипта.
#инструменты
Подписаться — Data Diggers
ЕМИСС (Единая межведомственная информационно-статистическая система)
Официальный государственный информационный ресурс, объединяющий официальные государственные ведомственные информационные статистические ресурсы.
Плюсы:
• доступ к официальным статданным РФ
• есть выгрузка в excel и xml
• поддается автоматизации через неофициальное API
Минусы:
• очень медленный
• в периоды большой нагрузки (в рабочее время, днем) может быть недоступен
• показатели могут быть недоступны в периоды обновления данных показателей
• данные могут закрываться в период санкционной войны
• статданные требуют экспертной интерпретации
• убогий функционал личного кабинета
• нет официального публичного API
• прям бесит если честно
#источники
Подписаться — Data Diggers
Официальный государственный информационный ресурс, объединяющий официальные государственные ведомственные информационные статистические ресурсы.
Плюсы:
• доступ к официальным статданным РФ
• есть выгрузка в excel и xml
• поддается автоматизации через неофициальное API
Минусы:
• очень медленный
• в периоды большой нагрузки (в рабочее время, днем) может быть недоступен
• показатели могут быть недоступны в периоды обновления данных показателей
• данные могут закрываться в период санкционной войны
• статданные требуют экспертной интерпретации
• убогий функционал личного кабинета
• нет официального публичного API
• прям бесит если честно
#источники
Подписаться — Data Diggers
Минимальный стек для сбора, парсинга и обработки данных c интернет ресурсов.
Python - Простой в изучении язык программирования с приятным синтаксисом. Куча бесплатных библиотек на все случаи жизни. Абсолютный must have.
КЛАССИЧЕСКИЙ СТЕК
1. Получение данных (краулинг, crawling)
Requests - python библиотека для выполнения http запросов к web ресурсам. Старая добрая классика - отличная документация, масса примеров, большое сообщество. Из минусов: не поддерживает асинхронные запросы.
Современная альтернатива: HTTPX
2. Разбор данных (парсинг, parsing)
BeautifulSoup - python библиотека для парсинга (разбора) данных в html и xml форматах. Из минусов: низкая, в сравнении с альтернативами, скорость работы что впрочем не всегда требуется.
Современная альтернатива: SelectoLax
3. Обработка данных и базовый анализ
Pandas - python библиотека для обработки данных в условно табличном формате. Из минусов: относительно медленная, противоречивый синтаксис, плохо справляется в ОЧЕНЬ-ОЧЕНЬ большими объемами данных (терабайты).
Современная альтернатива: Polars
Плюсы классического стека:
Старая добрая классика - отличная развитая документация, масса примеров и обучающих видео, большое сообщество.
Минусы классического стека:
Относительно низкая скорость работы.
Плюсы современного стека:
Более высокая скорость работы, активное развитие библиотек.
Минусы современного стека:
минимальная документация, мало примеров, практически нет видео, что хочется верить просто дело времени.
#инструменты
Подписаться — Data Diggers
Python - Простой в изучении язык программирования с приятным синтаксисом. Куча бесплатных библиотек на все случаи жизни. Абсолютный must have.
КЛАССИЧЕСКИЙ СТЕК
1. Получение данных (краулинг, crawling)
Requests - python библиотека для выполнения http запросов к web ресурсам. Старая добрая классика - отличная документация, масса примеров, большое сообщество. Из минусов: не поддерживает асинхронные запросы.
Современная альтернатива: HTTPX
2. Разбор данных (парсинг, parsing)
BeautifulSoup - python библиотека для парсинга (разбора) данных в html и xml форматах. Из минусов: низкая, в сравнении с альтернативами, скорость работы что впрочем не всегда требуется.
Современная альтернатива: SelectoLax
3. Обработка данных и базовый анализ
Pandas - python библиотека для обработки данных в условно табличном формате. Из минусов: относительно медленная, противоречивый синтаксис, плохо справляется в ОЧЕНЬ-ОЧЕНЬ большими объемами данных (терабайты).
Современная альтернатива: Polars
Плюсы классического стека:
Старая добрая классика - отличная развитая документация, масса примеров и обучающих видео, большое сообщество.
Минусы классического стека:
Относительно низкая скорость работы.
Плюсы современного стека:
Более высокая скорость работы, активное развитие библиотек.
Минусы современного стека:
минимальная документация, мало примеров, практически нет видео, что хочется верить просто дело времени.
#инструменты
Подписаться — Data Diggers