Что публикуется канале:
• собранные данные
• ссылки на источники открытых данных
• инструменты для поиска, сбора, обработки и анализа данных
• изменения в законодательстве РФ связанные со сбором и обработкой данных
• прочее по тематике канала
Используемые хештеги:
#забирай - собранные данные
#источники - источники данных
#инструменты - программные инструменты для работы с данными
#всемсидеть - посты про применимое законодательство
#мысли - соображения по тематике бизнеса
• собранные данные
• ссылки на источники открытых данных
• инструменты для поиска, сбора, обработки и анализа данных
• изменения в законодательстве РФ связанные со сбором и обработкой данных
• прочее по тематике канала
Используемые хештеги:
#забирай - собранные данные
#источники - источники данных
#инструменты - программные инструменты для работы с данными
#всемсидеть - посты про применимое законодательство
#мысли - соображения по тематике бизнеса
Госдума приняла во II чтении законопроект об административной ответственности за перепродажу сведений из госреестра недвижимости третьим лицам.
Как отмечают авторы инициативы, предложенные меры позволят эффективнее бороться с сайтами — двойниками Росреестра, которые не всегда предоставляют достоверные сведения.
#всемсидеть
Подписаться — Data Diggers
Как отмечают авторы инициативы, предложенные меры позволят эффективнее бороться с сайтами — двойниками Росреестра, которые не всегда предоставляют достоверные сведения.
#всемсидеть
Подписаться — Data Diggers
Web Scraper — браузерное расширение для парсинга данных с сайтов
Плюсы:
• не требует программирования nocode
• визуальный редактор через расширение к браузерам (Firefox, Chrome)
• хорошая документация с примерами, есть видео на YouTube
• можно буквально за пару кликов сделать рабочий парсер
• можно копировать (экспортировать и импортировать) созданные парсеры
• есть выгрузка данных в excel и csv
Минусы:
• относительно медленный
• в некоторых случаях нужно знать основы html, path, regex
Резюме: отличный инструмент для быстрого разового или редкого периодического сбора данных с сайта с ручным запуском скрипта.
#инструменты
Подписаться — Data Diggers
Плюсы:
• не требует программирования nocode
• визуальный редактор через расширение к браузерам (Firefox, Chrome)
• хорошая документация с примерами, есть видео на YouTube
• можно буквально за пару кликов сделать рабочий парсер
• можно копировать (экспортировать и импортировать) созданные парсеры
• есть выгрузка данных в excel и csv
Минусы:
• относительно медленный
• в некоторых случаях нужно знать основы html, path, regex
Резюме: отличный инструмент для быстрого разового или редкого периодического сбора данных с сайта с ручным запуском скрипта.
#инструменты
Подписаться — Data Diggers
ЕМИСС (Единая межведомственная информационно-статистическая система)
Официальный государственный информационный ресурс, объединяющий официальные государственные ведомственные информационные статистические ресурсы.
Плюсы:
• доступ к официальным статданным РФ
• есть выгрузка в excel и xml
• поддается автоматизации через неофициальное API
Минусы:
• очень медленный
• в периоды большой нагрузки (в рабочее время, днем) может быть недоступен
• показатели могут быть недоступны в периоды обновления данных показателей
• данные могут закрываться в период санкционной войны
• статданные требуют экспертной интерпретации
• убогий функционал личного кабинета
• нет официального публичного API
• прям бесит если честно
#источники
Подписаться — Data Diggers
Официальный государственный информационный ресурс, объединяющий официальные государственные ведомственные информационные статистические ресурсы.
Плюсы:
• доступ к официальным статданным РФ
• есть выгрузка в excel и xml
• поддается автоматизации через неофициальное API
Минусы:
• очень медленный
• в периоды большой нагрузки (в рабочее время, днем) может быть недоступен
• показатели могут быть недоступны в периоды обновления данных показателей
• данные могут закрываться в период санкционной войны
• статданные требуют экспертной интерпретации
• убогий функционал личного кабинета
• нет официального публичного API
• прям бесит если честно
#источники
Подписаться — Data Diggers
Минимальный стек для сбора, парсинга и обработки данных c интернет ресурсов.
Python - Простой в изучении язык программирования с приятным синтаксисом. Куча бесплатных библиотек на все случаи жизни. Абсолютный must have.
КЛАССИЧЕСКИЙ СТЕК
1. Получение данных (краулинг, crawling)
Requests - python библиотека для выполнения http запросов к web ресурсам. Старая добрая классика - отличная документация, масса примеров, большое сообщество. Из минусов: не поддерживает асинхронные запросы.
Современная альтернатива: HTTPX
2. Разбор данных (парсинг, parsing)
BeautifulSoup - python библиотека для парсинга (разбора) данных в html и xml форматах. Из минусов: низкая, в сравнении с альтернативами, скорость работы что впрочем не всегда требуется.
Современная альтернатива: SelectoLax
3. Обработка данных и базовый анализ
Pandas - python библиотека для обработки данных в условно табличном формате. Из минусов: относительно медленная, противоречивый синтаксис, плохо справляется в ОЧЕНЬ-ОЧЕНЬ большими объемами данных (терабайты).
Современная альтернатива: Polars
Плюсы классического стека:
Старая добрая классика - отличная развитая документация, масса примеров и обучающих видео, большое сообщество.
Минусы классического стека:
Относительно низкая скорость работы.
Плюсы современного стека:
Более высокая скорость работы, активное развитие библиотек.
Минусы современного стека:
минимальная документация, мало примеров, практически нет видео, что хочется верить просто дело времени.
#инструменты
Подписаться — Data Diggers
Python - Простой в изучении язык программирования с приятным синтаксисом. Куча бесплатных библиотек на все случаи жизни. Абсолютный must have.
КЛАССИЧЕСКИЙ СТЕК
1. Получение данных (краулинг, crawling)
Requests - python библиотека для выполнения http запросов к web ресурсам. Старая добрая классика - отличная документация, масса примеров, большое сообщество. Из минусов: не поддерживает асинхронные запросы.
Современная альтернатива: HTTPX
2. Разбор данных (парсинг, parsing)
BeautifulSoup - python библиотека для парсинга (разбора) данных в html и xml форматах. Из минусов: низкая, в сравнении с альтернативами, скорость работы что впрочем не всегда требуется.
Современная альтернатива: SelectoLax
3. Обработка данных и базовый анализ
Pandas - python библиотека для обработки данных в условно табличном формате. Из минусов: относительно медленная, противоречивый синтаксис, плохо справляется в ОЧЕНЬ-ОЧЕНЬ большими объемами данных (терабайты).
Современная альтернатива: Polars
Плюсы классического стека:
Старая добрая классика - отличная развитая документация, масса примеров и обучающих видео, большое сообщество.
Минусы классического стека:
Относительно низкая скорость работы.
Плюсы современного стека:
Более высокая скорость работы, активное развитие библиотек.
Минусы современного стека:
минимальная документация, мало примеров, практически нет видео, что хочется верить просто дело времени.
#инструменты
Подписаться — Data Diggers
Вчера в свободном доступе появился SQL-дамп таблицы зарегистрированных пользователей вероятно из базы данных сайта sogaz.ru, принадлежащего страховой компании «СОГАЗ».
Дамп, полученный из CMS «Bitrix» (скорее всего 21.10.2022) содержит 8,309,754 строки:
• логин
• ФИО
• адрес эл. почты (7,86 млн уникальных адресов)
• телефон (5,39 млн уникальных номеров)
• дата рождения
• хешированный (MD5 с солью) пароль
• место работы (не для всех)
Мы выборочно проверили случайные адреса эл. почты из этого дампа через форму восстановления пароля на сайте lk.sogaz.ru и выяснили, что они действительные.
В конце января этого года в открытый доступ был выложен фрагмент таблицы пользователей вероятно из базы данных сайта sogaz-life.ru — Утечки информации
#где_протекает
🔴 Подписаться — Data Diggers
Дамп, полученный из CMS «Bitrix» (скорее всего 21.10.2022) содержит 8,309,754 строки:
• логин
• ФИО
• адрес эл. почты (7,86 млн уникальных адресов)
• телефон (5,39 млн уникальных номеров)
• дата рождения
• хешированный (MD5 с солью) пароль
• место работы (не для всех)
Мы выборочно проверили случайные адреса эл. почты из этого дампа через форму восстановления пароля на сайте lk.sogaz.ru и выяснили, что они действительные.
В конце января этого года в открытый доступ был выложен фрагмент таблицы пользователей вероятно из базы данных сайта sogaz-life.ru — Утечки информации
#где_протекает
Please open Telegram to view this post
VIEW IN TELEGRAM
Всемирный Банк (World Bank) - открытые данные на сайте всемирного банка по всем странам мира.
Плюсы:
• открытый бесплатный доступ к данным
• масса показателей в разрезе стран и временных рядов
• большой список источников в виде подключенных международных и страновых банков данных.
• временной период данных с 1960 по наст. время.
• есть возможность настройки показателя в визуальном редакторе
• есть возможность выгрузки данных в xls, csv, txt
Минусы:
• русский язык удален на сайте в рамках санкционной войны
• данные требуют интерпретации экспертом в предметной области
• пробелы в данных по РФ советского периода
• данные Всемирного банка по России не всегда совпадают с данными официальных органов РФ
Резюме: хороший источник для получения данных по разным странам
Ссылка на databank
Ссылка на показатель ВВП (СНГ)
#инструменты
Подписаться — Data Diggers
Плюсы:
• открытый бесплатный доступ к данным
• масса показателей в разрезе стран и временных рядов
• большой список источников в виде подключенных международных и страновых банков данных.
• временной период данных с 1960 по наст. время.
• есть возможность настройки показателя в визуальном редакторе
• есть возможность выгрузки данных в xls, csv, txt
Минусы:
• русский язык удален на сайте в рамках санкционной войны
• данные требуют интерпретации экспертом в предметной области
• пробелы в данных по РФ советского периода
• данные Всемирного банка по России не всегда совпадают с данными официальных органов РФ
Резюме: хороший источник для получения данных по разным странам
Ссылка на databank
Ссылка на показатель ВВП (СНГ)
#инструменты
Подписаться — Data Diggers
Каталог каталогов данных (datacatalogs.ru) - проект с целью систематизации российских источников открытых данных и иных источников, потенциально интересных русскоязычной аудитории. Сюда относятся международные порталы и коллекции данных РФ, а также стран ближнего зарубежья: Армения, Казахстан, Узбекистан и других.
Каталог охватывает максимально большое число источников данных, в первую очередь каталогов и открытых репозиториев, а также других больших значимых проектов, которые могут быть интересны пользователям.
По состоянию на 04.2023 проект активно развивается и наполняется новыми источниками данных.
#инструменты
Подписаться — Data Diggers
Каталог охватывает максимально большое число источников данных, в первую очередь каталогов и открытых репозиториев, а также других больших значимых проектов, которые могут быть интересны пользователям.
По состоянию на 04.2023 проект активно развивается и наполняется новыми источниками данных.
#инструменты
Подписаться — Data Diggers
Государственный информационный ресурс бухгалтерской (финансовой) отчетности (bo.nalog.ru)
Что есть:
Налоговая и бухгалтерская отчетность юридических лиц РФ.
Плюсы:
• бесплатный доступ к данным
• есть неофициальное API
Минусы:
• нет данных по ИП (физлицо, закон о защите персональных данных)
• неполная публикация данных (компаниям разрешено в добровольном порядке не публиковать данные финансовой отчетности с началом введения санкций в 2022 году)
• нет данных о численности персонала компаний
• платное АPI, конский ценник
#инструменты
Подписаться — Data Diggers
Что есть:
Налоговая и бухгалтерская отчетность юридических лиц РФ.
Плюсы:
• бесплатный доступ к данным
• есть неофициальное API
Минусы:
• нет данных по ИП (физлицо, закон о защите персональных данных)
• неполная публикация данных (компаниям разрешено в добровольном порядке не публиковать данные финансовой отчетности с началом введения санкций в 2022 году)
• нет данных о численности персонала компаний
• платное АPI, конский ценник
#инструменты
Подписаться — Data Diggers
Портал data.gov.ru ждет пересборка
Минэкономики временно закрыло портал открытых данных — как пояснили «Ъ» в ведомстве, это необходимо для перезапуска ресурса с учетом запросов рынка.
Портал, являвшийся одним из ключевых элементов «Октрытого правительства», был запущен в 2014 году по поручению занимавшего тогда пост премьер-министра Дмитрия Медведева.
Предполагалось, что на основе открытых данных будут создаваться сервисы для удобства граждан и для повышения качества среды обитания. Однако значительная часть ведомств подошла к размещению данных формально — проблема, по оценкам Счетной палаты и экспертов, сохраняется и сейчас.
Портал открытых данных https://data.gov.ru/ временно закрыт, ему предстоит инвентаризация данных, модернизация функционала и переезд на единую цифровую платформу «ГосТех».
Сроки запуска новой версии портала не сообщаются.
#инструменты
Подписаться — Data Diggers
Минэкономики временно закрыло портал открытых данных — как пояснили «Ъ» в ведомстве, это необходимо для перезапуска ресурса с учетом запросов рынка.
Портал, являвшийся одним из ключевых элементов «Октрытого правительства», был запущен в 2014 году по поручению занимавшего тогда пост премьер-министра Дмитрия Медведева.
Предполагалось, что на основе открытых данных будут создаваться сервисы для удобства граждан и для повышения качества среды обитания. Однако значительная часть ведомств подошла к размещению данных формально — проблема, по оценкам Счетной палаты и экспертов, сохраняется и сейчас.
Портал открытых данных https://data.gov.ru/ временно закрыт, ему предстоит инвентаризация данных, модернизация функционала и переезд на единую цифровую платформу «ГосТех».
Сроки запуска новой версии портала не сообщаются.
#инструменты
Подписаться — Data Diggers
Группа депутатов Госдумы внесла в нижнюю палату парламента законопроект об административной ответственности за неисполнение закона "О рекламе". Документ опубликован в думской электронной базе данных.
За непредоставление в Роскомнадзор данных о рекламе, либо несвоевременное их предоставление, либо предоставление неполной, недостоверной, неактуальной информации депутаты предлагают ввести штраф в размере от 10 до 30 тыс. рублей для граждан, от 30 до 100 тыс. рублей для должностных и от 200 до 500 тыс. рублей для юридических лиц — сообщает канал ТАСС
#всемсидеть
Подписаться — Data Diggers
За непредоставление в Роскомнадзор данных о рекламе, либо несвоевременное их предоставление, либо предоставление неполной, недостоверной, неактуальной информации депутаты предлагают ввести штраф в размере от 10 до 30 тыс. рублей для граждан, от 30 до 100 тыс. рублей для должностных и от 200 до 500 тыс. рублей для юридических лиц — сообщает канал ТАСС
#всемсидеть
Подписаться — Data Diggers
ГИСП (Государственная информационная система промышленности)
Что есть:
• реестр промышленных предприятий РФ
• каталог продукции предприятий РФ
• атлас промышленности (карта отрасли)
• новости законодательства, мер поддержки, базовая аналитика
Плюсы:
• какие то данные, конечно, есть
• есть неофициальное API
Минусы:
• есть вопросы к полноте и актуальности данных
#источники
Подписаться — Data Diggers
Что есть:
• реестр промышленных предприятий РФ
• каталог продукции предприятий РФ
• атлас промышленности (карта отрасли)
• новости законодательства, мер поддержки, базовая аналитика
Плюсы:
• какие то данные, конечно, есть
• есть неофициальное API
Минусы:
• есть вопросы к полноте и актуальности данных
#источники
Подписаться — Data Diggers
Количество утекающих записей с персональными данными кратно превышает численность населения страны: по оценке InfoWatch, за 2022 год скомпрометированными оказались более 667 млн единиц такой информации.
▪️Порядка 80% утечек произошло из-за участия как внешних, так и внутренних нарушителей.
▪️Вдвое выросла доля утечек информации категории «коммерческая тайна».
▪️Заметнее всего выросла доля утечек в сферах ретейла, промышленных, транспортных и энергетических компаний.
Важный тренд 2022-го — киберпреступники крадут данные не с целью заработать, а нанести репутационный или экономический ущерб российскому бизнесу или его клиентам — сообщает канал РБК
#где_протекает
Подписаться — Data Diggers
▪️Порядка 80% утечек произошло из-за участия как внешних, так и внутренних нарушителей.
▪️Вдвое выросла доля утечек информации категории «коммерческая тайна».
▪️Заметнее всего выросла доля утечек в сферах ретейла, промышленных, транспортных и энергетических компаний.
Важный тренд 2022-го — киберпреступники крадут данные не с целью заработать, а нанести репутационный или экономический ущерб российскому бизнесу или его клиентам — сообщает канал РБК
#где_протекает
Подписаться — Data Diggers
В Госдуме подготовили поправки в КоАП, определяющие ответственность рекламодателей, рекламораспространителей и операторов рекламных систем за неисполнение новейших положений закона «О рекламе». Речь идет о тех поправках, которые закрепляют обязанность участников рынка интернет-рекламы работать с идентификаторами объявлений и передавать всю необходимую информацию регулятору, рассказал зампред комитета ГД по информационной политике Антон Горелкин.
Система штрафов, которую мы предлагаем ввести, должна мотивировать рынок играть по прозрачным правилам. — сообщает канал @dumabrief
#всемсидеть
Подписаться — Data Diggers
Система штрафов, которую мы предлагаем ввести, должна мотивировать рынок играть по прозрачным правилам. — сообщает канал @dumabrief
#всемсидеть
Подписаться — Data Diggers
В Кремле не видят рисков в решении некоторых ведомств удалить с сайтов информацию о доходах чиновников за последние годы, но рекомендуют уточнить причины таких действий, заявил Дмитрий Песков. — сообщает канал @interfaxonline
#источники
Подписаться — Data Diggers
#источники
Подписаться — Data Diggers
Все самые полезные и нужные нейронки на все случаи жизни — сохраняйте и пользуйтесь
Подписаться — Data Diggers
Подписаться — Data Diggers
Госдума увеличила штраф за перепродажу сведений из ЕГРН. Соответсвующий законопроект принят в III чтении.
В соответствии с документом, штраф составит от 15 тыс. до 25 тыс. рублей для физических лиц, для должностных лиц — от 40 тыс. до 50 тыс. рублей, для предпринимателей — от 80 тыс. до 100 тыс. рублей, для юрлиц — от 350 тыс. до 400 тыс. рублей. За повторное нарушение он будет увеличен
#всемсидеть
Подписаться — Data Diggers
В соответствии с документом, штраф составит от 15 тыс. до 25 тыс. рублей для физических лиц, для должностных лиц — от 40 тыс. до 50 тыс. рублей, для предпринимателей — от 80 тыс. до 100 тыс. рублей, для юрлиц — от 350 тыс. до 400 тыс. рублей. За повторное нарушение он будет увеличен
#всемсидеть
Подписаться — Data Diggers