Data Diggers
11 subscribers
83 photos
1 file
80 links
Канал об источниках открытых данных, поиске, сборе, обработке, инструментах и сопутствующих рисках.

собрать данные: @sergeymu
сотрудничество: @sergeymu
поддержать: https://www.donationalerts.com/r/datadiggers
Download Telegram
Все самые лучшие альтернативы ChatGPT для программистов в одной табличке. Сохраняем, чтобы не потерять
Есть такой тип данных как референсные данные или, как их чаще называют в России, справочники и классификаторы. Одна из особенностей данных по России в том что какое-то количество референсных данных опубликовано на специальных порталах.
- ЕСНСИ Госуслуг https://esnsi.gosuslugi.ru
- НСИ ФОМС http://nsi.ffoms.ru
- НСИ Минздрава https://nsi.rosminzdrav.ru
- НСИ Москвы https://nsi-asur.mos.ru/List/ (вообще их система требует авторизации, но есть прямая ссылка на полный список)
- Система НСИ Санкт-Петербурга https://classif.gov.spb.ru
И ещё много других.

Эти порталы очень похожи на порталы открытых данных, также разные наборы данных, также возможность машиночитаемой выгрузки и есть API, разница в том лишь что нет отдельных лицензий и множества публикаторов. Условия использования, как правило, единые.

В мире таких порталов, на удивление, не так много или они порталы с открытыми данными не напоминают, и устроены несколько иначе. Чаще всего в виде сложных моделей данных и схем, также общедоступных. В России же многие справочники выведены в открытый доступ, это, особенность, в первую очередь создания очень крупных информационных систем с большим числом интегрируемых ИС, в том чтобы такие данные были доступны. В мире такие системы референсных данных могут быть в США, ЕС и ряде крупных стран, но, опять же, подчеркну что не на виду.

Лично я до сих пор не понимаю относить ли такие системы к порталам открытых данных, например, в Common Data Index сейчас включены:
- Порталы открытых данных
- Геопорталы
- Научные репозитории
- Порталы микроданных
- Порталы индикаторов
- Порталы данных для машинного обучения
- Системы поиска по данным
- Маркетплейсы данных
и Каталоги API

В общем каталогов референсных данных тут нет, а если добавить то будут только российские. Так что вопрос остаётся открытый в том числе и в том что польза от таких данных опосредованная.

#opendata #datasets #referencedata — сообщает канал Ivan Begtin
Согласно новому исследованию, в России ежемесячно пользуются Telegram 75 миллионов человек — и больше всего в процентном соотношении в Москве

— сообщает канал Statist | Финансы и бизнес
Российские компании стали главными заказчиками рекламы — продавцы осваивают площадки, оставшиеся после ухода западных брендов

— сообщает канал Statist | Финансы и бизнес
changedetection.ioдетектор обнаружения изменений на веб-сайтах с открытым исходным кодом

Инструмент предназначен для умных покупателей, журналистов, инженеров-исследователей, специалистов по данным, исследователей в области безопасности и т.д

Ссылка на проект
За распространение карт, оспаривающих границы России, будет ответственность.

Госдума приняла закон о штрафах до 1 млн рублей либо аресте до 15 суток.

— сообщает канал ПРАЙМ
Telegram-каналы транслирующие новости госкорпораций и госкомпаний

@GazpromNews Газпром
@rosneftinfo Роснефть
@tatneft_ru Татнефть
@rosatominfo Росатом
@QuadraRu ПАО Квадра
@rossetinews Россети
@rushydronews РусГидро
@iraogeneration Интер РАО
@rzdtg РЖД
@scf_group Совкомфлот
@aeroflotrus Аэрофлот
@pochtanews Почта России
@rostelecomnews Ростелеком
@vebrf ВЭБ. РФ
@sbernow Сбербанк
@vtb_news Банк ВТБ
@gazprombanknews Газпромбанк
@rshbnews Россельхозбанк
@rgs_ru Росгосстрах
@rosnano_news Роснано
@fondgkh Фонд ЖКХ
@corpmspru Корпорация МСП
@goznakru АО Гознак
@alrosaru ПАО Алроса
@rosgeonews АО Росгеология
@mostroru ПАО Мостотрест
@rosmorport ФГУП Росморпорт
@nmtpgroup Группа НМТП
@mosmetroru Московский метрополитен
@rskrf Роскачество
@ao_glonass АО ГЛОНАСС
@rosagroleasing АО Росагролизинг
@ao_gtlk ГТЛК

🔻 Госкорпорация Ростех
@rostecnews Ростех
@kamazgroup КАМАЗ
@lada_news АвтоВАЗ
@uralvagonzavod УралВагонЗавод
@cniitm АО ЦНИИточмаш
@shvabenews Холдинг Швабе
@kalashnikovgroup ГК Калашников
@russianhelicopters Вертолёты России
@uacrussianews ОАК
@aooskru ОСК
@uecrus ОДК
@nacimbio Нацимбио

ℹ️ @GovInfo Государство в Telegram — сообщает канал Государство в Telegram
Обновлен публичный портал Федеральной информационной адресной системы
http://www.nalog.gov.ru/rn77/news/activities_fts/13611328/ — сообщает канал Федеральная Налоговая Служба России
This media is not supported in your browser
VIEW IN TELEGRAM
🧑‍💻 Полезные библиотеки Python

nonoCAPTCHA
— асинхронная библиотека Python для автоматизации решения ReCAPTCHAv2 с помощью аудио 🔥

Установка:
$ pip install nonocaptcha

Пример использования:

import asyncio
from nonocaptcha.solver import Solver

pageurl = "https://www.google.com/recaptcha/api2/demo"
sitekey = "6Le-wvkSAAAAAPBMRTvw0Q4Muexq9bi0DJwx_mJ-"

proxy = "127.0.0.1:1000"
auth_details = {
"username": "user",
"password": "pass"
}
args = ["--timeout 5"]
options = {"ignoreHTTPSErrors": True, "args": args}
client = Solver(
pageurl,
sitekey,
options=options,
proxy=proxy,
proxy_auth=auth_details,
)

solution = asyncio.get_event_loop().run_until_complete(client.start())
if solution:
print(solution)

GitHub/Инструкция

Информация предоставлена исключительно с целью ознакомления и побуждает обратить внимание на проблемы в безопасности.

Подписывайтесь Data Diggers
👍1
Открытия внешнеторговой статистики РФ пока ждать не стоит, — ФТС — сообщает канал Импорт в Россию
Росреестр намерен убрать с публичной кадастровой карты РФ зоны археологического наследия.

Решение приняли для соблюдения требований Минкультуры о закрытии отдельных сведений об объектах археологического наследия.

Вместе с тем Росреестр в проекте приказа намерен вывести на публичных кадастровых картах границы территорий, зарезервированные для государственных или муниципальных нужд, и участки, на которых устанавливается публичный сервитут. Также на открытых картах появятся сведения о лесопарковых зеленых поясах, Байкальской природной территории и ее экологических зонах — сообщает канал ТАСС
https://rutube.ru/video/1d8ef01ba97ea235d7211cc08996bca1/?r=wd
многие хотят грант ФСИ получить, я постоянно получаю запросы на советы. Вот вебинар, где вам разжуют все детали. Грант 4 млн. рублей на ваш стартап. Мы получали и вы сможете. Плюс я много статей публиковал из нашего опыта. В любом случае - вот контакт специалиста, кто помогает с грантом (заявкой). Пробуйте, но держите в уме, что лучше подаваться на Старт-ЦТ или Старт-ИИ, как по мне. — сообщает канал Русский ИТ бизнес 👨
parser_maps — парсер Yandex карт

webdriver обходит все страницы по списку и собирает следующую информацию: название, сайт, соцсети, телефон, адрес, рейтинг, время работы. Можно собирать и товары, и услуги при желании

GitHub/Инструкция
OCRmyPDFинструмент, что конвертирует обычный PDF в доступный для поиска файл, добавляя текстовый слой OCR к отсканированным PDF-файлам

Это позволяет выполнять их поиск по тексту или копирование и вставку
Ссылка на проект
Сервис по запросу пользователя генеририрует векторную графику - лого и разные элементы. https://www.recraft.ai/
Вам для информации. Статистика по доменам в России. На 4.9 млн. доменов где-то 1.5 млн. работающих сайтов.

А напомню, в России порядка 6 млн. бизнесов (это ООО + ИП). Есть куда расти. — сообщает канал Русский ИТ бизнес 👨
Поиск почты руководителя из интересной бизнесу компании — это часть работы по лидогенерации в b2b, пишет Тарас Алтунин.

Для тех, кто плохо с этим справляется, он подготовил шпаргалку с минусами и плюсами каждого поискового способа

vc.ru/marketing/721813 — сообщает канал vc.ru
распечатать
База и статистика доменов .RU / .РФ / .SU

https://statonline.ru/?tld=ru