Codeby
35.9K subscribers
1.48K photos
92 videos
12 files
7.41K links
Блог сообщества Кодебай

Чат: @codeby_one
Форум: codeby.net
Обучение: codeby.school
Пентест: codeby.one
CTF: hackerlab.pro

VK: vk.com/codeby
YT: clck.ru/XG99c

Сотрудничество: @KinWiz

Реклама: @Savchenkova_Valentina
Download Telegram
Автоматизированный сбор данных с сайта бесплатных объявлений с помощью Python

Решил я тут на днях попробовать парсить Авито. Наверное, раньше это была одна из излюбленных площадок для обучения парсингу. И, действительно, ещё примерно год назад можно было собирать данные с этой площадки особо не напрягаясь. Но, возможно, в связи с громкими утечками данных защита от парсинга значительно усилилась. Сначала появились временные телефоны, которые, насколько я понимаю, выделяются на виртуальной АТС. И если ещё какое-то время назад их можно было посмотреть без авторизации, то теперь это обязательное условие. Единственные, чьи телефоны остались доступны для просмотра, это телефоны организаций. Но, сами по себе они ценности не имеют, так как, по сути, доступны в любом онлайн справочнике.

📌 Читать далее

#programming #python #parsing
👍15🔥3❤‍🔥1
Сбор данных с сайта знакомств с помощью Selenium, BeautifulSoup и requests используя скрипт на Python

В данной статье я предлагаю вам немного отвлечься от слишком серьезных задач и попрактиковаться в парсинге. А, чтобы не было скучно, будем мы парсить достаточно известный сайт знакомств. А именно, забирать оттуда фото пользователей. Для наших целей мы будем использовать Selenium, BeautifulSoup, requests. А работать это будет в скрипте Python.

📌 Читать статью

#programming #python #parsing
👍19🔥6👎3🤔21🥴1
Методы обхода защиты от автоматизированного ПО в браузере Chrome под управлением Selenium в Python

При парсинге данных возникают ситуации, когда нужно получить доступ к сайту с помощью драйвера selenium. Так как на странице сайта в коде выполняются скрипты, которые добавляют в код данные, доступ к которым с помощью обычных запросов получить просто не получиться. Но, все может быть немного печальнее. К примеру, страница может находиться за CDN, такой как Cloudflare, с включенной проверкой браузера. В этом случае обычный драйвер selenium доступ к странице не получит, так как будет определено, что используется автоматизированное тестовое ПО. Но, даже в этих случаях выход есть. Давайте посмотрим, как можно обойти данную проверку с помощью отключения определенных опций в браузере, а также рассмотрим уже модифицированную версию драйвера для Chrome, в которой уже из коробки отключены данные опции. Но, обо всем по порядку.

📌 Читать далее

#programming #python #parsing
🔥11👍42👎2
Получение данных из таблицы с динамическим содержимым с помощью Python

Парсинг данных, это всегда увлекательная и полезная штука, ведь получив данные мы можем выполнить различные виды анализа или использовать полученные данные в нужных приложениях, будь то телеграмм-бот или иное приложение. В марте этого года на фриланс-сайте мне попалось задание, которое показалось интересным и я решил попробовать выполнить это задание для себя, просто, чтобы попрактиковаться. Конечно же, для сбора необходимых данных я решил использовать Python.

📌 Читать далее

#programming #python #parsing
👍8🔥4❤‍🔥3