Автоматизированный сбор данных с сайта бесплатных объявлений с помощью Python
Решил я тут на днях попробовать парсить Авито. Наверное, раньше это была одна из излюбленных площадок для обучения парсингу. И, действительно, ещё примерно год назад можно было собирать данные с этой площадки особо не напрягаясь. Но, возможно, в связи с громкими утечками данных защита от парсинга значительно усилилась. Сначала появились временные телефоны, которые, насколько я понимаю, выделяются на виртуальной АТС. И если ещё какое-то время назад их можно было посмотреть без авторизации, то теперь это обязательное условие. Единственные, чьи телефоны остались доступны для просмотра, это телефоны организаций. Но, сами по себе они ценности не имеют, так как, по сути, доступны в любом онлайн справочнике.
📌 Читать далее
#programming #python #parsing
Решил я тут на днях попробовать парсить Авито. Наверное, раньше это была одна из излюбленных площадок для обучения парсингу. И, действительно, ещё примерно год назад можно было собирать данные с этой площадки особо не напрягаясь. Но, возможно, в связи с громкими утечками данных защита от парсинга значительно усилилась. Сначала появились временные телефоны, которые, насколько я понимаю, выделяются на виртуальной АТС. И если ещё какое-то время назад их можно было посмотреть без авторизации, то теперь это обязательное условие. Единственные, чьи телефоны остались доступны для просмотра, это телефоны организаций. Но, сами по себе они ценности не имеют, так как, по сути, доступны в любом онлайн справочнике.
📌 Читать далее
#programming #python #parsing
👍15🔥3❤🔥1
Сбор данных с сайта знакомств с помощью Selenium, BeautifulSoup и requests используя скрипт на Python
В данной статье я предлагаю вам немного отвлечься от слишком серьезных задач и попрактиковаться в парсинге. А, чтобы не было скучно, будем мы парсить достаточно известный сайт знакомств. А именно, забирать оттуда фото пользователей. Для наших целей мы будем использовать Selenium, BeautifulSoup, requests. А работать это будет в скрипте Python.
📌 Читать статью
#programming #python #parsing
В данной статье я предлагаю вам немного отвлечься от слишком серьезных задач и попрактиковаться в парсинге. А, чтобы не было скучно, будем мы парсить достаточно известный сайт знакомств. А именно, забирать оттуда фото пользователей. Для наших целей мы будем использовать Selenium, BeautifulSoup, requests. А работать это будет в скрипте Python.
📌 Читать статью
#programming #python #parsing
👍19🔥6👎3🤔2❤1🥴1
Методы обхода защиты от автоматизированного ПО в браузере Chrome под управлением Selenium в Python
При парсинге данных возникают ситуации, когда нужно получить доступ к сайту с помощью драйвера selenium. Так как на странице сайта в коде выполняются скрипты, которые добавляют в код данные, доступ к которым с помощью обычных запросов получить просто не получиться. Но, все может быть немного печальнее. К примеру, страница может находиться за CDN, такой как Cloudflare, с включенной проверкой браузера. В этом случае обычный драйвер selenium доступ к странице не получит, так как будет определено, что используется автоматизированное тестовое ПО. Но, даже в этих случаях выход есть. Давайте посмотрим, как можно обойти данную проверку с помощью отключения определенных опций в браузере, а также рассмотрим уже модифицированную версию драйвера для Chrome, в которой уже из коробки отключены данные опции. Но, обо всем по порядку.
📌 Читать далее
#programming #python #parsing
При парсинге данных возникают ситуации, когда нужно получить доступ к сайту с помощью драйвера selenium. Так как на странице сайта в коде выполняются скрипты, которые добавляют в код данные, доступ к которым с помощью обычных запросов получить просто не получиться. Но, все может быть немного печальнее. К примеру, страница может находиться за CDN, такой как Cloudflare, с включенной проверкой браузера. В этом случае обычный драйвер selenium доступ к странице не получит, так как будет определено, что используется автоматизированное тестовое ПО. Но, даже в этих случаях выход есть. Давайте посмотрим, как можно обойти данную проверку с помощью отключения определенных опций в браузере, а также рассмотрим уже модифицированную версию драйвера для Chrome, в которой уже из коробки отключены данные опции. Но, обо всем по порядку.
📌 Читать далее
#programming #python #parsing
🔥11👍4❤2👎2
Получение данных из таблицы с динамическим содержимым с помощью Python
Парсинг данных, это всегда увлекательная и полезная штука, ведь получив данные мы можем выполнить различные виды анализа или использовать полученные данные в нужных приложениях, будь то телеграмм-бот или иное приложение. В марте этого года на фриланс-сайте мне попалось задание, которое показалось интересным и я решил попробовать выполнить это задание для себя, просто, чтобы попрактиковаться. Конечно же, для сбора необходимых данных я решил использовать Python.
📌 Читать далее
#programming #python #parsing
Парсинг данных, это всегда увлекательная и полезная штука, ведь получив данные мы можем выполнить различные виды анализа или использовать полученные данные в нужных приложениях, будь то телеграмм-бот или иное приложение. В марте этого года на фриланс-сайте мне попалось задание, которое показалось интересным и я решил попробовать выполнить это задание для себя, просто, чтобы попрактиковаться. Конечно же, для сбора необходимых данных я решил использовать Python.
📌 Читать далее
#programming #python #parsing
👍8🔥4❤🔥3