Предпоследние версии, в данный момент принято решение перейти с flat на PyQt6 так как ранее выбранный фрейм не особо подходит под данные задачи. Так же ранее были добавлены 85 регионов РФ и основные города данных регионов.
Вот так теперь выглядит парсер, было принято решение убрать настройки по городом и категориям и выставить парсинг по ссылкам. Возможность добавление нескольких ссылок с разных площадок. Так же добавлены функции для tg bot и google Sheets
Всем привет, в данный момент в таком состоянии, думаю еще день-два и буду готов показать результат, в данный момент вношу исправления в сбор, борюсь с корректным сбором номеров через selenium не знаю на сколько функция будет нужна пользователям, очень затратная в аккаунтах может получится.
Самый продуктивный день «Нет» накинул стиля :D
Действительно важное добавлена ротация User-Agent, выставлен выбор ротация по количеству запросов либо при смене Ip на прокси
Действительно важное добавлена ротация User-Agent, выставлен выбор ротация по количеству запросов либо при смене Ip на прокси
Пред-релизная версия 0.1.1
Были добавлены функции проверки обновления версии
В данный момент корректно работает парс только по площадке Авито
-- Корректный сбор временных номеров будет выполнен ближайшие дни
Площадки других компаний будут добавляться постепенно
Были добавлены функции проверки обновления версии
В данный момент корректно работает парс только по площадке Авито
-- Корректный сбор временных номеров будет выполнен ближайшие дни
Площадки других компаний будут добавляться постепенно
Основные изменения:
Переход на Puppeteer (pyppeteer): Заменили Playwright для более эффективного обхода защиты Avito, включая JavaScript-рендеринг и эмуляцию браузера.
Улучшение парсинга: интегрирован Puppeteer для загрузки страниц, сохранены все поля (Название объявления, Город, etc.), фильтры и пагинация.
Исправили остановку парсинга после первого объявления. Теперь парсер собирает все объявления на странице и переходит к следующей.
Автоматизация: парсер теперь работает до конца всех страниц без ручного вмешательства.
Заменили signal.SIGALRM на кроссплатформенный threading.Timer для таймаутов
Улучшили обработку для избегания JSON-ошибок.
Трудности:
Устаревшие селекторы на Avito вызывали пропуск данных (например, пустое «Описание»).
JSON-ошибки при парсинге из-за нестандартной кодировки.
CAPTCHA и fingerprinting: Avito активно блокирует запросы без авторизации, даже с ротацией IP и User-Agent, Puppeteer немного улучшил ситуацию.
Переход на Puppeteer (pyppeteer): Заменили Playwright для более эффективного обхода защиты Avito, включая JavaScript-рендеринг и эмуляцию браузера.
Улучшение парсинга: интегрирован Puppeteer для загрузки страниц, сохранены все поля (Название объявления, Город, etc.), фильтры и пагинация.
Исправили остановку парсинга после первого объявления. Теперь парсер собирает все объявления на странице и переходит к следующей.
Автоматизация: парсер теперь работает до конца всех страниц без ручного вмешательства.
Заменили signal.SIGALRM на кроссплатформенный threading.Timer для таймаутов
Улучшили обработку для избегания JSON-ошибок.
Трудности:
Устаревшие селекторы на Avito вызывали пропуск данных (например, пустое «Описание»).
JSON-ошибки при парсинге из-за нестандартной кодировки.
CAPTCHA и fingerprinting: Avito активно блокирует запросы без авторизации, даже с ротацией IP и User-Agent, Puppeteer немного улучшил ситуацию.
На данный момент тестируется и проверяется весь функционал, на корректный сбор и устранение мелких ошибок.
Сбор данных с 2GIS
Извлечение информации об организациях, включая:
-Название и юридическое название.
-Адрес (включая почтовый индекс, название здания, координаты).
-Контактные данные (телефоны, email, сайты, социальные сети).
-График работы с комментариями.
-Рубрики и категории.
-Отзывы (рейтинг и количество).
-Дополнительные данные, такие как филиалы и административные деления.
Поддержка множества URL для парсинга с возможностью редактирования через встроенный редактор.
Генерация URL на основе запросов, городов и рубрик
Использование Chrome через ChromeDriver для рендеринга страниц и взаимодействия с динамическим контентом.
Сохранение результатов в форматах CSV, XLSX или JSON.
Удаление пустых столбцов и дубликатов.
Интуитивно понятный интерфейс на основе PyQt6 с поддержкой нескольких тем оформления
#WS_2GIS
Извлечение информации об организациях, включая:
-Название и юридическое название.
-Адрес (включая почтовый индекс, название здания, координаты).
-Контактные данные (телефоны, email, сайты, социальные сети).
-График работы с комментариями.
-Рубрики и категории.
-Отзывы (рейтинг и количество).
-Дополнительные данные, такие как филиалы и административные деления.
Поддержка множества URL для парсинга с возможностью редактирования через встроенный редактор.
Генерация URL на основе запросов, городов и рубрик
Использование Chrome через ChromeDriver для рендеринга страниц и взаимодействия с динамическим контентом.
Сохранение результатов в форматах CSV, XLSX или JSON.
Удаление пустых столбцов и дубликатов.
Интуитивно понятный интерфейс на основе PyQt6 с поддержкой нескольких тем оформления
#WS_2GIS
❤1