Основные изменения:
Переход на Puppeteer (pyppeteer): Заменили Playwright для более эффективного обхода защиты Avito, включая JavaScript-рендеринг и эмуляцию браузера.
Улучшение парсинга: интегрирован Puppeteer для загрузки страниц, сохранены все поля (Название объявления, Город, etc.), фильтры и пагинация.
Исправили остановку парсинга после первого объявления. Теперь парсер собирает все объявления на странице и переходит к следующей.
Автоматизация: парсер теперь работает до конца всех страниц без ручного вмешательства.
Заменили signal.SIGALRM на кроссплатформенный threading.Timer для таймаутов
Улучшили обработку для избегания JSON-ошибок.
Трудности:
Устаревшие селекторы на Avito вызывали пропуск данных (например, пустое «Описание»).
JSON-ошибки при парсинге из-за нестандартной кодировки.
CAPTCHA и fingerprinting: Avito активно блокирует запросы без авторизации, даже с ротацией IP и User-Agent, Puppeteer немного улучшил ситуацию.
Переход на Puppeteer (pyppeteer): Заменили Playwright для более эффективного обхода защиты Avito, включая JavaScript-рендеринг и эмуляцию браузера.
Улучшение парсинга: интегрирован Puppeteer для загрузки страниц, сохранены все поля (Название объявления, Город, etc.), фильтры и пагинация.
Исправили остановку парсинга после первого объявления. Теперь парсер собирает все объявления на странице и переходит к следующей.
Автоматизация: парсер теперь работает до конца всех страниц без ручного вмешательства.
Заменили signal.SIGALRM на кроссплатформенный threading.Timer для таймаутов
Улучшили обработку для избегания JSON-ошибок.
Трудности:
Устаревшие селекторы на Avito вызывали пропуск данных (например, пустое «Описание»).
JSON-ошибки при парсинге из-за нестандартной кодировки.
CAPTCHA и fingerprinting: Avito активно блокирует запросы без авторизации, даже с ротацией IP и User-Agent, Puppeteer немного улучшил ситуацию.
На данный момент тестируется и проверяется весь функционал, на корректный сбор и устранение мелких ошибок.
Сбор данных с 2GIS
Извлечение информации об организациях, включая:
-Название и юридическое название.
-Адрес (включая почтовый индекс, название здания, координаты).
-Контактные данные (телефоны, email, сайты, социальные сети).
-График работы с комментариями.
-Рубрики и категории.
-Отзывы (рейтинг и количество).
-Дополнительные данные, такие как филиалы и административные деления.
Поддержка множества URL для парсинга с возможностью редактирования через встроенный редактор.
Генерация URL на основе запросов, городов и рубрик
Использование Chrome через ChromeDriver для рендеринга страниц и взаимодействия с динамическим контентом.
Сохранение результатов в форматах CSV, XLSX или JSON.
Удаление пустых столбцов и дубликатов.
Интуитивно понятный интерфейс на основе PyQt6 с поддержкой нескольких тем оформления
#WS_2GIS
Извлечение информации об организациях, включая:
-Название и юридическое название.
-Адрес (включая почтовый индекс, название здания, координаты).
-Контактные данные (телефоны, email, сайты, социальные сети).
-График работы с комментариями.
-Рубрики и категории.
-Отзывы (рейтинг и количество).
-Дополнительные данные, такие как филиалы и административные деления.
Поддержка множества URL для парсинга с возможностью редактирования через встроенный редактор.
Генерация URL на основе запросов, городов и рубрик
Использование Chrome через ChromeDriver для рендеринга страниц и взаимодействия с динамическим контентом.
Сохранение результатов в форматах CSV, XLSX или JSON.
Удаление пустых столбцов и дубликатов.
Интуитивно понятный интерфейс на основе PyQt6 с поддержкой нескольких тем оформления
#WS_2GIS
❤1
Хорошая скорость сбора.
Решена проблема при сборе N Города захватывал соседние города и области, сбор идет только по выбранным.
#WS_2GIS
Решена проблема при сборе N Города захватывал соседние города и области, сбор идет только по выбранным.
#WS_2GIS
Парсер Яндекс Карт предназначен для извлечения информации об организациях и её сохранения в удобном формате.
Собирает название, адрес, телефон, email, рейтинг, количество оценок, сайт, ссылки на соцсети (VK, WhatsApp, Telegram), категории и часы работы.
Настройки:
-Количество прокруток страницы
-Шаг прокрутки (по умолчанию 5000 пикселей)
-Выполнен выбор задержки: загрузка страницы, прокрутка , клик по телефону.
-Количество попыток извлечения телефона
-Лимит записей (0 для всех организаций)
-Сохранение: Данные записываются в файл (JSON, CSV, XLSX) после каждой организации
-Корректно извлекаются ссылки на VK, WhatsApp, Telegram, а так же номера телефон
-Данные сохраняются в выбранный формат после каждой организации
-Использует Selenium для работы с динамическим контентом
-Поддерживает альтернативные селекторы для надёжного извлечения данных.
#WS_YandexMap
Собирает название, адрес, телефон, email, рейтинг, количество оценок, сайт, ссылки на соцсети (VK, WhatsApp, Telegram), категории и часы работы.
Настройки:
-Количество прокруток страницы
-Шаг прокрутки (по умолчанию 5000 пикселей)
-Выполнен выбор задержки: загрузка страницы, прокрутка , клик по телефону.
-Количество попыток извлечения телефона
-Лимит записей (0 для всех организаций)
-Сохранение: Данные записываются в файл (JSON, CSV, XLSX) после каждой организации
-Корректно извлекаются ссылки на VK, WhatsApp, Telegram, а так же номера телефон
-Данные сохраняются в выбранный формат после каждой организации
-Использует Selenium для работы с динамическим контентом
-Поддерживает альтернативные селекторы для надёжного извлечения данных.
#WS_YandexMap
WS | Python
Сбор данных с 2GIS Извлечение информации об организациях, включая: -Название и юридическое название. -Адрес (включая почтовый индекс, название здания, координаты). -Контактные данные (телефоны, email, сайты, социальные сети). -График работы с комментариями.…
Так же парсер под 2GIS обновлен, внесены мелки правки для корректной работы
✨ Новые функции: #WS_YandexMap v0.2.1
Фильтрация приоритетных объявлений
- Включите опцию "Собирать только приоритетные объявления" в настройках, чтобы парсер собирал только организации с зеленым или синим продвижением.
- Тип продвижения новое поле promotion_type (green, blue или none), чтобы вы могли анализировать, какие организации используют продвижение.
- Новый чекбокс в настройках позволяет легко включать или выключать фильтрацию приоритетных объявлений.
#WS_YandexMap
Фильтрация приоритетных объявлений
- Включите опцию "Собирать только приоритетные объявления" в настройках, чтобы парсер собирал только организации с зеленым или синим продвижением.
- Тип продвижения новое поле promotion_type (green, blue или none), чтобы вы могли анализировать, какие организации используют продвижение.
- Новый чекбокс в настройках позволяет легко включать или выключать фильтрацию приоритетных объявлений.
#WS_YandexMap
❤1
🔧 Улучшения:
Оптимизирован сбор данных
-Исправлен сбор количества отзывов, теперь собирает у всех компаний количество отзывов
-Фильтрация сокращает объем ненужной информации.
-Добавлено логирование для отслеживания приоритетных объявлений и пропущенных ссылок.
Параллельная обработка ссылок
- Добавлена возможность парсить несколько URL одновременно с использованием пула потоков
-Прописаны строгие ограничение на выбранное количество собираемых компаний
Улучшение работы Chrome
- Добавлена настройка для отключения ненужных ресурсов (шрифты, изображения, стили) и улучшена работа с DevTools для быстрого получения ответов
-Оптимизирована очистка памяти через вызов сборщика мусора.
#WS_YandexMap
Оптимизирован сбор данных
-Исправлен сбор количества отзывов, теперь собирает у всех компаний количество отзывов
-Фильтрация сокращает объем ненужной информации.
-Добавлено логирование для отслеживания приоритетных объявлений и пропущенных ссылок.
Параллельная обработка ссылок
- Добавлена возможность парсить несколько URL одновременно с использованием пула потоков
-Прописаны строгие ограничение на выбранное количество собираемых компаний
Улучшение работы Chrome
- Добавлена настройка для отключения ненужных ресурсов (шрифты, изображения, стили) и улучшена работа с DevTools для быстрого получения ответов
-Оптимизирована очистка памяти через вызов сборщика мусора.
#WS_YandexMap
🔥2👍1