Java | Фишки и трюки

⌨️

Создание веб-скрапера с помощью Jsoup

Теперь давайте рассмотрим, как создать простой веб-скрапер, используя библиотеку Jsoup. Это мощный инструмент для работы с HTML, который позволяет удобно извлекать нужные данные.

Чтобы начать, добавьте зависимость Jsoup в ваш проект. Если вы используете Maven, добавьте следующий фрагмент в ваш pom.xml:


<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.3</version> <!-- Убедитесь, что используете последнюю версию -->
</dependency>

Мы создадим простой веб-скрапер, который будет извлекать заголовки с сайта новостей.


import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class NewsScraper {
    public static void main(String[] args) {
        String url = "https://example-news-site.com"; // Замените на реальный URL
        try {
            // Загружаем документ
            Document doc = Jsoup.connect(url).get();
            
            // Извлекаем элементы (например, заголовки новостей)
            Elements newsHeadlines = doc.select(".headline"); // CSS-селектор для заголовков
            
            // Обрабатываем и выводим заголовки
            for (Element headline : newsHeadlines) {
                System.out.println(headline.text()); // Выводим текст заголовка
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Что происходит в коде?

1️⃣ Подключение к веб-странице: Метод Jsoup.connect(url).get() позволяет загрузить HTML-код страницы.

2️⃣ Извлечение данных: Метод select() позволяет отобрать элементы, соответствующие заданному CSS-селектору (в нашем случае заголовкам новостей с классом .headline).

3️⃣ Вывод результатов: Перебирая элементы, выводим текст заголовков в консоль.

#java #Jsoup

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤3

2.74K views11:21

About

Blog

Apps

Platform