Не просто ещё одна Python-библиотека для парсинга страниц. Это — адаптивная экосистема, которая не ломается от первого же апдейта сайта и умеет самостоятельно находить ваши данные, даже если структура DOM поменялась.
Scrapling — это:
pip install scrapling
from scrapling.fetchers import StealthyFetcher
page = StealthyFetcher.fetch("https://example.com", headless=True)
titles = page.css(".post-title", adaptive=True).getall()
print(titles)
🪄 Адаптивные селекторы
Scrapling может обучить ваш парсер тому, как выглядят нужные элементы, и повторно находить их, даже если сайт их перемещает или перестраивает.
🕸 Обход анти-ботов и динамики
Умеет обходить защиту сайтов (например, Cloudflare Turnstile) из коробки, а также загружать страницы через полноценный браузер (Playwright).
⚡️ Spider-фреймворк с паузами/возобновлением
Может работать как полноценный краулер с:
* параллельными сессиями
* автоматической ротацией прокси
* возможностью паузы и продолжения
* статистикой в реальном времени — и всё это без тонны кода.
#python #soft #github
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥55👍22❤11
По сути — превращает PDF в чистые JSON / структурированные данные для дальнейшей обработки.
Где пригодится:
Быстро вытаскивают таблицы, цитаты и списки литературы из научных статей.
Счета, договоры, акты, анкеты — вместо ручного копирования получаешь структурированные данные.
Можно автоматически забирать цифры из отчётов и загружать в свои системы.
#python #soft #github
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥10❤6
Особенно полезно, если:
1. Создай recipients.txt:
a@site.com
b@site.com
c@site.com
2. Запусти скрипт — он будет ждать времени и отправлять.
Готовый код
#python #soft #code
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍11❤4
Это не чат-бот.
Это Computer Use Agent.
Без accessibility tree, без костылей, без отдельного парсинга DOM — модель работает через визуальное восприятие интерфейса!
По сути — это автономный браузерный ассистент.
git clone https://github.com/microsoft/fara.git
cd fara
python3 -m venv .venv
source .venv/bin/activate
pip install -e .[vllm]
playwright install
vllm serve "microsoft/Fara-7B" --port 5000 --dtype auto
fara-cli --task "whats the weather in new york now"
Можно подключить к Magentic-UI и управлять через графический интерфейс.
--tensor-parallel-size 2.#python #soft #github
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34❤8🔥7🫡3
Чувак обучил модель специально под русский язык, коротко пересказывать длинные тексты без потери смысла.
Алгоритм выжимает из документа самую суть и превращает десятки страниц в несколько абзацев — без воды и искажений.
Модель спокойно прогоняет всё это через себя и выдаёт аккуратное резюме.
# Установим библиотеку трансформеров
!pip install transformers
# Импортируем библиотеки
from transformers import AutoModelForSeq2SeqLM, T5TokenizerFast
# Зададим название выбронной модели из хаба
MODEL_NAME = 'UrukHan/t5-russian-summarization'
MAX_INPUT = 256
# Загрузка модели и токенизатора
tokenizer = T5TokenizerFast.from_pretrained(MODEL_NAME)
model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME)
# Входные данные (можно массив фраз или текст)
input_sequences = ['Тут твой текст'] # или можно использовать одиночные фразы: input_sequences = 'сегодня хороший день'
task_prefix = "Spell correct: " # Токенизирование данных
if type(input_sequences) != list: input_sequences = [input_sequences]
encoded = tokenizer(
[task_prefix + sequence for sequence in input_sequences],
padding="longest",
max_length=MAX_INPUT,
truncation=True,
return_tensors="pt",
)
predicts = model.generate(encoded) # # Прогнозирование
tokenizer.batch_decode(predicts, skip_special_tokens=True) # Декодируем данные
#нейросеть #python #soft
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥9❤5