[PYTHON:TODAY]

💻

Scrapling — парсим весь интернет в один клик

Не просто ещё одна Python-библиотека для парсинга страниц. Это — адаптивная экосистема, которая не ломается от первого же апдейта сайта и умеет самостоятельно находить ваши данные, даже если структура DOM поменялась.

🚫 Забудьте про бесконечный ребейз селекторов, бессмысленные переписывания парсеров и костыли на продакшене.

Scrapling — это:

✔️

Python-фреймворк от одного запроса до масштабного краулера.
✔️ Адаптивный парсер, который «понимает» изменения DOM.
✔️ Мощный набор инструментов для обхода анти-бота и динамического контента.
✔️ Библиотека, которую можно запустить в пару строк кода и она работает.

⚙️

Простая установка:

pip install scrapling

😰

Минимальный пример на Python

from scrapling.fetchers import StealthyFetcher

page = StealthyFetcher.fetch("https://example.com", headless=True)
titles = page.css(".post-title", adaptive=True).getall()
print(titles)

🪄 Адаптивные селекторы

Scrapling может обучить ваш парсер тому, как выглядят нужные элементы, и повторно находить их, даже если сайт их перемещает или перестраивает.

🕸 Обход анти-ботов и динамики

Умеет обходить защиту сайтов (например, Cloudflare Turnstile) из коробки, а также загружать страницы через полноценный браузер (Playwright).

⚡️ Spider-фреймворк с паузами/возобновлением

Может работать как полноценный краулер с:
* параллельными сессиями
* автоматической ротацией прокси
* возможностью паузы и продолжения
* статистикой в реальном времени — и всё это без тонны кода.

♎️

GitHub/Инструкция

#python #soft #github

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥55👍22❤11

13.1K views12:41

[PYTHON:TODAY]

📦

PDF-Extract-Kit — инструмент, который превращает хаотичные PDF в аккуратные структурированные данные.

🧾 Вытаскивает таблицы в нормальный табличный формат.
🔢 Отдельно извлекает цифры, поля, блоки.
📝 Парсит текст с сохранением структуры.
📊 Работает даже с «кривыми» сканами и сложной вёрсткой.
🧠 Понимает layout документа, а не просто OCR-ит его.

По сути — превращает PDF в чистые JSON / структурированные данные для дальнейшей обработки.

Где пригодится:

🟢

Студенты
Быстро вытаскивают таблицы, цитаты и списки литературы из научных статей.

🟢

Офис/фриланс
Счета, договоры, акты, анкеты — вместо ручного копирования получаешь структурированные данные.

🟢

Аналитика
Можно автоматически забирать цифры из отчётов и загружать в свои системы.

💬 Прогнал через модель и получил чистую структуру.

⬇️

Сохраняем и пробуем

#python #soft #github

Please open Telegram to view this post

VIEW IN TELEGRAM

👍36🔥10❤6

8.6K views05:44

[PYTHON:TODAY]

✈️

Автоматизируем почтовую рассылку с Python

💬 Отправка писем.
💬 Вложения (PDF, сертификаты, отчёты).
💬 Для массовой рассылки.
💬 Отправка по расписанию.

😰 Один скрипт — и ты превращаешься в машину массовой отправки.

Особенно полезно, если:
🟢рассылаешь коммерческие предложения;
🟢отправляешь отчёты клиентам;
🟢делаешь уведомления;
🟢запускаешь email-маркетинг;
🟢автоматизируешь внутренние процессы.

1. Создай recipients.txt:

a@site.com
b@site.com
c@site.com

2. Запусти скрипт — он будет ждать времени и отправлять.

Готовый код 👇

#python #soft #code

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥20👍11❤4

7.19K views06:37

[PYTHON:TODAY]

smart_mailer.py

6.1 KB

✈️

Автоматизируем почтовую рассылку с Python

#python #soft #code

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18🔥7❤3🫡3

7.14K viewsedited 06:37

[PYTHON:TODAY]

⚡️

Fara-7B — компактную агентная модель от Microsoft, которая не просто «болтает», а управляет браузером как человек.

Это не чат-бот.
Это Computer Use Agent.

🖱

Что умеет:

➡️ Видит веб-страницу визуально.
➡️ Скроллит.
➡️ Кликает по координатам.
➡️ Вводит текст.
➡️ Выполняет многошаговые задачи.

Без accessibility tree, без костылей, без отдельного парсинга DOM — модель работает через визуальное восприятие интерфейса!

💻

Можно автоматизировать:

💬 Поиск и резюмирование информации.
💬 Заполнение форм.
💬 Покупки и сравнение цен.
💬 Бронирование билетов и ресторанов.
💬 Поиск вакансий и недвижимости.

По сути — это автономный браузерный ассистент.

🟢

Установка:

git clone https://github.com/microsoft/fara.git
cd fara

🟢

Создаёшь окружение:

python3 -m venv .venv
source .venv/bin/activate
pip install -e .[vllm]
playwright install

🟢

Запускаешь модель:

vllm serve "microsoft/Fara-7B" --port 5000 --dtype auto

🟢

И тестируешь:

fara-cli --task "whats the weather in new york now"

Можно подключить к Magentic-UI и управлять через графический интерфейс.

⚠️ На Windows лучше использовать WSL2.
⚠️ Если не хватает памяти — добавь --tensor-parallel-size 2.

♎️

GitHub/Инструкция

#python #soft #github

Please open Telegram to view this post

VIEW IN TELEGRAM

👍34❤8🔥7🫡3

6.95K views12:44

[PYTHON:TODAY]

👊

Появился почти идеальный суммаризатор для русского языка

Чувак обучил модель специально под русский язык, коротко пересказывать длинные тексты без потери смысла.

Алгоритм выжимает из документа самую суть и превращает десятки страниц в несколько абзацев — без воды и искажений.

📄 статьи
📚 большие тексты
📦 отчёты
🧾 документы

Модель спокойно прогоняет всё это через себя и выдаёт аккуратное резюме.

😰 Пример использования:

# Установим библиотеку трансформеров
!pip install transformers

# Импортируем библиотеки
from transformers import AutoModelForSeq2SeqLM, T5TokenizerFast

# Зададим название выбронной модели из хаба
MODEL_NAME = 'UrukHan/t5-russian-summarization'
MAX_INPUT = 256

# Загрузка модели и токенизатора
tokenizer = T5TokenizerFast.from_pretrained(MODEL_NAME)
model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME)

# Входные данные (можно массив фраз или текст)
input_sequences = ['Тут твой текст']   # или можно использовать одиночные фразы:  input_sequences = 'сегодня хороший день'

task_prefix = "Spell correct: "                 # Токенизирование данных
if type(input_sequences) != list: input_sequences = [input_sequences]
encoded = tokenizer(
  [task_prefix + sequence for sequence in input_sequences],
  padding="longest",
  max_length=MAX_INPUT,
  truncation=True,
  return_tensors="pt",
)

predicts = model.generate(encoded)    # # Прогнозирование

tokenizer.batch_decode(predicts, skip_special_tokens=True)  # Декодируем данные

⬇️

Модель на huggingface и примеры использования

#нейросеть #python #soft

Please open Telegram to view this post

VIEW IN TELEGRAM

👍31🔥9❤5

5.34K views06:42

About

Blog

Apps

Platform