[PYTHON:TODAY]

👊

Появился почти идеальный суммаризатор для русского языка

Чувак обучил модель специально под русский язык, коротко пересказывать длинные тексты без потери смысла.

Алгоритм выжимает из документа самую суть и превращает десятки страниц в несколько абзацев — без воды и искажений.

📄 статьи
📚 большие тексты
📦 отчёты
🧾 документы

Модель спокойно прогоняет всё это через себя и выдаёт аккуратное резюме.

😰 Пример использования:

# Установим библиотеку трансформеров
!pip install transformers

# Импортируем библиотеки
from transformers import AutoModelForSeq2SeqLM, T5TokenizerFast

# Зададим название выбронной модели из хаба
MODEL_NAME = 'UrukHan/t5-russian-summarization'
MAX_INPUT = 256

# Загрузка модели и токенизатора
tokenizer = T5TokenizerFast.from_pretrained(MODEL_NAME)
model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME)

# Входные данные (можно массив фраз или текст)
input_sequences = ['Тут твой текст']   # или можно использовать одиночные фразы:  input_sequences = 'сегодня хороший день'

task_prefix = "Spell correct: "                 # Токенизирование данных
if type(input_sequences) != list: input_sequences = [input_sequences]
encoded = tokenizer(
  [task_prefix + sequence for sequence in input_sequences],
  padding="longest",
  max_length=MAX_INPUT,
  truncation=True,
  return_tensors="pt",
)

predicts = model.generate(encoded)    # # Прогнозирование

tokenizer.batch_decode(predicts, skip_special_tokens=True)  # Декодируем данные

⬇️

Модель на huggingface и примеры использования

#нейросеть #python #soft

Please open Telegram to view this post

VIEW IN TELEGRAM

👍31🔥9❤5

5.52K views06:42

About

Blog

Apps

Platform