Python для начинающих

Как распарсить текстовое меню и извлечь информацию

Иногда нам достается меню не в виде аккуратного JSON, а просто куском текста: письмо от администратора, скопированное меню из чата или лог старой системы. Но даже из такого «хаоса» можно вытащить структурированные данные с помощью Python.

Представим, что у нас есть такое меню:

1. Margherita - 350
2. Pepperoni - 420
3. Four Cheese - 500
4. Vegan Special - 390

Наша цель — превратить это в список словарей: {"name": ..., "price": ...}.

### Вариант 1: Базовый парсинг со split

Для очень простых и предсказуемых форматов можно обойтись без регулярных выражений:

menu_text = """
1. Margherita - 350
2. Pepperoni - 420
3. Four Cheese - 500
4. Vegan Special - 390
"""

items = []
for line in menu_text.strip().splitlines():
    if not line.strip():
        continue
    # "1. Margherita - 350" -> ["1. Margherita ", " 350"]
    left, price_str = line.split('-')
    price = int(price_str.strip())
    # "1. Margherita " -> ["1.", "Margherita"]
    _, name = left.split('.', maxsplit=1)
    items.append({
        "name": name.strip(),
        "price": price
    })

print(items)

Результат:

[
    {'name': 'Margherita', 'price': 350},
    {'name': 'Pepperoni', 'price': 420},
    ...
]

Такой подход хорош, когда формат жёстко фиксирован и вы его контролируете.

### Вариант 2: Регулярные выражения для «живого» текста

Если в меню могут быть пробелы, произвольные номера позиций или даже валюта, лучше использовать re:

import re

menu_text = """
1) Margherita - 350 RUB
02. Pepperoni — 420
#3 Four Cheese: 500р
4 Vegan Special 390
"""

pattern = re.compile(
    r"""
    ^\D*?(\d+)\D+        # номер блюда
    ([A-Za-z ]+?)\D+     # название
    (\d+)\s*             # цена
    """,
    re.VERBOSE
)

items = []
for line in menu_text.strip().splitlines():
    match = pattern.search(line)
    if not match:
        continue
    pos, name, price = match.groups()
    items.append({
        "position": int(pos),
        "name": name.strip(),
        "price": int(price)
    })

print(items)

re.VERBOSE позволяет красиво документировать шаблон и не превращать его в нечитаемое «простыню» из символов.

### Вариант 3: Превращаем парсер в функцию

Хорошая практика — оборачивать логику парсинга в функцию: потом вы сможете менять реализацию, не трогая остальной код.

def parse_menu(text: str):
    import re
    pattern = re.compile(r'^\s*\d+\D+([A-Za-z ]+)\D+(\d+)', re.MULTILINE)
    result = []
    for name, price in pattern.findall(text):
        result.append({
            "name": name.strip(),
            "price": int(price)
        })
    return result

menu_items = parse_menu(menu_text)

Дальше с этим списком уже можно делать всё что угодно: считать среднюю цену, фильтровать по бюджету, строить API или генератор PDF-меню.

Парсинг текстовых меню — отличный тренировочный полигон: вы прокачиваете строки, регулярные выражения, функции и немного алгоритмическое мышление. А заодно перестаёте бояться «грязных» данных: Python умеет наводить порядок.

👍1

235 views04:16