Python вопросы с собеседований

✔️

Сравнение производительности Python и ручного подхода

Когда нужно сравнить скорость выполнения задачи с использованием Python и ручного подхода, полезно измерять время выполнения обеих стратегий. Ниже приведен пример, как можно сравнить время выполнения функции, которая суммирует числа от 1 до n с помощью Python и с использованием ручного метода.


import time
# Ручной подход
def manual_sum(n):
    total = 0
    for i in range(1, n + 1):
        total += i
    return total
# Питон-метод
def python_sum(n):
    return sum(range(1, n + 1))
# Сравнение производительности
n = 1000000
start_time = time.time()
manual_result = manual_sum(n)
manual_time = time.time() - start_time
start_time = time.time()

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

1.14K views19:40

Python вопросы с собеседований

Forwarded from Machinelearning

🌟

PaddleOCR-VL-1.5: компактная модель для сложного парсинга.

PaddlePaddle обновили свою линейку PaddleOCR-VL, выпустив PaddleOCR-VL-1.5 - компактную VLM на 0.9 млрд. параметров на базе ERNIE-4.5-0.3B-Paddle. Несмотря на скромный размер, в задачах разбора документов она показывает SOTA-результаты.

На тесте OmniDocBench v1.5 модель выбила 94.5% точности, обойдя не только прошлую версию, но и более тяжелых конкурентов.

Фишка обновления - упор на полевые условия. Модель специально учили работать с плохими исходниками: кривыми сканами, бликами от мониторов и мятыми страницами.

Попутно сделали бенчмарк Real5-OmniDocBench, который гоняет модели по 5 сценариям: сканирование, перекосы, деформация листа, фото с экрана и плохое освещение.

🟡В 1.5 добавили:

🟢

Text spotting: находит и распознает текст одновременно (печатный русский - неплохо, рукописный - почти никак)

🟢

Seal recognition: распознает печати (русские - не очень, китайские - на ура).

🟢

Cross-page table merging: умеет склеивать таблицы, которые разорваны между страницами.

🟢

Работа с заголовками: не теряет структуру параграфа при переходе на новый лист.

🟢

Новые языки: добавили поддержку тибетского и бенгальского, подтянули распознавание редких символов и древних текстов.

🟡

Деплой - на любой вкус

Модель работает с transformers, дружит с Flash Attention 2 и, само собой, поддерживается PaddlePaddle 3.2.1.

Если нужно быстро поднять сервис - есть готовый Docker-образ.

🟡

Пара важных моментов по использованию

Если нужен полноценный постраничный парсинг всего документа, лучше использовать официальный пакет PaddleOCR. Реализация через transformers пока ограничена только распознаванием отдельных элементов и споттингом.

В пайплайн встроили логику препроцессинга. Если картинка меньше 1500 пикселей, она автоматом апскейлится фильтром Lanczos. При этом есть потолок в 1.6 млн. пикселей для споттинга, это чтобы не перегружать память GPU и сохранить читаемость мелкого шрифта.

📌Лицензирование: Apache 2.0 License.

🟡

🟡

🟡

🟡

🖥

Github

@ai_machinelearning_big_data

#AI #ML #VL #OCR #PaddleOCR

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1🔥1

891 views10:14

Python вопросы с собеседований

🧠 Python-задача с собеседования: найди ошибку

Код должен посчитать количество чисел больше среднего значения в списке.


def count_above_avg(nums, avg=sum(nums)/len(nums)):
    count = 0
    for n in nums:
        if n > avg:
            count += 1
    return count

data1 = [1, 2, 3, 4, 5]
data2 = [10, 20, 30]

print(count_above_avg(data1))
print(count_above_avg(data2))

Проблема в этой строке:

```python
def count_above_avg(nums, avg=sum(nums)/len(nums)):
```
Здесь используется значение по умолчанию, которое вычисляется один раз — в момент определения функции, а не при каждом её вызове.

Что происходит по шагам:

Когда Python читает определение функции, он сразу считает:

sum(nums)/len(nums)
Но nums в этот момент - это первый переданный список, то есть data1.

Значение avg фиксируется и больше не меняется.

При вызове:

• count_above_avg(data2)
• среднее значение не пересчитывается, используется старое — от data1.

Поэтому логика ломается, функция работает с неверным средним.

📌 Это известная ловушка Python
Значения аргументов по умолчанию вычисляются один раз.
Это та же причина, почему списки и словари в дефолтных параметрах часто приводят к багам.

🛠 Правильное решение
Нужно вычислять среднее внутри функции, а не в параметрах:

```python
def count_above_avg(nums, avg=None):
if avg is None:
avg = sum(nums) / len(nums)
return sum(1 for n in nums if n > avg)
```

Теперь среднее будет считаться заново при каждом вызове.

💡 Главное правило
Никогда не используй вычисляемые или изменяемые объекты как значения по умолчанию:

❌ def f(x, lst=[])
❌ def f(x, avg=sum(x)/len(x))

✅ Используй None и считай внутри функции.

👍10❤6👎1🔥1

878 views11:41

About

Blog

Apps

Platform