Библиотека для точного извлечения текста, таблиц и метаданных из PDF-документов с сохранением структуры и позиционирования элементов.
Детальный анализ PDF с возможностью вытаскивать таблицы как pandas DataFrame и визуализировать расположение текста на странице.
Установка библиотеки:
pip install pdfplumber
Пример использования:
import pdfplumber
with pdfplumber.open("file.pdf") as pdf:
first_page = pdf.pages[0]
table = first_page.extract_table()
print(table)
Поддержка сложных PDF с объединенными ячейками таблиц и точными координатами текста — в отличие от простых текстовых экстракторов.
✄┈┈┈┈┈┈┈┈┈┈┈┈┈
Заметки программиста
«(!?»Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2👀2
И вправду говорят: краткость — сестра таланта.
✄┈┈┈┈┈┈┈┈┈┈┈┈┈
Заметки программиста
«(!?»Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤3👀3🔥1
Практическое руководство по реализации современных языковых моделей (включая GPT) на чистом Python и PyTorch. Идеально для изучения архитектуры LLM без использования готовых библиотек.
Понять внутреннее устройство трансформеров и механизмов self-attention через построение моделей поэтапно — от токенизации до генерации текста.
Установка (клонирование репозитория):
git clone https://github.com/rasbt/LLMs-from-scratch.git
cd LLMs-from-scratch
pip install -r requirements.txt
Упрощенный пример для наглядности:
from src.model import GPT
# Создание экземпляра модели
model = GPT(vocab_size=10000, n_heads=8, n_layers=6)
# Обучение модели
model.train(text_data, epochs=10)
Полная прозрачность реализации — каждый компонент (positional encoding, multi-head attention) написан вручную с пояснениями в Jupyter-ноутбуках.
✄┈┈┈┈┈┈┈┈┈┈┈┈┈
Заметки программиста
«(!?»Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👀2
Библиотека для работы с системным хранилищем учетных данных (Keychain, KWallet, Secret Service). Позволяет безопасно хранить и получать пароли, используя механизмы защиты ОС.
Устраняет необходимость хранения паролей в конфигах или коде, используя защищенные системные хранилища.
Установка библиотеки:
pip install keyring
Пример использования:
import keyring
# Сохранение
keyring.set_password("my_app", "username", "secret123")
# Получение
password = keyring.get_password("my_app", "username")
Кроссплатформенная работа с нативными хранилищами (Windows Credential Locker, macOS Keychain, Linux Secret Service) без привязки к конкретной ОС.
✄┈┈┈┈┈┈┈┈┈┈┈┈┈
Заметки программиста
«(!?»Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2👀2
Автоматически создаёт чистую и современную документацию из docstring и аннотаций типов Python. Альтернатива Sphinx с фокусом на простоту и читаемость.
Превращает docstring и type hints в интерактивную документацию без сложных конфигов.
Установка библиотеки:
pip install pdoc
Пример использования:
# Генерация документации для модуля
pdoc ./my_module --output-dir ./docs
Поддержка type hints и математических формул в Markdown из коробки.
✄┈┈┈┈┈┈┈┈┈┈┈┈┈
Заметки программиста
«(!?»Please open Telegram to view this post
VIEW IN TELEGRAM
👍2👀2❤1😁1
x, data, temp — идеально! Пусть коллеги ломают голову, что делает этот код:
def f(a, b):
return sum(i for i in range(a * 2) if b else a - b
Чем больше действий в одном выражении — тем лучше:
result = [x if x % 2 else (y // 2 if y > 10 else None) for x, y in zip(data1, data2) if x or y]
Меняйте типы на ходу и управляйте состоянием отовсюду:
value = "42"
value = int(value) # Теперь число!
value = [value] * 3 # А теперь список!
Без комментариев и с опасными конструкциями:
if user.role == "XYZ_LEVEL_42":
eval(f"delete_user({user.id})") # Ничего не может пойти не так!
Отступы? Пробелы? Не, не слышали:
def foo():return 42
if True:print("Да")
else: print("Нет")
Никогда не удаляйте старый код. И вот этот шедевр с Stack Overflow тоже оставьте:
def calculate(x):
# Кто-то на форуме сказал, что это работает...
return (lambda y: y**2 + 1)(x) if x > 0 else 0
✄┈┈┈┈┈┈┈┈┈┈┈┈┈
Заметки программиста
«(!?»Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥3❤1
Популярный Python-инструмент для скачивания видео, аудио и изображений с 1000+ сайтов (YouTube, Twitter, Bilibili и др.). Работает напрямую через командную строку без API-ключей.
Установка библиотеки:
pip install you-get
Пример использования:
# Скачать видео/аудио по ссылке (автоопределение качества)
you-get https://www.youtube.com/watch?v=dQWgXcQ
# Показать доступные форматы без скачивания
you-get --info https://vimeo.com/1236789
# Скачать конкретный формат (по itag)
you-get --itag=137 https://youtu.be/VIDEO_ID # 4K
you-get --itag=140 https://youtu.be/VIDEO_ID # Аудио 128kbps
✄┈┈┈┈┈┈┈┈┈┈┈┈┈
Заметки программиста
«(!?»Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3👀2
def calculate_discount(price, discount_rate):
return price * (1 - discount_rate)
def process_data(items):
filtered = [item for item in items if item.is_valid()]
return sum(filtered)
MAX_RETRIES = 3 # Константа с понятным именем
def connect_to_api():
retries = 0 # Локальная переменная
def format_user_name(user):
"""Возвращает полное имя пользователя в формате 'Имя Фамилия'."""
return f"{user.first_name} {user.last_name}"
Если код не используется — смело удаляйте. Git сохранит историю при необходимости.
✄┈┈┈┈┈┈┈┈┈┈┈┈┈
Заметки программиста
«(!?»Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤2
Python Fire — это библиотека, предназначенная для автоматической генерации командных интерфейсов (CLI) из любого объекта на Python.
Установка библиотеки:
pip install fire
✄┈┈┈┈┈┈┈┈┈┈┈┈┈
Заметки программиста
«(!?»Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2👀2
This media is not supported in your browser
VIEW IN TELEGRAM
RealtimeSTT – это Python-библиотека для потокового распознавания речи с микрофона или аудиопотока. Идеально подходит для голосовых ассистентов, транскрипции и интерактивных приложений.
Мгновенная обработка аудиопотока с минимальной задержкой, поддержка нескольких движков распознавания, включая Whisper и Vosk.
Установка библиотеки:
pip install realtimestt
Пример использования:
from realtimestt import SpeechToText
stt = SpeechToText(engine="whisper")
for text in stt.stream_from_microphone():
print("Распознано:", text)
Гибкость интеграции с разными движками STT и минимальные задержки – ваш голос превращается в текст практически мгновенно.
✄┈┈┈┈┈┈┈┈┈┈┈┈┈
Заметки программиста
«(!?»Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🤯1
Есть такая штука — SEO. Это когда ты ведешь условно-бесплатный трафик из поисковиков на сайт, сервис или блог.
Причём она зачастую даёт лидов в 5-10 раз дешевле, чем по рекламе. А работать может годами, если один раз всё правильно настроить.
Но у 90% людей это вызывает панику, потому что вокруг сео много мутных типов и мифов. А нормальных сеошников можно буквально пересчитать по пальцам. И один из лучших в сфере — Антон Маркин.
Он уже 16 лет занимается SEO и публично продвигает сайты подписчиков, пошагово показывает все ошибки и делится только тем, что реально работает.
Антон даже полных новичков учит настраивать SEO так, что клиенты платят им за результат годами. А владельцы сайтов самостоятельно оптимизируют свои страницы и получают самый дешёвый целевой трафик.
В общем, если у вас свой сайт или вы начинающий сеошник и хотите быстро выйти на стабильные 100к в месяц — обязательно подпишитесь на Антона: @markin_seo
Причём она зачастую даёт лидов в 5-10 раз дешевле, чем по рекламе. А работать может годами, если один раз всё правильно настроить.
Но у 90% людей это вызывает панику, потому что вокруг сео много мутных типов и мифов. А нормальных сеошников можно буквально пересчитать по пальцам. И один из лучших в сфере — Антон Маркин.
Он уже 16 лет занимается SEO и публично продвигает сайты подписчиков, пошагово показывает все ошибки и делится только тем, что реально работает.
Антон даже полных новичков учит настраивать SEO так, что клиенты платят им за результат годами. А владельцы сайтов самостоятельно оптимизируют свои страницы и получают самый дешёвый целевой трафик.
В общем, если у вас свой сайт или вы начинающий сеошник и хотите быстро выйти на стабильные 100к в месяц — обязательно подпишитесь на Антона: @markin_seo
🔥4
Maigret – это OSINT-инструмент, который помогает находить аккаунты пользователей по нику на сотнях сайтов, соцсетей и форумов.
Автоматический сбор данных о профилях пользователя в интернете по заданному username.
Установка библиотеки:
pip install maigret
Пример использования:
maigret john_doe --site twitter github --timeout 10
Поддержка 700+ сайтов, гибкая настройка запросов и возможность сохранения результатов в удобном формате (JSON, HTML, CSV).
✄┈┈┈┈┈┈┈┈┈┈┈┈┈
Заметки программиста
«(!?»Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2
Это полезно, потому что сразу видно, откуда берется функция, и это помогает избежать конфликтов имен.
Кроме того, становится менее понятно, откуда взята функция.
✄┈┈┈┈┈┈┈┈┈┈┈┈┈
Заметки программиста
«(!?»Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
MarkItDown – это инструмент, который позволяет преобразовывать различные файлы, такие как PowerPoint, PDF, Word, Excel и другие, в формат Markdown.
Поддерживаемые форматы:🟢 PDF (.pdf)🟢 PowerPoint (.pptx)🟢 Word (.docx)🟢 Excel (.xlsx)🟢 Изображения (метаданные EXIF и технологии распознавания текста, OCR)🟢 Аудиофайлы (метаданные EXIF и транскрипция речи)🟢 HTML (включая специальную обработку для Википедии)🟢 Другие текстовые форматы (csv, json, xml и др.)
Установка библиотеки:
pip install markitdown
✄┈┈┈┈┈┈┈┈┈┈┈┈┈
Заметки программиста
«(!?»Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1