Python Portal
52.3K subscribers
2.68K photos
438 videos
53 files
1.14K links
Всё самое интересное из мира Python

Сотрудничество, реклама: @devmangx

Менеджер: @Spiral_Yuri

РКН: https://clck.ru/3GMMF6
Download Telegram
👊👊👊

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
😁367🤣1
Наткнулся на open-source PDF-парсер, который конвертирует PDF в Markdown со скоростью до 100 страниц в секунду.

На CPU.

Без GPU, облака и API-ключей.

Что умеет:

• Таблицы
• Сложные макеты документов
• Вложенные структуры
• OCR для 80+ языков
• Интеграция с LangChain

Называется OpenDataLoader.

По бенчмаркам авторов сейчас занимает первое место среди PDF → Markdown решений.

Для контекста:

• Docling показывает хорошие результаты, но работает примерно в 15 раз медленнее
• Marker требует GPU и значительно медленнее
• PyMuPDF4LLM быстрый, но заметно хуже справляется с таблицами

Отдельно удивило, что проект делали вместе с PDF Association и командой veraPDF.

То есть не просто очередной AI-стартап с громкими заявлениями, а люди, которые много лет работают с самим PDF-форматом.

Если собираете RAG, индексируете документацию или регулярно разбираете PDF-файлы, выглядит как проект, на который стоит посмотреть.

https://github.com/opendataloader-project/opendataloader-pdf

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
👍114🔥1
14-дневный туториал, где ты с нуля собираешь на Python code-agent CLI в стиле Claude Code и параллельно разбираешь, как вообще работает Agent Harness.

В итоге ты не просто вызываешь готового агента через API, а понимаешь, из каких деталей собирается Claude Code-подобный инструмент.

https://github.com/bozhouDev/14days-build-claude-code-cli

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
10
This media is not supported in your browser
VIEW IN TELEGRAM
Пора что-то менять
15😁7👍3🔥1😢1
Перестаньте изучать LLM по случайным статьям и видео, которые объясняют только отдельные куски картины.

LLM from Scratch — это практический курс на PyTorch для тех, кто хочет понять весь путь современной LLM: от первого Transformer-блока до RLHF.

Вместо бесконечной теории здесь собирают полноценную цепочку обучения модели:
• Pretraining → Finetuning → Alignment в одном курсе
• Transformer с нуля: positional embeddings, self-attention, multi-head attention, MLP, residual connections, LayerNorm и полные Transformer-блоки
• Собственный training loop без Trainer-магии: токенизация, батчи, cross-entropy, validation loss, генерация текста
• Современные улучшения архитектуры: RMSNorm, RoPE, SwiGLU, KV Cache, sliding-window attention и streaming cache
• Полный раздел по alignment: SFT, reward models, PPO-style RLHF и GRPO с разбором того, как это выглядит в тренировочном цикле на практике

https://github.com/vivekkalyanarangan30/llm_from_scratch

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93
Кто-то взял Perplexity и сделал его локальным: https://github.com/ItzCrazyKns/Vane

Называется Vane.

35K+ звёзд на GitHub, MIT-лицензия, запускается у себя на машине и не требует подписки за $20/мес.

Что умеет:

• веб-поиск с источниками
• поиск по научным статьям и форумам
• вопросы по PDF-файлам
• Ollama, OpenAI, Claude и Gemini из коробки
• режимы Speed / Balanced / Quality

Самое интересное: всё может работать локально без отправки данных в облако.

По сути, open-source Perplexity для тех, кто хочет держать поиск, модели и документы под своим контролем.

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
8👀6
😊😊😊

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
72😁34🏆7🔥2
Как создать собственный контекстный менеджер в Python для открытия и закрытия соединения с базой данных SQLite

Метод __enter__() используется при открытии соединения, а метод __exit__() — при его закрытии:

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Наткнулся на один из самых отполированных File Tree компонентов, которые видел за последнее время

https://trees.software/

Называется Trees. Это open-source файловое дерево для приложений, которым нужен интерфейс уровня IDE, а не очередной список div-ов, замаскированный под проводник.

Из коробки:
→ поиск по файлам
→ drag-and-drop
→ выбор файлов и директорий
→ Git-статусы
→ нормальная навигация по дереву

Подходит для редакторов кода, девтулзов, файловых менеджеров и любых приложений, где пользователи работают с файлами.

Одна из тех библиотек, после которых резко пропадает желание писать собственный file explorer на выходных.

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
11🤣3🌭1
От школьной алгебры до линейной алгебры и математической базы для ML.

Что есть внутри:

𝗕𝗮𝘀𝗶𝗰𝘀

• Statistics — полный университетский курс по статистике и основам Data Science

𝗙𝗼𝗿 𝗔𝗜 / 𝗠𝗟

• Linear Algebra for Machine Learning and Generative AI

𝗠𝗮𝘁𝗵 𝗣𝗮𝘁𝗵

• College Algebra
• Precalculus
• Calculus I
• Linear Algebra
• College Algebra с примерами на Python

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍3😢1
Без лишних слов: https://github.com/rohitg00/ai-engineering-from-scratch

Phase 00: Setup & Tooling (12 lessons)
Phase 01: Math Foundations (22 lessons)
Phase 02: ML Fundamentals (18 lessons)
Phase 03: Deep Learning Core (13 lessons)
Phase 04: Computer Vision (28 lessons)
Phase 05: NLP (29 lessons)
Phase 06: Speech & Audio (17 lessons)
Phase 07: Transformers Deep Dive (14 lessons)
Phase 08: Generative AI (14 lessons)
Phase 09: Reinforcement Learning (12 lessons)
Phase 10: LLMs from Scratch (22 lessons)
Phase 11: LLM Engineering (15 lessons)
Phase 12: Multimodal AI (25 lessons)
Phase 13: Tools & Protocols (23 lessons)
Phase 14: Agent Engineering (42 lessons)
Phase 15: Autonomous Systems (22 lessons)
Phase 16: Multi-Agent & Swarms (25 lessons)
Phase 17: Infrastructure & Production (28 lessons)
Phase 18: Ethics, Safety & Alignment (30 lessons)
Phase 19: Capstone Projects (85 lessons)


👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12
Please open Telegram to view this post
VIEW IN TELEGRAM
😢38😁224
Google выложила исследование, которое может пошатнуть монополию трансформеров.
Последние 7 лет почти все крупные модели, от ChatGPT и Claude до Gemini, строились на одной и той же архитектуре: Transformer.

Проблема в том, что у трансформеров дорогая память. Чтобы учитывать контекст, они сравнивают каждый токен со всеми остальными. Из-за этого вычислительная стоимость растёт квадратично вместе с длиной контекста.
Альтернатива существует давно: RNN. Они быстрые, дешёвые и работают линейно, но страдают от другой проблемы.

Чем длиннее последовательность, тем больше информации они забывают.
Google предлагает компромисс.

В работе Memory Caching: RNNs with Growing Memory исследователи добавили RNN возможность сохранять промежуточные состояния в кэш по мере обработки последовательности.

Вместо фиксированной памяти модель получает память, которая может расти вместе с длиной контекста.
Авторы реализовали несколько вариантов механизма, включая выборочное сохранение состояний, где модель сама решает, какие участки контекста стоит запомнить.

На задачах с длинным контекстом и интенсивным использованием памяти такие Memory-Cached RNN заметно сократили разрыв с трансформерами.

При этом им не требуется платить квадратичную цену за обработку всей истории на каждом шаге.
Самая интересная мысль из статьи: возможно, для длинных диалогов и больших контекстов необязательно постоянно прогонять всю историю через attention.

Если подход масштабируется так же хорошо, как выглядит на бумаге, нас может ждать первая за долгое время серьёзная альтернатива Transformer-архитектуре.

https://arxiv.org/pdf/2602.24281

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
25👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Так работает алгоритм Дейкстры.

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
Наткнулся на Agentic Design Patterns — бесплатный документ на 421 страницу от старшего инженера Google.

Редко встретишь материалы такого объёма, где автор не пытается продать курс после каждой главы.

Внутри:

⬩ агентные архитектуры
⬩ multi-agent системы
⬩ memory и управление контекстом
⬩ оркестрация и планирование задач
⬩ инструменты, MCP и интеграции
⬩ production-кейсы и примеры кода

https://drive.google.com/file/d/1-5ho2aSZ-z0FcW8W_jMUoFSQ5hTKvJ43/view

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
14
This media is not supported in your browser
VIEW IN TELEGRAM
По слухам, OpenAI готовит что-то вроде единого приложения вокруг ChatGPT.

Если утечки окажутся правдой, в одном месте могут объединить:

• ChatGPT — для работы с текстом, исследованиями, планированием и повседневных задач

• Codex — для программирования, отладки, автоматизации и разработки приложений

• Atlas — браузер с агентными возможностями для работы с сайтами и веб-сервисами

• Computer Use — агентов, которые могут работать с полноценным рабочим столом и приложениями

Если посмотреть на это со стороны, то идея уже не выглядит как «ещё один чат-бот».

Скорее как попытка собрать всё в одном интерфейсе.

Вместо отдельных приложений для поиска, кода, браузера и автоматизации — одна точка входа, через которую можно искать информацию, писать код, работать с сайтами и запускать задачи.

Интересно будет посмотреть, насколько далеко OpenAI действительно пойдёт в этом направлении.

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
9
Please open Telegram to view this post
VIEW IN TELEGRAM
44🔥10👍3
Наткнулся на пост от автора Ruff (очень быстрого линтера и форматтера для Python)

Он пишет, что редко смотрит технические доклады, но "A Practical Guide to Applying Data-Oriented Design" от Andrew Kelley оказал на него большое влияние.

Причём впервые он посмотрел этот доклад примерно тогда, когда начинал работать над Ruff.
Иногда один хороший доклад даёт больше пользы, чем десятки часов случайных видео на YouTube. 😊

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
16
Эта статья заставила меня пересмотреть многие разговоры про «ИИ заменит программистов».

Похоже, мы смотрим не туда.

Большинство обсуждений крутится вокруг продуктивности. Агенты пишут код быстрее, разработчики делают больше задач, команды выпускают больше фич.

Меня зацепила другая мысль из статьи.

Вся современная разработка строится на том, что мы заранее кодируем решения. Бизнес-логика, правила, алгоритмы, state machine, if-else.

По сути, мы пытаемся заранее предсказать ситуацию и зашить своё решение в код.

У агентных систем другая модель работы.

LLM принимает решения во время выполнения задачи. Если нужен код, агент генерирует его на лету, запускает, получает результат и идёт дальше.

Код постепенно превращается в расходный материал, а не в главный артефакт системы.

Последние 50 лет центром любой системы был код.

Теперь всё чаще центром становится цикл рассуждений модели, а код оказывается одним из инструментов внутри этого цикла.

Если этот тренд продолжится, ценность инженера всё больше будет смещаться в сторону проектирования ограничений для агентов.

Проверки. Верификация. Бюджеты действий. Условия остановки. Границы доступа.

Именно эти вещи определяют, что агенту разрешено делать и насколько его решениям можно доверять.

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍94😁2🤣2🌭1
💬
Please open Telegram to view this post
VIEW IN TELEGRAM
😁119🤔32🌭1🤣1
38 лет в Computer Science считалось, что алгоритм Дейкстры уже близок к пределу для разреженных графов.

Логика выглядела убедительно:
• Дейкстра упорядочивает вершины по расстоянию
• для сортировки существует нижняя граница O(n log n)
• значит, задачу кратчайших путей нельзя решить существенно быстрее

Оказалось, что это предположение было ошибочным.
Группа из 5 исследователей объединила очередь с приоритетом из алгоритма Дейкстры с динамическим программированием из алгоритма Беллмана—Форда. Затем они применили подход «разделяй и властвуй» к множествам вершин и сократили размер фронта поиска. Результат: O(m log^(2/3) n)

Это первое улучшение для направленных графов со времён появления Fibonacci Heap в 1987 году.
Участники работы: Тsinghua, Stanford и Max Planck Institute.
Всего 17 страниц.

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
31🔥10👍6🌚3