Python/ django
59.7K subscribers
2.47K photos
189 videos
48 files
3.2K links
по всем вопросам @haarrp

@itchannels_telegram - 🔥 все ит каналы

@ai_machinelearning_big_data -ML

@ArtificialIntelligencedl -AI

@datascienceiot - 📚

@pythonlbooks

РКН: clck.ru/3FmxmM
Download Telegram
Как создать аннотированный график с помощью #Python и matplotlib 🐍📊
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍186🔥1🎉1
Один из главных мифов вокруг ИИ-кодинга: достаточно найти правильный промпт — и модель начнет писать хороший код

Но на практике два разработчика могут отправить одинаковый запрос: «создай API для пользователей» — и получить совершенно разный результат. Один получит аккуратный FastAPI-сервис с типами, тестами и обработкой ошибок. Другой — код, который придется переписывать после первого изменения.

Причина часто не в модели.

LLM (большие языковые модели) не знает, как устроен ваш проект: какие архитектурные решения приняты, какие стандарты действуют и что команда считает качественным результатом.

Поэтому стоит выстраивать вокруг ИИ тот же инженерный слой, который уже есть в обычной разработке: правила проекта, чек-листы, автоматические проверки и понятные критерии качества.

На бесплатном вебинаре karpovꓸcourses «ИИ-агенты и профессиональная разработка на Python» Алексей Жиряков покажет вживую, почему ИИ-код ломается в реальных проектах и как это исправлять.

Алексей — исполнительный директор в Сбере, занимается развитием генеративного ИИ, а до этого более 15 лет работал в backend-разработке и руководил инженерными командами.

Будет живое демо поверх готового репозитория: как настроить процесс, получить более чистый типизированный код и использовать продакшен-подход вроде связки «дешевая модель пишет — дорогая ревьюит», которая помогает снижать стоимость генерации.

Присоединяйтесь по ссылке, а после регистрации вы получите гайд «Почему ваш ИИ пишет не то: LLM против ИИ-агента»: https://clc.to/erid_2W5zFHK9mww

Реклама. ООО «КАРПОВ КУРСЫ». ИНН 7811764627. erid: 2W5zFHK9mww
😁42🎉2
📌 Mistral AI представила OCR 4.

Модель превращает документ в структуру:

• выделяет блоки через bounding boxes

• понимает типы элементов: заголовок, таблица, формула, подпись

• показывает confidence score по страницам и словам

• работает на 170 языках

Главная польза не в «распознать текст», а в том, чтобы дальше нормально использовать документы в RAG, enterprise search, редактировании, проверке человеком и агентных пайплайнах.

Mistral заявляет, что OCR 4 обошла конкурентов в слепом сравнении на 600+ реальных документах и набрала 85.20 на OlmOCRBench.

Модель можно запускать self-hosted в одном контейнере, чтобы документы не покидали вашу инфраструктуру.

Цена через API: $4 за 1000 страниц, через Batch API: $2 за 1000 страниц.


https://mistral.ai/news/ocr-4/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍4🔥3
Идёт регистрация на Робозон — хакатон по оптимизации складских процессов от Ozon Tech.

Призовой фонд: 15 000 000 рублей.

Три задачи на выбор, два месяца на решение, один реальный бизнес-процесс, в рамках которого и нужно думать.

Какие решения ждут:
— модель движения товаров в сортировочном центре;
— проект-конструкция автосортера;
— алгоритм классификации и обработки товаров с помощью CV.

Робозон — это возможность поработать с логикой и ограничениями высоконагруженной среды. Проверить свои навыки на процессах индустрии e-com. Обсудить решения с экспертами Ozon Tech.
5🔥3😁2👍1🎉1
🖥 10 GitHub-репозиториев для Парсинга

Сохрани, если работаешь с парсингом, RAG, LLM-пайплайнами или автоматизацией браузера.

Важно: использовать такие инструменты стоит только там, где у вас есть право собирать данные, с учётом ToS, robots.txt и лимитов сайта.

1. Firecrawl
Превращает сайт в чистый Markdown или JSON, удобный для LLM и RAG.

https://github.com/firecrawl/firecrawl

2. Crawl4AI
Краулер, который делает страницы LLM-ready без лишней настройки.

https://github.com/unclecode/crawl4ai

3. Browser Use
AI-агент, который управляет браузером: клики, формы, навигация, сбор данных через UI.

https://github.com/browser-use/browser-use

4. Crawlee
Production-фреймворк для краулинга: очереди, ретраи, браузерная автоматизация, хранение результатов.

https://github.com/apify/crawlee

5. Scrapy
Классика Python-скрейпинга. Подходит для больших краулеров и стабильных data pipelines.

https://github.com/scrapy/scrapy

6. MarkItDown
Инструмент Microsoft для конвертации PDF, Office, HTML и других форматов в Markdown.

https://github.com/microsoft/markitdown

7. Scrapling
Фреймворк для более устойчивого парсинга страниц, которые часто меняют структуру.

https://github.com/D4Vinci/Scrapling

8. scrcpy
Управление Android-устройством с компьютера. Полезно для тестирования и автоматизации mobile-only сценариев.

https://github.com/Genymobile/scrcpy

9. AutoScraper
Показываете пример нужных данных, а он сам пытается найти похожие элементы на странице.

https://github.com/alirezamika/autoscraper

10. curl-impersonate
Версия curl, которая имитирует сетевой профиль популярных браузеров. Полезно для тестов и совместимости.

https://github.com/lwthiker/curl-impersonate

Современный scraping давно перерос requests + BeautifulSoup.

Теперь это целая инфраструктура: браузерные агенты, Markdown для LLM, очереди, мобильная автоматизация и пайплайны для подготовки данных под AI.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥113🎉3👍2🤩1
В Python есть встроенный кэш, о котором многие забывают.

Если функция часто вызывается с одними и теми же аргументами, не всегда нужно руками писать словарь, Redis или отдельный слой кэширования.

Иногда хватает lru_cache из стандартного модуля functools.

Пример:


from functools import lru_cache

@lru_cache(maxsize=128)
def get_user(user_id):
print("Запрос к базе")
return {"id": user_id}


Первый вызов выполнит функцию.

Повторный вызов с тем же user_id вернёт результат из кэша.


get_user(1) # Запрос к базе
get_user(1) # уже из кэша


maxsize ограничивает размер кэша, а старые значения вытесняются по принципу LRU: least recently used.

Полезно для:

• тяжёлых вычислений

• запросов к API

• чтения редко меняющихся данных

• рекурсивных алгоритмов

Главное помнить: lru_cache хорошо работает, когда результат функции зависит только от её аргументов.
🎉6👍32