Python/ django
62.4K subscribers
2.37K photos
170 videos
48 files
3.1K links
по всем вопросам @haarrp

@itchannels_telegram - 🔥 все ит каналы

@ai_machinelearning_big_data -ML

@ArtificialIntelligencedl -AI

@datascienceiot - 📚

@pythonlbooks

РКН: clck.ru/3FmxmM
Download Telegram
Forwarded from Machinelearning
🐋 DeepSeek выпустили DeepSeek-OCR 2 - новое поколение OCR с SOTA качеством

DeepSeek представили DeepSeek-OCR 2 - 3B модель для продвинутого понимания изображений, документов и OCR, которая выходит на уровень SOTA.

Ключевая новинка - DeepEncoder V2.

В отличие от классических vision LLM, которые «читают» картинку как сетку (слева-направо, сверху-вниз), DeepEncoder V2 работает ближе к тому, как читает человек:

- Сначала формируется глобальное понимание изображения
- Затем модель определяет логический порядок чтения — что важно первым, что дальше

Что это даёт на практике

📄 Лучше работает со сложными макетами документов
📊 Корректно читает таблицы
🧾 Связывает подписи и значения
📰 Понимает колонки и структурированный текст
🔀 Надёжнее обрабатывает смесь текста и визуальной структуры

По качеству

- Обходит Gemini 3 Pro на ряде бенчмарков
- Даёт >4% прироста по сравнению с прошлой версией DeepSeek-OCR

И это при размере модели всего 3B параметров.

Можно запускать и дообучать

Теперь DeepSeek-OCR 2 можно удобно запускать и fine-tune через Unsloth по готовому гайду.

🔗 Guide: https://unsloth.ai/docs/models/deepseek-ocr-2
🔗 Model: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

@ai_machinelearning_big_data

#DeepSeek #ocr #opensource
16👍6🔥5
🎨 Генерация изображений с GLM-Image

GLM-Image — это мощная модель генерации изображений, использующая гибридную архитектуру автогрессивного и диффузионного декодера. Она превосходно справляется с задачами текстового рендеринга и генерации сложной информации, обеспечивая высокое качество изображений и детальную проработку.

🚀 Основные моменты:
- Поддержка генерации изображений из текста и редактирования изображений.
- Высокая точность рендеринга текста и семантического понимания.
- Модуль обратной связи для улучшения эстетики и детализации.
- Подходит для задач с высокой информационной плотностью.

📌 GitHub: https://github.com/zai-org/GLM-Image
9👍4🔥3
🖥 Большинство “парсеров” умирают через 2 дня.
Ты научишься делать те, которые живут в проде.

Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:

• не падают от мелких правок на сайте
• собирают данные в разы быстрее
• обновляют всё сами по расписанию
• обходят ограничения и баны
• выглядят как сервис, а не хаос из файлов

Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться.

В итоге ты сможешь:

• забирать данные для своих проектов
• автоматизировать чужую рутину
• делать инструменты для аналитики
• брать коммерческие заказы на сбор данных

Это навык, который напрямую превращается в деньги.
Не “знаю Python”, а умею добывать данные из интернета профессионально.

🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA показала новый разговорный ИИ - PersonaPlex

Суть фичи в том, что модель старается звучать максимально “живым” собеседником, а не просто отвечать по очереди.

Что умеет PersonaPlex:
· Переключать стиль общения (persona) - например строгий учитель, дружелюбный консультант, бармен и т.д.
· Говорить и слушать одновременно - меньше задержек и пауз в диалоге
· Поддакивать на фоне (“угу”, “ок”, “понятно”), пока человек говорит - чтобы разговор был ближе к реальному
· Проект открыт - исходники доступны, можно брать и пробовать самому

GitHub
Hugging Face
👍2111🔥7😁5
Теперь даже HRы на питоне пишут!
😁15314🔥12🤩5😱3👍1
Знания кода недостаточно: как сохранить и поднять свою ценность в IT

О волне сокращений заговорили ещё в прошлом году: IBM, Microsoft, Amazon и другие гиганты стали постепенно заменять сотрудников нейросетями. Сейчас можем оценить первые результаты - по данным консалтинговой компании Challenger, Gray & Christmas, ИИ стал причиной почти 55 000 увольнений в США в 2025 году.

И это касается не только сотрудников поддержки: компании всё чаще делегируют нейросетям простой код. Сейчас до 30% внутренней разработки в Microsoft и Google лежит на ИИ, а та же Claude уже превосходит программистов в техсобесах.

Пока ИИ берёт на себя рутину, ценность человека смещается в сторону интерпретации, приоритизации и влияния на решения - того, что по-прежнему нельзя автоматизировать полностью. 

А это значит, что сейчас самое время дополнять стек не новыми языками программирования, а умением связывать технологии с потребностями бизнеса.

Если хотите выделиться на рынке и не пасть жертвой ИИ-сокращений, усильте свои компетенции на курсе "Аналитик данных" от Академии Eduson.

Что внутри:
- 419 коротких уроков по всему необходимому: от Excel, SQL, BI до презентации результатов.
- Модуль по профильным нейросетям для аналитики.
- 10+ практических кейсов для портфолио.
- Онлайн-формат без дедлайнов и бессрочный доступ к обновлениям.
- Личный куратор на 365 дней.
- Лекции от экспертов-практиков из "Яндекса", Datalatte, Softline, "Работа.ру".
- Диплом о профпереподготовке и гарантия содействия трудоустройству: если не найдёте работу - вернут деньги, это прописано в договоре.

Курс также подойдёт самоучкам, которые хотят систематизировать знания основ Python и войти в IT с востребованной специализацией.

Оставить заявку можно здесь. По промокоду PYTHON получите скидку 55% и второй курс на выбор в подарок: сможете прокачать ещё больше навыков или порадовать кого-то из близких.

Реклама. ООО "Эдюсон", ИНН 7729779476, 2W5zFFvJXcc
😁147
🔍 PaddleOCR-VL-1.5 внезапно ворвался в топ open-source OCR - и при этом модель всего на 0.9B параметров.

Фактически это сейчас один из самых сильных открытых инструментов для распознавания текста и понимания документов - при очень скромном размере по меркам современных AI-моделей.

Ирония в тайминге:

• Сначала вышел Kimi 2.5
• Потом DeepSeekOCR-2
• И буквально следом - PaddleOCR-VL-1.5

Неделя просто взрывная для направления AI, которое занимается документами: сканы, PDF, таблицы, формы, смешанный текст и структура.

Что особенно интересно - это не просто классический OCR "картинка → текст", а визуально-языковая модель. То есть она лучше понимает структуру документа: блоки, таблицы, взаимосвязи между элементами, а не только символы.

Для разработчиков это означает более точный парсинг документов, автоматизацию работы с формами, счетами, договорами, отчетами и любыми полу-структурированными файлами - и все это на базе полностью открытой модели.

Порог входа в продвинутую document AI снова стал ниже.

huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5

@pythonl
👍188🔥5😁1
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Python ищет дубликаты файлов

Когда папка разрастается, дубликаты начинают тихо съедать место - особенно если ты сохраняешь одно и то же под разными именами.

Быстрый способ на Python - посчитать хеш каждого файла и собрать группы с одинаковым хешем. Так ты сразу увидишь, какие файлы реально одинаковые по содержимому, а не только по названию.


import os, hashlib

m = {}
for n in os.listdir("."):
if os.path.isfile(n):
with open(n, "rb") as f:
h = hashlib.md5(f.read()).hexdigest()
m.setdefault(h, []).append(n)

for v in m.values():
if len(v) > 1:
print("DUP:", v)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥109😱1
🚀 RenderCV: Open-Source AI для создания CV/резюме на лету

RenderCV - это GitHub-проект, который автоматизирует генерацию профессионального резюме с помощью AI. Он берет базовые данные (например, профиль, опыт, навыки) и формирует красиво отформатированный CV с умным распределением разделов, прицелом на ATS-системы (системы автоматического трекинга резюме) и внимание к деталям.

🔍 Основные фишки
- 💡 AI-генерация контента - на основе вводимых данных автоматически создаются описания опыта, навыков и достижений
- 📄 Готовые шаблоны — вывод резюме в структурированном виде, готовом для печати или публикации
- ⚙️ Настраиваемость — легко адаптировать под свой стиль, менять поля и формат
- 🤖 Поддержка AI-логики для переработки сухих фактов в интересные, читабельные формулировки

Простой рабочий цикл:
1) Вводишь базовые данные (имя, опыт, навыки)
2) AI дописывает грамотные описания
3) Получаешь готовое резюме без лишних усилий

💡 Это особенно полезно начинающим специалистам, карьерным переходам или тем, кто не любит вручную вырезать и править резюме перед каждой подачей.

🛠 Пример использования (в духе проектов этого класса):


# Клонируем репозиторий
git clone https://github.com/rendercv/rendercv.git

# Переходим в папку
cd rendercv

# Устанавливаем зависимости и запускаем
# (инструкции могут отличаться в зависимости от реализации)
npm install
npm start



https://github.com/rendercv/rendercv
6👍5🔥2🤩1
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 PYTHON МАТЕМАТИКА КАК У ПРОФИ

Ппрофессиональный подход к математике в Python строится не вокруг «посчитать формулу», а вокруг правильного стека инструментов и воспроизводимости. Всегда разделяй символьную математику, численные методы и работу с данными.

Для аналитики и вывода формул используй SymPy, для быстрых численных расчётов - NumPy, для научных алгоритмов - SciPy, для больших таблиц экспериментов - Pandas.

Никогда не смешивай «магические числа» в коде - все параметры выноси в переменные. Работай в Jupyter или VS Code с ноутбуками, фиксируй версии библиотек и обязательно проверяй устойчивость решений через разные методы (например, интеграл численно и аналитически). Так код становится не просто расчётом, а научным инструментом.


import numpy as np
import sympy as sp
from scipy import integrate

# 1. Символьная математика
x = sp.symbols('x')
expr = sp.sin(x) / x
analytic_integral = sp.integrate(expr, (x, 1, 10))

# 2. Численная математика
f = lambda x: np.sin(x) / x
numeric_integral, error = integrate.quad(f, 1, 10)

# 3. Векторизация вместо циклов
arr = np.linspace(1, 10, 1_000_000)
fast_result = np.sin(arr) / arr

print("Analytic:", analytic_integral)
print("Numeric:", numeric_integral, "Error:", error)


@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
16🔥8👍6
⚡️ Хотите собрать своего личного JARVIS, но Clawdbot кажется слишком сложным для развёртывания и понимания?

Попробуйте - nanobot: ультралёгкая версия Clawdbot (на 99% проще), которая поднимает персонального AI-ассистента меньше чем за минуту.

⚡️ Базовый функционал всего в ~4 000 строк Python - против 400k+ строк у Clawdbot.

Ключевые особенности nanobot:

🪶 Ультралёгкий — ~4 000 строк кода, только ядро без перегруза.
🔬 Удобен для исследований — чистый, понятный код, легко менять и расширять.
⚡️ Быстрый — минимальный размер = быстрый старт, меньше ресурсов, быстрые итерации.
💎 Простой в использовании — один запуск, и ассистент уже работает.

Что умеет nanobot:

📈 24/7 анализ рынка в реальном времени — мониторинг и инсайты.
🚀 Full-stack софт-инженер — помощь в разработке от идеи до продакшена.
📅 Умный менеджер рутины — помогает организовать день и задачи.
📚 Персональный ассистент по знаниям — хранение, поиск и работа с информацией.

Если хочется своего AI-агента без монструозной инфраструктуры — это именно тот старт, который нужен.

🔗 Open Source: https://github.com/HKUDS/nanobot
🔗Video: https://www.youtube.com/shorts/Wx2RBCnl5nU

#Clawdbot #AIAssistant #Agents

@pythonl
10👍7🔥5😁1
Команды Яндекса ищут продуктовых и data-аналитиков, а также data scientists с опытом на Python от 3 лет.

Участвуйте в Weekend Offer, чтобы всего за 2 дня пройти все собеседования и получить офер.

Как участвовать?
Зарегистрироваться на сайте до 25 февраля.
Пройти две технические секции 28 февраля.
Познакомиться с командами и получить офер 1 марта.

Мы опираемся на научные исследования и аналитические данные, а потом превращаем их в реальные продукты для миллионов пользователей. Присоединяйтесь, чтобы строить полезные сервисы вокруг ИИ-технологий, находить новые решения и делать то, что другим не по силам.

Подробности и регистрация — по ссылке: https://yandex.ru/project/events/wo-analytics-0226
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍7🔥4😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 С этим проектом, вы можете клонировать голоса, которые звучат по-настоящему живо.

Без робо-голоса. Без “синтетики”.
Полноценная, естественная человеческая речь.

Речь о модели на 1.7B параметров, заточенной под чистую и выразительную генерацию голоса.

Это уже не просто TTS.
Это высокоточное клонирование голоса с передачей интонаций, ритма и естественного звучания.

Разница между “голосом ИИ” и “голосом человека” стремительно исчезает.

Если ты работаешь с аудио, AI-ассистентами, агентами или медиа-инструментами - это серьёзно расширяет возможности.

Модель: https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice
12🔥7👍6
🌟 Для тех, кто еще не использует ИИ в разработке.

Выдели 1 час и прокачай самый важный навык 2026 года - работу с LLM.

Большинство устали сейчас не от кода.

А от того, что мы пытаемся использовать ИИ “на ходу”, без понимания его возможности.

Это такой же навык, как и другие. Его нужно тренировать.

Вот простой старт:

Подготовка

1. Подключи Anthropic Pro ($20) с прицелом позже перейти на 5× Max
2. Установи Claude Code
3. Используй модель Opus 4.5 (она стоит по умолчанию)

Рабочий цикл

1. Включи режим планирования
2. Попроси модель спланировать одну маленькую фичу
3. Когда план тебя устраивает - включай авто-принятие правок
4. Если видишь, что модель “уезжает не туда” - сразу ставь на паузу
5. Очищай контекст и переходи к следующей фиче

И так по кругу.

Задача не в том, чтобы получить идеальный код.
Задача - нащупать границы модели:

- что она делает быстро и качественно
- где начинает придумывать
- какие задачи ей давать выгодно
- где проще и безопаснее сделать самому

Через 10-20 часов такой осознанной практики ИИ перестаёт быть “магией” и становится нормальным рабочим инструментом, который реально снимает нагрузку.

@pythonl
14👍6🔥5😁2😢2
Media is too big
VIEW IN TELEGRAM
🚀 Вышла интересная open-source модель - MiniCPM-o 4.5

MiniCPM-o 4.5 позиционируется как full-duplex omni-modal LLM.
Проще говоря, модель может:

- одновременно видеть (видео/изображение)
- слушать (аудио)
- говорить

и делать это в реальном времени, без режима "подожди, я сначала дослушаю". Больше похоже на живой диалог, чем на поочередные запросы.

Не только отвечает, но и проявляет инициативу

Заявлена поддержка проактивного поведения - модель может не просто реагировать на вопросы, а, например, сама инициировать напоминания или действия в рамках диалога.

По метрикам

С 9B параметрами модель показывает 77.6 на OpenCompass и, по авторам, обходит GPT-4o и Gemini 2.0 Pro в ряде vision-language задач. Для такого размера это сильный результат.

Практический момент

Главный плюс - это open-source, и всё можно крутить локально на ПК, а не только через облачные API.

https://huggingface.co/openbmb/MiniCPM-o-4_5

@pythonl
🔥169👍4
🖥 Вы неправильно считываете JSON в Python.

Большинство делает так - и теряет скорость, память и контроль над данными.

Ошибка №1 - читать огромный JSON целиком
json.load() загружает ВСЁ в память. На больших файлах ты сам создаёшь себе OOM.

Ошибка №2 - не валидировать структуру
Ты думаешь, что поле есть. Прод думает иначе.

Ошибка №3 - парсить стандартным json там, где нужна скорость
Стандартный модуль медленный для high-load задач.

Как правильно:

- Большие файлы → читать потоково (ijson / построчно)
- Критичная скорость → использовать orjson
- Важные данные → сразу проверять ключи и типы
- API → оборачивать в try/except, а не надеяться

Продакшн-код работает не потому что “JSON простой”,
а потому что ты контролируешь объём, структуру и ошибки.
Please open Telegram to view this post
VIEW IN TELEGRAM
18👍14🤩4😱2
This media is not supported in your browser
VIEW IN TELEGRAM
🕘 Таймер продуктивности на Python с использованием threading

Используйте библиотеку threading для создания простого таймера продуктивности, который поможет вам сосредоточиться на работе в течение заданного времени с последующим перерывом. Это поможет избежать выгорания и повысит продуктивность.


import threading
import time
def timer(duration, break_duration):
print(f"Начинаем работу на {duration} минут.")
time.sleep(duration * 60) # Длительность работы в секундах
print("Время на перерыв!")
time.sleep(break_duration * 60) # Длительность перерыва в секундах
print("Перерыв закончен, продолжайте работу!")
# Задайте длительность работы и перерыва
work_duration = 25 # в минутах
break_duration = 5 # в минутах
# Запускаем таймер
threading.Thread(target=timer, args=(work_duration, break_duration)).start()
17👍7😢4😱1🤩1