multi-ocr-sdk:支持多种ocr引擎的pip包
项目介绍
● 开源地址 GitHub - B-Beginner/MULTI-OCR-SDK: A simple and efficient Python SDK for DeepSeek-OCR API
MULTI-OCR-SDK 是一个简单高效的 Python SDK,用于调用各类OCR API(现已支持deepseek-OCR、视觉模型VLM),可以高精度、高性能地将文档(PDF、图片)转换为 Markdown 文本。
使用
安装
VLM的基础用法
deepseek-ocr的基础用法
背景故事
前一段时间deepseek发布了ocr模型,尝试了一下,非常好使
后来发现github上有人开发了deepseek-ocr-sdk,调用起来很方便,在此基础上提了一些需求,和原作者一起改吧改吧,加了些新功能
使用过程中发现硅基流动免费的ds-ocr很容易触发限制,而我又不打算氪金升级,如果换到其他第三方效果不太行(试了几个L站的第三方,体验不佳),于是想着能不能支持一些其他的ocr模型,比如qwen-ocr?
经过一番折腾,最终在原本的deepseek-ocr-sdk基础上进行了代码重构,现在支持了VLM,经过实测qwen3-vl-8b就能有很棒的效果
接下来会支持更多常用的ocr引擎,欢迎大家捉bug,提pr❤️
----------------------
本文永久保存链接: https://forum.beginner.center/t/topic/2505
3 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: fliper)
项目介绍
● 开源地址 GitHub - B-Beginner/MULTI-OCR-SDK: A simple and efficient Python SDK for DeepSeek-OCR API
MULTI-OCR-SDK 是一个简单高效的 Python SDK,用于调用各类OCR API(现已支持deepseek-OCR、视觉模型VLM),可以高精度、高性能地将文档(PDF、图片)转换为 Markdown 文本。
使用
安装
# 通过pip安装
pip install multi-ocr-sdk
# 或者通过uv安装
uv add multi-ocr-sdk
VLM的基础用法
import os
from multi_ocr_sdk import VLMClient
API_KEY = "your_api_key_here"
BASE_URL = "http://your_url/v1/chat/completions"
file_path = "./examples/example_files/DeepSeek_OCR_paper_mini.pdf"
client = VLMClient(api_key=API_KEY, base_url=BASE_URL)
result = client.parse(
file_path=file_path,
prompt="你是一个ocr机器人,识别输入的文件内容,输出为markdown格式,尽可能保留图表等格式信息,你不需要评论概括文件内容,只需要输出就行",
model="Qwen3-VL-8B",
# timeout=100, # 可选参数,默认60s,如果文件很大,VLM需要处理很久,timeout需要设置长一些
# dpi=60 # 可选参数,默认72,DPI越低,图片越糊,消耗的输入token越少,识别效果越差,自行调整至合适比例
# pages=[1,2] # 可选参数,如果是处理单张图片或者单页pdf不需要这个参数,如果是处理多页pdf默认处理所有页,可以通过这个参数处理指定页
)
print(result)
deepseek-ocr的基础用法
from multi_ocr_sdk import DeepSeekOCR
client = DeepSeekOCR(
api_key="your_api_key",
base_url="https://api.siliconflow.cn/v1/chat/completions" # 或您的提供商端点
)
# 简单文档
text = client.parse("invoice.pdf", mode="free_ocr")
# 复杂表格
text = client.parse("statement.pdf", mode="grounding")
# 自定义 DPI
text = client.parse("document.pdf", dpi=300)
背景故事
前一段时间deepseek发布了ocr模型,尝试了一下,非常好使
后来发现github上有人开发了deepseek-ocr-sdk,调用起来很方便,在此基础上提了一些需求,和原作者一起改吧改吧,加了些新功能
使用过程中发现硅基流动免费的ds-ocr很容易触发限制,而我又不打算氪金升级,如果换到其他第三方效果不太行(试了几个L站的第三方,体验不佳),于是想着能不能支持一些其他的ocr模型,比如qwen-ocr?
经过一番折腾,最终在原本的deepseek-ocr-sdk基础上进行了代码重构,现在支持了VLM,经过实测qwen3-vl-8b就能有很棒的效果
接下来会支持更多常用的ocr引擎,欢迎大家捉bug,提pr❤️
----------------------
本文永久保存链接: https://forum.beginner.center/t/topic/2505
3 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: fliper)
我尼玛 Claude
吐了,我似乎掌握了必封号方法,现在美国时间是凌晨,这次肯定不是人工
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: mofas)
Invalid media: image
吐了,我似乎掌握了必封号方法,现在美国时间是凌晨,这次肯定不是人工
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: mofas)
Invalid media: image
cloudflare一片绿??
这又是什么情况?
4 posts - 4 participants
Read full topic
via LINUX DO - 最新话题 (author: lysk797)
Invalid media: image
这又是什么情况?
4 posts - 4 participants
Read full topic
via LINUX DO - 最新话题 (author: lysk797)
Invalid media: image
求问cursor和augment的200刀套餐哪个更耐用一些?
augment 效果好一些,但是感觉 200 刀高强度使用不太够,cursor + ace mcp 也不错,但是不太清楚 200 刀套餐会不会更耐用一些
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: amojury)
augment 效果好一些,但是感觉 200 刀高强度使用不太够,cursor + ace mcp 也不错,但是不太清楚 200 刀套餐会不会更耐用一些
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: amojury)
能把claude code 转到 windsurf cursor用吗,cli用着难受
有现成的吗,转换工具?
7 posts - 5 participants
Read full topic
via LINUX DO - 最新话题 (author: justindoit)
有现成的吗,转换工具?
7 posts - 5 participants
Read full topic
via LINUX DO - 最新话题 (author: justindoit)
肯德基和麦当劳的年卡推荐买哪个?好像麦当劳的要贵10块钱,但是好像大家都说麦当劳好吃?我感觉差别不大,两家的薯条都好好吃,蹭朋友的肯德基大神卡买的多,30多块钱块钱的套餐免配送费挺不错的。蹭的太多有点不好意思🌚,想自己买一个,想了解一下麦当劳的怎么样?你们觉得这两家哪些菜品比较好吃?
8 posts - 7 participants
Read full topic
via LINUX DO - 最新话题 (author: 木瓜蛋白酶Tea🎋)
8 posts - 7 participants
Read full topic
via LINUX DO - 最新话题 (author: 木瓜蛋白酶Tea🎋)
喵喵注谷歌册站将会长期经营下去
由于违反社区规则,占用公共资源,喵喵认识到自己错误,并且自罚继续研究谷歌强制绑定手机登录法,感谢对喵喵的批评。
8 posts - 7 participants
Read full topic
via LINUX DO - 最新话题 (author: 忆冰Yibing)
由于违反社区规则,占用公共资源,喵喵认识到自己错误,并且自罚继续研究谷歌强制绑定手机登录法,感谢对喵喵的批评。
8 posts - 7 participants
Read full topic
via LINUX DO - 最新话题 (author: 忆冰Yibing)
推一个X上挺火的项目“人生K线”
仅供娱乐,AI算命不违规吧?感觉挺有趣的,没有aff,有兴趣的去玩玩
0xSakura樱花🌸 (@0xsakura666) / X
4 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: GPT-5)
仅供娱乐,AI算命不违规吧?感觉挺有趣的,没有aff,有兴趣的去玩玩
0xSakura樱花🌸 (@0xsakura666) / X
4 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: GPT-5)
一个没啥用的公益api
https://www.dpapi.top/v1
sk-WBl1hk1i6EouPQRvtI0nSva3UsfzDzYzI1lUrc2Zfz5KFC3A
moonshotai/kimi-k2:free
tngtech/tng-r1t-chimera:free
z-ai/glm-4.5-air:free
8 posts - 5 participants
Read full topic
via LINUX DO - 最新话题 (author: fengsanle)
https://www.dpapi.top/v1
sk-WBl1hk1i6EouPQRvtI0nSva3UsfzDzYzI1lUrc2Zfz5KFC3A
moonshotai/kimi-k2:free
tngtech/tng-r1t-chimera:free
z-ai/glm-4.5-air:free
8 posts - 5 participants
Read full topic
via LINUX DO - 最新话题 (author: fengsanle)
莫非是我经受了前五个女人的考验变得聪慧了
7.3H了
这就打过第六章了? 才打了两三次
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 𝓵𝓮𝔃𝓲𝓼𝓱𝓮𝓷)
Invalid media:
image
image
7.3H了
这就打过第六章了? 才打了两三次
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 𝓵𝓮𝔃𝓲𝓼𝓱𝓮𝓷)
Invalid media:
image
image
crmeb的多商户商城JAVA版本
crmeb.com
高品质开源商城系统-CRMEB官网
CRMEB开源商城系统,围绕新零售、品牌连锁、商家入驻等多种商业模式,自主研发B2C商城系统、B2B2C多商户商城系统、连锁多门店商城系统、跨境电商系统等;应用于直播电商、社交新零售、商家入驻等多种应用场景,系统支持多语言、多端登录,代码开源、独立部署、永久免费升级。咨询:400-8888-794
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 小白菜)
Invalid media: image
crmeb.com
高品质开源商城系统-CRMEB官网
CRMEB开源商城系统,围绕新零售、品牌连锁、商家入驻等多种商业模式,自主研发B2C商城系统、B2B2C多商户商城系统、连锁多门店商城系统、跨境电商系统等;应用于直播电商、社交新零售、商家入驻等多种应用场景,系统支持多语言、多端登录,代码开源、独立部署、永久免费升级。咨询:400-8888-794
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 小白菜)
Invalid media: image
好容易兴奋一次,却一盆凉水 | FireDBG
firedbg.sea-ql.org
FireDBG - 🔥 Time Travel Visual Debugger for Rust
🔥 Time Travel Visual Debugger for Rust
看起来很炫酷,但是很久没更新了,vscode还有配套拓展……)但得配套
……rust课设)没得选 :distorted_face:
4 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: stevessr)
Invalid media: image
firedbg.sea-ql.org
FireDBG - 🔥 Time Travel Visual Debugger for Rust
🔥 Time Travel Visual Debugger for Rust
看起来很炫酷,但是很久没更新了,vscode还有配套拓展……)但得配套
……rust课设)没得选 :distorted_face:
4 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: stevessr)
Invalid media: image
你们的Codex在工作的时候会突然卡住么?
就比如这样,突然就一动不动了。
然后这种Prompting的工作状态栏也会消失不见:
ESC也没反应,要切换模型也切换不了,会提示正在工作中,不能切换模型。
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: b1ghawk119)
Invalid media:
image
image
image
就比如这样,突然就一动不动了。
然后这种Prompting的工作状态栏也会消失不见:
ESC也没反应,要切换模型也切换不了,会提示正在工作中,不能切换模型。
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: b1ghawk119)
Invalid media:
image
image
image
阿里cosyvoice3开源
Fun-CosyVoice3-0.5B-2512 · 模型库
之前上架阿里云很久了一直没开源,今天发现他在昨天12.15开源了
可能迫于智谱ASR的压力
预览音频官方链接: CosyVoice3.0
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: xy3)
Fun-CosyVoice3-0.5B-2512 · 模型库
之前上架阿里云很久了一直没开源,今天发现他在昨天12.15开源了
可能迫于智谱ASR的压力
预览音频官方链接: CosyVoice3.0
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: xy3)
马上就有新的claude国内订阅方式了
claude现在开通了礼物赠送功能,直接购买订阅发送给某个账户.
可以选择x5 x20 一个月或者1年
https://claude.ai/gift
4 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: Obsidian)
Invalid media: image
claude现在开通了礼物赠送功能,直接购买订阅发送给某个账户.
可以选择x5 x20 一个月或者1年
https://claude.ai/gift
4 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: Obsidian)
Invalid media: image
如何把自己的gemini pro分享给别人?
楼主领了gemini的一年学生会员,想让有个朋友也用用。但是不想把账号直接给他,佬友们知道有什么方法可以共享gemini会员吗?
7 posts - 5 participants
Read full topic
via LINUX DO - 最新话题 (author: touchsky)
楼主领了gemini的一年学生会员,想让有个朋友也用用。但是不想把账号直接给他,佬友们知道有什么方法可以共享gemini会员吗?
7 posts - 5 participants
Read full topic
via LINUX DO - 最新话题 (author: touchsky)
如题
会议软件Zoom也出了AI助手了
主要功能就是会议重点整理这类的
不过免费用户只有三次额度
看来是不够大方
TechCrunch – 15 Dec 25
Zoom brings its AI assistant to the web with access to free users | TechCrunch
Zoom is allowing free users to try its AI assistant in limited capacity.
Est. reading time: 3 minutes
3 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: Josen)
Invalid media:
image
image
image
会议软件Zoom也出了AI助手了
主要功能就是会议重点整理这类的
不过免费用户只有三次额度
看来是不够大方
TechCrunch – 15 Dec 25
Zoom brings its AI assistant to the web with access to free users | TechCrunch
Zoom is allowing free users to try its AI assistant in limited capacity.
Est. reading time: 3 minutes
3 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: Josen)
Invalid media:
image
image
image
各位博爱的佬友们,你们今天点赞了吗!
这两天看到贴子说每天点赞50个,可以领取徽章。
本来想着50个很多,谁知道一点就上瘾了,看各位佬友这么有趣的回复,根本停不下来啊 🤣
现在每天的上限是多少呢?能不能建议放开一下限制,让我点 😎
5 posts - 5 participants
Read full topic
via LINUX DO - 最新话题 (author: 佬友鬼鬼)
Invalid media: image
这两天看到贴子说每天点赞50个,可以领取徽章。
本来想着50个很多,谁知道一点就上瘾了,看各位佬友这么有趣的回复,根本停不下来啊 🤣
现在每天的上限是多少呢?能不能建议放开一下限制,让我点 😎
5 posts - 5 participants
Read full topic
via LINUX DO - 最新话题 (author: 佬友鬼鬼)
Invalid media: image
我该怎么纠正自己
我从高中开始,就老是有拖延症,总觉得之前没有学习,后面补上就好了,总是认为自己学习能力强,但偏偏就是不会自己主动去学习,总搞些别的,天天动不动看手机,一直拖延拖延,拖到考试前,都不怎么学多少的,我感觉我已经把自己给毁了,每次的机会都把握不住,专升本天天在家玩,不学,考了个破二本,考研也是,天天不说学习,书摆在那当个摆设,现在二战也是这样。我算是把自己给推到深渊里了,明明什么都知道,就是行动不起来,搞些邪门歪道倒是积极的很,唉,我有罪,我忏悔。🥶
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: Gnao)
我从高中开始,就老是有拖延症,总觉得之前没有学习,后面补上就好了,总是认为自己学习能力强,但偏偏就是不会自己主动去学习,总搞些别的,天天动不动看手机,一直拖延拖延,拖到考试前,都不怎么学多少的,我感觉我已经把自己给毁了,每次的机会都把握不住,专升本天天在家玩,不学,考了个破二本,考研也是,天天不说学习,书摆在那当个摆设,现在二战也是这样。我算是把自己给推到深渊里了,明明什么都知道,就是行动不起来,搞些邪门歪道倒是积极的很,唉,我有罪,我忏悔。🥶
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: Gnao)