linux.do
21.3K subscribers
122K photos
196 videos
118 files
257K links
linux.do最新话题和热议话题
Download Telegram
PaddleOCR-VL部署使用体验记录

前言

前阵子看到paddle发布SOTA的OCR模型,预览效果很nb,但看很少人去尝试使用。刚好公司有一些书籍类型的pdf(含公式,图片,表格等),内容双栏显示。使用场景够复杂了吧,也是日常会遇到的情况。于是就开始折腾部署PaddleOCR-VL模型。

配置

注意!PaddleOCR-VL 暂不支持 ARM 架构 CPU。

RTX6000(46G显存)

Windows11(配置wsl,Ubuntu-22.04)

python==3.12

确保wsl内的CUDA 版本必须大于或等于 12.6nvidia-smi查看)

开始操作

所有流程都在wsl中操作,包括python虚拟环境创建包安装等。我使用非Docker的方式安装

1.创建虚拟环境

conda create -n paddleocr python==3.12

2.安装paddle包
# 以下命令安装 CUDA 12.6 版本的 PaddlePaddle,对于其他 CUDA 版本以及 CPU 版本,请参考 https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/develop/install/pip/linux-pip.html
python -m pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/


连续使用以下命令即可
python -m pip install -U "paddleocr[doc-parser]"
python -m pip install https://paddle-whl.bj.bcebos.com/nightly/cu126/safetensors/safetensors-0.6.2.dev0-cp38-abi3-linux_x86_64.whl


3.python代码(单个pdf文档)
from pathlib import Path
from paddleocr import PaddleOCRVL

input_file = "./your_pdf_file.pdf"
output_path = Path("./output")

pipeline = PaddleOCRVL()
output = pipeline.predict(input=input_file)

markdown_list = []
markdown_images = []

for res in output:
md_info = res.markdown
markdown_list.append(md_info)
markdown_images.append(md_info.get("markdown_images", {}))

markdown_texts = pipeline.concatenate_markdown_pages(markdown_list)

mkd_file_path = output_path / f"{Path(input_file).stem}.md"
mkd_file_path.parent.mkdir(parents=True, exist_ok=True)

with open(mkd_file_path, "w", encoding="utf-8") as f:
f.write(markdown_texts)

for item in markdown_images:
if item:
for path, image in item.items():
file_path = output_path / path
file_path.parent.mkdir(parents=True, exist_ok=True)
image.save(file_path)


4.完成到这部就可以运行了,第一次使用会下载模型比较慢。可能之前安装依赖中断过几次的原因,运行代码报错缺失系统依赖,错误日志丢ai解决即可。

我使用的文档是书中截取的三页内容,并非全书。消耗显存5.9G左右

效果

可以看到即使两栏内容,paddleocr也能很好的识别连接,公式使用latex,图表这里不知道为什么没识别成表格(官方演示效果)但还是完整保留下来了。有部分公式格式异常,导致公式没有正常渲染。 latex公式好像也是正确的,不过我Obsidian和vscode的md插件都没有渲染出来。后面写了脚本把二十多个pdf都进行ocr,占用显存44.5G。

结论

目前看效果已经非常好了,个人还没有做多模态检索,所以图片数据不是很重要,但确实已经很好的保留书籍的完整结构。这种文档结构识别再进行ocr的架构(类似于工作流)应该是未来OCR的方向了。

参考连接:使用教程 - PaddleOCR 文档

22 posts - 16 participants

Read full topic

via LINUX DO - 热门话题 (author: 青草蛋糕)

Invalid media: image
突然发现自己的V2EX账号被删了,没有任何通知,直接404

昨天还在看帖子,早起习惯先逛下几个论坛,发现账号退出了,因为挂了将近一年了没有退出过,尝试密码登录:

尝试邮箱直接登录:

搜了一下邮箱:

然后搜了一下我账号:

毫无征兆,直接给我删了,虽然说我的地盘我做主吧,但是毫无征兆就删号,这也太说不过去了,天天打卡签到攒了好多币。。。
咦,写帖子的时候,好像突然想起来了,昨天看见一个x上面代购药品生意的恨国党在论坛反动,还外网挂了一个人,我就骂了一嘴。。。
但是也不至于直接给我毫无征兆删号吧,不玩了不玩了,咱也顺带也涨涨教训
116 posts - 67 participants

Read full topic

via LINUX DO - 热门话题 (author: kkimmy)

Invalid media:
image
image
image
image
Chromium 漏洞:可使任何 Chromium 系浏览器在数秒内崩溃

本次漏洞概念验证项目:
https://github.com/jofpin/brash

漏洞原理:
document.title API 更新完全没有速率限制,使攻击者可以每秒注入数百万次DOM变更,并在注入过程中阻塞主线程,破坏事件循环,最终导致界面崩溃。其影响巨大,会消耗大量CPU资源,降低系统整体性能,并可能导致其他同时运行的进程停止或减速。
该漏洞会影响桌面端、Android 和嵌入式环境中的 Chromium 系浏览器,受影响版本:Chromium ≤ 143.0.7483.0(已测试版本:138.0.7204.251、141.0.7390.108、143.0.7483.0)。

所有基于 Chromium 内核的浏览器都存在漏洞:
Chrome — 约15~30秒崩溃
Edge — 约15~25秒崩溃
Vivaldi — 约15~30秒崩溃
Arc Browser — 约15~30秒崩溃
Dia Browser — 约15~30秒崩溃
Opera — 约60秒崩溃
Perplexity Comet — 约15~35秒崩溃
ChatGPT Atlas — 约15~60秒崩溃
Brave — 约30~125秒崩溃

不受此漏洞影响:
Firefox(Gecko引擎)— 完全不受此漏洞影响
Safari(WebKit引擎)— 完全不受此漏洞影响

相关报道:
https://www.theregister.com/2025/10/29/brash_dos_attack_crashes_chromium/

22 posts - 17 participants

Read full topic

via LINUX DO - 热门话题 (author: sandman)
【公益DeepSeek OCR】快速解析图片和PDF为Markdown以及图片描述

最近 DeepSeek OCR 模型比较火,利用闲置机器基于vllm部署了一个 Demo,用于平替平时用的很多的simpletex。(收费后就没用过了)

使用方法非常简单:

1. 进入 My OCR
2. 直接粘贴或拖拽文件到里面,可以进行识别。
3. 支持直接复制结果

服务器不会存储用户的数据,只使用vllm过一遍。开源代码:BetterAndBetterII/my-deepseek-ocr

另外我打算开放公益的DeepSeek OCR的API,不知道公益站的CDK是如何生成并分发的,有佬知道的可以跟我说说用啥生成的。

两张3090部署的

本地Docker部署的命令:
docker run --rm --gpus '"device=0,1"' --ipc=host --shm-size=16g -p 8000:8000 -v ~/.cache/huggingface:/root/.cache/huggingface -v ~/vllm:/root/vllm vllm/vllm-openai:nightly --model deepseek-ai/DeepSeek-OCR --tensor-parallel-size 2 --distributed-executor-backend mp --logits-processors "vllm.model_executor.models.deepseek_ocr:NGramPerReqLogitsProcessor" --chat-template "/root/vllm/template_deepseek_ocr.jinja"
参考: [Usage]: How to request DeepSeek-OCR with http request · Issue #27463 · vllm-project/vllm

额外需要模板文件拷贝到本地:vllm/vllm/transformers_utils/chat_templates/template_deepseek_ocr.jinja at main · vllm-project/vllm

21 posts - 15 participants

Read full topic

via LINUX DO - 热门话题 (author: BosaBosa)

Invalid media:
image
image
image
新人报道!分享临时邮箱和图床!

临时邮箱

https://em.bjedu.tech/

图床

https://img.bjedu.tech/

订阅转换

https://sub.bjedu.tech/

在线文生图

https://textimg.bjedu.tech/

短链接生成

https://short.bjedu.tech/

Linux命令查询

https://linux.shiyaa.me/

在线加密聊天

https://chat.bjedu.tech/

网站分析

https://web-check.shiyaa.me/

在线工具箱

https://tool.shiyaa.me/

在线markdown编辑

https://markdown.shiyaa.me/

网站状态监控

https://stat.bjedu.tech/

都是基于cloud flare搭建的

33 posts - 30 participants

Read full topic

via LINUX DO - 热门话题 (author: 平安喜乐)

Invalid media: image
xychatai: 抽奖,以纪念不美好的10月。20个team自助邀请,20个codex的兑换码

狗屎10月,最难受的一个月

抽个奖吧

20个team自助邀请和20个codex的兑换码。
一个是6r的,一个是旧9.9套餐的。
还是11.2的中午十二点开奖。还是cdk分发。

一些感慨,狗屎10月

遂手打一篇新的抽奖贴,图一乐
我也不知道是什么时候,codex开始降低配额,本来也在焦头烂额焦虑于claude的限速问题。
作为一个奸商,将自助邀请的母号重复利用在codex本是一个稳赚不赔的好买卖,现在也需要额外去购置codex的账号。
我在想作为一个奸商,是不是该把所有的用户的钱退了,毕竟,codex重新上号池还是比退款要贵很多,两害相权取其轻。唉或许是一种拖延症的表现吧,算了算了,继续做吧。抱着这种心态还在做着。但心里是有些别扭的。
我不是一个好人,站长我写不来什么的好话。
我知道,不管怎么说,肯定会有人看我们不爽,站点也时常被攻击,不管是对于同行还是客户,站长我啊都是一个joker。
当然客户,也会觉得我们不稳定,这个是事实,我们没有客服,因为确实请不起,我们没有技术,因为确实没有钱。穷鬼站长,在线乞讨。

【wait一下,只是写的顺手了,客服在请了,技术在学了,站长还是一个上进的站长。hh】

我们与诸多富可敌国相比,缺陷很大,优势没有,我有时候经常在想,我们要怎么才能竞争求存。

感觉很难很难,很多时候都想着要不清退解散算了?但总是有很多很多的时刻,让我们想着再坚持一下,再坚持一下,说不定就能撑下去了。
很多用户劝我们涨价,但我们的定价有时候也受了我的影响。

想着我作为一个普通大学生,一个月1200的生活费,如果我是用户,我愿意花多少钱。
所以我不敢把价格定的太高,我怕呀,我怕我自己嫌贵啊。于是我总是告诉我自己的同伴,拖一拖,再看看,先不涨先不涨。
我都害怕,我的伙伴,半夜起来刀了我,或者所幸单干,每一次汇总对账,我都感到愧疚。总是给同伴画着饼,心里也在惆怅之后的日子。
算了算了,只能苦一苦自己,久而久之慢慢的也就理解了,我的一些长辈,总是笑着说亏钱的事情。
不是那种哀声叹气,反而是豁达的笑,或许这就是川渝自带的洒脱罢了。
如果后面有机会,我可以给大家讲讲我长辈养猪的故事,当然前提是不被长辈知道。
想到这些,我觉得站点还是有必要存在的,我们是不稳定,不好用,但我觉得吧,我还是对的起售价。另外不好用也可以退款嘛,没必要委屈自己哈。如果没找到站长可以多发发消息,有可能是站长消息太多沉下去了。
当然我也不是一个什么善人,脾气也不太好。当然退款肯定是退的,骂人也不至于,但是劝人退款,是我的一个情绪化的问题,我会想办法改。但是很难奏效就是了。

第一个: team的自助邀请

3r,6r,12r的team自助邀请,
3r是10r的母号,可自行解绑换号 (最近封号较高正在观察,封号率下降后会重新补货)
6r是20到30r的母号,可自行解绑换号
12r是20到30r的母号,可自行解绑且一个月内封号,包补包换也可以全额退。
购买地址是:
newshop.xychatai.com

购物 - 异次元店铺

旧发卡程序会继续保留(回调问题严重)
shop.jiankong.xychatai.com

xyai的卡密商城

xyai的卡密商城

余额转化的请联系站长或客服。

第二个

就是codex和claude code了
价格的话是29.9元 90刀每日的codex,claude code是30刀每日,149元
codex现在暂时取消了9.9的套餐,因为成本上升很多,也相当于站点变相涨价,我们挨骂,也该骂。后续会酌情考虑回归事宜的。
并且坦然的说,codex并不算稳定,还在不断的尝试新的办法。
claude code目前好像稳定了一些,不是那么不建议购买了。主要是采用了自动充自动补。但是成本也没有那么可控有利有弊吧。
购买地址是:
https://new.xychatai.com

第三个的话就是我们的老朋友镜像了

价格仍然也不算便宜,主要是openai的降智和claude的周限问题。
大体的话gpt是40元,claude是50元。claude是按照一半的pro的配额,后续会逐步提升,目前站点仍然在处于封号阶段。不知道什么时候消停一点。
我们的优势的话,可能是比较诚实,我们把账号自动分为了降智的和不降智的。降智的程度都有所标记。
购买地址也是:https://new.xychatai.com

另外补充一个反馈贴,有问题和建议可以在这里提
比如说双十一活动,有偿反馈,只要接纳就会给钱。

理解万岁,共度时艰。

当然,我们也是不太出色的站点
有不知道多少优秀的同行,
我个人认为比较优秀适用的包括但不限于
88code,rawchat,packycode gac
大家如果不满意我们的服务可以多尝试一下其他家。非常希望各位能获得一个满意的答案。

207 posts - 199 participants

Read full topic

via LINUX DO - 热门话题 (author: xychatai)

Invalid media:
image
image
【抽3件LINUX DO T恤】听说不怕冷的佬友还在穿T恤?

最近南方天气回暖,T恤是不是还在穿?亲爱的佬友们,为了感谢大家的关注与支持,我们准备了3件LINUX DO定制T恤文化衫作为奖品,送给大家。颜色尺码任你选,机会均等,快来参与吧!

一、活动详情:
奖品内容:LINUX DO圆领T恤 3件
奖品权益:中奖者可自由选择T恤的 颜色 与 尺码(以店铺库存为准)。
结束时间:2025年11月2日 21:00

二、参与方式

1. 在本帖下方回复即可。

三、中奖公布与领取方式

1. 抽奖工具:https://lottery.linux.do
2. 领取流程:
第一步:中奖者请前往我们的【衫外有山淘宝店铺】拍下1件圆领T恤,选择您喜欢的颜色和尺码。
第二步:私信我们你的订单号。
第三步:确认收货评价后全额返现。
抽奖商品链接如下:
1、【淘宝】7天无理由退货 https://e.tb.cn/h.SnbuCzSdiccExZ4?tk=NJHufUMKo6Z CZ001 「LINUX DO白色百搭时尚短袖T恤柔软亲肤休闲刺绣款」,到手价69元。
2、【淘宝】7天无理由退货 https://e.tb.cn/h.SnfOryG815rsSH5?tk=t8bjfUMqbHS CA381 「LINUX DO儒雅黑轻盈亲肤舒适短袖T恤时尚百搭刺绣款」,到手价69元。

四、重要说明
本次活动完全免费,无需支付任何费用即可参与(除中奖后按上述流程操作)。
每个用户ID仅有一次中奖机会。本活动最终解释权归活动主办方所有。

当然,天冷的地区,佬友们注意保暖,在T恤外可以再穿件LINUX DO的新款卫衣哦(卫衣此次不参与抽奖)。
1、【淘宝】7天无理由退货 https://e.tb.cn/h.SnATISzfn85avjH?tk=8f3mfUMrkVt tG-#22>lD 「LINUX DO黑色圆领卫衣刺绣款(重磅棉)」,到手价89.9元。
2、【淘宝】7天无理由退货 https://e.tb.cn/h.SnAh9Fqf39WTezY?tk=L9EUfUMrTig HU293 「LINUX DO灰色圆领卫衣刺绣款(空气棉)」,到手价89.9元。

483 posts - 483 participants

Read full topic

via LINUX DO - 热门话题 (author: 衫外有山)
TG必备的搜索引擎,极搜帮你精准找到,想要的群组、频道、音乐 、视频

👇👇👇点击下方按钮,进行搜索
有没有佬友推荐从PC传给手机传文本的APP?

不知道各位佬友有没有推荐的APP,使用场景是从笔记本上传一些机场订阅链接或者一些外网链接 😅

25 posts - 23 participants

Read full topic

via LINUX DO - 最新话题 (author: crazypokerk)
国产模型有哪些可以赠送额度,魔搭每天2000次

目前了解到的是魔搭每天有2000次的调用,还有其他的吗

3 posts - 3 participants

Read full topic

via LINUX DO - 最新话题 (author: tangdiao)
没搞过大模型和智能体能从事相关工作吗

各位佬们,最近面临单位的人事调动,因为是应届生且有一点人工智能背景,就被调到一个新的组做智能体和大模型的微调,大概是技术落地方面
不过读书期间的研究主要是偏向于传统算法,图像的分割分类等等
不知道这样是不是跨度太大了,有点点没信心,虽然应该会有人带我然后也会有能够让我学习的时间
不知道各位佬有什么建议没,比如现在开始学哪些东西比较好,顺便也想请教下新入职怎么更好地和同事们和领导相处
谢谢各位佬(鞠躬

2 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: fionaorange233)
请教一下如何开发一个视频一站是生成的搭建方法类似于商汤的seko或者白日梦那种

一般该怎么搭建,目前简单构思是通过简单对话+生成故事什么在生产分镜+角色设计+分镜头设计+图片生成在生产视频

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: cherry5675627)
我想多注册几个智谱网站的账号,有啥办法没

网站是https://bigmodel.cn/

2 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: 李恒)
Macbook 到 Mac mini 之间通用控制老是会不稳定断连。

题主现在用的是macbook air m1+mac mini m4
在日常的使用情况就是,通过通用控制(设置-显示器),来使得macbook的触控板和键盘可以在mac mini 的显示器和macbook 上同时操作。

使用起来很顺滑,但是唯一的缺点就是,经常(每天都很多次)用着用着,就会出现断连的情况,就是突然键盘和触控板就回到了macbook上,无法回到mac mini的显示器上;或者 鼠标不见了了这种,需要重新点开显示器那一栏,可能就会自动重新连接。

尝试过如下方法:

1. 使用路由器(原本两台是连接到校园网上的)
2. 通过有线连接macbook 和 mac mini

这两个方法都没有很好的解决这个问题。还是会出现不稳定的情况。
不知道有没有佬也用通用控制,是否出现过类似的情况,是如何解决的。

2 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: sylearn)

Invalid media:
image
image
pc端页面禁止右键是怎么弄的

比如说那个知识星球,在pc端打开文章的时候是禁止鼠标右键下载和鼠标复制的,这个是怎么做到的,有例子吗?

11 posts - 9 participants

Read full topic

via LINUX DO - 最新话题 (author: LuYu)
谷歌推出了万圣节版吃豆人!还真挺不错啊~

戳此直达
searchplayground.google

PAC-MAN:2025 年万圣节版

今日的互动式涂鸦带来了万圣节特别版《PAC-MAN》,庆祝这款经典游戏问世 45 周年。点击即可开玩!

2 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: jumplinux)

Invalid media:
image
image
小米云服务 有无拼车 一年27元 227GB!!

小米云服务家庭共享,最多可以添加8位家人,家人之间的数据不会共享的可以放心,只能看到每个人的用量。

双十一 三折优惠,2TB 239元一年,拼车之后,9个人一起用很划算!
2048 / 9 ≈ 227GB
239 / 9 ≈ 27元

有无佬友需要,私信上车

4 posts - 3 participants

Read full topic

via LINUX DO - 最新话题 (author: ALin)

Invalid media: image
一人来一首最近让你感到温暖的歌曲吧

我先来一个:梁静茹的《三吋日光》

9 posts - 9 participants

Read full topic

via LINUX DO - 最新话题 (author: 彬彬同学)
宁波重奖结婚:发放8张满500减125元消费券

据说有地方最高20万
3g.china.com

最高20万 多地发钱奖励结婚 新婚消费券助力甜蜜经济_中华网

10月27日,微信公众号“宁波民政”宣布,浙江宁波市民政部门面向在甬登记结婚的新人发放结婚消费券,每对可获1000元。发放对象为2025年10月28日至12月31日在甬登记结婚的新人(补领的除外)

4 posts - 3 participants

Read full topic

via LINUX DO - 最新话题 (author: gogoo)
最新的Chromium浏览本站疯狂崩溃

日常是用Firefox的,也偶尔会白屏,但不崩溃,随便点下鼠标就能正常渲染,今天偶然用最新的Chromium试了下,疯狂崩溃

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: 类库大魔王)

Invalid media: image
想问下佬们有没有固态硬盘推荐,并且关于 macbook 数据使用的。纯小白。

长话短说。提前感谢佬友们的帮助!

因为一些原因要存储特别大量的数据,所以希望佬友们推荐移动小巧快速好用的固态硬盘 至少 1TB 的,打算用个好几年。可能后期也想组个 nas。(先不考虑这个了)

----------------------

那么受限于以下情况

微信备份 (不太信赖 icloud 而且很慢 所以整了很多备份)
本地 docker 的镜像 (很多 尤其是工作相关 会不停的打包很多版本,很多也要用,也没办法完全上传到 云上,本地有些东西要测试,还涉及到内网)
模型 (偶尔会跑一些本地模型)
PD 虚拟机 (可能会下载一些测试程序 这就会很大)

那么有几个疑虑

1. 记得 macbook 上的文件格式似乎和 windows 不一样 这个固态硬盘是不是会有格式问题?
2. 似乎 macbook 息屏之后不会自动弹出硬盘?
3. 我能在移动硬盘上放 这些数据么?很高频次使用的,倒也不是多重要,毕竟镜像可以重新 build,但是也不能经常丢数据。(似乎固态经常访问就不会有这个问题)

如果有类似的问题希望佬友们解惑~

另外,预算 1000 左右佬友们有任何推荐吗?(一定要便携小巧,稳定,速度快好用即可)?特别感谢!!!

6 posts - 6 participants

Read full topic

via LINUX DO - 最新话题 (author: TalexDS)