百度正式发布并开源新一代文档解析模型 PaddleOCR-VL-1.5
PaddleOCR-VL-1.5:面向鲁棒自然场景文档解析的多任务 0.9B 视觉语言模型
● PaddleOCR-VL-1.5 - 面向真实场景文档解析的多任务 0.9B 视觉语言模型
面向真实场景文档解析和文本定位识别任务的 SOTA 且资源高效的模型,在正常、扫描、倾斜、弯曲、屏摄与复杂光照六类场景文档解析任务上均取得全面的领先,新增支持文本检测识别任务能力,新增印章识别能力,强化复杂元素(如文本、表格、公式和图表)的识别能力,扩展支持至 111 种语言,同时资源消耗极低。
● PaddleOCR-VL-1.5 是 PaddleOCR-VL 的全新迭代版本,更加注重真实场景上的文档解析能力和新能力的扩展。基于创新的不规则形状定位的PP-DocLayoutV3算法,能够在扭曲、倾斜、扫描、光照和屏幕拍照的自然文档场景实现精确的版面解析。其紧凑多模态模型PaddleOCR-VL-1.5-0.9B 在保持原有模型参数量的情况下,扩展了领先的文本定位识别和印章识别能力,同时支持识别的语言扩充至111种,且复杂场景的元素识别能力也得到显著的强化和提升。模型已发布至HuggingFace。您可以在 PaddleOCR官网 在线使用或者调用该模型的API。
● 核心特性: ● 文档解析任务的SOTA性能: PaddleOCR-VL-1.5 在 OmniDocBench v1.5 基准上实现了 94.5% 的高精度,超越了全球顶尖的通用大模型和文档解析专用模型。 ● 现实5大场景文档解析的SOTA性能: 引入了一种创新的文档解析方法,业界首个支持不规则文档版面定位。在扫描、弯曲、倾斜、屏摄和光照变化这五个现实场景的文档解析任务评估集上,表现全面优于主流的开源和闭源模型。 ● 基于0.9B紧凑模型的能力扩展: 基于 0.9B 的参数量,PaddleOCR-VL-1.5 扩展了文本检测识别和印章识别任务,进一步提升了其能力范围,各任务相关指标均创下了 SOTA 结果。 ● 强化多元素识别能力: 增强了特定场景和多语言识别方面的能力。针对特殊符号、古籍、多语言表格、下划线和复选框的识别性能得到提升。语言覆盖范围扩展,新增支持中国藏文和孟加拉语识别。 ● 长文档跨页解析: 模型支持跨页表格自动合并和跨页段落标题识别,有效缓解了长文档解析中的内容碎片化问题。
huggingface.co
PaddlePaddle/PaddleOCR-VL-1.5 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
github.com
GitHub - PaddlePaddle/PaddleOCR: Turn any PDF or image document into structured...
Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: lming)
Invalid media:
image
image
image
image
PaddleOCR-VL-1.5:面向鲁棒自然场景文档解析的多任务 0.9B 视觉语言模型
● PaddleOCR-VL-1.5 - 面向真实场景文档解析的多任务 0.9B 视觉语言模型
面向真实场景文档解析和文本定位识别任务的 SOTA 且资源高效的模型,在正常、扫描、倾斜、弯曲、屏摄与复杂光照六类场景文档解析任务上均取得全面的领先,新增支持文本检测识别任务能力,新增印章识别能力,强化复杂元素(如文本、表格、公式和图表)的识别能力,扩展支持至 111 种语言,同时资源消耗极低。
● PaddleOCR-VL-1.5 是 PaddleOCR-VL 的全新迭代版本,更加注重真实场景上的文档解析能力和新能力的扩展。基于创新的不规则形状定位的PP-DocLayoutV3算法,能够在扭曲、倾斜、扫描、光照和屏幕拍照的自然文档场景实现精确的版面解析。其紧凑多模态模型PaddleOCR-VL-1.5-0.9B 在保持原有模型参数量的情况下,扩展了领先的文本定位识别和印章识别能力,同时支持识别的语言扩充至111种,且复杂场景的元素识别能力也得到显著的强化和提升。模型已发布至HuggingFace。您可以在 PaddleOCR官网 在线使用或者调用该模型的API。
● 核心特性: ● 文档解析任务的SOTA性能: PaddleOCR-VL-1.5 在 OmniDocBench v1.5 基准上实现了 94.5% 的高精度,超越了全球顶尖的通用大模型和文档解析专用模型。 ● 现实5大场景文档解析的SOTA性能: 引入了一种创新的文档解析方法,业界首个支持不规则文档版面定位。在扫描、弯曲、倾斜、屏摄和光照变化这五个现实场景的文档解析任务评估集上,表现全面优于主流的开源和闭源模型。 ● 基于0.9B紧凑模型的能力扩展: 基于 0.9B 的参数量,PaddleOCR-VL-1.5 扩展了文本检测识别和印章识别任务,进一步提升了其能力范围,各任务相关指标均创下了 SOTA 结果。 ● 强化多元素识别能力: 增强了特定场景和多语言识别方面的能力。针对特殊符号、古籍、多语言表格、下划线和复选框的识别性能得到提升。语言覆盖范围扩展,新增支持中国藏文和孟加拉语识别。 ● 长文档跨页解析: 模型支持跨页表格自动合并和跨页段落标题识别,有效缓解了长文档解析中的内容碎片化问题。
huggingface.co
PaddlePaddle/PaddleOCR-VL-1.5 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
github.com
GitHub - PaddlePaddle/PaddleOCR: Turn any PDF or image document into structured...
Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: lming)
Invalid media:
image
image
image
image
接入Cps到底是怎么赚钱的啊?有没有大佬分享下项目经验
想了解下cps平台对接过程到开发落地?有大佬愿意分享下吗?
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: Li098)
想了解下cps平台对接过程到开发落地?有大佬愿意分享下吗?
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: Li098)
佬友们遇到这种情况,会怎么选择
17 posts - 17 participants
Read full topic
via LINUX DO - 最新话题 (author: 王麻子)
Invalid media: image
17 posts - 17 participants
Read full topic
via LINUX DO - 最新话题 (author: 王麻子)
Invalid media: image
关于yolo的模型训练,我要基于特定场景检测
我要基于特定场景检测,有大佬有相关的数据吗,我想交流讨论下具体的实现方法
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: cc)
我要基于特定场景检测,有大佬有相关的数据吗,我想交流讨论下具体的实现方法
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: cc)
billionmail怎么大一个项目居然没有便捷的解析功能于是写了个
手上几十个域名差点累死搞了一半才想到写个一键解析功能
github.com
GitHub - xkatld/BillionMail: BillionMail+cloudflare一键解析功能
BillionMail+cloudflare一键解析功能
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 洗头佬)
Invalid media:
image
image
手上几十个域名差点累死搞了一半才想到写个一键解析功能
github.com
GitHub - xkatld/BillionMail: BillionMail+cloudflare一键解析功能
BillionMail+cloudflare一键解析功能
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: 洗头佬)
Invalid media:
image
image
我想收集一下支撑各位佬很久的一句话
我先来:在你最虚弱的时候,最强版本的你即将登场 🤛
26 posts - 23 participants
Read full topic
via LINUX DO - 最新话题 (author: 加麻加辣)
我先来:在你最虚弱的时候,最强版本的你即将登场 🤛
26 posts - 23 participants
Read full topic
via LINUX DO - 最新话题 (author: 加麻加辣)
支付宝,搜支付宝立减金,邮储6元
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: yongqiang jack)
Invalid media: image
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: yongqiang jack)
Invalid media: image
微软copilot的学生认证是收紧了么,试了2个edu都不行
3 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: freenewma)
Invalid media: image
3 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: freenewma)
Invalid media: image
[Bad News] 二开 OpenWebUI 将终止维护
GitHub - OVINC-CN/OpenWebUI: 基于 Open WebUI 的增强版:集成计费、支付与企业级用户管理
基于 Open WebUI 的增强版:集成计费、支付与企业级用户管理
----------------------
至于为什么,因为我转投 LobeHub 了 :distorted_face:
9 posts - 9 participants
Read full topic
via LINUX DO - 最新话题 (author: 方块)
Invalid media: image
[!warning]github.com
该仓库已转为 Archive 状态,不再接受新的 issue / pr,也不会有进一步的更新
GitHub - OVINC-CN/OpenWebUI: 基于 Open WebUI 的增强版:集成计费、支付与企业级用户管理
基于 Open WebUI 的增强版:集成计费、支付与企业级用户管理
----------------------
至于为什么,因为我转投 LobeHub 了 :distorted_face:
9 posts - 9 participants
Read full topic
via LINUX DO - 最新话题 (author: 方块)
Invalid media: image
🦞Bot(原Clawdbot现Moltbot)部署教程(零成本)
由于全贴触发关键字
腾讯云+百炼模型(或者自己切老黄的俩模型)
教程链接:https://larkcommunity.feishu.cn/wiki/AALuw4b0QiivpjkUZ6OcM76VnRd
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: CxMYu)
由于全贴触发关键字
腾讯云+百炼模型(或者自己切老黄的俩模型)
教程链接:https://larkcommunity.feishu.cn/wiki/AALuw4b0QiivpjkUZ6OcM76VnRd
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: CxMYu)
谷歌账号没有10分钟就被踢下线
我不是买了个Gemini账号吗、已经买了3-4天,最近不知道咋回事,光说中午,账号就被踢下线3次,连续3次让我接收短信验证码验证账号,说我账号异常,我真的是服了,不知道各位佬友有没有跟我出现一样的情况呢
4 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: Ke Ji)
我不是买了个Gemini账号吗、已经买了3-4天,最近不知道咋回事,光说中午,账号就被踢下线3次,连续3次让我接收短信验证码验证账号,说我账号异常,我真的是服了,不知道各位佬友有没有跟我出现一样的情况呢
4 posts - 3 participants
Read full topic
via LINUX DO - 最新话题 (author: Ke Ji)
MacOS Gemini in Chrome注意⚠️仅3步!
本教程只针对MacOS,还有不想安装Python脚本的佬们。
相信大家有的人已经看到很多人发教程,但是自己跟着试还是不行,对,我就是各种办法都试了不行,最后才发现是一个细小的细节导致的。
首先,这一步必须做,当然也有脚本,但是我嫌麻烦,没有这样快,记住先关浏览器再执行!
然后第二步,很重要
把美国英语排在首位,一定记住,是美国英语,不是英国英语!!
最后一步极其重要
打开系统设置-语言与地区,给Chrome单独设置语言吗,切记,一定要美国英语,我就是栽在这里了,我一开始一直设置的是英国英语…坑死了
然后大功告成,什么chrome://settings、chrome://flags/都不需要设置,完美
再不行,你们打我,亲测
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: MacDo)
Invalid media:
image
image
image
image
image
本教程只针对MacOS,还有不想安装Python脚本的佬们。
相信大家有的人已经看到很多人发教程,但是自己跟着试还是不行,对,我就是各种办法都试了不行,最后才发现是一个细小的细节导致的。
首先,这一步必须做,当然也有脚本,但是我嫌麻烦,没有这样快,记住先关浏览器再执行!
cp ~/Library/Application\ Support/Google/Chrome/Local\ State \
~/Library/Application\ Support/Google/Chrome/Local\ State.bak
sed -i '' 's/"is_glic_eligible":[[:space:]]*false/"is_glic_eligible":true/g' \
~/Library/Application\ Support/Google/Chrome/Local\ State
sed -i '' 's/"variations_country":"cn"/"variations_country":"us"/g' \
~/Library/Application\ Support/Google/Chrome/Local\ State
sed -i '' 's/"variations_permanent_consistency_country":[[:space:]]*\[\([^]]*\),[[:space:]]*"[^"]*"\]/"variations_permanent_consistency_country":[\1,"us"]/g' \
~/Library/Application\ Support/Google/Chrome/Local\ State
然后第二步,很重要
把美国英语排在首位,一定记住,是美国英语,不是英国英语!!
最后一步极其重要
打开系统设置-语言与地区,给Chrome单独设置语言吗,切记,一定要美国英语,我就是栽在这里了,我一开始一直设置的是英国英语…坑死了
然后大功告成,什么chrome://settings、chrome://flags/都不需要设置,完美
再不行,你们打我,亲测
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: MacDo)
Invalid media:
image
image
image
image
image
佬们能不能分享一下使用的ai工具和开发流程
自己就是直接问答,经常就乱套了,求教各位佬成熟的工具搭配和流程
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: Jason)
自己就是直接问答,经常就乱套了,求教各位佬成熟的工具搭配和流程
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: Jason)
iphone air 官网折抵怎么算呢
就是不是年年焕新 是如果出了 18 用旧的折抵 那今年降价的 iphone air 是按照-2000的价格算 还是按照官方指导价算呢~我觉得应该是按照官方指导价格算吧~
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: EthanXing)
就是不是年年焕新 是如果出了 18 用旧的折抵 那今年降价的 iphone air 是按照-2000的价格算 还是按照官方指导价算呢~我觉得应该是按照官方指导价格算吧~
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: EthanXing)
各位佬们,有人做过mes系统吗
领导叫我写一个mes系统写的我头疼,全部盲写,一点需求都没,写了五年代码第一次接触制造系统,啥都不懂
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: MYuan6)
Invalid media: image
领导叫我写一个mes系统写的我头疼,全部盲写,一点需求都没,写了五年代码第一次接触制造系统,啥都不懂
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: MYuan6)
Invalid media: image
野卡 wildcard 余额兑换,为了4块钱,还要再给16块
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: Clbi88)
Invalid media: image
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: Clbi88)
Invalid media: image
双卡加esim的iPhone17pm真的存在吗
最近外版iphone 17promax在华强北有大神搞了个改卡方案,说是最终方案了,看小红书上的大哥都说可以支持双实体卡加esim,
如图,对于我来说非常的想要有这个功能,有几个esim的卡接码用,需要的时候把他调出来开启接码后就关掉,但是问了几个卖iphone的老板,都说没有这种改卡方案,说只有双实体卡无esim或者单实体卡加esim的方案,想问问佬友有了解的吗?现在没有流量卡自己的主要的实体卡月租真的好贵。。。绑的东西太多也不想去换手机号
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: tiga)
Invalid media: image
最近外版iphone 17promax在华强北有大神搞了个改卡方案,说是最终方案了,看小红书上的大哥都说可以支持双实体卡加esim,
如图,对于我来说非常的想要有这个功能,有几个esim的卡接码用,需要的时候把他调出来开启接码后就关掉,但是问了几个卖iphone的老板,都说没有这种改卡方案,说只有双实体卡无esim或者单实体卡加esim的方案,想问问佬友有了解的吗?现在没有流量卡自己的主要的实体卡月租真的好贵。。。绑的东西太多也不想去换手机号
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: tiga)
Invalid media: image
ClaudeCode 不同目录之间的会话可以迁移么?
不同目录下的ClaudeCode会话怎么迁移? 比如 我再A目录下有一个会话记录, 然后想在B目录下resume 这个会话 怎么办呢?
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: sddxsm)
不同目录下的ClaudeCode会话怎么迁移? 比如 我再A目录下有一个会话记录, 然后想在B目录下resume 这个会话 怎么办呢?
1 post - 1 participant
Read full topic
via LINUX DO - 最新话题 (author: sddxsm)
有无那种两张照片实现渐变效果ai
要剪辑视频,给些照片希望能做成照片从中年渐变到少年过渡的那种视频效果,这种有啥ai推荐吗
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: zspor)
要剪辑视频,给些照片希望能做成照片从中年渐变到少年过渡的那种视频效果,这种有啥ai推荐吗
2 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: zspor)
Idea好用的代码补全工具求推荐
现在用的智谱的codegeex,代码补全实在是太弱智太难受了,求求好用的代码补全工具
4 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: 大星.派)
现在用的智谱的codegeex,代码补全实在是太弱智太难受了,求求好用的代码补全工具
4 posts - 2 participants
Read full topic
via LINUX DO - 最新话题 (author: 大星.派)
甲骨文注册成功了!1-30
用的国外的虚拟卡,没想到试了一下居然过啦
注册的美国san jose
12 posts - 12 participants
Read full topic
via LINUX DO - 最新话题 (author: NiceOneHua)
Invalid media:
image
image
用的国外的虚拟卡,没想到试了一下居然过啦
注册的美国san jose
12 posts - 12 participants
Read full topic
via LINUX DO - 最新话题 (author: NiceOneHua)
Invalid media:
image
image