linux.do
21.2K subscribers
120K photos
195 videos
117 files
255K links
linux.do最新话题和热议话题
Download Telegram
PDF Craft:一个更懂技术的开源 PDF 转换工具

大家好,最近我们团队开源了个项目,和大家分享一下。

我们平时看技术文档或者学术论文,PDF 是绕不开的坎。但目前的 PDF 转换工具,总有那么几个让人抓狂的点:

● 扫描版的 PDF,转出来基本就是一堆乱码,没法看。
● 数学公式,特别是 LaTeX,转完成 Word 或者 Markdown 后,格式全错,还不如截图。
● 排版,双栏的、图文混排的,一转换就面目全非。
很多工具背后都是调 LLM API,不仅花钱,速度和稳定性也看缘分。

为了解决这些的问题,我们基于 DeepSeek-OCR 重写了一个转换引擎:pdf-craft

效果预览

有什么不一样?

我们没打算做一个大而全的工具,而是把精力都放在了技术细节上,希望能做到:

1. 更好的 OCR 识别:既然使用了 DeepSeek-OCR,文档结构理解、表格、公式、图片这些复杂场景的识别准确率,我们很有信心。
2. 更智能的布局还原:特别优化了双栏和图文混排,目标是转成 Markdown 或 EPUB 后,还能有接近纸质书的阅读体验。
3. 更完美的 LaTeX 公式支持:无论是行内公式还是独立公式,都能精准识别并还原,这点我们花了不少功夫。
4. 更灵活的输出:目前支持 Markdown 和 EPUB,目录、注释这些也都会自动生成。

怎么用?

我们提供了两种方式:

1. 本地免费跑(我们最推荐的)

如果你有一张还不错的显卡(RTX 3060 或以上),可以尝试根据 README.md 中的步骤在本地运行。

完全免费,不限次数,数据都在你自己的电脑上。

当然,pdf-craft 引擎本身是完全开源的(MIT 协议),你可以直接 clone 仓库回来自己开发及部署。

2. 云服务

没算力的朋友也不用担心,我们同时提供了在线的云服务。没有订阅费,按实际用量计费,新用户注册会送一些免费额度,可以先体验一下。

关于开源

我们相信,一个好的工具应该是开放和透明的。特别是文档处理这种场景,谁也不希望自己的文件被泄露。

开源,意味着:

你可以审查代码,知道它到底是怎么工作的。
可以自己部署,数据安全掌握在自己手里。
可以定制功能,缺什么就自己动手。
当然,也欢迎你贡献代码,一起让它变得更好。

最后

这个项目还在快速迭代,肯定有不少问题。欢迎大家来我们的 GitHub 仓库提 Issue 和 PR。

● 在线体验https://pdf.oomol.com
● GitHub 仓库oomol-lab/pdf-craft
● API 文档https://pdf.oomol.com/api
关于我们的产品,你可以查看: 【结束】【软件推广 - 抽 iPhone 17 Pro Max、大疆无人机、相机、HA 盒子、键盘等】OOMOL Studio: 可视化构建 AI 工具与工作流

16 posts - 14 participants

Read full topic

via LINUX DO - 最新话题 (author: Kevin Cui)

Invalid media: image
各位佬 怎么打发时间 下午很困带点发烧又没事情干的时候

如题 下午很困离下班时间还很长 身体又不舒服 帖子刷了一遍又一遍 怎么打发时间

6 posts - 5 participants

Read full topic

via LINUX DO - 最新话题 (author: anxinya)
顺丰模拟退货 pdd

GitHub - hcliu987/sf-express-return-picture: 顺丰电商退货地址截图模拟.Simulation of SF-Express E-commerce Return Address Screenshot. 可以pr 多模板。要是失败了。直接提is,ai更新

2 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: lhc)
诱人的tag,误差的图片

什么都对?🤓不对不对

要素似乎齐全了

19 posts - 8 participants

Read full topic

via LINUX DO - 最新话题 (author: stevessr backup)

Invalid media: image
封号大王 AWS: kiro 账号没了

之前好好的,今天用了下号没了,走工单、邮件申诉最后喜提

一切正常使用,除了客户端走代理外,参加过 【已过期】今日份kiro限时1000点数

疑问🤔

还没封号的佬友是不是走直连不走代理的?

12 posts - 8 participants

Read full topic

via LINUX DO - 最新话题 (author: MineMine)

Invalid media: image
请教一下大家,远程服务器使用codex时为什么命令没有输出

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: OwO.)

Invalid media: image
海鲜市场刷到这个电脑,这么便宜吗。还是有水分。m4哎

11 posts - 8 participants

Read full topic

via LINUX DO - 最新话题 (author: lhc)

Invalid media: image
gemini business 我也发一个,新人发帖,留邮箱上车

没同意的记得同意一下,没收到的就是来晚了,谢谢各位
32 posts - 25 participants

Read full topic

via LINUX DO - 最新话题 (author: hunk)

Invalid media:
image
image
image
Gemini 官网再次出现Gemini 3 Flash 代码 (这次更详细)

2 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: Bunn)

Invalid media:
image
image
生物医学工程专业该往嵌入式方向还是硬件方向好点呀

佬们想问问生物医学工程该往哪个方向好点?学校也设有嵌入式设计的选修课,不知道要不要退选(主要怕自己学不懂)有点纠结😖

2 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: ii)
Antigravity 中的 Claude 没有命令行版本好用为啥呢 佬们

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: Rain)
感觉降低倍率至0.25后,效果还是蛮明显的。

重新整了一下leaflow,发现单日数据屡创新高,不知道会不会突破55亿tokens/天

看了一下总数,重新开站到现在11天,也350亿tokens了,500亿的时候给大家发一波兑换码吧~

用户总人数也超过了7200人~水一波

35 posts - 33 participants

Read full topic

via LINUX DO - 最新话题 (author: Wong)

Invalid media:
image
image
有没有女生愿意和我交朋友啊,我会拍照 修图 做饭 健身等~ 其他利他属性优点容我再想想~

江山如此多娇,引无数打工人竞折腰,连个交个女朋友的机会都没有,我想问群里有女佬嘛?北京~

15 posts - 11 participants

Read full topic

via LINUX DO - 最新话题 (author: maxweil)
求一个AIC++代码规范的提示词

原因:各种AI全是注释还屎长的代码真的看不下去!

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: 白日星梦DSD)
有哪些可以按小时租裸金属GPU的厂商

大家好!

工作上需要,需要临时租赁一些裸金属服务器做测试,由于只是短期的测试,因此希望有可以按小时租的裸金属GPU服务器

4 posts - 3 participants

Read full topic

via LINUX DO - 最新话题 (author: 404)
有什么好玩的东西,可以部署在cf上,大家分享一下呢

github.com

GitHub - cmliu/edgetunnel: edgetunnel 2.0 VLESS/Trojan 多功能面板

edgetunnel 2.0 VLESS/Trojan 多功能面板

1 post - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: ruoshui901)
话说大家平时和 AI 交流使用中文还是英文?

如题,印象里 OAI 早期会对使用中文较多的用户降智,不知道现在是否还有这个问题?以及 Gemini 是否会因用户使用中文问答降智?

我主要用英文问答,偶尔用中文,

体感上,有区别(思考时长有明显差异)
原理上,中文语料质量可能不如英文(我主要用 AI 读英文论文)。

佬们怎么看?

8 posts - 8 participants

Read full topic

via LINUX DO - 最新话题 (author: Eason)
这是codex新功能么

Tip: You can run any shell command from Codex using ! (e.g. !ls)

2 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: zhuoran)

Invalid media: image
vscode augment无法使用求助

咸鱼上找了个augment账号,商家给了个激活插件,然后augment就成这样了,并且我卸载了插件已经重装了vscode都没用,佬们有遇到这个问题吗,也没地方看aug的completion url在哪里设置。

2 posts - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: Zeng Feng)

Invalid media: image
最近是teams出啥问题了吗

感觉价格普涨,且之前很多卖家 现在不卖了

2 posts - 2 participants

Read full topic

via LINUX DO - 最新话题 (author: 李豆)
Neovate 开放易于扩展的 Code Agent

Neovate Code 是一个智能编程助手。他被设计来理解你的代码库,遵循你的编码模式,并帮助你精确地、有上下文感知地实现功能、修复 Bug 和重构代码。他包含一个 Code Agent 应该有的大部分功能。

其主要功能包括:

● 对话式开发 - 用于编程任务的自然对话界面
AGENTS.md 规则文件 - 为你的项目定义自定义规则和行为
● 会话继续和恢复 - 跨会话继续之前的工作
● 支持流行的模型和提供商 - OpenAI、Anthropic、Google 等
● 斜杠命令 - 常用操作的快速命令
● 输出样式 - 自定义代码更改的呈现方式
● 计划模式 - 在执行前审查实现计划
● 无头模式 - 在没有交互提示的情况下自动化工作流
● 插件系统 - 用自定义插件扩展功能
● MCP - 用于增强集成的模型上下文协议
● Git 工作流 - 智能提交消息和分支管理

Neovate Code 特性

开放的 Claude Code
易于扩展
多客户端支持
Claude Code 是一个很棒的代码智能体,但它不是开源的,想要用上它还得费一番力气,同时默认情况下也无法与其他模型一起使用。Neovate Code 从 Claude Code 学到了很多,包括功能、配置等。基于此,我们添加了对所有流行模型和提供商的支持。所以如果你想要两者兼得,这是一个不错的选择。
Neovate Code 易于扩展。它有一个内置的插件系统,有很多钩子。你可以快速创建你自己的代码智能体,使用你自己的模型、功能、工具和其他集成。蚂蚁集团和快手等公司已经在使用它来构建自己的代码智能体。

项目地址: GitHub - neovateai/neovate-code: Neovate Code is a code agent to enhance your development. You can use it to generate code, fix bugs, review code, add tests, and more. You can run it in interactive mode or headless mode.

2 posts - 1 participant

Read full topic

via LINUX DO - 最新话题 (author: Chiu 先生)