开源:MinerU → RAG 数据集转换工具
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
● 我的帖子已经打上 开源推广 标签: 是
● 我的开源项目完整开源,无未开源部分: 是
● 我的开源项目已链接认可 LINUX DO 社区: 是
● 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
● 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
----------------------
之前一直在苦恼怎么建立一个自己的数据库,office 文档用传统的 RAG 模型已经可以很好处理了,但 PDF 一直无法很好梳理。
偶然间看到了 MinerU 这个开源项目,能够完美解析 PDF 的各种格式,我试了一下的确很好用。最终输出的是一堆零散的文件,包括 json,md 等等。
这些文件结合 MinerU 客户端展示效果很完美,但如果单独把 json 或者 md 送去知识库再通过 RAG 效果都不会很好。主要是两点原因:
1. 文档包含了很多无用的 HTML 信息以及用于内联的各种连接。然而传统 RAG 只能识别文字,不能再通过这些连接来去串联各种信息。
2. MinerU 自身的输出格式很标准,但有一些标记和符号对于 RAG 模型来说反而是噪声。
因此就制作了这个脚本,或者说 Skill 吧。效果很简单,就是通过脚本把 MinerU 生成的各类文件再进行一轮解析和拼接,删繁就简,最大效率提高后面 RAG 接手的效率。
Github 地址如下:GitHub - frondesce/mineru-kb-packager: Convert MinerU outputs into clean, retrieval-ready datasets for RAG pipelines. · GitHub
安装的话,给 AI 直接把地址,后面接一句帮我安装这个 skill 就好了。
3 个帖子 - 3 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: frondesce)
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
● 我的帖子已经打上 开源推广 标签: 是
● 我的开源项目完整开源,无未开源部分: 是
● 我的开源项目已链接认可 LINUX DO 社区: 是
● 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
● 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
----------------------
之前一直在苦恼怎么建立一个自己的数据库,office 文档用传统的 RAG 模型已经可以很好处理了,但 PDF 一直无法很好梳理。
偶然间看到了 MinerU 这个开源项目,能够完美解析 PDF 的各种格式,我试了一下的确很好用。最终输出的是一堆零散的文件,包括 json,md 等等。
这些文件结合 MinerU 客户端展示效果很完美,但如果单独把 json 或者 md 送去知识库再通过 RAG 效果都不会很好。主要是两点原因:
1. 文档包含了很多无用的 HTML 信息以及用于内联的各种连接。然而传统 RAG 只能识别文字,不能再通过这些连接来去串联各种信息。
2. MinerU 自身的输出格式很标准,但有一些标记和符号对于 RAG 模型来说反而是噪声。
因此就制作了这个脚本,或者说 Skill 吧。效果很简单,就是通过脚本把 MinerU 生成的各类文件再进行一轮解析和拼接,删繁就简,最大效率提高后面 RAG 接手的效率。
Github 地址如下:GitHub - frondesce/mineru-kb-packager: Convert MinerU outputs into clean, retrieval-ready datasets for RAG pipelines. · GitHub
安装的话,给 AI 直接把地址,后面接一句帮我安装这个 skill 就好了。
3 个帖子 - 3 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: frondesce)
问一下,chatgpt申请的free号,除了放到CPA里给codex用,还能不能用于chat?
用古法申请了几个hotmail邮箱,然后申请了chatgpt号,放到CPA里给codex用.
有没有类似的CPA工具,可以用于chat?也就是可以支持message的格式.
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: digiplanets)
用古法申请了几个hotmail邮箱,然后申请了chatgpt号,放到CPA里给codex用.
有没有类似的CPA工具,可以用于chat?也就是可以支持message的格式.
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: digiplanets)
Gemini web 一直处于用量高峰期
从下午开始到现在一直是这样,想问点VPS的问题都不行。
好像也是从今天开始的,以前都没见过,Pro号。
大家也是这样吗?
Pro 目前处于用量高峰期
此回答使用了其他模型。这不会占用你的限额。
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: NullInstance)
从下午开始到现在一直是这样,想问点VPS的问题都不行。
好像也是从今天开始的,以前都没见过,Pro号。
大家也是这样吗?
Pro 目前处于用量高峰期
此回答使用了其他模型。这不会占用你的限额。
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: NullInstance)
aistupidlevel.info 这网站可信度多高?
这不是 快问快答 ,需要对该信息源进行更长期地评估。
我从哪里知道的?Claude 官方降智解决办法 - #12,来自 apparition
附链接:AI Stupid Level - Benchmark Tool
AI Benchmark Tool - Best AI Models 2026 | Compare Claude vs GPT vs Gemini
Ultimate AI benchmarking tool for 2026. Test AI performance, compare AI models, and find the best AI for coding. Real-time AI benchmark results and LLM performance tests.
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 知道)
这不是 快问快答 ,需要对该信息源进行更长期地评估。
我从哪里知道的?Claude 官方降智解决办法 - #12,来自 apparition
附链接:AI Stupid Level - Benchmark Tool
AI Benchmark Tool - Best AI Models 2026 | Compare Claude vs GPT vs Gemini
Ultimate AI benchmarking tool for 2026. Test AI performance, compare AI models, and find the best AI for coding. Real-time AI benchmark results and LLM performance tests.
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 知道)
Gemini CLI PRO账号用不了?
怎么现在Pro账号Gemini CLI不能使用了?有佬友解惑吗
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 上善若水)
怎么现在Pro账号Gemini CLI不能使用了?有佬友解惑吗
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 上善若水)
站内有没有自动抽奖与自动发放奖品的工具
佬友们,咨询一下,有没有什么工具,到抽奖截止时间,可以自动抽奖,并公布名单,还有有没有什么工具,可以自动给对应中奖者发放对应奖品;
这个奖品个数过多的话,实在太煎熬了,需要一个一个去对,还怕发错人,有点费眼。
4 个帖子 - 4 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: Pet-mini)
佬友们,咨询一下,有没有什么工具,到抽奖截止时间,可以自动抽奖,并公布名单,还有有没有什么工具,可以自动给对应中奖者发放对应奖品;
这个奖品个数过多的话,实在太煎熬了,需要一个一个去对,还怕发错人,有点费眼。
4 个帖子 - 4 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: Pet-mini)
目前最快最舒服的GLM-5.1渠道是什么?
官方订阅抢不到,抢到了也非常卡,太慢了
有没有更好的Coding Plan?
4 个帖子 - 3 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: HitC)
官方订阅抢不到,抢到了也非常卡,太慢了
有没有更好的Coding Plan?
4 个帖子 - 3 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: HitC)
请教佬友们关于之前那段时间白嫖的ChatGPT的问题
请教佬友们,关于前段时间白嫖到的ChatGPT,渠道是最火的那段时间,也就是bing哥哥的ChatGPT Plus一年,最近的现象是电脑Win11上chome网页端一直是4.1的模型,手机iOS上每次提问都是5.4,同一个小鸡,佬友们知道是啥问题吗?😭
3 个帖子 - 2 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: LX)
请教佬友们,关于前段时间白嫖到的ChatGPT,渠道是最火的那段时间,也就是bing哥哥的ChatGPT Plus一年,最近的现象是电脑Win11上chome网页端一直是4.1的模型,手机iOS上每次提问都是5.4,同一个小鸡,佬友们知道是啥问题吗?😭
3 个帖子 - 2 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: LX)
qq邮箱白嫖的ChatGPT Team好像登录不了Codex?
刚刚用一个 QQ 邮箱白嫖了一个 ChatGPT 的 Team 账号。
但我准备用 Codex App 登录的时候,发现提示错误。
老友们知道这个错误有办法解决吗?
或者像这种用 QQ 邮箱注册的 Team 账号要如何使用?
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: Tiger)
刚刚用一个 QQ 邮箱白嫖了一个 ChatGPT 的 Team 账号。
但我准备用 Codex App 登录的时候,发现提示错误。
老友们知道这个错误有办法解决吗?
或者像这种用 QQ 邮箱注册的 Team 账号要如何使用?
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: Tiger)
Mac有办法做到长按某个键自动切换到豆包输入法吗
我现在 Mac 上用的输入法是 Fcitx5 小企鹅输入法,然后语音输入法用的是内测的豆包输入法,但是豆包输入法它不支持双拼和五笔,所以每次我要手动输入的时候,就得 CapsLock 切换到小企鹅输入法之后才能输入。
豆包输入法现在的触发键是长按左 Option 可以语音输入。有没有什么办法可以让我在输入法是小企鹅输入法的时候,长按左 Option 就可以语音输入?或者长按其他的按键就可以直接语音输入松开之后就自动切换回小企鹅输入法的?
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 木瓜蛋白酶Tea🎋)
我现在 Mac 上用的输入法是 Fcitx5 小企鹅输入法,然后语音输入法用的是内测的豆包输入法,但是豆包输入法它不支持双拼和五笔,所以每次我要手动输入的时候,就得 CapsLock 切换到小企鹅输入法之后才能输入。
豆包输入法现在的触发键是长按左 Option 可以语音输入。有没有什么办法可以让我在输入法是小企鹅输入法的时候,长按左 Option 就可以语音输入?或者长按其他的按键就可以直接语音输入松开之后就自动切换回小企鹅输入法的?
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 木瓜蛋白酶Tea🎋)
CoreWeave 宣布与 Anthropic 签订多年期协议
coreweave.com
CoreWeave Announces Multi-Year Agreement With Anthropic
CoreWeave announces a multi-year deal with Anthropic to power Claude AI models, expanding scalable, high-performance infrastructure for enterprise AI deployment
https://www.bloomberg.com/news/articles/2026-04-10/anthropic-agrees-to-rent-coreweave-ai-capacity-to-power-claude
https://www.investors.com/news/technology/coreweave-stock-crwv-anthropic-cloud-computing-ai-agreement/
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 🐟)
coreweave.com
CoreWeave Announces Multi-Year Agreement With Anthropic
CoreWeave announces a multi-year deal with Anthropic to power Claude AI models, expanding scalable, high-performance infrastructure for enterprise AI deployment
https://www.bloomberg.com/news/articles/2026-04-10/anthropic-agrees-to-rent-coreweave-ai-capacity-to-power-claude
https://www.investors.com/news/technology/coreweave-stock-crwv-anthropic-cloud-computing-ai-agreement/
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: 🐟)
现在的GPT FREE号 + superpowers要多慢有多慢
奥特曼,吃我一击吧 😡
10 个帖子 - 8 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: nianzhibai)
奥特曼,吃我一击吧 😡
10 个帖子 - 8 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: nianzhibai)
gpt(codex)pro有什么车吗,便宜稳定的。
codex pro 100刀什么渠道价格,想进一个了。目前free账号不好用,使用hotmail 和接码都要花钱,公益站也不爽,时间上不如直接gpt pro了,求问价格便宜稳定的渠道,有佬友有路子可以
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: leonsong)
codex pro 100刀什么渠道价格,想进一个了。目前free账号不好用,使用hotmail 和接码都要花钱,公益站也不爽,时间上不如直接gpt pro了,求问价格便宜稳定的渠道,有佬友有路子可以
1 个帖子 - 1 位参与者
阅读完整话题
via LINUX DO - 最新话题 (author: leonsong)