AI探索指南
沉浸式翻译估计 AI 圈上人手一个了 前几天发现他们发了个新工具Babeldoc,支持在翻译 PDF 的时候保持文件的原始排版 试了一下真的很猛,超长超复杂 PDF 都没问题 主要是依然非常良心,我做了个相对详细的测试👇: 先来点低难度的常见的论文,一般都不会有非常复杂的排版,难点主要在图表和表格以及公式上。 比如常见的论文开头部分,像字节和 Meta 的论文都是这样,从标题到摘要部分到下面的图表都能对得上。 学术论文中很多数学公式、化学公式的排版非常复杂,以前如果周围有公式,那文字的排版就不太好保持了。…
FoKbfCuPi0jeY7mZpSfBHIgYG44xv3.png
1.2 MB
Pro 会员 则享有每⽉ 10000 ⻚ 额度,并接⼊ DeepSeek ⾼级翻译模型,带来更强⼤的翻译效果。
另外翻译好的谷歌提示词文档和斯坦福的人工智能指数报告可以在这里领取:http://pan.quark.cn/s/e5f5b4ac8147
另外翻译好的谷歌提示词文档和斯坦福的人工智能指数报告可以在这里领取:http://pan.quark.cn/s/e5f5b4ac8147
经常做自媒体的小伙伴们,水印移除一直是图片处理的难题,最近在 GitHub 又发现一款完全开源免费的 AI 水印移除工具:WatermarkRemover-AI。
经常做自媒体的小伙伴们,水印移除一直是图片处理的难题,最近发现一款完全开源免费的 AI 水印移除工具:WatermarkRemover-AI。
主要功能
• 支持多图批量处理:支持单张图片或整个文件夹批量去水印
• 提供精准水印识别:基于微软Florence-2视觉大模型,可识别各种样式水印
• 上下文感知修复:使用 LaMa inpainting 模型,实现“原图级”上下文感知图像填补
• 灵活配置支持:可设置水印最大尺寸、透明度灵敏度,适配不同图片
• 多格式输出:支持导出为 .png / .webp / .jpg
• GUI + 命令行双模式:提供图形界面操作和 CLI 脚本
• 无需 GPU 支持:在普通笔记本也能流畅运行,轻量级推理
GitHub:github.com/D-Ogi/WatermarkRemover-AI
经常做自媒体的小伙伴们,水印移除一直是图片处理的难题,最近发现一款完全开源免费的 AI 水印移除工具:WatermarkRemover-AI。
主要功能
• 支持多图批量处理:支持单张图片或整个文件夹批量去水印
• 提供精准水印识别:基于微软Florence-2视觉大模型,可识别各种样式水印
• 上下文感知修复:使用 LaMa inpainting 模型,实现“原图级”上下文感知图像填补
• 灵活配置支持:可设置水印最大尺寸、透明度灵敏度,适配不同图片
• 多格式输出:支持导出为 .png / .webp / .jpg
• GUI + 命令行双模式:提供图形界面操作和 CLI 脚本
• 无需 GPU 支持:在普通笔记本也能流畅运行,轻量级推理
GitHub:github.com/D-Ogi/WatermarkRemover-AI
瞎聊,
人形机器人,「错在」人形…
变相金刚里面,各种形态的机器人,
可以做到人类无法介入的形式,
那才是机器的优势,
人这个框架形态,
在远古进化中成了这个「最有效」,
但是,工业化和未来的世界,
身形最佳的「人」,应该不是这副躯体模样吧…
人形机器人,「错在」人形…
变相金刚里面,各种形态的机器人,
可以做到人类无法介入的形式,
那才是机器的优势,
人这个框架形态,
在远古进化中成了这个「最有效」,
但是,工业化和未来的世界,
身形最佳的「人」,应该不是这副躯体模样吧…
我去!来了朋友们,4o 图片生成 API 上线
哥几个的提示词价值再次上升了
名字叫 gpt-image-1,4o相关的功能有两个
Generations: 根据文本提示从零开始生成图像
编辑:使用新的提示词修改现有图像,可以是部分或全部修改
支持尺寸自定义、质量自定义和 alpha 通道输出
详细信息:https://platform.openai.com/docs/guides/image-generation?image-generation-model=gpt-image-1
哥几个的提示词价值再次上升了
名字叫 gpt-image-1,4o相关的功能有两个
Generations: 根据文本提示从零开始生成图像
编辑:使用新的提示词修改现有图像,可以是部分或全部修改
支持尺寸自定义、质量自定义和 alpha 通道输出
详细信息:https://platform.openai.com/docs/guides/image-generation?image-generation-model=gpt-image-1
This media is not supported in your browser
VIEW IN TELEGRAM
妈的 Gemini 2.5 Pro 代码潜力无限啊
针对性优化了一下我的提示词,看看这动画和这个排版
是不是有苹果的味道了,还有这个数据可视化
针对性优化了一下我的提示词,看看这动画和这个排版
是不是有苹果的味道了,还有这个数据可视化
非程序员,目前用的AI 编程工作流
需求分析/技术方案阶段:
1、gpt需求分析:
首先发散(7个维度):和gpt充分沟通7个维度:用户,场景,当前痛点,当前方案,频度,广度,深度,然后生成尽可能多的功能点需求
其次收敛(33原则):按照每次开发最多只做3个核心需求,每个功能最多只做3个功能点
2、gpt生成文档:prd.md / erd.md / todolist.md(供 Cursor 用)
产品需求文档 prd.md
工程结构和数据结构设计文档 erd.md
开发代办列表 todolist.md
正式开发阶段:
3、Cursor 执行开发任务 1,严格按 todolist.md 开始, 每完成一个任务后同时更新todolist.md 和cursorlog.md
4、Cursor开发过程中,第一次要输入详细prompt,后续可以简化,每个任务开发完成后做2件事情
a,观察todolist和cursorlog是否正常更新,没有就是跑偏了,立刻回滚,然后输入详细prompt重新生成。
b,如果todolist和cursorlog正常更新,则做一下测试,验证当前完成的开发是否符合产品预期,如果符合就继续开发下一个任务,否则就回去改bug。
直到全部完成
5、全部完成后,需要的话,可以把代码打包丢给gpt,让它做code review,再看要不要继续优化下
6、全部跑通后 输出 Changelog + Git 封版
今天回归第一天,看到前面有评论提到这个,正好说下我目前用的办法
还在持续迭代中,如果有更好的方式,求大佬不吝指点
需求分析/技术方案阶段:
1、gpt需求分析:
首先发散(7个维度):和gpt充分沟通7个维度:用户,场景,当前痛点,当前方案,频度,广度,深度,然后生成尽可能多的功能点需求
其次收敛(33原则):按照每次开发最多只做3个核心需求,每个功能最多只做3个功能点
2、gpt生成文档:prd.md / erd.md / todolist.md(供 Cursor 用)
产品需求文档 prd.md
工程结构和数据结构设计文档 erd.md
开发代办列表 todolist.md
正式开发阶段:
3、Cursor 执行开发任务 1,严格按 todolist.md 开始, 每完成一个任务后同时更新todolist.md 和cursorlog.md
4、Cursor开发过程中,第一次要输入详细prompt,后续可以简化,每个任务开发完成后做2件事情
a,观察todolist和cursorlog是否正常更新,没有就是跑偏了,立刻回滚,然后输入详细prompt重新生成。
b,如果todolist和cursorlog正常更新,则做一下测试,验证当前完成的开发是否符合产品预期,如果符合就继续开发下一个任务,否则就回去改bug。
直到全部完成
5、全部完成后,需要的话,可以把代码打包丢给gpt,让它做code review,再看要不要继续优化下
6、全部跑通后 输出 Changelog + Git 封版
今天回归第一天,看到前面有评论提到这个,正好说下我目前用的办法
还在持续迭代中,如果有更好的方式,求大佬不吝指点
⭕ 善用 AI 提问的四步走
---
1. 明确你正在从事或想要从事的某个领域。
2. 列出这个领域的关键概念,先穷举,然后从中筛选出最重要的一批,比如 20 个。
3. 用概念 × 5W2H,生成一系列问题。
4. 拿这些问题挨个问 AI。其中同一个概念的问题,可以放在一组对话中,便于深入这个概念。
举个例子:
1. 定一个领域:个人 IP
2. 《纳瓦尔宝典》中提到了“杠杆”这个概念,对个人 IP 来说,属于关键概念之一。
3. 5W2H 中的 how much × 杠杆,可以得出一个问题“现代社会中,个体发展要学会借助杠杆,比如媒体是杠杆,代码是杠杆,还有哪些杠杆,列 30 个杠杆给我,每个简述理由”。
4. 拿这个问题去问 AI,开启深度思考。
如果你不知道某个领域的关键概念有哪些,可以把领域告诉 AI,让它列一批概念,你根据自己的了解来选。
如果你不知道自己要从事什么领域,可以把你的经历、能力、资源、梦想、目标、限制条件说给 AI 听,让它来帮你选定领域。
这样做的好处是:领域是你在做的,概念是关键的,问题是与你息息相关的,处理问题的 AI 是强大的,所以,据此得到的答案,是强大的 AI 为你手头在做的领域生成的关键的、与你息息相关的内容。你会直接感受到 AI 对你的帮助。
---
1. 明确你正在从事或想要从事的某个领域。
2. 列出这个领域的关键概念,先穷举,然后从中筛选出最重要的一批,比如 20 个。
3. 用概念 × 5W2H,生成一系列问题。
4. 拿这些问题挨个问 AI。其中同一个概念的问题,可以放在一组对话中,便于深入这个概念。
举个例子:
1. 定一个领域:个人 IP
2. 《纳瓦尔宝典》中提到了“杠杆”这个概念,对个人 IP 来说,属于关键概念之一。
3. 5W2H 中的 how much × 杠杆,可以得出一个问题“现代社会中,个体发展要学会借助杠杆,比如媒体是杠杆,代码是杠杆,还有哪些杠杆,列 30 个杠杆给我,每个简述理由”。
4. 拿这个问题去问 AI,开启深度思考。
如果你不知道某个领域的关键概念有哪些,可以把领域告诉 AI,让它列一批概念,你根据自己的了解来选。
如果你不知道自己要从事什么领域,可以把你的经历、能力、资源、梦想、目标、限制条件说给 AI 听,让它来帮你选定领域。
这样做的好处是:领域是你在做的,概念是关键的,问题是与你息息相关的,处理问题的 AI 是强大的,所以,据此得到的答案,是强大的 AI 为你手头在做的领域生成的关键的、与你息息相关的内容。你会直接感受到 AI 对你的帮助。
做具身的公司吐槽:
我们客户看了些媒体稿,也都知道“泛化”了,问我们能不能迁移。
又看了些友商放出来的演示视频,问我们这些能不能搞。
从业者都被误导,更何况吃瓜群众。有个家办朋友来问我,说珞石老股不到30e,拿到绿通要上科创,能不能接。我一看去年都还是亏着的,今年凭什么就要盈利8000万,这跟大跃进有什么区别 ,再一看teaser,堂而皇之的也叫自己“具身智能公司”。
机器人这波热度还要持续多久呢,没意思。
我们客户看了些媒体稿,也都知道“泛化”了,问我们能不能迁移。
又看了些友商放出来的演示视频,问我们这些能不能搞。
从业者都被误导,更何况吃瓜群众。有个家办朋友来问我,说珞石老股不到30e,拿到绿通要上科创,能不能接。我一看去年都还是亏着的,今年凭什么就要盈利8000万,这跟大跃进有什么区别 ,再一看teaser,堂而皇之的也叫自己“具身智能公司”。
机器人这波热度还要持续多久呢,没意思。
更有某当红公司老板大言不惭:“我对人形机器人还是比较乐观的.....以后在家里可以给宠物喂食喂水。”
哎不是...这例子真的合适吗...
什么都干,忙的过来吗,以后干脆叫分身智能好了。
哎不是...这例子真的合适吗...
什么都干,忙的过来吗,以后干脆叫分身智能好了。