#Google #Gemini #AI #Agent
⭐️ Google 推出开源 AI 开发工具「Gemini CLI」
⭐️ 开源页面
Gemini CLI 与目前市面上的 AI 编程工具最大的区别是,它提供了业界最大的免费额度:每分钟 60 次请求,每天 1000 次请求,几乎等于完全免费
它支持处理超过 100 万 token 的代码上下文,也就是说你可以用于分析大型代码库。还支持生成多模态内容、工作流自动化、媒体生成集成、实时搜索、MCP等功能
⭐️ Google 推出开源 AI 开发工具「Gemini CLI」
⭐️ 开源页面
Gemini CLI 与目前市面上的 AI 编程工具最大的区别是,它提供了业界最大的免费额度:每分钟 60 次请求,每天 1000 次请求,几乎等于完全免费
它支持处理超过 100 万 token 的代码上下文,也就是说你可以用于分析大型代码库。还支持生成多模态内容、工作流自动化、媒体生成集成、实时搜索、MCP等功能
Google
Gemini CLI: your open-source AI agent
Free and open source, Gemini CLI brings Gemini directly into developers’ terminals — with unmatched access for individuals.
#prompt #AI
🔗 Prompt Optimizer - 一个开源的提示词优化工具
输入提示词就可以开始优化,支持多个 AI 大模型,可直观查看、对比提示词优化
支持在线使用、Chrome 插件、Vercel部署、Docker部署
📑相关阅读
PromptPilot - 字节跳动推出的 AI 提示词优化工具
🔗 Prompt Optimizer - 一个开源的提示词优化工具
输入提示词就可以开始优化,支持多个 AI 大模型,可直观查看、对比提示词优化
支持在线使用、Chrome 插件、Vercel部署、Docker部署
📑相关阅读
PromptPilot - 字节跳动推出的 AI 提示词优化工具
GitHub
GitHub - linshenkx/prompt-optimizer: An AI prompt optimizer for writing better prompts and getting better AI results.
An AI prompt optimizer for writing better prompts and getting better AI results. - linshenkx/prompt-optimizer
#开源 #抓包 #工具
🔗 ProxyPin - 开源免费抓包工具
您可以使用它来拦截、检查和重写 HTTP(S) 流量,支持手机扫码连接、域名过滤、搜索、请求重写等功能
支持Windows、Mac、Android、IOS、Linux 全平台系统
🔗 ProxyPin - 开源免费抓包工具
您可以使用它来拦截、检查和重写 HTTP(S) 流量,支持手机扫码连接、域名过滤、搜索、请求重写等功能
支持Windows、Mac、Android、IOS、Linux 全平台系统
GitHub
proxypin/README_CN.md at main · wanghongenpin/proxypin
Open source free capture HTTP(S) traffic software ProxyPin, supporting full platform systems - wanghongenpin/proxypin
刘飞·怎样用AI绘画
描述:这门课不要求你有绘画基础更不需要你了解美术史、设计史。因为对于AI绘图来说,目前最主流的交互方式就是自然语言,你只要懂得如何输入文字,就可以轻松掌握AI绘画
链接:https://www.alipan.com/s/jHJa4s67Xax
📁 大小:NG
🏷 标签:#学习 #知识 #课程 #资源 #刘飞·怎样用AI绘画 #ali
描述:这门课不要求你有绘画基础更不需要你了解美术史、设计史。因为对于AI绘图来说,目前最主流的交互方式就是自然语言,你只要懂得如何输入文字,就可以轻松掌握AI绘画
链接:https://www.alipan.com/s/jHJa4s67Xax
📁 大小:NG
🏷 标签:#学习 #知识 #课程 #资源 #刘飞·怎样用AI绘画 #ali
腾讯云 CDN EdgeOne 现在无需兑换码即可获得免费套餐
无论用户此前是否有免费套餐,都可以通过分享测速结果再获得两个免费套餐。
完成测速后,点击 X 和 Facebook 图标即可快速分享 —— 每成功分享到一个平台,回到现在的活动页即可获得一个免费套餐,每个平台仅可获得一次,重复分享不再额外获得。套餐将直接下发至账户,无需使用兑换码,可在 EdgeOne 控制台的"计费管理" > "套餐管理"下查看免费套餐。
活动地址:https://edgeone.ai/zh/get-free-plan
腾讯云于6月中旬推出了有限名额的内测活动,当时仅有少数人获得了兑换码。
[消息等级 Level C2 · 简要]
无论用户此前是否有免费套餐,都可以通过分享测速结果再获得两个免费套餐。
完成测速后,点击 X 和 Facebook 图标即可快速分享 —— 每成功分享到一个平台,回到现在的活动页即可获得一个免费套餐,每个平台仅可获得一次,重复分享不再额外获得。套餐将直接下发至账户,无需使用兑换码,可在 EdgeOne 控制台的"计费管理" > "套餐管理"下查看免费套餐。
活动地址:https://edgeone.ai/zh/get-free-plan
腾讯云于6月中旬推出了有限名额的内测活动,当时仅有少数人获得了兑换码。
[消息等级 Level C2 · 简要]
Tencent EdgeOne
Speed Test to Grab More EdgeOneFree Plans
EdgeOne Free plan campaign upgraded! No redemption codes needed/Instant activation/Claim multiple plans. Test global edge node speed & share results to get free plans!
阿里发布的 WebAgent 系列,打造面向信息检索的多智能体生态,推动下一代自主信息寻求技术革新 | link
核心产品:WebWalker(ACL 2025 论文)、WebDancer、WebSailor、WebShaper,覆盖从基准测试到复杂推理的全链路能力
• WebShaper:基于信息寻求任务形式化,提出数据合成新方法,刷新 GAIA(60.19)与 WebWalkerQA(52.50)等多个基准最高成绩
• WebSailor:创新后训练策略与强化学习(DUPO),突破超复杂信息检索任务,性能接近商业顶尖系统
• WebDancer:采用 ReAct 框架,构建原生自主搜索推理模型,融合轨迹级监督与强化学习,实现高效冷启动与泛化能力
• WebWalker:为大语言模型设计的 Web 遍历基准和多智能体框架,助力评测与提升网络信息寻求能力
• 生态配套:多阶段训练范式、丰富演示视频、多平台一键部署(含阿里云 FunctionAI),支持快速上手和深度研究
• 长期价值:系统化构建信息寻求代理模型,强调任务形式化与代理智能的内在结合,具备跨任务泛化和行业应用潜力
核心产品:WebWalker(ACL 2025 论文)、WebDancer、WebSailor、WebShaper,覆盖从基准测试到复杂推理的全链路能力
• WebShaper:基于信息寻求任务形式化,提出数据合成新方法,刷新 GAIA(60.19)与 WebWalkerQA(52.50)等多个基准最高成绩
• WebSailor:创新后训练策略与强化学习(DUPO),突破超复杂信息检索任务,性能接近商业顶尖系统
• WebDancer:采用 ReAct 框架,构建原生自主搜索推理模型,融合轨迹级监督与强化学习,实现高效冷启动与泛化能力
• WebWalker:为大语言模型设计的 Web 遍历基准和多智能体框架,助力评测与提升网络信息寻求能力
• 生态配套:多阶段训练范式、丰富演示视频、多平台一键部署(含阿里云 FunctionAI),支持快速上手和深度研究
• 长期价值:系统化构建信息寻求代理模型,强调任务形式化与代理智能的内在结合,具备跨任务泛化和行业应用潜力
GitHub
GitHub - Alibaba-NLP/DeepResearch: Tongyi Deep Research, the Leading Open-source Deep Research Agent
Tongyi Deep Research, the Leading Open-source Deep Research Agent - Alibaba-NLP/DeepResearch
生成同步字幕的高质量有声书,支持 EPUB、PDF 及纯文本一键转换。
• 支持多平台(Windows、Mac、Linux)安装,自动配置 Python 和 CUDA,兼容主流 GPU(NVIDIA,Linux 下部分支持 AMD)。
• 采用 Kokoro-82M 语音合成模型,音质自然,支持美式、英式、中文等多语种,具备自定义混音调节功能。
• 内置字幕生成,支持按句子、词数分割,输出多种音频格式(MP3、WAV、FLAC、OPUS、M4B含章节)。
• 支持章节标记与元数据编辑,方便分章节保存与管理,批量队列处理提升工作效率。
• 提供命令行与 GUI 双模式,Docker 容器化部署,适合内容创作者、播客、短视频配音等多场景应用。
• 丰富配置选项:语速调节、个性化声音预听、字幕格式选择、缓存管理、主题切换(含暗黑模式规划)。
• 社区活跃,开源 MIT 授权,支持贡献代码,持续迭代功能,致力于打造高效便捷的有声内容生成工具。
从文本到音频的本质是“内容表达的多模态转换”,Abogen通过精准时间戳同步字幕,解决了传统 TTS 缺乏视觉辅助的问题,极大提升了听觉与视觉的结合体验,赋能内容消费和创作的双重升级。
abogen | #生成器
• 支持多平台(Windows、Mac、Linux)安装,自动配置 Python 和 CUDA,兼容主流 GPU(NVIDIA,Linux 下部分支持 AMD)。
• 采用 Kokoro-82M 语音合成模型,音质自然,支持美式、英式、中文等多语种,具备自定义混音调节功能。
• 内置字幕生成,支持按句子、词数分割,输出多种音频格式(MP3、WAV、FLAC、OPUS、M4B含章节)。
• 支持章节标记与元数据编辑,方便分章节保存与管理,批量队列处理提升工作效率。
• 提供命令行与 GUI 双模式,Docker 容器化部署,适合内容创作者、播客、短视频配音等多场景应用。
• 丰富配置选项:语速调节、个性化声音预听、字幕格式选择、缓存管理、主题切换(含暗黑模式规划)。
• 社区活跃,开源 MIT 授权,支持贡献代码,持续迭代功能,致力于打造高效便捷的有声内容生成工具。
从文本到音频的本质是“内容表达的多模态转换”,Abogen通过精准时间戳同步字幕,解决了传统 TTS 缺乏视觉辅助的问题,极大提升了听觉与视觉的结合体验,赋能内容消费和创作的双重升级。
abogen | #生成器
GitHub
GitHub - denizsafak/abogen: Generate audiobooks from EPUBs, PDFs and text with synchronized captions.
Generate audiobooks from EPUBs, PDFs and text with synchronized captions. - denizsafak/abogen
企业级 AI 编程助手 MonkeyCode,聚焦研发效率与代码安全的深度融合:
• 私有化离线部署,保障代码隐私,彻底避免代码外泄风险
• 兼容第三方及本地大模型,灵活适配多场景 AI 能力扩展
• 企业级管理面板,支持 AI 编程行为的严格审计与管控,提升团队协作安全性
• 内置代码安全扫描引擎,自动发现 AI 生成代码中的潜在安全漏洞,守护代码质量
• 智能代码补全与自然语言编程,理解上下文精准补全,助力快速开发与自动化文档生成
• 基于 Roo Code 插件优化,极致用户体验,轻松集成 VS Code 开发环境
MonkeyCode 将 AI 编程助手从单一工具升级为全方位的研发管理平台,深刻洞察企业级研发的隐私、效率与安全痛点,打造长远可持续的智能研发生态。
#资源参考 #工具 #AI编程助手
• 私有化离线部署,保障代码隐私,彻底避免代码外泄风险
• 兼容第三方及本地大模型,灵活适配多场景 AI 能力扩展
• 企业级管理面板,支持 AI 编程行为的严格审计与管控,提升团队协作安全性
• 内置代码安全扫描引擎,自动发现 AI 生成代码中的潜在安全漏洞,守护代码质量
• 智能代码补全与自然语言编程,理解上下文精准补全,助力快速开发与自动化文档生成
• 基于 Roo Code 插件优化,极致用户体验,轻松集成 VS Code 开发环境
MonkeyCode 将 AI 编程助手从单一工具升级为全方位的研发管理平台,深刻洞察企业级研发的隐私、效率与安全痛点,打造长远可持续的智能研发生态。
#资源参考 #工具 #AI编程助手
GitHub
GitHub - chaitin/MonkeyCode: 企业级 AI 编程助手,专为 研发协作 和 研发管理 场景而设计。
企业级 AI 编程助手,专为 研发协作 和 研发管理 场景而设计。. Contribute to chaitin/MonkeyCode development by creating an account on GitHub.
DeepCode:开源多智能体代码生成平台,助力科研与开发效率革新
• 论文到代码(Paper2Code):自动解析复杂算法,快速生成高质量生产级实现,极大缩短科研复现周期
• 文本到前端(Text2Web):自然语言描述自动转化为美观响应式网页界面,支持拖拽操作,适用多层次用户
• 文本到后端(Text2Backend):根据需求文本一键生成高性能后端服务,涵盖数据库、API及扩展组件
• 多代理架构:智能调度意图理解、文档解析、代码规划与生成,动态适配不同任务复杂度,实现端到端自动化
• 深度代码理解与检索(CodeRAG):跨代码库语义分析与依赖图构建,自动推荐最佳实现方案和依赖库
• 质量保障自动化:集成静态分析、单元测试生成、文档合成,确保代码可靠性和维护性
• 丰富接口支持:提供CLI与现代Web界面,支持实时代码流、调试及CI/CD集成,满足专业开发需求
• 快速上手:pip安装+配置,支持Windows及多平台,内置Brave与Bocha搜索服务,方便代码和文档检索
DeepCode以多智能体系统为核心,将复杂学术内容和自然语言无缝转化为高质量代码,跳脱传统重复劳动瓶颈,推动研究与开发从“实现”到“创新”的质变。长期来看,平台的架构与自动化能力代表了未来软件开发的主流趋势。
• 论文到代码(Paper2Code):自动解析复杂算法,快速生成高质量生产级实现,极大缩短科研复现周期
• 文本到前端(Text2Web):自然语言描述自动转化为美观响应式网页界面,支持拖拽操作,适用多层次用户
• 文本到后端(Text2Backend):根据需求文本一键生成高性能后端服务,涵盖数据库、API及扩展组件
• 多代理架构:智能调度意图理解、文档解析、代码规划与生成,动态适配不同任务复杂度,实现端到端自动化
• 深度代码理解与检索(CodeRAG):跨代码库语义分析与依赖图构建,自动推荐最佳实现方案和依赖库
• 质量保障自动化:集成静态分析、单元测试生成、文档合成,确保代码可靠性和维护性
• 丰富接口支持:提供CLI与现代Web界面,支持实时代码流、调试及CI/CD集成,满足专业开发需求
• 快速上手:pip安装+配置,支持Windows及多平台,内置Brave与Bocha搜索服务,方便代码和文档检索
DeepCode以多智能体系统为核心,将复杂学术内容和自然语言无缝转化为高质量代码,跳脱传统重复劳动瓶颈,推动研究与开发从“实现”到“创新”的质变。长期来看,平台的架构与自动化能力代表了未来软件开发的主流趋势。
GitHub
GitHub - HKUDS/DeepCode: "DeepCode: Open Agentic Coding (Paper2Code & Text2Web & Text2Backend)"
"DeepCode: Open Agentic Coding (Paper2Code & Text2Web & Text2Backend)" - HKUDS/DeepCode
HuggingFace 推出9门全免费开源AI课程,涵盖大模型、智能代理、视觉、3D、音频、游戏等前沿领域,助力从入门到进阶的系统化学习。
• LLM课程:快速掌握大语言模型训练、微调与部署,适合文本处理与聊天机器人开发者。
• Agent课程:基于LangChain+HF构建多步推理AI代理,面向智能工具开发者。
• 深度强化学习:训练智能体自主决策,适合游戏开发、机器人和前沿研究者。
• 计算机视觉:目标检测、分割、分类全覆盖,服务图像领域创业者和研究人员。
• 音频课程:声音信号处理,语音识别与合成应用,面向音频AI工程师。
• 游戏机器学习:NPC行为与程序生成,打造更智能的游戏世界。
• 3D机器学习:点云与网格数据处理,助力AR/VR和机器人领域创新。
• 扩散模型:揭秘DALL·E和Stable Diffusion图像生成技术,适合创意与研究。
• 开源AI实战:丰富笔记本合集,实操代码示范,适用所有AI爱好者。
#资源参考 #AI #教程 #免费AI课程
• LLM课程:快速掌握大语言模型训练、微调与部署,适合文本处理与聊天机器人开发者。
• Agent课程:基于LangChain+HF构建多步推理AI代理,面向智能工具开发者。
• 深度强化学习:训练智能体自主决策,适合游戏开发、机器人和前沿研究者。
• 计算机视觉:目标检测、分割、分类全覆盖,服务图像领域创业者和研究人员。
• 音频课程:声音信号处理,语音识别与合成应用,面向音频AI工程师。
• 游戏机器学习:NPC行为与程序生成,打造更智能的游戏世界。
• 3D机器学习:点云与网格数据处理,助力AR/VR和机器人领域创新。
• 扩散模型:揭秘DALL·E和Stable Diffusion图像生成技术,适合创意与研究。
• 开源AI实战:丰富笔记本合集,实操代码示范,适用所有AI爱好者。
#资源参考 #AI #教程 #免费AI课程
huggingface.co
Hugging Face - Learn
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤1
PentAGI:面向信息安全的全自动AI渗透测试系统,集成多智能体与专业工具,打造高效且可控的安全自动化平台。
• 🛡 完全隔离的Docker沙箱环境,保障操作安全无干扰
• 🤖 AI驱动的自主智能体,自动规划与执行渗透测试流程
• 🔧 内置20+安全利器,如nmap、metasploit、sqlmap等,覆盖多维攻击面
• 🧠 智能记忆管理,长效存储测试结果与成功策略,持续优化测试效率
• 🌐 多渠道信息收集,支持网页爬虫及多种搜索引擎API(Google、DuckDuckGo等)
• 👥 多智能体协作,分工明确涵盖研究、开发与基础设施
• 📊 实时监控与日志集成Grafana/Prometheus,确保系统透明可控
• 📝 自动生成详尽漏洞报告,附带利用指导,助力风险评估与修复
• ⚙️ 支持REST/GraphQL API,轻松集成企业安全生态
• 🏗 微服务架构,支持横向扩展,满足生产环境高可用需求
• 🔑 灵活认证与多LLM提供商支持(OpenAI、Anthropic等),可自定义部署
• 🚀 一键Docker Compose快速部署,适用多平台环境
• 🧪 丰富测试工具(ctester、ftester、etester)保障AI代理性能与功能精准
• 🏠 完全自托管,数据自主可控,符合安全合规要求
PentAGI不仅是工具,更是一套完整的安全测试方法论:
- 通过智能分工提升渗透效率,降低人为误差
- 持续记忆与知识积累,打造动态适应的安全防线
- 结合多模态信息采集,实现全面威胁洞察
- 开放架构与高扩展性,适配未来安全技术演进
#资源参考 #工具
• 🛡 完全隔离的Docker沙箱环境,保障操作安全无干扰
• 🤖 AI驱动的自主智能体,自动规划与执行渗透测试流程
• 🔧 内置20+安全利器,如nmap、metasploit、sqlmap等,覆盖多维攻击面
• 🧠 智能记忆管理,长效存储测试结果与成功策略,持续优化测试效率
• 🌐 多渠道信息收集,支持网页爬虫及多种搜索引擎API(Google、DuckDuckGo等)
• 👥 多智能体协作,分工明确涵盖研究、开发与基础设施
• 📊 实时监控与日志集成Grafana/Prometheus,确保系统透明可控
• 📝 自动生成详尽漏洞报告,附带利用指导,助力风险评估与修复
• ⚙️ 支持REST/GraphQL API,轻松集成企业安全生态
• 🏗 微服务架构,支持横向扩展,满足生产环境高可用需求
• 🔑 灵活认证与多LLM提供商支持(OpenAI、Anthropic等),可自定义部署
• 🚀 一键Docker Compose快速部署,适用多平台环境
• 🧪 丰富测试工具(ctester、ftester、etester)保障AI代理性能与功能精准
• 🏠 完全自托管,数据自主可控,符合安全合规要求
PentAGI不仅是工具,更是一套完整的安全测试方法论:
- 通过智能分工提升渗透效率,降低人为误差
- 持续记忆与知识积累,打造动态适应的安全防线
- 结合多模态信息采集,实现全面威胁洞察
- 开放架构与高扩展性,适配未来安全技术演进
#资源参考 #工具
GitHub
GitHub - vxcontrol/pentagi: Fully autonomous AI Agents system capable of performing complex penetration testing tasks
Fully autonomous AI Agents system capable of performing complex penetration testing tasks - vxcontrol/pentagi
MatterViz:面向材料科学的交互式可视化工具箱,助力周期表、3D晶体结构及分子动态的深入理解。
• 多维交互:周期表热力图、3D晶体结构、原子模型、核结构、散点图与直方图,涵盖材料科学核心数据表现形式
• VSCode 扩展:支持 CIF、POSCAR、XYZ、TRAJ、HDF5 等多种文件格式,右键菜单及快捷键一键渲染,方便集成研发流程
• 开发中但功能完善,适合科研人员和开发者探索材料属性的内在规律与周期性特征
• 基于现代前端技术栈(Svelte、three.js、d3),兼顾性能与交互体验,具备良好扩展性与社区潜力
• 深层认知:结合元素性质周期性与动态轨迹,助力材料科学从数据到本质的量化与可视化分析
长期价值在于为材料科学研究提供一套可视化方法论框架,提升科研效率和跨学科协作能力。适合关注材料设计、计算化学与数据可视化的专业人士。
• 多维交互:周期表热力图、3D晶体结构、原子模型、核结构、散点图与直方图,涵盖材料科学核心数据表现形式
• VSCode 扩展:支持 CIF、POSCAR、XYZ、TRAJ、HDF5 等多种文件格式,右键菜单及快捷键一键渲染,方便集成研发流程
• 开发中但功能完善,适合科研人员和开发者探索材料属性的内在规律与周期性特征
• 基于现代前端技术栈(Svelte、three.js、d3),兼顾性能与交互体验,具备良好扩展性与社区潜力
• 深层认知:结合元素性质周期性与动态轨迹,助力材料科学从数据到本质的量化与可视化分析
长期价值在于为材料科学研究提供一套可视化方法论框架,提升科研效率和跨学科协作能力。适合关注材料设计、计算化学与数据可视化的专业人士。
GitHub
GitHub - janosh/matterviz: Interactive browser visualizations for materials science: crystal structures/molecules, trajectories…
Interactive browser visualizations for materials science: crystal structures/molecules, trajectories, convex hulls, phase diagrams, Fermi surfaces, bands+DOS, Brillouin zones, etc. - janosh/matterviz
unfake.js:专注于 AI 生成图像的精修与矢量化,打造像素级完美视觉资产
• 双核心模式:
- 像素艺术处理器:智能检测像素尺寸,内容感知降采样,网格对齐及色彩量化,消除 AI 生成图像常见的色彩溢出和锯齿。
- 图像矢量化器:基于 imagetracer.js + OpenCV.js,支持降噪预处理、智能调色和细致跟踪,输出高品质 SVG 矢量文件。
• 浏览器工具支持:
- 即时调节参数,拖拽/粘贴导入,前后对比一目了然。
- 调色板编辑与替换,放大镜检视细节,最终成果可下载或复制。
• 项目技术栈:OpenCV.js、image-q色彩量化、UPNG.js快速 PNG 编解码、Tweakpane 交互界面。
• 适用场景:AI 艺术作品修复、像素艺术净化、图像资产矢量化转换,助力创作者与开发者优化图像质量和可用性。
通过智能算法识别图像本质像素结构,结合多元化降采样与矢量化技术,实现 AI 生成作品的视觉纯净与灵活扩展,提升数字艺术的后期处理效率与质量标准。
#资源参考 #AI #AI图像
• 双核心模式:
- 像素艺术处理器:智能检测像素尺寸,内容感知降采样,网格对齐及色彩量化,消除 AI 生成图像常见的色彩溢出和锯齿。
- 图像矢量化器:基于 imagetracer.js + OpenCV.js,支持降噪预处理、智能调色和细致跟踪,输出高品质 SVG 矢量文件。
• 浏览器工具支持:
- 即时调节参数,拖拽/粘贴导入,前后对比一目了然。
- 调色板编辑与替换,放大镜检视细节,最终成果可下载或复制。
• 项目技术栈:OpenCV.js、image-q色彩量化、UPNG.js快速 PNG 编解码、Tweakpane 交互界面。
• 适用场景:AI 艺术作品修复、像素艺术净化、图像资产矢量化转换,助力创作者与开发者优化图像质量和可用性。
通过智能算法识别图像本质像素结构,结合多元化降采样与矢量化技术,实现 AI 生成作品的视觉纯净与灵活扩展,提升数字艺术的后期处理效率与质量标准。
#资源参考 #AI #AI图像
GitHub
GitHub - jenissimo/unfake.js: Fix AI pixel art and vector images right in your browser
Fix AI pixel art and vector images right in your browser - jenissimo/unfake.js
NVIDIA AI Blueprint:大规模视频搜索与摘要的行业级解决方案
• 支持海量实时及存档视频的智能摄取与结构化分析,助力快速决策与运营优化
• 结合视觉语言模型(Cosmos Nemotron VLM)、大型语言模型(Llama Nemotron LLM)及NVIDIA NIM微服务,实现精准视频摘要和交互式问答
• 采用Context-Aware RAG模块,融合向量库与图数据库,增强多跳推理、时序理解及异常检测能力
• 灵活部署:支持单GPU、局部多GPU及完全远程架构,满足从开发到生产的多种场景需求
• 面向视频分析师与AI开发者,提供一键部署、丰富配置及高度可定制化的流水线和微服务
• 完善文档覆盖API授权、硬件需求、快速上手指南及安全漏洞说明,保障稳定可靠运行
• 典型应用涵盖智能空间监控、仓储自动化及标准作业流程验证,赋能行业数字化转型
视频智能分析已进入多模态融合与上下文增强的新阶段,NVIDIA蓝图提供了系统化路径,降低复杂度,提升效率,释放视频数据的最大价值。
• 支持海量实时及存档视频的智能摄取与结构化分析,助力快速决策与运营优化
• 结合视觉语言模型(Cosmos Nemotron VLM)、大型语言模型(Llama Nemotron LLM)及NVIDIA NIM微服务,实现精准视频摘要和交互式问答
• 采用Context-Aware RAG模块,融合向量库与图数据库,增强多跳推理、时序理解及异常检测能力
• 灵活部署:支持单GPU、局部多GPU及完全远程架构,满足从开发到生产的多种场景需求
• 面向视频分析师与AI开发者,提供一键部署、丰富配置及高度可定制化的流水线和微服务
• 完善文档覆盖API授权、硬件需求、快速上手指南及安全漏洞说明,保障稳定可靠运行
• 典型应用涵盖智能空间监控、仓储自动化及标准作业流程验证,赋能行业数字化转型
视频智能分析已进入多模态融合与上下文增强的新阶段,NVIDIA蓝图提供了系统化路径,降低复杂度,提升效率,释放视频数据的最大价值。
GitHub
GitHub - NVIDIA-AI-Blueprints/video-search-and-summarization: Suite of reference architectures for building GPU-accelerated vision…
Suite of reference architectures for building GPU-accelerated vision agents and AI-powered video analytics applications. - NVIDIA-AI-Blueprints/video-search-and-summarization
Docling Parse:专注于从程序化 PDF 中高效提取文本、路径及位图资源的轻量级工具包。
• 支持字符、单词及行级别文本坐标输出,精准定位文本内容,方便深度版面分析与可视化
• 同时提取路径和位图图像,满足复杂文档结构解析需求
• 内置可交互式可视化脚本,便于快速验证与展示解析效果
• 性能显著提升,最新版本解析速度较初版快 5-10 倍,适合大规模文档处理
• Python 包即装即用,支持命令行和编程接口,灵活集成到多种工作流
• 完全开源,MIT 许可,社区活跃,持续更新与优化,便于二次开发和创新
• 适合科研、文档数字化、信息抽取等多场景应用,助力文档数据智能化转型
基于程序化 PDF 结构,精细提取多层级文本单元与图形元素,融合性能优化与可视化,推动 PDF 内容的结构化理解与应用扩展。
#资源参考 #工具 #AI #PDF提取文本图像
• 支持字符、单词及行级别文本坐标输出,精准定位文本内容,方便深度版面分析与可视化
• 同时提取路径和位图图像,满足复杂文档结构解析需求
• 内置可交互式可视化脚本,便于快速验证与展示解析效果
• 性能显著提升,最新版本解析速度较初版快 5-10 倍,适合大规模文档处理
• Python 包即装即用,支持命令行和编程接口,灵活集成到多种工作流
• 完全开源,MIT 许可,社区活跃,持续更新与优化,便于二次开发和创新
• 适合科研、文档数字化、信息抽取等多场景应用,助力文档数据智能化转型
基于程序化 PDF 结构,精细提取多层级文本单元与图形元素,融合性能优化与可视化,推动 PDF 内容的结构化理解与应用扩展。
#资源参考 #工具 #AI #PDF提取文本图像
GitHub
GitHub - docling-project/docling-parse: Simple package to extract text with coordinates from programmatic PDFs
Simple package to extract text with coordinates from programmatic PDFs - docling-project/docling-parse