硬核开源智库
812 subscribers
42 photos
1.12K links
提供硬核学习资源,探索开源力量,驾驭AI未来! 本频道精选GitHub优质开源项目、最新人工智能(AI)技术进展、前沿科技资讯以及各类有价值的学习资源,助你站在技术浪潮之巅,实现知识与技能的快速跃迁。无论你是开发者、AI爱好者还是技术探索者,都能在这里找到属于你的宝藏!
Download Telegram
Gemini 的产品和研发负责人录了个视频

讨论了一下关于关于优秀编码模型的理念以及 Vibe Coding 的影响,以及编程语言的未来

很多见解挺好的,说明 Gemini 的代码能力进步还是有方法的

视频:https://youtu.be/jwbG_m-X-gE?si=u0nz9RxOaUlhW_Ab

总结了一些我觉得重要的内容:

📌 谷歌 Gemini 团队的编码模型训练方法论

🎯 Gemini 早期编程目标及其局限性

1️⃣ 竞技编程(Competitive programming):尽管像OpenAI等公司在评估模型编程能力方面做了很好的工作(如human eval),但竞技编程的能力并不一定等同于一个强大的团队成员所需要的技能,因此这与开发者最终的需求有所偏差

2️⃣ LMS(Language Model Systems):这也不是日常开发工作的真实写照

3️⃣ 代码补全(Code completion):这虽然更具生产力,但其应用空间有限,不足以体现模型现在和未来能够实现的所有功能。

Danny Tarlo认为,前两个目标并不能真正反映开发者的实际工作,而第三个目标则不够宏大。

仅仅关注竞技编程是不够的,因为它无法涵盖软件开发人员日常工作中的更广泛能力需求。竞技编程通常是在一个"非常自给自足的环境中"工作,从零开始构建相对简短的解决方案。然而,软件开发人员日常工作涉及处理大型代码库中的错误报告,这些错误可能分散在"代码库中一百个不同的位置"。因此,模型需要的能力集远大于竞技编程所包含的。

💡 Gemini 编程优化当前关注的"核心要素":

1️⃣ 数据与方法论:Danny强调,一个优秀的编程模型主要取决于"数据和方法论",太鸡贼了最重要的内容一笔带过。

2️⃣ 代码库上下文的重要性(Repo Context):代码库上下文是如此重要。模型不仅要处理代码补全,更要支持"多文件编辑,比只给你几行代码更大的更改"。目标是让模型能够帮助开发者在代码库的上下文中进行需要一小时完成的复杂工作。
Simba 是一个开源知识管理系统,旨在与任何检索增强生成 (RAG) 系统无缝集成。

借助现代化的 UI 和模块化架构,开发人员可以专注于构建人工智能解决方案,而不必担心知识管理的复杂性。

🧬 https://github.com/GitHamza0206/simba

#tools #资源参考 #RAG
开源项目 - MedicNex-File2MD 支持123种文件格式转换为Markdown

MedicNex File2MD 是一个基于 FastAPI 开发的微服务,支持将多达123种文件格式(涵盖文档、音频、视频、图片、代码等)统一转换为便于大模型理解的 Markdown 代码块格式。系统集成 PaddleOCR 和 AI 视觉识别,支持并发图片与音频处理,提升处理速度 2-10 倍。支持 Docker 容器化部署与 API Key 鉴权,适用于批量文件转换与异步队列处理。更新版本新增音视频转录、SRT字幕生成及 Apple iWork 套件支持。

GitHub - medicnex-file2md
频道推荐:高考志愿填报参考,用过的都说好

机器人会参考历届的录取分数,还有其他的相关,给你推荐合适的多种填报方案。可以算作参考,有些实用性的。输入个人分数及相关志愿倾向就可以生成结果。

还可以查询各省历届大学的录取分数线、专业强校等高考数据。

入口:夸克高考
Tersa:一个可视化的AI工作流构建平台。通过拖拽节点、连接和运行,轻松搭建自己的AI工作流。

支持多种行业领先的AI模型;多媒体处理能力,涵盖图像、文本、音频和视频;自动保存并安全存储在云端
#资源参考 #工作流
code-graph-rag:基于图的Python代码库检索增强生成系统,让代码查询像聊天一样简单

利用Memgraph存储代码结构,实现高效图查询;集成Google Gemini,将自然语言问题转化为Cypher查询;支持代码片段检索,直接定位关键代码
MemoryMesh:为AI打造的知识图谱服务器,专为文本角色扮演游戏和互动故事设计。它能帮助AI在对话中保持一致、结构化的记忆,让交互更丰富、更动态。

提供11个预建的文本RPG模式,快速搭建游戏框架;动态生成工具,根据数据结构自动创建添加、更新、删除数据的工具;直观的Schema设计,通过字段、枚举类型和关系定义引导AI生成和连接节点
1
Awesome-video-super-resolution-diffusion:视频超分辨率领域的资源库。它为研究者和开发者提供了一站式的视频超分辨率(VSR)资源,涵盖论文、开源代码和数据集。

收集了2024-2025年最新的VSR研究成果;提供多个高质量数据集,如OpenVid-1M(100万视频对)和WebVid-2M(250万文本-视频对);一站式资源,方便查找和使用。
Claudia:为Claude Code打造的强大GUI应用与工具包。它能让你更直观地管理Claude Code项目和会话,创建定制Agent,提升AI辅助开发效率。

通过可视化界面管理项目和会话,轻松追溯历史;支持创建定制Agent,满足不同任务需求;提供高级沙箱功能,确保Agent运行安全
openai-cs-agents-demo:基于OpenAI Agents SDK构建的客户服务Agent演示项目

模块化设计,轻松定制和扩展Agent逻辑;智能路由,精准匹配用户需求到对应Agent;支持多种交互场景,涵盖航班查询、座位变更、取消订单等
#资源参考 #Agent #客服Agent
Statistical Machine Learning for Astronomy -- A Textbook :一本为天文研究量身打造的统计机器学习教材。核心价值在于通过贝叶斯推断视角,系统地将现代数据分析技术与传统统计方法相结合,为天文研究提供坚实的统计基础。

从概率论到神经网络,逐步构建从经典到现代的统计框架;强调不确定性量化和统计严谨性,助力科学推断;包含677页内容和152幅图表,提供丰富的代码和教程资源
#资源参考 #教程
Reasoning360:助力大规模推理模型研究的开源项目。它为研究人员提供了从数据处理到模型训练和评估的全流程工具

提供92K跨领域强化学习数据;支持多节点训练和评估;集成SandboxFusion安全代码执行环境
MuCodec:超低比特率音乐编解码器,让音乐传输更高效。

实现0.35kbps超低比特率音频压缩,压缩效率极高;支持48kHz双声道音频重建,音质清晰;提供完整的模型和推断代码,易于上手
一个现代的开源健身教练平台,帮助你创建健身计划、跟踪进度并访问全面的健身数据库。

提供详细的健身指导和视频演示;支持多语言界面;采用Feature-Sliced Design架构,代码清晰易维护

workout-cool | #数据库
slime:一个专注于大规模强化学习扩展的LLM后训练框架,助力高效训练和灵活数据生成。

高性能训练,通过连接Megatron与SGLang实现高效多模式训练;灵活的数据生成工作流,支持自定义数据生成接口和服务器引擎;提供GLM4-9B和Qwen3-4B模型示例,方便快速上手。
Unregistry:让Docker镜像传输变得轻量又高效。无需外部镜像仓库,直接将本地Docker镜像推送到远程服务器。

仅传输缺失的镜像层,效率提升90%;基于SSH传输,无需额外配置和暴露端口;支持多平台镜像推送,满足多样化部署需求
#工具
dbhub:一个通用数据库网关,支持多种数据库的连接与操作

实现了Model Context Protocol(MCP)服务器接口,可无缝对接多种MCP客户端;支持PostgreSQL、MySQL、MariaDB、SQL Server等主流数据库;提供Docker和NPM安装方式,部署简单快捷
#数据库
一个强大的知识图谱生成工具,能从文本中提取实体和关系,并生成可交互的图形。

支持文本上传和直接输入两种方式;使用OpenAI的GPT-4o模型,精准提取实体关系;生成的图谱可交互,支持拖拽、缩放和过滤

knowledge-graph-llms | #工具
Awesome-Personalized-Video-Creation:个性化视频生成与编辑的资源库。它为研究人员和开发者提供了一个集中化的平台,用于追踪和整理个性化视频生成和编辑领域的最新进展。

涵盖多种关键技术和模型,如多模态控制、可控视频生成和基础视频生成模型;提供丰富的数据集和评估基准,助力研究和开发;收录了大量前沿论文和开源代码,方便学习和应用
Autumn:开源的Stripe与应用之间的中间层,用几行代码就能实现任意定价模型。

支持订阅、信用系统、按用量计费等多种模式;无需处理复杂的webhook、升级/降级、取消或支付失败问题;提供云服务和自托管两种部署方式
#资源参考 #Stripe
DPanel:轻量化Docker可视化管理面板,让Docker操作变得简单直观。

功能全面,支持容器、镜像、Compose管理;提供标准版与轻量版,满足不同需求;集成快速部署脚本,一键安装