AI Infra Engineer · 8 年 AI 平台与云原生基础设施研发经验
专注 LLM Infra:RAG 检索基础设施 · Agent 运行时 · 异构算力调度
- nanoagent — harness-first 的单 agent 框架:核心循环约 30 行、易读、真能用。核心原则 Stable Core + Pluggable Strategy——核心稳定,上下文 / 权限 / 熔断等 harness 能力经 Hook 注入、可插拔。
- Claude Code 工具集 — 围绕 Claude Code 的一组开源工具与 skill:
- claude-code-statusline-usage — 实时用量 statusline(context % / 成本 / diff / api time),走官方扩展点、免改 app
- claude-skill-repo-deep-dive — GitHub 仓库端到端深度调研,产出 claim 级机器可读报告
- claude-tech-writing — 以 mermaid 图为核心的技术写作 skill(带 Python linter)
- claude-desktop-usage — macOS 用量悬浮挂件
面向企业知识库的端到端检索系统(百度千帆),支撑下游 Agent 与对话产品。
- 离线:多模态异构文档(pdf / md / 网页 / 表格 / 图片)加工,建「段落 + 知识点」两层粒度索引——召回用细、返回用粗。
- 在线:BM25 + 向量(HNSW)+ 知识图谱三路并发召回 → 两段加权粗排剪枝 → Rerank 精排。
- GraphRAG(参考 LightRAG):Elasticsearch + 图数据库双存储;自研 多文档共建实体的删除一致性 —— 图谱作为可重建派生视图,删单篇文档时反查其余文档做幂等重建,不引入分布式事务。
- 成本工程:向量降维换检索提速 + 高置信结果跳过精排省 GPU;OpenTelemetry 全链路可观测。
| 项目 | 一句话 |
|---|---|
| KubeSaaS 资源池平台 | 统一 Serverless 与标准 K8s 的异构算力底座,Saga 补偿保证跨系统回滚 |
| PaddleX AI 全流程平台 | prepare / run / sync 三段式训练工作流引擎,插件化接入多套件 |
| 星河社区 Codelab 云 IDE | JupyterLab 二次开发,存储 / 计算 / 应用三层解耦 + GPU 按需起停 |
- LLM Infra:RAG · GraphRAG · 向量检索(HNSW)· Rerank · 知识图谱 · OpenTelemetry · Agent 运行时
- 云原生:Kubernetes · Volcano · 多集群异构算力调度
- 后端:Python(精通)· Go · asyncio · Celery · Redis · PostgreSQL · Elasticsearch

