AI
Harness Engineering
同一个模型换套 harness,跑分能差一倍。Addy Osmani 把围绕模型的 prompt、hooks、sandbox、recovery path 统称为 harness,核心工程纪律叫"棘轮":agent 每犯一次错就把修复写死在 AGENTS.md,每行规则都追溯到一次真实事故。模型升级时删过时约束、补新约束,harness 不消失,只挪位置。
Claude Code /goal 的工作原理与使用方式
/goal 是 Claude Code 的自动循环机制:你写一个完成条件,Haiku 每轮读 transcript 判定是否达成,没达成就自动再跑一轮。目标必须是 transcript 里能观测到的终态,比如"所有测试通过且 lint 干净",模糊的条件只会让 Claude 空转烧 token。配合 CLAUDE.md 和 auto mode,200 文件的重构可以无人值守跑完。
构建 Agent 的 12 个原则
12-Factor Agents - Principles for building reliable LLM applications
Dex 试遍框架、跟大量 YC 团队交流后发现,真正跑在生产环境的 Agent 主体都是确定性代码,LLM 只在关键节点介入。他把 tools 重定义为 structured outputs:LLM 只输出决策,执行交给外部代码,整个 agent 就是一个 stateless reducer。框架适合原型,生产环境你得自己掌控 prompt 和控制流。
你不知道的 Agent:原理、架构与工程实践
调试 agent 行为,优先检查工具描述。Tw93 把团队实战和开源代码过了一遍后得出这个判断:多数工具调用错误出在 description 写得不准确,换更贵的模型带来的提升没想象中大。还有一个更隐蔽的坑,评测系统自身的 bug 往往比 agent 的 bug 更难发现。
前端
Bun 花了 10 天从 Zig 迁移到了 Rust
Bun 团队用 10 天把底层从 Zig 迁到 Rust,代码已合并。据称这次迁移用上了 Claude Code 的 Dynamic Workflow。类似案例里三万行 Go 项目到 Rust 也只花了 4 周,语言迁移正在从人肉重写变成 agent 流水线作业。
拓展阅读:Hacker News 讨论