Tag

# 评测

围绕评测这个主题，opc.ren 当前收录了 5 篇相关文章。

Latest under #评测

5 items

作者以怀疑者视角，详细记录自己实际使用 AI 代理进行编程的过程与观察，不做含糊评价，而是通过完整体验来讨论其效果与局限。

文章对比了 PostHog 与 Heap 两款产品分析平台，重点讨论 Heap 以自动采集点击、页面浏览和表单提交见长的能力，以及两者在产品分析场景中的差异。

文章介绍如何用“LLM 作为裁判”来评估 AI 产品输出质量，减少低质量内容，并说明这种方法相较人工标准或内部指标在文本、代码和图像生成场景中的作用。

作者继续在完成《Build a Large Language Model (from Scratch)》后做“加分”项目，回顾上次使用书中 GPT‑2 架构在 Lambda Labs 上训练四个基础模型，并进一步分析“LLM 作为评判者”的结果。

文章认为 Nano Banana Pro 是目前表现最强的 AI 图像生成器之一，但也指出其“过于强大”带来一些明显限制与顾虑，因此整体评价是优秀但并非没有代价。