CMU 研究人员推出 WebArena:一个真实可复现的网络环境,用于评估实用代理的性能。他们提供了
CMU 的研究人员开发了一种名为 Zeno 的框架,用于评估机器学习(ML)模型的行为。这种框架可以