使用 Trulens 评估 RAG 应用

目前基于大语言模型(LLM)的 RAG(Retrieval Augmented Generation)应用非常广泛,包括知识库问答、客服机器人、垂直领域知识检索等各个方面,虽然我们可以构建出这类应用,但是如何评估 RAG 应用的效果却是一个难题。幸运的是业界已经开始推出一些 RAG 评估工具,Trulens 就是其中的一个。本文将介绍如何使用 Trulens 这个工具来对 RAG 应用进行评估,同时介绍 Trulens 内部的实现原理,以及在探索过程中发现的一些有趣知识。