最近两天在 RAG + LLM 场景下,同基准测试了多个开源大模型,包括:
- llama3.1
- llama2-chinese
- qwen2:7b
- qwen2:32b
- codegeex4:9b
- glm4:9b
发现和 OpenAI GPT 3.5 Turbo 相比完全败北。对于 Markdown 而言区别不大,但对于 Excel 和 Word 类带有表格的文档结果反馈来看相差甚远。更不要说 PDF、JPG等图文结合的资料了。不知道是不是姿势不对,有经验的朋友可以分享一下。
问题点:
- 回答结果过于发散,比如:会自己添加一些知识库本身没有的回答。OpenAI GPT 3.5 Turbo 并不会这样。
- 很多时候无法输出正确的应答结果,你说找不到答案,但它又会附上对应知识库文档链接,说明还是有找到一些信息的。
- 对于正确答案中带有的图片信息,无法在聊天框正常输出。
目前测试的结果是这样,更多细节问题需要进一步验证。
版权声明:「自由转载-保持署名-非商业性使用-禁止演绎 3.0 国际」(CC BY-NC-ND 3.0)
暂无评论