各类 LLM 大模型测试验证

首页 问答 🤹 洛基心得 各类 LLM 大模型测试验证

标签: 

  • 您的话题内容不能为空。
正在查看 1 个帖子:1-1 (共 1 个帖子)
  • 作者
    帖子
  • #1463
    Avatar photo木子
    管理员

    最近两天在 RAG + LLM 场景下,同基准测试了多个开源大模型,包括:

    • llama3.1
    • llama2-chinese
    • qwen2:7b
    • qwen2:32b
    • codegeex4:9b
    • glm4:9b

    发现和 OpenAI GPT 3.5 Turbo 相比完全败北。对于 Markdown 而言区别不大,但对于 Excel 和 Word 类带有表格的文档结果反馈来看相差甚远。更不要说 PDF、JPG等图文结合的资料了。不知道是不是姿势不对,有经验的朋友可以分享一下。

    问题点:

    • 回答结果过于发散,比如:会自己添加一些知识库本身没有的回答。OpenAI GPT 3.5 Turbo 并不会这样。
    • 很多时候无法输出正确的应答结果,你说找不到答案,但它又会附上对应知识库文档链接,说明还是有找到一些信息的。
    • 对于正确答案中带有的图片信息,无法在聊天框正常输出。

    目前测试的结果是这样,更多细节问题需要进一步验证。

正在查看 1 个帖子:1-1 (共 1 个帖子)
  • 哎呀,回复话题必需登录。