829 日 , 2024 19:49:32
各类 LLM 大模型测试验证

最近两天在 RAG + LLM 场景下,同基准测试了多个开源大模型,包括:

  • llama3.1
  • llama2-chinese
  • qwen2:7b
  • qwen2:32b
  • codegeex4:9b
  • glm4:9b

发现和 OpenAI GPT 3.5 Turbo 相比完全败北。对于 Markdown 而言区别不大,但对于 Excel 和 Word 类带有表格的文档结果反馈来看相差甚远。更不要说 PDF、JPG等图文结合的资料了。不知道是不是姿势不对,有经验的朋友可以分享一下。

问题点:

  • 回答结果过于发散,比如:会自己添加一些知识库本身没有的回答。OpenAI GPT 3.5 Turbo 并不会这样。
  • 很多时候无法输出正确的应答结果,你说找不到答案,但它又会附上对应知识库文档链接,说明还是有找到一些信息的。
  • 对于正确答案中带有的图片信息,无法在聊天框正常输出。

目前测试的结果是这样,更多细节问题需要进一步验证。

Avatar photo

关于 木子

Founder of the Rocky Linux Chinese community, MVP、VMware vExpert、TVP, advocate for cloud native technologies, with over ten years of experience in site reliability engineering (SRE) and the DevOps field. Passionate about Cloud Computing、Microservices、CI&CD、DevOps、Kubernetes, currently dedicated to promoting and implementing Rocky Linux in Chinese-speaking regions.
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!