各类 LLM 大模型测试验证 – Rocky Linux

站点概览
功能

Rocky Linux

企业级 Linux 操作系统

Links

Rocky Linux 官网

登 录 管 理

 标 签 云

木子发表在留言板
可以到【问答】提问，支持图片上传、Mar…
sheldon发表在留言板
评论或者咨询怎么带截图，我没有看到可以上…
木子发表在Rocky Linux 9 从入门到精通002 — 系统安装
可以带上错误截图看看，盲猜可能的原因： …
sheldon发表在Rocky Linux 9 从入门到精通002 — 系统安装
实体机U盘启动安装的时候，到安装信息摘要…
[email protected]发表在在 Rocky Linux 9.x 上安装 Docker CE
不知道会不会有人看见，这个脚本是我个人编…
木子发表在Rocky Linux 9.x 内核升级至 6.x
👍 :flower-heihei:
[email protected]发表在Rocky Linux 9.x 内核升级至 6.x
简单的编写了一个bash脚本，方便的给想…

8 月 29 日 , 2024

|

19:49:32

各类 LLM 大模型测试验证

最近两天在 RAG + LLM 场景下，同基准测试了多个开源大模型，包括：

llama3.1
llama2-chinese
qwen2:7b
qwen2:32b
codegeex4:9b
glm4:9b

发现和 OpenAI GPT 3.5 Turbo 相比完全败北。对于 Markdown 而言区别不大，但对于 Excel 和 Word 类带有表格的文档结果反馈来看相差甚远。更不要说 PDF、JPG等图文结合的资料了。不知道是不是姿势不对，有经验的朋友可以分享一下。

问题点：

回答结果过于发散，比如：会自己添加一些知识库本身没有的回答。OpenAI GPT 3.5 Turbo 并不会这样。
很多时候无法输出正确的应答结果，你说找不到答案，但它又会附上对应知识库文档链接，说明还是有找到一些信息的。
对于正确答案中带有的图片信息，无法在聊天框正常输出。

目前测试的结果是这样，更多细节问题需要进一步验证。

版权声明:「自由转载-保持署名-非商业性使用-禁止演绎 3.0 国际」（CC BY-NC-ND 3.0）

暂无评论

发送评论编辑评论

Markdown

悄悄话

邮件提醒

|´・ω・)ノ

ヾ(≧∇≦*)ゝ

(☆ω☆)

（╯‵□′）╯︵┴─┴

￣﹃￣

(/ω＼)

∠( ᐛ 」∠)＿

(๑•̀ㅁ•́ฅ)

→_→

୧(๑•̀⌄•́๑)૭

٩(ˊᗜˋ*)و

(ノ°ο°)ノ

(´இ皿இ｀)

⌇●﹏●⌇

(ฅ´ω`ฅ)

(╯°A°)╯︵○○○

φ(￣∇￣o)

ヾ(´･･｀｡)ノ"

( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃

(ó﹏ò｡)

Σ(っ °Д °;)っ

( ,,´･ω･)ﾉ"(´っω･｀｡)

╮(╯▽╰)╭

o(*////▽////*)q

＞﹏＜

( ๑´•ω•) "(ㆆᴗㆆ)

颜文字

Emoji

小恐龙

花!