语言模型测试系列【8】

语言模型

文心一言
星火认知大模型
通义千问
豆包
360智脑
百川大模型
腾讯混元助手
Kimi Chat
商量
C知道

这次的测试比较有针对性，是在使用钉钉新推出的AI助理功能之后发现的问题，即创建AI助理绑定自己钉钉的知识库进行问答，其中对于表结构的文档学习尚有不足，回答的错误率较高，所以这里就直接拿各大预言模型进行测试对比。

首先，准备Excel文档的数据。
在这里插入图片描述
然后，进行提问，提问的数量不多，仅针对上图中标有底色的部分进行提问。同时对上面所列的语言模型进行筛选，仅有通义千问、豆包和Kimi Chat支持Excel文档的学习，那下面的对比也只对这三个语言模型进行测试，其他模型先靠边站吧。

提问及回答

问题1：请学习文档，并告诉我李航宇是哪个医疗单位的法定负责人
问题2：那刘金刚呢？
问题3：刘继东是哪个单位的法定代表人
问题4：沈阳兴齐眼科有限公司的具体地址在哪里？

通义千问

问题1

在这里插入图片描述

问题2

在这里插入图片描述

问题3

在这里插入图片描述

问题4

在这里插入图片描述

豆包

问题1

在这里插入图片描述

问题2

在这里插入图片描述

问题3

在这里插入图片描述

问题4

在这里插入图片描述

Kimi Chat

问题1

在这里插入图片描述

问题2

在这里插入图片描述

问题3

在这里插入图片描述

问题4

在这里插入图片描述

对比分析

从支持Excel文档的阅读学习能力来看，通义千问、豆包和Kimi Chat都支持，这方面比其他模型还是有优势的，特别是在垂直领域，很多专门的行业都有自己的一套数据，而且大部分数据都储存在表的文件内。不管是阅读还是平台调用都比较方便准确的提取到感兴趣的数据信息，支持表结构的阅读学习，也将是语言模型努力的方向。

模型名称	回答内容
文心一言3.5	不支持
讯飞星火认知大模型	不支持
通义千问	四个问题错了仨，勉强对了一个
豆包	准确
360智脑	不支持
百川大模型	不支持
腾讯混元助手	不支持
Kimi Chat	准确
商量	不支持
C知道	不支持

总结

豆包和Kimi Chat对Excel文档的内容学习和理解比较准确，本次赢得测试。
通义千问在支持Excel学习后，准确率还是有所欠缺。
本次测试主要是在语言模型支持的领域进行对比测试，相信大部分通用功能，在网络环境下，基本上都能准确实现，这方面也增加了测试难度，很难区分出优劣。所以，今后将在各大语言模型迭代新功能上测试。