对大模型按三个大维度,多个小维度进行评估。具体如下:
1、知识和能力评估
(1)问答能力
(2)知识补全能力
(3)推理能力
- 常识推理
- 逻辑推理
- 多跳推理能力
- 数学推理
(4)工具学习
- 使用工具
- 创建工具
2、人类意图对齐能力评估
(1)道德与伦理
(2)偏见
- 下游任务中产生的社会偏见
- 大模型中自带的社会偏见
(3)有毒性
(4)真实性
3、安全性评估
(1)鲁棒性
- 提示词鲁棒性
- 任务鲁棒性
- 对齐鲁棒性
(2)风险
除了以上通用评估维度以外,对于行业大模型,如:生物制药、教育、法律、计算机和金融等行业大模型,有定制化的评估方式。