大模型实战营第六次课笔记
这是大模型实战营第六次课的笔记
背景知识
评测维度
评测分类
主流框架
OpenCompass
- 架构
- 流水线设计
动手实践
具体操作见作业,
讲座中提到的一些文档中没有的点值得补充:
- 提高评测效率
以configs/subjective_alignbench.py
为例
可以将推理和评测阶段分开用不同的Runner
执行,分别在配置文件的infer
和
eval
变量中配置。其中常用的Runner
有SlurmRunner
(使用Slurm集群运行)和LocalRunner
(本地运行)等。常用的Patitioner
有NaivePartitioner
(按数据集原始的任务分割)和SizePartitioner
(按指定的最大数据集大小分割)