大模型实战营第六次课笔记
这是大模型实战营第六次课的笔记
背景知识
评测维度
评测分类
主流框架
OpenCompass
- 架构
- 流水线设计
动手实践
具体操作见作业,
讲座中提到的一些文档中没有的点值得补充:
- 提高评测效率
以configs/subjective_alignbench.py 为例
可以将推理和评测阶段分开用不同的Runner执行,分别在配置文件的infer
和
eval变量中配置。其中常用的Runner有SlurmRunner(使用Slurm集群运行)和LocalRunner(本地运行)等。常用的Patitioner有NaivePartitioner(按数据集原始的任务分割)和SizePartitioner(按指定的最大数据集大小分割)