大模型实战营第六次课笔记

这是大模型实战营第六次课的笔记

背景知识

评测维度

评测分类

主流框架

OpenCompass

  • 架构

  • 流水线设计

动手实践

具体操作见作业,

讲座中提到的一些文档中没有的点值得补充:

  1. 提高评测效率

configs/subjective_alignbench.py 为例

可以将推理和评测阶段分开用不同的Runner执行,分别在配置文件的infereval变量中配置。其中常用的RunnerSlurmRunner(使用Slurm集群运行)和LocalRunner(本地运行)等。常用的PatitionerNaivePartitioner(按数据集原始的任务分割)和SizePartitioner(按指定的最大数据集大小分割)