大模型实战营第六次课笔记

发表于 2024-01-18 更新于 2024-03-19

这是大模型实战营第六次课的笔记

背景知识

评测维度

评测分类

主流框架

OpenCompass

架构

流水线设计

动手实践

具体操作见作业,

讲座中提到的一些文档中没有的点值得补充：

提高评测效率

以configs/subjective_alignbench.py 为例

可以将推理和评测阶段分开用不同的Runner执行，分别在配置文件的infer 和 eval变量中配置。其中常用的Runner有SlurmRunner（使用Slurm集群运行）和LocalRunner（本地运行）等。常用的Patitioner有NaivePartitioner（按数据集原始的任务分割）和SizePartitioner（按指定的最大数据集大小分割）