书生·浦语大模型实战营（第二期）：OpenCompass司南大模型评测实战

上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” (OpenCompass2.0)，用于为大语言模型、多模态模型等提供一站式评测服务。开源可复现：提供公平、公开、可复现的大模型评测方案全面的能力维度：五大维度设计，提供 70+ 个数据集约 40 万题的的模型评测方案，全面评估模型能力丰富的模型支持：已支持 20+ HuggingFace 及 API 模型分布式高效评测：一行命

Nobitaxi

888人浏览 · 2024-04-23 16:10:34

Nobitaxi · 2024-04-23 16:10:34 发布

大语言模型评测中的挑战

全面性
- 大模型应用场景千变万化
- 模型能力演进迅速
- 如何设计和构造可扩展的能力维度体系
评测成本
- 评测数十万道题需要大量算力资源
- 基于人工打分的主观评测成本高昂
数据污染
- 海量预料不可避免带来评测集污染
- 亟需可靠的数据污染检测技术
- 如何设计可动态更新的高质量评测基准
鲁棒性
- 大模型对提示词十分敏感
- 多次采样情况下模型性能不稳定

如何评测大模型

模型

在这里插入图片描述

客观题&主观题

在这里插入图片描述

提示词工程

在这里插入图片描述

长文本评测

在这里插入图片描述

OpenCompass评测流水线

在这里插入图片描述

CompassHub：高质量评测基准社区

在这里插入图片描述

OpenCompass介绍

上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” (OpenCompass2.0)，用于为大语言模型、多模态模型等提供一站式评测服务。其主要特点如下：

开源可复现：提供公平、公开、可复现的大模型评测方案
全面的能力维度：五大维度设计，提供 70+ 个数据集约 40 万题的的模型评测方案，全面评估模型能力
丰富的模型支持：已支持 20+ HuggingFace 及 API 模型
分布式高效评测：一行命令实现任务分割和分布式评测，数小时即可完成千亿模型全量评测
多样化评测范式：支持零样本、小样本及思维链评测，结合标准型或对话型提示词模板，轻松激发各种模型最大性能
灵活化拓展：想增加新模型或数据集？想要自定义更高级的任务分割策略，甚至接入新的集群管理系统？OpenCompass 的一切均可轻松扩展！

作业：使用OpenCompass评测internlm2-chat-1_8b模型在C-Eval数据集上的性能

准备阶段

环境配置

studio-conda -o internlm-base -t opencompass
conda activate opencompass
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
# pip install -e .
pip install -r requirements.txt

数据准备

解压评测数据集到 data/ 处

cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip

查看支持的数据集和模型
列出所有跟 InternLM 及 C-Eval 相关的配置

python tools/list_configs.py internlm ceval

在这里插入图片描述

启动评测

通过以下命令评测 InternLM2-Chat-1.8B 模型在 C-Eval 数据集上的性能，由于 OpenCompass 默认并行启动评估过程，我们可以在第一次运行时以 --debug 模式启动评估，并检查是否存在问题。在 --debug 模式下，任务将按顺序执行，并实时打印输出。

python run.py
 --datasets ceval_gen \
 --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b \
 --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b \
 --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True \
 --model-kwargs trust_remote_code=True device_map='auto' \
 --max-seq-len 1024 \
 --max-out-len 16 \
 --batch-size 2 \
 --num-gpus 1 \
 --debug

其中：

–hf-path：HuggingFace模型路径
–tokenizer_path：HuggingFace tokenizer路径
–tokenizer-kwargs：构建tokenizer的参数
–max-seq-len：模型可以接受的最大序列长度
–max-out-len：生成的最大token数
–batch-size：批量大小
–num-gpus：运行模型所需的GPU数量

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

【免费下载】 index-tts-vllm：高性能文本转语音解决方案

`index-tts-vllm` 是一款开源的文本转语音（TTS）项目，基于 `index-tts` 进行了优化，通过引入 `vllm` 库重新实现了 GPT 模型的推理过程，大幅提升了推理速度和并发处理能力。项目旨在为开发者提供一个高效、稳定、易于集成的 TTS 解决方案。## 项目技术分析`index-tts-vllm` 采用了以下核心技术：- **vllm 库**：用于加速 GP

AI Agent技术社区

AgentScope示例应用：多智能体对话

在人工智能快速发展的今天，单一智能体已经难以满足复杂任务的需求。想象一下这样的场景：一个项目团队需要讨论技术方案，不同专业背景的成员各抒己见，最终达成共识。这正是多智能体对话要解决的问题——让多个AI智能体像真实团队成员一样进行有意义的交流。AgentScope作为面向开发者的多智能体编程框架，提供了强大的多智能体对话能力。本文将深入探讨如何使用AgentScope构建高效的多智能体对话系统。..