vllm+llama模型出现＜|eot_id|＞并且一直输出至最大长度问题的解决方案

本人在使用vllm的openai接口部署llama3以及llama2时，出现了下面的模型输出结果：可以看到上面的输出存在两点问题：1. 输出中包含模型的eos_token_id信息；2. 模型接着上一段开始自行组织多轮对话直到max_tokens.本文提供了解决方案

johnteller

1485人浏览 · 2024-11-18 19:56:02

johnteller · 2024-11-18 19:56:02 发布

问题描述

本人在使用vllm的openai接口部署llama3以及llama2时，出现了下面的模型输出结果：

可以看到上面的输出存在两点问题：

1. 输出中包含模型的eos_token_id信息；

2. 模型接着上一段开始自行组织多轮对话直到max_tokens.

解决方案

很简单，在openai的response中设置stop为相应模型的eos_token_id即可：

后记

因为学艺不精出现的一个弱智问题，特此记录。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

如何卸载openclaw

OpenClaw（俗称"龙虾"）是一个本地 AI 智能体平台，用于在电脑上部署自主运行的 AI 代理。

AI Agent技术社区

（已解决）安装openclaw龙虾[特殊字符]npm权限问题EACCES

先安装升级完成node和homebrew后。安装就很快了。但是遇到EACCESS问题！！！发现报错了。问题错误：核心问题是sharp解决（90%人遇到的）安装 macOS 编译工具很多人缺少，导致sharp无法编译。运行：xcode-select --install安装完成后重新执行：sharp编译需要 C++ 编译器和 node-gyp，这些都来自 Xcode CLI。