GLM-4-9B-Chat-1M模型解释性：注意力可视化与分析

爱军习武

371人浏览 · 2026-02-16 00:32:21

爱军习武 · 2026-02-16 00:32:21 发布

GLM-4-9B-Chat-1M模型解释性：注意力可视化与分析

1. 为什么需要理解模型在想什么

你有没有遇到过这样的情况：向GLM-4-9B-Chat-1M提问，它给出了一个看似合理但又让人将信将疑的回答？比如问它"这份200页的合同里哪些条款对甲方最不利"，它列出了几条，但你不确定它是真读懂了全文，还是只是在关键词附近做了些表面推理？

这正是大模型解释性的核心价值所在——不是要让模型变成透明玻璃，而是给使用者一把能看清它思考路径的放大镜。GLM-4-9B-Chat-1M作为支持百万级上下文的开源大模型，它的能力边界远超传统模型，但随之而来的是更复杂的内部决策过程。当我们把几十万字的法律文书、整部《红楼梦》甚至多份技术文档喂给它时，它到底在关注哪些部分？哪些词真正影响了最终输出？这些都不是黑箱里的秘密，而是可以通过技术手段观察和验证的。

解释性不是学术圈的自娱自乐，而是实际工程中的刚需。在法律、医疗、金融等高风险场景中，一个无法解释的结论可能意味着巨大的责任风险；在研发调试阶段，知道模型为什么出错比单纯调参高效得多；甚至在日常使用中，理解模型的关注点也能帮我们写出更有效的提示词。这篇文章不会堆砌理论，而是带你一步步用真实代码，把GLM-4-9B-Chat-1M的注意力机制"画"出来，看看这个90亿参数的大家伙，究竟是如何阅读和理解超长文本的。

2. 注意力机制基础：模型的"目光焦点"

2.1 注意力是什么，为什么它重要

想象一下你正在读一份50页的PDF合同，眼睛不可能同时看清所有文字。你的目光会自然地在关键条款、数字金额、责任描述等位置停留更久，而快速扫过格式性文字。这种选择性关注的能力，就是人类的注意力机制。

Transformer架构的模型也采用了类似的设计，但它的"目光"是数学化的——通过计算每个词与其他所有词之间的相关性得分，决定在生成某个词时应该"看"哪些词更多。这些得分被组织成矩阵，就是所谓的注意力权重。对于GLM-4-9B-Chat-1M这样支持百万token上下文的模型，它的注意力矩阵规模极其庞大，但核心逻辑不变：每个输出词都是基于输入序列中不同位置的加权组合。

这里的关键在于，注意力权重揭示了模型的"思考依据"。当模型回答"合同第37条违约金过高"时，如果它的注意力主要集中在第37条原文和前后几行，那说明它确实在基于该条款推理；如果注意力却大量分散在页眉页脚或无关段落，那这个回答就值得怀疑了。

2.2 GLM-4系列的注意力特点

与早期模型相比，GLM-4-9B-Chat-1M的注意力机制有其独特设计。它并非简单地将标准Transformer注意力扩展到百万长度，而是采用了分层注意力策略：在局部窗口内进行高精度细粒度关注，同时通过稀疏化技术在全局范围内建立长距离连接。这种设计让它既能捕捉"违约金数额"与"支付条件"之间的细微关系，又能理解"本协议终止后"这一短语与数百页后"保密义务延续"条款的逻辑关联。

值得注意的是，GLM-4的注意力头（attention head）并非均匀分布。部分头专门处理语法结构，部分头专注于实体识别，还有专门负责长距离依赖的头。这种专业化分工使得它的注意力图谱比通用模型更具可解读性——我们往往能从特定头的注意力模式中，直接看到模型在执行哪类子任务。

3. 实战：可视化GLM-4-9B-Chat-1M的注意力

3.1 环境准备与模型加载

要观察模型的注意力，首先得让它运行起来。GLM-4-9B-Chat-1M对硬件有一定要求，但好消息是，我们不需要完整加载整个百万token上下文就能看到它的注意力行为。下面的代码使用Hugging Face Transformers库，这是目前最稳定的方式：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# 设置设备
device = "cuda" if torch.cuda.is_available() else "cpu"

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(
    "THUDM/glm-4-9b-chat-1m", 
    trust_remote_code=True
)
model = AutoModelForCausalLM.from_pretrained(
    "THUDM/glm-4-9b-chat-1m",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    trust_remote_code=True
).to(device).eval()

# 创建一个简短但信息丰富的测试文本
test_text = "人工智能在医疗领域的应用日益广泛。例如，AI可以辅助医生分析医学影像，识别早期肿瘤；也可以处理电子病历，提取关键病史信息；还能帮助研究人员分析海量文献，加速新药研发进程。"

这段代码的关键点在于trust_remote_code=True，因为GLM-4系列使用了自定义的模型架构和分词逻辑。如果你遇到CUDA内存不足的问题，可以添加device_map="auto"参数让Hugging Face自动分配显存。

3.2 捕获并提取注意力权重

模型在推理过程中会计算每一层、每一个注意力头的权重，但默认情况下这些中间结果不会返回。我们需要修改模型的前向传播过程来捕获它们。幸运的是，Transformers库提供了钩子（hook）机制，让我们无需修改模型源码：

# 存储注意力权重的列表
attention_weights = []

def hook_fn(module, input, output):
    # output[1] 包含注意力权重，形状为 (batch, heads, seq_len, seq_len)
    attention_weights.append(output[1].cpu().detach().numpy())

# 为所有注意力层注册钩子
for layer in model.transformer.layers:
    layer.self_attention.attn_dropout.register_forward_hook(hook_fn)

# 准备输入
inputs = tokenizer(
    test_text, 
    return_tensors="pt", 
    truncation=True, 
    max_length=512
).to(device)

# 执行前向传播
with torch.no_grad():
    outputs = model(**inputs)

# 现在 attention_weights 包含了所有层的注意力权重
print(f"捕获到 {len(attention_weights)} 层的注意力权重")
print(f"第一层注意力形状: {attention_weights[0].shape}")

这段代码会在模型运行时，自动收集每一层的注意力权重。注意我们限制了max_length=512，因为完整百万token的注意力矩阵会占用巨大内存，而我们的目标是理解原理，不是一次性处理全部数据。

3.3 可视化单层单头注意力

现在我们有了数据，接下来把它画出来。下面的代码展示如何绘制第5层第3个注意力头的注意力热力图：

def plot_attention_heatmap(attention_matrix, tokens, layer_num, head_num):
    """绘制单个注意力头的热力图"""
    plt.figure(figsize=(12, 10))
    
    # 创建掩码，只显示上三角部分（因为GLM是因果注意力）
    mask = np.triu(np.ones_like(attention_matrix, dtype=bool), k=1)
    
    # 绘制热力图
    sns.heatmap(
        attention_matrix, 
        xticklabels=tokens, 
        yticklabels=tokens,
        mask=mask,
        cmap='viridis',
        cbar_kws={'label': 'Attention Score'}
    )
    
    plt.title(f'Layer {layer_num}, Head {head_num} Attention Weights')
    plt.xlabel('Key Tokens')
    plt.ylabel('Query Tokens')
    plt.xticks(rotation=45, ha='right')
    plt.yticks(rotation=0)
    plt.tight_layout()
    plt.show()

# 获取第5层（索引为4）第3个头（索引为2）的注意力
layer_idx = 4
head_idx = 2
attention_matrix = attention_weights[layer_idx][0, head_idx, :, :]

# 获取对应的token文本
tokens = tokenizer.convert_ids_to_tokens(inputs['input_ids'][0])

# 绘制热力图
plot_attention_heatmap(attention_matrix, tokens, layer_idx+1, head_idx+1)

运行这段代码，你会看到一张热力图，其中颜色越深表示模型在生成某个词时，越关注另一个词。你会发现，当模型处理"识别早期肿瘤"时，它的注意力会强烈聚焦在"医学影像"和"肿瘤"上，而对"例如"、"可以"等功能词关注度很低。这就是模型在告诉你："我正在基于这些关键概念做推理"。

4. 深入分析：从热力图到实际洞察

4.1 关键token识别：找出模型的"决策锚点"

热力图虽然直观，但面对上百个token时，人眼很难快速定位最重要的几个。我们可以用统计方法自动识别关键token：

def find_key_tokens(attention_matrix, tokens, top_k=5):
    """找出对当前层贡献最大的key tokens"""
    # 计算每个key token被所有query关注的总分
    key_importance = np.sum(attention_matrix, axis=0)
    
    # 排序并获取top-k
    top_indices = np.argsort(key_importance)[-top_k:][::-1]
    
    print("Top key tokens by total attention score:")
    for i, idx in enumerate(top_indices):
        if idx < len(tokens):
            print(f"{i+1}. '{tokens[idx]}' (score: {key_importance[idx]:.4f})")
    
    return top_indices

# 对最后一层的注意力进行分析
last_layer_attention = attention_weights[-1][0, 0, :, :]  # 使用最后一层第一个头
key_indices = find_key_tokens(last_layer_attention, tokens)

运行结果可能会显示类似：

Top key tokens by total attention score:
1. '肿瘤' (score: 0.8231)
2. '影像' (score: 0.7654)
3. 'AI' (score: 0.6543)
4. '医生' (score: 0.5432)
5. '分析' (score: 0.4321)

这告诉我们，在模型生成答案的最后阶段，它最依赖的是"肿瘤"和"影像"这两个概念。结合原始文本，这完全符合逻辑——模型的核心任务就是理解AI如何辅助医生分析医学影像以识别肿瘤。

4.2 跨层注意力追踪：看信息如何流动

单层注意力只能看到"此刻"的关注点，而真正的洞察来自追踪信息如何在不同层间传递。下面的代码展示了如何比较第2层和第12层的注意力模式：

def compare_layers(layer1_idx, layer2_idx, head_idx=0):
    """比较两层同一注意力头的模式差异"""
    att1 = attention_weights[layer1_idx][0, head_idx, :, :]
    att2 = attention_weights[layer2_idx][0, head_idx, :, :]
    
    # 计算每层的平均注意力跨度（关注范围）
    def avg_attention_span(attention_matrix):
        seq_len = attention_matrix.shape[0]
        positions = np.arange(seq_len)
        spans = []
        for i in range(seq_len):
            # 对每个query，计算它关注的key位置的加权平均距离
            weights = attention_matrix[i, :]
            if np.sum(weights) > 0:
                weighted_pos = np.average(positions, weights=weights)
                span = abs(weighted_pos - i)
                spans.append(span)
        return np.mean(spans) if spans else 0
    
    span1 = avg_attention_span(att1)
    span2 = avg_attention_span(att2)
    
    print(f"Layer {layer1_idx+1} average attention span: {span1:.2f} tokens")
    print(f"Layer {layer2_idx+1} average attention span: {span2:.2f} tokens")
    print(f"Interpretation: Early layers focus on local context ({span1:.0f} tokens), "
          f"while later layers integrate broader information ({span2:.0f} tokens)")

compare_layers(1, 11)  # 比较第2层和第12层

典型输出可能是：

Layer 2 average attention span: 3.24 tokens
Layer 12 average attention span: 18.76 tokens
Interpretation: Early layers focus on local context (3 tokens), while later layers integrate broader information (19 tokens)

这印证了Transformer的经典模式：底层处理语法和局部语义，高层构建全局理解和推理。对于GLM-4-9B-Chat-1M这样的长文本模型，这种分层特性尤为明显——它必须先理解"医学影像"是什么，再理解"AI分析影像"意味着什么，最后才能推断出"这有助于早期肿瘤识别"。

5. 面向长文本的特殊分析技巧

5.1 百万token上下文下的注意力采样

直接可视化百万token的注意力是不可能的，但我们可以通过智能采样获得有意义的洞察。GLM-4-9B-Chat-1M在处理超长文本时，实际上采用了滑动窗口和记忆压缩策略。下面的代码模拟了如何在长文档中定位关键区域：

def long_context_attention_sample(long_text, query, model, tokenizer, window_size=512):
    """在长文本中智能采样关键区域进行注意力分析"""
    # 将长文本分块
    tokens = tokenizer.encode(long_text, add_special_tokens=False)
    chunks = [tokens[i:i+window_size] for i in range(0, len(tokens), window_size)]
    
    # 对每个块，计算与query的相关性（简化版）
    query_tokens = tokenizer.encode(query, add_special_tokens=False)
    similarities = []
    
    for chunk in chunks:
        # 简单的词重叠计数作为相似性代理
        overlap = len(set(chunk) & set(query_tokens))
        similarities.append(overlap)
    
    # 选择相似性最高的3个块
    top_chunks = np.argsort(similarities)[-3:][::-1]
    
    print(f"Top 3 most relevant text chunks for query '{query}':")
    for i, chunk_idx in enumerate(top_chunks):
        chunk_text = tokenizer.decode(chunks[chunk_idx], skip_special_tokens=True)
        print(f"{i+1}. Chunk {chunk_idx}: '{chunk_text[:50]}...' (similarity: {similarities[chunk_idx]})")
    
    return top_chunks, chunks

# 示例：模拟一个长文档场景
long_doc = ("医疗AI发展报告..." * 200)  # 模拟长文本
query = "AI如何辅助医生分析医学影像"
top_chunks, all_chunks = long_context_attention_sample(long_doc, query, model, tokenizer)

这种方法不直接计算注意力，而是利用模型的内在机制——它在处理长文本时，会优先检索与当前任务最相关的片段。通过这种方式，我们能快速定位模型"认为"重要的文档区域，然后再对这些区域进行精细的注意力分析。

5.2 多头注意力协同分析

GLM-4-9B-Chat-1M有32个注意力头，它们并非独立工作，而是形成协同网络。我们可以分析哪些头倾向于关注相同的位置：

def analyze_head_cooperation(layer_idx, tokens, threshold=0.7):
    """分析同一层内注意力头的协同模式"""
    layer_attention = attention_weights[layer_idx][0]  # shape: (heads, seq_len, seq_len)
    num_heads = layer_attention.shape[0]
    
    # 计算头之间的相似性（余弦相似度）
    head_similarities = np.zeros((num_heads, num_heads))
    for i in range(num_heads):
        for j in range(num_heads):
            # 将注意力矩阵展平并计算余弦相似度
            vec_i = layer_attention[i].flatten()
            vec_j = layer_attention[j].flatten()
            dot_product = np.dot(vec_i, vec_j)
            norm_i = np.linalg.norm(vec_i)
            norm_j = np.linalg.norm(vec_j)
            if norm_i > 0 and norm_j > 0:
                head_similarities[i, j] = dot_product / (norm_i * norm_j)
    
    # 找出高度协同的头对
    high_coop_pairs = []
    for i in range(num_heads):
        for j in range(i+1, num_heads):
            if head_similarities[i, j] > threshold:
                high_coop_pairs.append((i, j, head_similarities[i, j]))
    
    print(f"High cooperation pairs in layer {layer_idx+1} (threshold {threshold}):")
    for pair in sorted(high_coop_pairs, key=lambda x: x[2], reverse=True)[:5]:
        print(f"Head {pair[0]+1} & {pair[1]+1}: {pair[2]:.3f}")
    
    return head_similarities

# 分析第8层的头协同
head_similarities = analyze_head_cooperation(7, tokens)

运行结果可能显示某些头对在处理专业术语时高度协同，而另一些头对则在处理逻辑连接词时协同。这种分析能帮助我们理解模型如何分工合作——比如，一个头专门识别"肿瘤"、"癌症"等医学实体，另一个头则负责理解"导致"、"因此"、"但是"等逻辑关系，它们的协同输出才构成了完整的推理链。

6. 解释性实践：从分析到改进

6.1 诊断模型弱点：当注意力揭示问题

注意力可视化最实用的价值之一是诊断模型为何出错。假设我们给GLM-4-9B-Chat-1M一个包含矛盾信息的文本：

conflict_text = "根据最新指南，糖尿病患者应控制碳水化合物摄入。然而，一项新研究发现，适量增加复杂碳水化合物摄入反而有益于血糖控制。"
query = "糖尿病患者应该如何控制碳水化合物摄入？"

# 获取模型响应和注意力
inputs = tokenizer(conflict_text + "\n" + query, return_tensors="pt").to(device)
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=100)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)

print("Model response:", response)
# 然后分析注意力...

如果我们发现模型的注意力大部分集中在第一句话（"应控制碳水化合物摄入"），而几乎忽略第二句的"然而"转折，这就解释了为什么它可能给出片面的回答。这种洞察直接指向改进方向：在提示词中强调"请考虑所有观点，特别是转折信息"，或者在微调数据中增加更多包含矛盾信息的样本。

6.2 提升提示词质量：基于注意力的优化

注意力分析能直接指导我们写出更好的提示词。观察到模型对某些词特别敏感，我们可以针对性强化：

def suggest_prompt_improvements(tokens, attention_weights, original_prompt):
    """基于注意力模式建议提示词优化"""
    # 找出在多个层都高亮的token（模型真正关注的）
    layer_contributions = []
    for layer_att in attention_weights:
        # 计算每个token被关注的总分（跨所有query）
        contribution = np.sum(layer_att[0], axis=0)
        layer_contributions.append(contribution)
    
    # 平均所有层的贡献
    avg_contribution = np.mean(layer_contributions, axis=0)
    
    # 找出贡献最高的前5个token
    top_indices = np.argsort(avg_contribution)[-5:][::-1]
    
    important_words = []
    for idx in top_indices:
        if idx < len(tokens) and len(tokens[idx]) > 2:  # 过滤掉太短的token
            important_words.append(tokens[idx])
    
    print("Model pays most attention to these words:")
    for word in important_words:
        print(f"- '{word}'")
    
    print("\nSuggested prompt improvements:")
    print("- Place key concepts like these at the beginning of your prompt")
    print("- Use synonyms or rephrasing for important words to reinforce focus")
    print("- Consider adding explicit instructions about these concepts")

# 在之前的分析后调用
suggest_prompt_improvements(tokens, attention_weights, test_text)

这种基于实证的提示词优化，比凭经验猜测有效得多。你会发现，模型对"AI"、"医疗"、"分析"等词的关注度远高于"可以"、"例如"等，那么在写提示词时，就应该把核心概念前置并强化，而不是用大量修饰性语言。

7. 总结

回看整个过程，我们没有把GLM-4-9B-Chat-1M当作一个不可知的黑箱，而是用代码和可视化工具，一层层剥开了它的思考外衣。从最基础的注意力热力图，到关键token识别，再到跨层信息流分析，每一步都让我们离模型的真实工作方式更近一点。

实际用下来，这套方法的价值远不止于学术好奇。当你在处理一份冗长的法律合同时，注意力可视化能帮你快速确认模型是否真的理解了关键条款，而不是在玩文字游戏；当你调试一个医疗问答系统时，它能告诉你模型是在基于症状描述推理，还是在胡乱拼凑训练数据中的常见短语；甚至当你只是想写个更好的提示词时，它也能明确指出哪些词才是真正驱动模型决策的"开关"。

当然，解释性技术也有其局限。注意力权重只是模型决策的一个视角，不是全部真相。但它提供了一个坚实的基础，让我们能从"相信模型"转向"验证模型"，从"猜测为什么错"转向"看到为什么错"。对于GLM-4-9B-Chat-1M这样支持百万token的复杂模型，这种可验证性不是锦上添花，而是工程落地的必要条件。

如果你刚接触这个领域，不必追求一次掌握所有技巧。从最简单的热力图开始，观察几个你熟悉的句子，慢慢培养对模型"目光"的直觉。随着经验积累，你会发现，那些曾经神秘的注意力分数，逐渐变成了可读、可理解、可操作的工程信号。