大语言模型在选项长度、问题类型和无关名词替换方面的泛化能力欠佳

项目概述

本仓库收录了论文 Large Language Models Badly Generalize across Option Length, Problem Types, and Irrelevant Noun Replacements（已被 EMNLP 2025 接收）的全部代码、数据处理脚本与评测流程。对应的论文全文请参见：链接。

仓库结构

option_length/ — 面向 MMLU 和 ARC 基准的选项长度扰动评测管线。
question_type/ — 将多选题重写为其他题型（如判断题）的工具脚本。
irrelvant_nouns/ — 针对 GSM8K 的无关名词替换压力测试及其数据与评测脚本。

快速开始

建议使用 Conda 创建独立环境。
以 editable 方式安装仓库中自带的评测框架 lm-evaluation-harness。
根据各子目录 README 中的额外依赖说明完成安装，再执行下文的实验步骤。

conda create -n lm_eval python=3.12 -y
conda activate lm_eval
pip install -e ./lm-evaluation-harness

实验说明

选项长度压力测试

位于 option_length/。可运行 paraphrase/mmlu.py 与 paraphrase/arc.py 生成改写数据集，或直接从Google Drive（链接）下载打包好的 datasets.tar.gz。通过 option_length/scripts/ 下的脚本（eval_mmlu.sh、eval_arc.sh、eval_mmlu_vary.sh）执行评测，结果将保存至 option_length/results/。

问题类型转换

question_type/ 目录提供将 MMLU 多选题转换为判断题等形式的脚本。如需重新生成数据，请在该目录下执行 python make_bq.py。

无关名词替换

irrelvant_nouns/ 目录包含不同语义偏移程度的 GSM8K 名词替换数据。可运行 bash run_evaluate.sh 完成全部评测。irrelvant_nouns/preprocess_data/ 下提供了数据生成脚本，通常无需重新执行。

结果速览

以下表格展示了在选项长度扰动条件下（MMLU / ARC）的代表性结果，完整日志可在 option_length/results/ 中查看。

Benchmark	Model	Origin	RL	WL
MMLU	Qwen2.5 1.5B	60.3	89.0	36.3
	Qwen2.5 7B	73.7	90.1	55.6
	Qwen2.5 72B	85.4	94.1	75.6
	LLaMa3.1 8B	65.5	85.6	53.6
	LLaMa3.1 70B	78.8	93.6	70.6
	GPT4o mini	76.5	87.2	70.6
	GPT4o	85.2	89.7	83.3
ARC-C	Qwen2.5 1.5B	77.3	88.9	68.1
	Qwen2.5 7B	90.0	94.3	84.0
	Qwen2.5 72B	95.8	97.2	94.4
	LLaMa3.1 8B	78.1	85.2	74.7
	LLaMa3.1 70B	91.8	96.3	90.8
	GPT4o mini	91.8	95.1	91.4
	GPT4o	96.5	97.1	95.5

Origin：指原始的 MMLU 和 ARC-C 基准； RL：指将正确选项加长； WL：指将错误选项加长

引用

如果本项目对您的研究有帮助，请在引用中注明如下条目。

@inproceedings{paperpitfall2025,
  title     = {Large Language Models Badly Generalize across Option Length, Problem Types, and Irrelevant Noun Replacements},
  author    = {Guangxiang Zhao, Saier Hu, Xiaoqi Jian, Jinzhu Wu, Yuhan Wu, Change Jia, Lin Sun, Xiangzheng Zhang},
  booktitle = {Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing},
  year      = {2025},
  url       = {https://arxiv.org/abs/2502.12459}
}

联系方式

如有疑问或合作意向，请在仓库提交 Issue，或通过论文中的邮箱与作者取得联系。

致谢

本仓库基于 EleutherAI 的 lm-evaluation-harness 构建，使用 v0.4.3 版本。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

大语言模型在选项长度、问题类型和无关名词替换方面的泛化能力欠佳

项目概述

仓库结构

快速开始

实验说明

选项长度压力测试

问题类型转换

无关名词替换

结果速览

引用

联系方式

致谢

FilesExpand file tree

README-zh.md

Latest commit

History

README-zh.md

File metadata and controls

大语言模型在选项长度、问题类型和无关名词替换方面的泛化能力欠佳

项目概述

仓库结构

快速开始

实验说明

选项长度压力测试

问题类型转换

无关名词替换

结果速览

引用

联系方式

致谢