语言:English
本仓库收录了论文 Large Language Models Badly Generalize across Option Length, Problem Types, and Irrelevant Noun Replacements(已被 EMNLP 2025 接收)的全部代码、数据处理脚本与评测流程。对应的论文全文请参见:链接。
option_length/— 面向 MMLU 和 ARC 基准的选项长度扰动评测管线。question_type/— 将多选题重写为其他题型(如判断题)的工具脚本。irrelvant_nouns/— 针对 GSM8K 的无关名词替换压力测试及其数据与评测脚本。
- 建议使用 Conda 创建独立环境。
- 以 editable 方式安装仓库中自带的评测框架
lm-evaluation-harness。 - 根据各子目录 README 中的额外依赖说明完成安装,再执行下文的实验步骤。
conda create -n lm_eval python=3.12 -y
conda activate lm_eval
pip install -e ./lm-evaluation-harness位于 option_length/。可运行 paraphrase/mmlu.py 与 paraphrase/arc.py 生成改写数据集,或直接从Google Drive(链接) 下载打包好的 datasets.tar.gz。通过 option_length/scripts/ 下的脚本(eval_mmlu.sh、eval_arc.sh、eval_mmlu_vary.sh)执行评测,结果将保存至 option_length/results/。
question_type/ 目录提供将 MMLU 多选题转换为判断题等形式的脚本。如需重新生成数据,请在该目录下执行 python make_bq.py。
irrelvant_nouns/ 目录包含不同语义偏移程度的 GSM8K 名词替换数据。可运行 bash run_evaluate.sh 完成全部评测。irrelvant_nouns/preprocess_data/ 下提供了数据生成脚本,通常无需重新执行。
以下表格展示了在选项长度扰动条件下(MMLU / ARC)的代表性结果,完整日志可在 option_length/results/ 中查看。
| Benchmark | Model | Origin | RL | WL |
|---|---|---|---|---|
| MMLU | Qwen2.5 1.5B | 60.3 | 89.0 | 36.3 |
| Qwen2.5 7B | 73.7 | 90.1 | 55.6 | |
| Qwen2.5 72B | 85.4 | 94.1 | 75.6 | |
| LLaMa3.1 8B | 65.5 | 85.6 | 53.6 | |
| LLaMa3.1 70B | 78.8 | 93.6 | 70.6 | |
| GPT4o mini | 76.5 | 87.2 | 70.6 | |
| GPT4o | 85.2 | 89.7 | 83.3 | |
| ARC-C | Qwen2.5 1.5B | 77.3 | 88.9 | 68.1 |
| Qwen2.5 7B | 90.0 | 94.3 | 84.0 | |
| Qwen2.5 72B | 95.8 | 97.2 | 94.4 | |
| LLaMa3.1 8B | 78.1 | 85.2 | 74.7 | |
| LLaMa3.1 70B | 91.8 | 96.3 | 90.8 | |
| GPT4o mini | 91.8 | 95.1 | 91.4 | |
| GPT4o | 96.5 | 97.1 | 95.5 |
Origin:指原始的 MMLU 和 ARC-C 基准; RL:指将正确选项加长; WL:指将错误选项加长
如果本项目对您的研究有帮助,请在引用中注明如下条目。
@inproceedings{paperpitfall2025,
title = {Large Language Models Badly Generalize across Option Length, Problem Types, and Irrelevant Noun Replacements},
author = {Guangxiang Zhao, Saier Hu, Xiaoqi Jian, Jinzhu Wu, Yuhan Wu, Change Jia, Lin Sun, Xiangzheng Zhang},
booktitle = {Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing},
year = {2025},
url = {https://arxiv.org/abs/2502.12459}
}如有疑问或合作意向,请在仓库提交 Issue,或通过论文中的邮箱与作者取得联系。
本仓库基于 EleutherAI 的 lm-evaluation-harness 构建,使用 v0.4.3 版本。