Name	Name	Last commit message	Last commit date
parent directory ..
llama	llama
README.md	README.md
run_baseline.sh	run_baseline.sh
run_baseline_commonsense.sh	run_baseline_commonsense.sh
run_baseline_symbolic.sh	run_baseline_symbolic.sh
run_generation_aqua.sh	run_generation_aqua.sh
run_generation_asdiv.sh	run_generation_asdiv.sh
run_generation_csqa.sh	run_generation_csqa.sh
run_generation_date.sh	run_generation_date.sh
run_generation_finqa.sh	run_generation_finqa.sh
run_generation_gsm8k.sh	run_generation_gsm8k.sh
run_generation_gsm8k_cot.sh	run_generation_gsm8k_cot.sh
run_generation_mawps.sh	run_generation_mawps.sh
run_generation_object_counting.sh	run_generation_object_counting.sh
run_generation_penguin.sh	run_generation_penguin.sh
run_generation_saycan.sh	run_generation_saycan.sh
run_generation_sports.sh	run_generation_sports.sh
run_generation_strategyqa.sh	run_generation_strategyqa.sh
run_generation_svamp.sh	run_generation_svamp.sh
run_generation_tabmwp.sh	run_generation_tabmwp.sh
run_self_evaluation.sh	run_self_evaluation.sh

Name

Last commit message

Last commit date

llama

README.md

run_baseline.sh

run_baseline_commonsense.sh

run_baseline_symbolic.sh

run_generation_aqua.sh

run_generation_asdiv.sh

run_generation_csqa.sh

run_generation_date.sh

run_generation_finqa.sh

run_generation_gsm8k.sh

run_generation_gsm8k_cot.sh

run_generation_mawps.sh

run_generation_object_counting.sh

run_generation_penguin.sh

run_generation_saycan.sh

run_generation_sports.sh

run_generation_strategyqa.sh

run_generation_svamp.sh

run_generation_tabmwp.sh

run_self_evaluation.sh

Running Scripts

Before running, please define EXEHOME, OUTPUTHOME, and DATAHOME accordingly in the script.

e.g.,

EXEHOME=/home/username/SelfEval-Guided-Decoding/src
DATAHOME=/home/username/SelfEval-Guided-Decoding/data
OUTPUTHOME=/home/username/SelfEval-Guided-Decoding/outputs/${dtname}/${split}_outputs

We provide three types of example scripts as follows: (1) baseline running; (2) ours running; (3) LLM evaluating.

PS: please adjust the variables dtname and split to specify the dataset

Baseline Running

(main code: src/generate_code_baseline.py)

arithmetic reasoning -- run_baseline.sh
symbolic reasoning -- run_baseline_symbolic.sh
commonsense reasoning -- run_baseline_commonsense.sh

Ours Running

(main code: src/generate_code.py)

arithmetic reasoning
- GSM8K: Ours (PAL), Ours (CoT)
- AQUA: Ours (PAL)
- SVAMP: Ours (PAL)
- ASDiv: Ours (PAL)
- TabMWP: Ours (PAL)
symbolic reasoning
- Date Understanding: Ours (PAL)
- Object Counting: Ours (PAL)
commonsense reasoning
- CSQA: Ours (CoT)
- StrategyQA: Ours (CoT)
- Sports Understanding: Ours (CoT)

LLM Evaluation

(main code: src/self_evaluate_code.py)

Run run_self_evaluation.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

Running Scripts

Baseline Running

Ours Running

LLM Evaluation

FilesExpand file tree

scripts

Directory actions

More options

Directory actions

More options

Latest commit

History

scripts

Folders and files

parent directory

README.md

Running Scripts

Baseline Running

Ours Running

LLM Evaluation