Post-Training Data Processing Pipeline

posttraining-data is a turn-key 8-stage pipeline for processing HuggingFace datasets into training-ready format. It was used to prepare Apertus' post-training data and notably its SFT mixture. More information can be found in the Apertus tech report.

Pipeline Stages

The pipeline consists of the following self-contained stages:

01-hf-download: Downloads HuggingFace datasets with metadata tracking → produces HF DatasetDict
02-standardisation: Converts datasets to unified chat format → produces HF DatasetDict
03-license-based-filtering: Removes samples with licensing restrictions → produces HF DatasetDict
04-decontamination: Removes contaminated samples from evaluation sets → produces HF DatasetDict
05-annotations: Adds LLM-based classifications and language detection → produces HF DatasetDict
06-field-based-filtering: General field analysis and filtering → produces HF DatasetDict
07-dataset-aggregation: Combines multiple datasets into training mixtures → produces HF Dataset ready for training
08-judge-evaluation: Evaluates datasets with LLM judges.

A few additional running scripts and miscellaneous commands are also provided in examples.

Setup

Create virtual environment and install dependencies:

python -m venv venv
source venv/bin/activate
pip install -r requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Post-Training Data Processing Pipeline

Pipeline Stages

Setup

About

Uh oh!

Releases

Packages

Contributors 7

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 196 Commits
01-hf-download		01-hf-download
02-standardisation		02-standardisation
03-license-based-filtering		03-license-based-filtering
04-decontamination		04-decontamination
05-annotations		05-annotations
06-field-based-filtering		06-field-based-filtering
07-dataset-aggregation		07-dataset-aggregation
08-judge-evaluation		08-judge-evaluation
examples		examples
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

swiss-ai/posttraining-data

Folders and files

Latest commit

History

Repository files navigation

Post-Training Data Processing Pipeline

Pipeline Stages

Setup

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 7

Uh oh!

Languages

Packages