Spatial Transcriptomics Data Processing Pipeline

This repository contains a comprehensive processing pipeline for spatial transcriptomics data analysis.

This pipeline was built and deployed on Code Ocean, a cloud-based computational research platform. The pipeline leverages Code Ocean's containerized environment to ensure reproducible results across different computing environments.

Code Ocean documentation: https://docs.codeocean.com/user-guide

QC & Mapping Overview

The processing section of pipeline consists of the following sequential steps:

Step 1: QC Filtering & Doublet Detection

Quality control filtering and doublet detection with SOLO (Semi-supervised Outlier Detection).

Step 2: Cell Type Mapping

Perform MapMyCells cell type mapping.

Step 3: Combine Sections

Aggregate individual section-level AnnData files into a single combined dataset for whole-dataset analysis.

Step 4: Add Cell Type Colors

Add color mappings for cell type classifications to AnnData objects using the ABC atlas color scheme.

Step 5: DoubleMAD Mapping Filtering

Perform quality control on cell type mapping results using Double Median Absolute Deviation (DoubleMAD) statistics to identify and filter cells with poor mapping confidence scores.

Step 6: Save Processing Results

Save final processed results from the pipeline and add final QC column.

Domain Detection Overview

The domain detection section of pipeline consists of the following sequential steps:

Step 1: Downsample Spot Table

Bin transcript spots and performs QC filtering.

Step 2: Run STAligner

Perform spatial alignment and integration of multiple tissue sections using STAligner.

Step 3: Leiden Clustering

Perform Leiden clustering with STAligner embeddings.

Step 4: Add Clusters to Cell-By-Gene

Map cluster assignments from downsampled STAligner gridded data to cell segmentation data.

Step 5: Merge All Clusters

Consolidate cluster assignments to full processed dataset.

Setup

Running via Code Ocean UI:

Create a new Pipeline by cloning this repository
Replace Data Parameters
Configure App Panel with your dataset-specific parameters
Verify data format matches expected input structure
Click "Run with parameters" to run pipeline

Running on your local machine:

Click Pipeline -> Export
Follow the instructions in REPRODUCING.md

Configuration

All pipeline parameters are configured in the Create Parameters JSON capsule and centralized in params.json. Key parameter categories include:

QC Filtering Parameters
Mapping Parameters
Metadata Parameters
Domain Detection Parameters

Input Data Format

data/
├── section1.h5ad
├── section2.h5ad
├── section3.h5ad
...

Required columns:

x and y: cell centroid coordinates
brain_section_barcode: Section ID
Index containing unique cell labels (e.g.,{brain_section_barcode}_SIS_{i})

Output Files

The pipeline generates the following key outputs:

results/
├── whole_dataset/
│   ├── {specimen}_{dataset_id}_filtered.h5ad
|   └── {specimen}_{dataset_id}_filtered.csv
└── sections/
    ├── section1_filtered.h5ad
    ├── section2_filtered.h5ad
    └── ...

Key output files:

{specimen}_{dataset_id}_filtered.h5ad: Combined, QC-filtered data
sectioni_filtered.h5ad: QC-filtered data split by brain_section_barcode

Support

For detailed information about each step, refer to the individual markdown files linked above. Each file contains:

Detailed methodology description
Input/output file specifications
Configuration parameter explanations
Expected results and metadata columns

Name		Name	Last commit message	Last commit date
Latest commit History 190 Commits
.codeocean		.codeocean
docs		docs
metadata		metadata
pipeline		pipeline
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

Uh oh!

Repository files navigation

Spatial Transcriptomics Data Processing Pipeline

QC & Mapping Overview

Step 1: QC Filtering & Doublet Detection

Step 2: Cell Type Mapping

Step 3: Combine Sections

Step 4: Add Cell Type Colors

Step 5: DoubleMAD Mapping Filtering

Step 6: Save Processing Results

Domain Detection Overview

Step 1: Downsample Spot Table

Step 2: Run STAligner

Step 3: Leiden Clustering

Step 4: Add Clusters to Cell-By-Gene

Step 5: Merge All Clusters

Setup

Configuration

Input Data Format

Output Files

Support

About

Uh oh!

Releases

Packages

Languages

Uh oh!

Uh oh!

AllenInstitute/Spatial-Transcriptomics-Processing-Pipeline

Folders and files

Latest commit

History

Repository files navigation

Spatial Transcriptomics Data Processing Pipeline

QC & Mapping Overview

Domain Detection Overview

Setup

Configuration

Input Data Format

Output Files

Support

About

Resources

Uh oh!

Stars

Watchers

Forks

Languages