From 75ff62e82f46b291f69e4d0d530b8fa88cf17518 Mon Sep 17 00:00:00 2001
From: Pascal Seeber <seeber.p@gmx.de>
Date: Thu, 3 Jul 2025 15:17:43 +0200
Subject: [PATCH 1/4] add audio tasks

add audio training
---
 configs/audio_classification/hub_dataset.yml  |  33 +
 configs/audio_classification/local.yml        |  43 +
 configs/audio_detection/hub_dataset.yml       |  47 +
 configs/audio_detection/local.yml             |  43 +
 configs/audio_segmentation/hub_dataset.yml    |  49 +
 configs/audio_segmentation/local.yml          |  44 +
 src/autotrain/app/api_routes.py               |  65 +-
 src/autotrain/app/colab.py                    |   4 +-
 src/autotrain/app/models.py                   | 186 ++++
 src/autotrain/app/params.py                   | 130 ++-
 src/autotrain/app/templates/index.html        |  19 +-
 src/autotrain/app/ui_routes.py                |  62 ++
 src/autotrain/app/utils.py                    |   4 +-
 src/autotrain/backends/base.py                |  12 +
 src/autotrain/cli/autotrain.py                |   6 +
 src/autotrain/cli/run_audio_classification.py | 108 +++
 src/autotrain/cli/run_audio_detection.py      | 106 +++
 src/autotrain/cli/run_audio_segmentation.py   | 106 +++
 src/autotrain/commands.py                     | 143 ++-
 src/autotrain/dataset.py                      | 443 +++++++++
 src/autotrain/preprocessor/audio.py           | 841 ++++++++++++++++++
 src/autotrain/preprocessor/vision.py          |  12 +-
 src/autotrain/project.py                      | 280 ++++++
 src/autotrain/tasks.py                        |   7 +
 .../trainers/audio_classification/__init__.py |   3 +
 .../trainers/audio_classification/__main__.py | 284 ++++++
 .../trainers/audio_classification/dataset.py  | 121 +++
 .../trainers/audio_classification/params.py   |  78 ++
 .../trainers/audio_classification/utils.py    | 216 +++++
 .../trainers/audio_detection/__init__.py      |   3 +
 .../trainers/audio_detection/__main__.py      | 276 ++++++
 .../trainers/audio_detection/dataset.py       | 131 +++
 .../trainers/audio_detection/params.py        |  88 ++
 .../trainers/audio_detection/utils.py         | 209 +++++
 .../trainers/audio_segmentation/__init__.py   |   3 +
 .../trainers/audio_segmentation/__main__.py   | 385 ++++++++
 .../trainers/audio_segmentation/dataset.py    | 101 +++
 .../trainers/audio_segmentation/params.py     |  84 ++
 .../trainers/audio_segmentation/utils.py      | 276 ++++++
 .../trainers/image_classification/__main__.py |   5 +
 src/autotrain/trainers/tabular/utils.py       |   9 +-
 src/autotrain/utils.py                        |   9 +
 42 files changed, 5051 insertions(+), 23 deletions(-)
 create mode 100644 configs/audio_classification/hub_dataset.yml
 create mode 100644 configs/audio_classification/local.yml
 create mode 100644 configs/audio_detection/hub_dataset.yml
 create mode 100644 configs/audio_detection/local.yml
 create mode 100644 configs/audio_segmentation/hub_dataset.yml
 create mode 100644 configs/audio_segmentation/local.yml
 create mode 100644 src/autotrain/cli/run_audio_classification.py
 create mode 100644 src/autotrain/cli/run_audio_detection.py
 create mode 100644 src/autotrain/cli/run_audio_segmentation.py
 create mode 100644 src/autotrain/preprocessor/audio.py
 create mode 100644 src/autotrain/trainers/audio_classification/__init__.py
 create mode 100644 src/autotrain/trainers/audio_classification/__main__.py
 create mode 100644 src/autotrain/trainers/audio_classification/dataset.py
 create mode 100644 src/autotrain/trainers/audio_classification/params.py
 create mode 100644 src/autotrain/trainers/audio_classification/utils.py
 create mode 100644 src/autotrain/trainers/audio_detection/__init__.py
 create mode 100644 src/autotrain/trainers/audio_detection/__main__.py
 create mode 100644 src/autotrain/trainers/audio_detection/dataset.py
 create mode 100644 src/autotrain/trainers/audio_detection/params.py
 create mode 100644 src/autotrain/trainers/audio_detection/utils.py
 create mode 100644 src/autotrain/trainers/audio_segmentation/__init__.py
 create mode 100644 src/autotrain/trainers/audio_segmentation/__main__.py
 create mode 100644 src/autotrain/trainers/audio_segmentation/dataset.py
 create mode 100644 src/autotrain/trainers/audio_segmentation/params.py
 create mode 100644 src/autotrain/trainers/audio_segmentation/utils.py

diff --git a/configs/audio_classification/hub_dataset.yml b/configs/audio_classification/hub_dataset.yml
new file mode 100644
index 0000000000..9e7efd132c
--- /dev/null
+++ b/configs/audio_classification/hub_dataset.yml
@@ -0,0 +1,33 @@
+task: audio-classification
+base_model: facebook/wav2vec2-base
+project_name: my-autotrain-audio-clf
+log: tensorboard
+backend: local
+
+data_path: superb
+train_split: train
+valid_split: validation
+
+column_mapping:
+  audio_column: audio
+  target_column: label
+
+parameters:
+  learning_rate: 3e-5
+  epochs: 5
+  batch_size: 8
+  warmup_ratio: 0.1
+  weight_decay: 0.01
+  mixed_precision: fp16
+  gradient_accumulation: 1
+  auto_find_batch_size: false
+  push_to_hub: false
+  logging_steps: -1
+  eval_strategy: epoch
+  save_total_limit: 1
+  early_stopping_patience: 5
+  early_stopping_threshold: 0.01
+  max_length: 480000  # 30 seconds at 16kHz
+  sampling_rate: 16000
+  feature_extractor_normalize: true
+  feature_extractor_return_attention_mask: true 
\ No newline at end of file
diff --git a/configs/audio_classification/local.yml b/configs/audio_classification/local.yml
new file mode 100644
index 0000000000..0200a4fc0d
--- /dev/null
+++ b/configs/audio_classification/local.yml
@@ -0,0 +1,43 @@
+task: audio-classification
+base_model: facebook/wav2vec2-base
+project_name: my-autotrain-audio-clf-local
+log: tensorboard
+backend: local
+
+# Local data path - should contain audio files and CSV with labels
+data_path: /path/to/audio/dataset.csv
+train_split: train
+valid_split: validation
+
+column_mapping:
+  audio_column: audio_path
+  target_column: label
+
+parameters:
+  learning_rate: 3e-5
+  epochs: 5
+  batch_size: 8
+  warmup_ratio: 0.1
+  weight_decay: 0.01
+  mixed_precision: fp16
+  gradient_accumulation: 1
+  auto_find_batch_size: false
+  push_to_hub: false
+  logging_steps: -1
+  eval_strategy: epoch
+  save_total_limit: 1
+  early_stopping_patience: 5
+  early_stopping_threshold: 0.01
+  max_length: 480000  # 30 seconds at 16kHz
+  sampling_rate: 16000
+  feature_extractor_normalize: true
+  feature_extractor_return_attention_mask: true
+
+# Note: For local audio classification:
+# - audio_path column should contain paths to audio files (.wav, .mp3, .flac)
+# - label column should contain class labels (strings or integers)
+# - CSV format: audio_path,label
+#   Example:
+#   /path/to/audio1.wav,speech
+#   /path/to/audio2.wav,music
+#   /path/to/audio3.wav,noise 
\ No newline at end of file
diff --git a/configs/audio_detection/hub_dataset.yml b/configs/audio_detection/hub_dataset.yml
new file mode 100644
index 0000000000..e2040dbced
--- /dev/null
+++ b/configs/audio_detection/hub_dataset.yml
@@ -0,0 +1,47 @@
+task: audio-detection
+base_model: facebook/wav2vec2-base
+project_name: my-autotrain-audio-detection-hub
+log: tensorboard
+backend: local
+
+# Hub dataset configuration
+data_path: audiofolder/audio_detection_dataset
+train_split: train
+valid_split: validation
+
+column_mapping:
+  audio_column: audio
+  events_column: events
+
+parameters:
+  learning_rate: 3e-5
+  epochs: 3
+  batch_size: 8
+  warmup_ratio: 0.1
+  weight_decay: 0.01
+  mixed_precision: fp16
+  gradient_accumulation: 1
+  auto_find_batch_size: false
+  push_to_hub: false
+  logging_steps: -1
+  eval_strategy: epoch
+  save_total_limit: 1
+  early_stopping_patience: 5
+  early_stopping_threshold: 0.01
+  max_length: 480000  # 30 seconds at 16kHz
+  sampling_rate: 16000
+  event_overlap_threshold: 0.5  # IoU threshold for overlapping events
+  confidence_threshold: 0.1  # Minimum confidence threshold for event detection
+
+# Hub settings
+hub:
+  username: ${HF_USERNAME}
+  token: ${HF_TOKEN}
+  push_to_hub: true
+
+# Note: For hub audio detection datasets:
+# - The dataset should have 'audio' and 'events' columns
+# - Events should be formatted as a list of dictionaries:
+#   [{"start": 0.0, "end": 2.5, "label": "speech"}, {"start": 2.5, "end": 3.0, "label": "silence"}]
+# - Audio column should contain audio data (array or file paths)
+# - Similar to object detection but for temporal events in audio 
\ No newline at end of file
diff --git a/configs/audio_detection/local.yml b/configs/audio_detection/local.yml
new file mode 100644
index 0000000000..8db2f96d8d
--- /dev/null
+++ b/configs/audio_detection/local.yml
@@ -0,0 +1,43 @@
+task: audio-detection
+base_model: facebook/wav2vec2-base
+project_name: my-autotrain-audio-detection-local
+log: tensorboard
+backend: local
+
+# Local data path - should contain audio files and CSV with event annotations
+data_path: /path/to/audio/dataset.csv
+train_split: train
+valid_split: validation
+
+column_mapping:
+  audio_column: audio_path
+  events_column: events
+
+parameters:
+  learning_rate: 3e-5
+  epochs: 3
+  batch_size: 8
+  warmup_ratio: 0.1
+  weight_decay: 0.01
+  mixed_precision: fp16
+  gradient_accumulation: 1
+  auto_find_batch_size: false
+  push_to_hub: false
+  logging_steps: -1
+  eval_strategy: epoch
+  save_total_limit: 1
+  early_stopping_patience: 5
+  early_stopping_threshold: 0.01
+  max_length: 480000  # 30 seconds at 16kHz
+  sampling_rate: 16000
+  event_overlap_threshold: 0.5  # IoU threshold for overlapping events
+  confidence_threshold: 0.1  # Minimum confidence threshold for event detection
+
+# Note: For local audio detection:
+# - audio_path column should contain paths to audio files (.wav, .mp3, .flac)
+# - events column should contain event annotations as JSON list
+# - CSV format: audio_path,events
+#   Example:
+#   /path/to/audio1.wav,"[{""start"": 0.0, ""end"": 2.5, ""label"": ""speech""}, {""start"": 2.5, ""end"": 3.0, ""label"": ""silence""}]"
+#   /path/to/audio2.wav,"[{""start"": 1.0, ""end"": 4.0, ""label"": ""music""}, {""start"": 4.0, ""end"": 5.0, ""label"": ""noise""}]"
+#   /path/to/audio3.wav,"[{""start"": 0.5, ""end"": 3.5, ""label"": ""car_crash""}]" 
\ No newline at end of file
diff --git a/configs/audio_segmentation/hub_dataset.yml b/configs/audio_segmentation/hub_dataset.yml
new file mode 100644
index 0000000000..b6f2c2c968
--- /dev/null
+++ b/configs/audio_segmentation/hub_dataset.yml
@@ -0,0 +1,49 @@
+task: audio_segmentation
+base_model: microsoft/speecht5_vc
+project_name: autotrain-audio-segmentation-hub
+log: tensorboard
+backend: spaces-a10g-large
+
+# Hub dataset configuration
+data_path: audiofolder/audio_segmentation_dataset
+train_split: train
+valid_split: validation
+audio_column: audio
+target_column: segments
+
+# Training parameters
+epochs: 10
+batch_size: 16
+lr: 2e-5
+scheduler: cosine
+optimizer: adamw_torch
+weight_decay: 0.01
+warmup_ratio: 0.05
+gradient_accumulation: 2
+mixed_precision: fp16
+logging_steps: 25
+save_total_limit: 5
+eval_strategy: steps
+early_stopping_patience: 5
+early_stopping_threshold: 0.005
+
+# Audio specific parameters
+max_length: 320000  # 20 seconds at 16kHz (shorter for better memory usage)
+sampling_rate: 16000
+feature_extractor_normalize: true
+feature_extractor_return_attention_mask: true
+
+# Segmentation specific parameters
+segment_length: 3.0  # seconds (shorter segments for better granularity)
+overlap_length: 0.3  # seconds
+min_segment_length: 0.5  # seconds
+
+# Model parameters
+seed: 42
+max_grad_norm: 1.0
+auto_find_batch_size: true
+push_to_hub: true
+
+# Hub settings
+token: ${HF_TOKEN}
+username: ${HF_USERNAME} 
\ No newline at end of file
diff --git a/configs/audio_segmentation/local.yml b/configs/audio_segmentation/local.yml
new file mode 100644
index 0000000000..ca9e78f124
--- /dev/null
+++ b/configs/audio_segmentation/local.yml
@@ -0,0 +1,44 @@
+task: audio_segmentation
+base_model: microsoft/speecht5_vc
+project_name: autotrain-audio-segmentation-local
+log: tensorboard
+backend: local
+
+data_path: data/
+train_split: train
+valid_split: validation
+audio_column: audio_path
+target_column: segments
+
+# Training parameters
+epochs: 5
+batch_size: 8
+lr: 3e-5
+scheduler: linear
+optimizer: adamw_torch
+weight_decay: 0.01
+warmup_ratio: 0.1
+gradient_accumulation: 1
+mixed_precision: fp16
+logging_steps: 50
+save_total_limit: 3
+eval_strategy: epoch
+early_stopping_patience: 3
+early_stopping_threshold: 0.01
+
+# Audio specific parameters
+max_length: 480000  # 30 seconds at 16kHz
+sampling_rate: 16000
+feature_extractor_normalize: true
+feature_extractor_return_attention_mask: true
+
+# Segmentation specific parameters
+segment_length: 5.0  # seconds
+overlap_length: 0.5  # seconds
+min_segment_length: 1.0  # seconds
+
+# Model parameters
+seed: 42
+max_grad_norm: 1.0
+auto_find_batch_size: false
+push_to_hub: false 
\ No newline at end of file
diff --git a/src/autotrain/app/api_routes.py b/src/autotrain/app/api_routes.py
index 8563ab15b8..7a5b19e8b8 100644
--- a/src/autotrain/app/api_routes.py
+++ b/src/autotrain/app/api_routes.py
@@ -11,6 +11,9 @@
 from autotrain.app.params import HIDDEN_PARAMS, PARAMS, AppParams
 from autotrain.app.utils import token_verification
 from autotrain.project import AutoTrainProject
+from autotrain.trainers.audio_classification.params import AudioClassificationParams
+from autotrain.trainers.audio_detection.params import AudioDetectionParams
+from autotrain.trainers.audio_segmentation.params import AudioSegmentationParams
 from autotrain.trainers.clm.params import LLMTrainingParams
 from autotrain.trainers.extractive_question_answering.params import ExtractiveQuestionAnsweringParams
 from autotrain.trainers.image_classification.params import ImageClassificationParams
@@ -25,7 +28,7 @@
 from autotrain.trainers.vlm.params import VLMTrainingParams
 
 
-FIELDS_TO_EXCLUDE = HIDDEN_PARAMS + ["push_to_hub"]
+FIELDS_TO_EXCLUDE = HIDDEN_PARAMS
 
 
 def create_api_base_model(base_class, class_name):
@@ -108,10 +111,11 @@ def create_api_base_model(base_class, class_name):
 SentenceTransformersParamsAPI = create_api_base_model(SentenceTransformersParams, "SentenceTransformersParamsAPI")
 ImageRegressionParamsAPI = create_api_base_model(ImageRegressionParams, "ImageRegressionParamsAPI")
 VLMTrainingParamsAPI = create_api_base_model(VLMTrainingParams, "VLMTrainingParamsAPI")
-ExtractiveQuestionAnsweringParamsAPI = create_api_base_model(
-    ExtractiveQuestionAnsweringParams, "ExtractiveQuestionAnsweringParamsAPI"
-)
+ExtractiveQuestionAnsweringParamsAPI = create_api_base_model(ExtractiveQuestionAnsweringParams, "ExtractiveQuestionAnsweringParamsAPI")
 ObjectDetectionParamsAPI = create_api_base_model(ObjectDetectionParams, "ObjectDetectionParamsAPI")
+AudioClassificationParamsAPI = create_api_base_model(AudioClassificationParams, "AudioClassificationParamsAPI")
+AudioSegmentationParamsAPI = create_api_base_model(AudioSegmentationParams, "AudioSegmentationParamsAPI")
+AudioDetectionParamsAPI = create_api_base_model(AudioDetectionParams, "AudioDetectionParamsAPI")
 
 
 class LLMSFTColumnMapping(BaseModel):
@@ -224,6 +228,21 @@ class ObjectDetectionColumnMapping(BaseModel):
     objects_column: str
 
 
+class AudioClassificationColumnMapping(BaseModel):
+    audio_column: str
+    target_column: str
+
+
+class AudioSegmentationColumnMapping(BaseModel):
+    audio_column: str
+    target_column: str
+
+
+class AudioDetectionColumnMapping(BaseModel):
+    audio_column: str
+    events_column: str
+
+
 class APICreateProjectModel(BaseModel):
     """
     APICreateProjectModel is a Pydantic model that defines the schema for creating a project.
@@ -275,6 +294,8 @@ class APICreateProjectModel(BaseModel):
         "vlm:vqa",
         "extractive-question-answering",
         "image-object-detection",
+        "audio-classification",
+        "audio-segmentation",
     ]
     base_model: str
     hardware: Literal[
@@ -312,6 +333,9 @@ class APICreateProjectModel(BaseModel):
         VLMTrainingParamsAPI,
         ExtractiveQuestionAnsweringParamsAPI,
         ObjectDetectionParamsAPI,
+        AudioClassificationParamsAPI,
+        AudioSegmentationParamsAPI,
+        AudioDetectionParamsAPI,
     ]
     username: str
     column_mapping: Optional[
@@ -337,6 +361,9 @@ class APICreateProjectModel(BaseModel):
             VLMColumnMapping,
             ExtractiveQuestionAnsweringColumnMapping,
             ObjectDetectionColumnMapping,
+            AudioClassificationColumnMapping,
+            AudioSegmentationColumnMapping,
+            AudioDetectionColumnMapping,
         ]
     ] = None
     hub_dataset: str
@@ -534,6 +561,30 @@ def validate_column_mapping(cls, values):
             if not values.get("column_mapping").get("objects_column"):
                 raise ValueError("objects_column is required for image-object-detection")
             values["column_mapping"] = ObjectDetectionColumnMapping(**values["column_mapping"])
+        elif values.get("task") == "audio-classification":
+            if not values.get("column_mapping"):
+                raise ValueError("column_mapping is required for audio-classification")
+            if not values.get("column_mapping").get("audio_column"):
+                raise ValueError("audio_column is required for audio-classification")
+            if not values.get("column_mapping").get("target_column"):
+                raise ValueError("target_column is required for audio-classification")
+            values["column_mapping"] = AudioClassificationColumnMapping(**values["column_mapping"])
+        elif values.get("task") == "audio-segmentation":
+            if not values.get("column_mapping"):
+                raise ValueError("column_mapping is required for audio-segmentation")
+            if not values.get("column_mapping").get("audio_column"):
+                raise ValueError("audio_column is required for audio-segmentation")
+            if not values.get("column_mapping").get("target_column"):
+                raise ValueError("target_column is required for audio-segmentation")
+            values["column_mapping"] = AudioSegmentationColumnMapping(**values["column_mapping"])
+        elif values.get("task") == "audio-detection":
+            if not values.get("column_mapping"):
+                raise ValueError("column_mapping is required for audio-detection")
+            if not values.get("column_mapping").get("audio_column"):
+                raise ValueError("audio_column is required for audio-detection")
+            if not values.get("column_mapping").get("events_column"):
+                raise ValueError("events_column is required for audio-detection")
+            values["column_mapping"] = AudioDetectionColumnMapping(**values["column_mapping"])
         return values
 
     @model_validator(mode="before")
@@ -573,6 +624,12 @@ def validate_params(cls, values):
             values["params"] = ExtractiveQuestionAnsweringParamsAPI(**values["params"])
         elif values.get("task") == "image-object-detection":
             values["params"] = ObjectDetectionParamsAPI(**values["params"])
+        elif values.get("task") == "audio-classification":
+            values["params"] = AudioClassificationParamsAPI(**values["params"])
+        elif values.get("task") == "audio-segmentation":
+            values["params"] = AudioSegmentationParamsAPI(**values["params"])
+        elif values.get("task") == "audio-detection":
+            values["params"] = AudioDetectionParamsAPI(**values["params"])
         return values
 
 
diff --git a/src/autotrain/app/colab.py b/src/autotrain/app/colab.py
index 2193ba048f..a54a6d6465 100644
--- a/src/autotrain/app/colab.py
+++ b/src/autotrain/app/colab.py
@@ -68,7 +68,7 @@ def colab_app():
 
     def _get_params(task, param_type):
         _p = get_task_params(task, param_type=param_type)
-        _p["push_to_hub"] = True
+        _p["push_to_hub"] = False
         _p = json.dumps(_p, indent=4)
         return _p
 
@@ -342,7 +342,7 @@ def start_training(b):
             if chat_template is not None:
                 params_val = {k: v for k, v in params_val.items() if k != "chat_template"}
 
-            push_to_hub = params_val.get("push_to_hub", True)
+            push_to_hub = params_val.get("push_to_hub", False)
             if "push_to_hub" in params_val:
                 params_val = {k: v for k, v in params_val.items() if k != "push_to_hub"}
 
diff --git a/src/autotrain/app/models.py b/src/autotrain/app/models.py
index 1d1f658113..caba63ec57 100644
--- a/src/autotrain/app/models.py
+++ b/src/autotrain/app/models.py
@@ -333,6 +333,189 @@ def _fetch_vlm_models():
     return hub_models
 
 
+def _fetch_audio_classification_models():
+    """
+    Fetches and sorts audio classification models from the Hugging Face model hub.
+
+    This function retrieves models for the task "audio-classification"
+    from the Hugging Face model hub, sorts them by the number of downloads.
+    Additionally, it fetches trending models based on the number
+    of likes in the past 7 days, sorts them, and places them at the beginning of the list
+    if they are not already included.
+
+    Returns:
+        list: A sorted list of model identifiers from the Hugging Face model hub.
+    """
+    hub_models = list(
+        list_models(
+            task="audio-classification",
+            library="transformers",
+            sort="downloads",
+            direction=-1,
+            limit=100,
+            full=False,
+        )
+    )
+    hub_models = get_sorted_models(hub_models)
+
+    trending_models = list(
+        list_models(
+            task="audio-classification",
+            library="transformers",
+            sort="likes7d",
+            direction=-1,
+            limit=30,
+            full=False,
+        )
+    )
+    if len(trending_models) > 0:
+        trending_models = get_sorted_models(trending_models)
+        hub_models = [m for m in hub_models if m not in trending_models]
+        hub_models = trending_models + hub_models
+
+    return hub_models
+
+
+def _fetch_audio_segmentation_models():
+    """
+    Fetches and sorts audio segmentation models from the Hugging Face model hub.
+
+    This function retrieves models suitable for audio segmentation tasks such as
+    speaker diarization, voice activity detection, and speech/music segmentation.
+    It includes audio classification models that can be fine-tuned for segmentation.
+
+    Returns:
+        list: A sorted list of model identifiers from the Hugging Face model hub.
+    """
+    # Get audio classification models (can be used for segmentation)
+    hub_models1 = list(
+        list_models(
+            task="audio-classification",
+            library="transformers",
+            sort="downloads",
+            direction=-1,
+            limit=50,
+            full=False,
+        )
+    )
+    
+    # Get automatic speech recognition models (useful for segmentation)
+    hub_models2 = list(
+        list_models(
+            task="automatic-speech-recognition",
+            library="transformers",
+            sort="downloads",
+            direction=-1,
+            limit=50,
+            full=False,
+        )
+    )
+    
+    hub_models = list(hub_models1) + list(hub_models2)
+    hub_models = get_sorted_models(hub_models)
+
+    # Get trending models
+    trending_models1 = list(
+        list_models(
+            task="audio-classification",
+            library="transformers",
+            sort="likes7d",
+            direction=-1,
+            limit=15,
+            full=False,
+        )
+    )
+    
+    trending_models2 = list(
+        list_models(
+            task="automatic-speech-recognition",
+            library="transformers",
+            sort="likes7d",
+            direction=-1,
+            limit=15,
+            full=False,
+        )
+    )
+    
+    trending_models = list(trending_models1) + list(trending_models2)
+    if len(trending_models) > 0:
+        trending_models = get_sorted_models(trending_models)
+        hub_models = [m for m in hub_models if m not in trending_models]
+        hub_models = trending_models + hub_models
+
+    return hub_models
+
+
+def _fetch_audio_detection_models():
+    """
+    Fetches and sorts audio detection models from the Hugging Face model hub.
+
+    This function retrieves models suitable for audio detection tasks such as
+    event detection, audio classification, and temporal audio analysis.
+    It includes audio classification models that can be fine-tuned for detection.
+
+    Returns:
+        list: A sorted list of model identifiers from the Hugging Face model hub.
+    """
+    # Get audio classification models (can be used for detection)
+    hub_models1 = list(
+        list_models(
+            task="audio-classification",
+            library="transformers",
+            sort="downloads",
+            direction=-1,
+            limit=50,
+            full=False,
+        )
+    )
+    
+    # Get automatic speech recognition models (useful for audio analysis)
+    hub_models2 = list(
+        list_models(
+            task="automatic-speech-recognition",
+            library="transformers",
+            sort="downloads",
+            direction=-1,
+            limit=30,
+            full=False,
+        )
+    )
+    
+    hub_models = list(hub_models1) + list(hub_models2)
+    hub_models = get_sorted_models(hub_models)
+
+    # Get trending models
+    trending_models1 = list(
+        list_models(
+            task="audio-classification",
+            library="transformers",
+            sort="likes7d",
+            direction=-1,
+            limit=15,
+            full=False,
+        )
+    )
+    
+    trending_models2 = list(
+        list_models(
+            task="automatic-speech-recognition",
+            library="transformers",
+            sort="likes7d",
+            direction=-1,
+            limit=10,
+            full=False,
+        )
+    )
+    
+    trending_models = list(trending_models1) + list(trending_models2)
+    if len(trending_models) > 0:
+        trending_models = get_sorted_models(trending_models)
+        hub_models = [m for m in hub_models if m not in trending_models]
+        hub_models = trending_models + hub_models
+
+    return hub_models
+
+
 def fetch_models():
     _mc = collections.defaultdict(list)
     _mc["text-classification"] = _fetch_text_classification_models()
@@ -346,6 +529,9 @@ def fetch_models():
     _mc["sentence-transformers"] = _fetch_st_models()
     _mc["vlm"] = _fetch_vlm_models()
     _mc["extractive-qa"] = _fetch_text_classification_models()
+    _mc["audio-classification"] = _fetch_audio_classification_models()
+    _mc["audio-segmentation"] = _fetch_audio_segmentation_models()
+    _mc["audio-detection"] = _fetch_audio_detection_models()
 
     # tabular-classification
     _mc["tabular-classification"] = [
diff --git a/src/autotrain/app/params.py b/src/autotrain/app/params.py
index a6f4addbc5..bebb1a5d84 100644
--- a/src/autotrain/app/params.py
+++ b/src/autotrain/app/params.py
@@ -2,6 +2,9 @@
 from dataclasses import dataclass
 from typing import Optional
 
+from autotrain.trainers.audio_classification.params import AudioClassificationParams
+from autotrain.trainers.audio_detection.params import AudioDetectionParams
+from autotrain.trainers.audio_segmentation.params import AudioSegmentationParams
 from autotrain.trainers.clm.params import LLMTrainingParams
 from autotrain.trainers.extractive_question_answering.params import ExtractiveQuestionAnsweringParams
 from autotrain.trainers.image_classification.params import ImageClassificationParams
@@ -67,7 +70,6 @@
     "answer_column",
 ]
 
-
 PARAMS = {}
 PARAMS["llm"] = LLMTrainingParams(
     target_modules="all-linear",
@@ -135,6 +137,18 @@
     max_seq_length=512,
     max_doc_stride=128,
 ).model_dump()
+PARAMS["audio-classification"] = AudioClassificationParams(
+    mixed_precision="fp16",
+    log="tensorboard",
+).model_dump()
+PARAMS["audio-detection"] = AudioDetectionParams(
+    mixed_precision="fp16",
+    log="tensorboard",
+).model_dump()
+PARAMS["audio-segmentation"] = AudioSegmentationParams(
+    mixed_precision="fp16",
+    log="tensorboard",
+).model_dump()
 
 
 @dataclass
@@ -216,6 +230,12 @@ def munge(self):
             return self._munge_params_vlm()
         elif self.task == "extractive-qa":
             return self._munge_params_extractive_qa()
+        elif self.task == "audio-classification":
+            return self._munge_params_audio_clf()
+        elif self.task == "audio-detection":
+            return self._munge_params_audio_det()
+        elif self.task == "audio-segmentation":
+            return self._munge_params_audio_seg()
         else:
             raise ValueError(f"Unknown task: {self.task}")
 
@@ -488,6 +508,54 @@ def _munge_params_tabular(self):
 
         return TabularParams(**_params)
 
+    def _munge_params_audio_clf(self):
+        _params = self._munge_common_params()
+        _params["model"] = self.base_model
+        if "log" not in _params:
+            _params["log"] = "tensorboard"
+        if not self.using_hub_dataset:
+            _params["audio_column"] = "autotrain_audio"
+            _params["target_column"] = "autotrain_label"
+            _params["valid_split"] = "validation"
+        else:
+            _params["audio_column"] = self.column_mapping.get("audio" if not self.api else "audio_column", "audio")
+            _params["target_column"] = self.column_mapping.get("label" if not self.api else "target_column", "label")
+            _params["train_split"] = self.train_split
+            _params["valid_split"] = self.valid_split
+        return AudioClassificationParams(**_params)
+
+    def _munge_params_audio_det(self):
+        _params = self._munge_common_params()
+        _params["model"] = self.base_model
+        if "log" not in _params:
+            _params["log"] = "tensorboard"
+        if not self.using_hub_dataset:
+            _params["audio_column"] = "autotrain_audio"
+            _params["events_column"] = "autotrain_events"
+            _params["valid_split"] = "validation"
+        else:
+            _params["audio_column"] = self.column_mapping.get("audio" if not self.api else "audio_column", "audio")
+            _params["events_column"] = self.column_mapping.get("events" if not self.api else "events_column", "events")
+            _params["train_split"] = self.train_split
+            _params["valid_split"] = self.valid_split
+        return AudioDetectionParams(**_params)
+
+    def _munge_params_audio_seg(self):
+        _params = self._munge_common_params()
+        _params["model"] = self.base_model
+        if "log" not in _params:
+            _params["log"] = "tensorboard"
+        if not self.using_hub_dataset:
+            _params["audio_column"] = "autotrain_audio"
+            _params["target_column"] = "autotrain_label"
+            _params["valid_split"] = "validation"
+        else:
+            _params["audio_column"] = self.column_mapping.get("audio" if not self.api else "audio_column", "audio")
+            _params["target_column"] = self.column_mapping.get("label" if not self.api else "target_column", "label")
+            _params["train_split"] = self.train_split
+            _params["valid_split"] = self.valid_split
+        return AudioSegmentationParams(**_params)
+
 
 def get_task_params(task, param_type):
     """
@@ -735,5 +803,65 @@ def get_task_params(task, param_type):
             "early_stopping_threshold",
         ]
         task_params = {k: v for k, v in task_params.items() if k not in more_hidden_params}
+    if task == "audio-classification" and param_type == "basic":
+        more_hidden_params = [
+            "warmup_ratio",
+            "weight_decay",
+            "max_grad_norm",
+            "seed",
+            "logging_steps",
+            "auto_find_batch_size",
+            "save_total_limit",
+            "eval_strategy",
+            "early_stopping_patience",
+            "early_stopping_threshold",
+            "feature_extractor_normalize",
+            "feature_extractor_return_attention_mask",
+            "gradient_accumulation",
+            "max_length",
+            "sampling_rate",
+        ]
+        task_params = {k: v for k, v in task_params.items() if k not in more_hidden_params}
+    if task == "audio-segmentation" and param_type == "basic":
+        more_hidden_params = [
+            "warmup_ratio",
+            "weight_decay",
+            "max_grad_norm",
+            "seed",
+            "logging_steps",
+            "auto_find_batch_size",
+            "save_total_limit",
+            "eval_strategy",
+            "early_stopping_patience",
+            "early_stopping_threshold",
+            "feature_extractor_normalize",
+            "feature_extractor_return_attention_mask",
+            "gradient_accumulation",
+            "max_length",
+            "sampling_rate",
+            "segment_length",
+            "overlap_length",
+            "min_segment_length",
+        ]
+        task_params = {k: v for k, v in task_params.items() if k not in more_hidden_params}
+    if task == "audio-detection" and param_type == "basic":
+        more_hidden_params = [
+            "warmup_ratio",
+            "weight_decay",
+            "max_grad_norm",
+            "seed",
+            "logging_steps",
+            "auto_find_batch_size",
+            "save_total_limit",
+            "eval_strategy",
+            "early_stopping_patience",
+            "early_stopping_threshold",
+            "gradient_accumulation",
+            "max_length",
+            "sampling_rate",
+            "event_overlap_threshold",
+            "confidence_threshold",
+        ]
+        task_params = {k: v for k, v in task_params.items() if k not in more_hidden_params}
 
     return task_params
diff --git a/src/autotrain/app/templates/index.html b/src/autotrain/app/templates/index.html
index 0ee5226c9d..c513389960 100644
--- a/src/autotrain/app/templates/index.html
+++ b/src/autotrain/app/templates/index.html
@@ -84,6 +84,18 @@
                     fields = ['image', 'label'];
                     fieldNames = ['image', 'target'];
                     break;
+                case 'audio-classification':
+                    fields = ['audio', 'label'];
+                    fieldNames = ['audio_path', 'intent'];
+                    break;
+                case 'audio-segmentation':
+                    fields = ['audio', 'label'];
+                    fieldNames = ['audio_path', 'segments'];
+                    break;
+                case 'audio-detection':
+                    fields = ['audio', 'events'];
+                    fieldNames = ['audio_path', 'events'];
+                    break;
                 case 'image-object-detection':
                     fields = ['image', 'objects'];
                     fieldNames = ['image', 'objects'];
@@ -222,6 +234,11 @@
                             <option value="image-regression">Image Scoring/Regression</option>
                             <option value="image-object-detection">Object Detection</option>
                         </optgroup>
+                        <optgroup label="Audio Tasks">
+                            <option value="audio-classification">Audio Classification</option>
+                            <option value="audio-segmentation">Audio Segmentation</option>
+                            <option value="audio-detection">Audio Detection</option>
+                    </optgroup>
                         <optgroup label="Tabular Tasks">
                             <option value="tabular:classification">Tabular Classification</option>
                             <option value="tabular:regression">Tabular Regression</option>
@@ -678,7 +695,7 @@ <h3 class="mb-5 text-lg font-medium text-gray-900 dark:text-gray-100">Dataset Vi
         </div>
     </div>
     <script>
-        var autotrain_local_value = {{ enable_local }};
+        var autotrain_local_value = { enable_local };
     </script>
     <script src="https://cdnjs.cloudflare.com/ajax/libs/flowbite/2.3.0/flowbite.min.js"></script>
     <script>
diff --git a/src/autotrain/app/ui_routes.py b/src/autotrain/app/ui_routes.py
index 78aa04b781..5b3b21d9f2 100644
--- a/src/autotrain/app/ui_routes.py
+++ b/src/autotrain/app/ui_routes.py
@@ -18,6 +18,9 @@
 from autotrain.app.params import AppParams, get_task_params
 from autotrain.app.utils import get_running_jobs, get_user_and_orgs, kill_process_by_pid, token_verification
 from autotrain.dataset import (
+    AutoTrainAudioClassificationDataset,
+    AutoTrainAudioDetectionDataset,
+    AutoTrainAudioSegmentationDataset,
     AutoTrainDataset,
     AutoTrainImageClassificationDataset,
     AutoTrainImageRegressionDataset,
@@ -201,6 +204,29 @@
         "type": "number",
         "label": "Early stopping patience",
     },
+    "push_to_hub": {
+        "type": "dropdown",
+        "label": "Push to Hub",
+        "options": [True, False],
+    },
+    "max_length": {
+        "type": "number",
+        "label": "Max audio length (samples)",
+    },
+    "sampling_rate": {
+        "type": "number",
+        "label": "Sampling rate (Hz)",
+    },
+    "feature_extractor_normalize": {
+        "type": "dropdown",
+        "label": "Normalize features",
+        "options": [True, False],
+    },
+    "feature_extractor_return_attention_mask": {
+        "type": "dropdown",
+        "label": "Return attention mask",
+        "options": [True, False],
+    },
     "early_stopping_threshold": {
         "type": "number",
         "label": "Early stopping threshold",
@@ -481,6 +507,12 @@ async def fetch_model_choices(
         hub_models = MODEL_CHOICE["vlm"]
     elif task == "extractive-qa":
         hub_models = MODEL_CHOICE["extractive-qa"]
+    elif task == "audio-classification":
+        hub_models = MODEL_CHOICE["audio-classification"]
+    elif task == "audio-segmentation":
+        hub_models = MODEL_CHOICE["audio-segmentation"]
+    elif task == "audio-detection":
+        hub_models = MODEL_CHOICE["audio-detection"]
     else:
         raise NotImplementedError
 
@@ -608,6 +640,36 @@ async def handle_form(
                 percent_valid=None,  # TODO: add to UI
                 local=hardware.lower() == "local-ui",
             )
+        elif task == "audio-classification":
+            dset = AutoTrainAudioClassificationDataset(
+                train_data=training_files[0],
+                token=token,
+                project_name=project_name,
+                username=autotrain_user,
+                valid_data=validation_files[0] if validation_files else None,
+                percent_valid=None,  # TODO: add to UI
+                local=hardware.lower() == "local-ui",
+            )
+        elif task == "audio-segmentation":
+            dset = AutoTrainAudioSegmentationDataset(
+                train_data=training_files[0],
+                token=token,
+                project_name=project_name,
+                username=autotrain_user,
+                valid_data=validation_files[0] if validation_files else None,
+                percent_valid=None,  # TODO: add to UI
+                local=hardware.lower() == "local-ui",
+            )
+        elif task == "audio-detection":
+            dset = AutoTrainAudioDetectionDataset(
+                train_data=training_files[0],
+                token=token,
+                project_name=project_name,
+                username=autotrain_user,
+                valid_data=validation_files[0] if validation_files else None,
+                percent_valid=None,  # TODO: add to UI
+                local=hardware.lower() == "local-ui",
+            )
         elif task.startswith("vlm:"):
             dset = AutoTrainVLMDataset(
                 train_data=training_files[0],
diff --git a/src/autotrain/app/utils.py b/src/autotrain/app/utils.py
index 55f6d6a6ff..13d6554fba 100644
--- a/src/autotrain/app/utils.py
+++ b/src/autotrain/app/utils.py
@@ -6,6 +6,7 @@
 import requests
 
 from autotrain import config, logger
+from functools import lru_cache
 
 
 def graceful_exit(signum, frame):
@@ -94,6 +95,7 @@ def kill_process_by_pid(pid):
         logger.error(f"Failed to send SIGTERM to process with PID {pid}: {e}")
 
 
+@lru_cache(maxsize=128)
 def token_verification(token):
     """
     Verifies the provided token with the Hugging Face API and retrieves user information.
@@ -177,4 +179,4 @@ def get_user_and_orgs(user_token):
 
     who_is_training = [username] + orgs
 
-    return who_is_training
+    return who_is_training
\ No newline at end of file
diff --git a/src/autotrain/backends/base.py b/src/autotrain/backends/base.py
index 01aac4e30c..3808c3bdcb 100644
--- a/src/autotrain/backends/base.py
+++ b/src/autotrain/backends/base.py
@@ -2,6 +2,9 @@
 from dataclasses import dataclass
 from typing import Union
 
+from autotrain.trainers.audio_classification.params import AudioClassificationParams
+from autotrain.trainers.audio_detection.params import AudioDetectionParams
+from autotrain.trainers.audio_segmentation.params import AudioSegmentationParams
 from autotrain.trainers.clm.params import LLMTrainingParams
 from autotrain.trainers.extractive_question_answering.params import ExtractiveQuestionAnsweringParams
 from autotrain.trainers.generic.params import GenericParams
@@ -80,6 +83,9 @@ class BaseBackend:
     """
 
     params: Union[
+        AudioClassificationParams,
+        AudioDetectionParams,
+        AudioSegmentationParams,
         TextClassificationParams,
         ImageClassificationParams,
         LLMTrainingParams,
@@ -139,6 +145,12 @@ def __post_init__(self):
             self.task_id = 31
         elif isinstance(self.params, ExtractiveQuestionAnsweringParams):
             self.task_id = 5
+        elif isinstance(self.params, AudioClassificationParams):
+            self.task_id = 33
+        elif isinstance(self.params, AudioDetectionParams):
+            self.task_id = 35
+        elif isinstance(self.params, AudioSegmentationParams):
+            self.task_id = 34
         else:
             raise NotImplementedError
 
diff --git a/src/autotrain/cli/autotrain.py b/src/autotrain/cli/autotrain.py
index fcd85b9828..1a91148d42 100644
--- a/src/autotrain/cli/autotrain.py
+++ b/src/autotrain/cli/autotrain.py
@@ -3,6 +3,9 @@
 from autotrain import __version__, logger
 from autotrain.cli.run_api import RunAutoTrainAPICommand
 from autotrain.cli.run_app import RunAutoTrainAppCommand
+from autotrain.cli.run_audio_classification import RunAutoTrainAudioClassificationCommand
+from autotrain.cli.run_audio_detection import RunAutoTrainAudioDetectionCommand
+from autotrain.cli.run_audio_segmentation import RunAutoTrainAudioSegmentationCommand
 from autotrain.cli.run_extractive_qa import RunAutoTrainExtractiveQACommand
 from autotrain.cli.run_image_classification import RunAutoTrainImageClassificationCommand
 from autotrain.cli.run_image_regression import RunAutoTrainImageRegressionCommand
@@ -36,6 +39,9 @@ def main():
     RunSetupCommand.register_subcommand(commands_parser)
     RunAutoTrainAPICommand.register_subcommand(commands_parser)
     RunAutoTrainTextClassificationCommand.register_subcommand(commands_parser)
+    RunAutoTrainAudioClassificationCommand.register_subcommand(commands_parser)
+    RunAutoTrainAudioDetectionCommand.register_subcommand(commands_parser)
+    RunAutoTrainAudioSegmentationCommand.register_subcommand(commands_parser)
     RunAutoTrainImageClassificationCommand.register_subcommand(commands_parser)
     RunAutoTrainTabularCommand.register_subcommand(commands_parser)
     RunAutoTrainSpaceRunnerCommand.register_subcommand(commands_parser)
diff --git a/src/autotrain/cli/run_audio_classification.py b/src/autotrain/cli/run_audio_classification.py
new file mode 100644
index 0000000000..3a1243b06b
--- /dev/null
+++ b/src/autotrain/cli/run_audio_classification.py
@@ -0,0 +1,108 @@
+from argparse import ArgumentParser
+
+from autotrain import logger
+from autotrain.cli.utils import get_field_info
+from autotrain.project import AutoTrainProject
+from autotrain.trainers.audio_classification.params import AudioClassificationParams
+
+from . import BaseAutoTrainCommand
+
+
+def run_audio_classification_command_factory(args):
+    return RunAutoTrainAudioClassificationCommand(args)
+
+
+class RunAutoTrainAudioClassificationCommand(BaseAutoTrainCommand):
+    @staticmethod
+    def register_subcommand(parser: ArgumentParser):
+        arg_list = get_field_info(AudioClassificationParams)
+        arg_list = [
+            {
+                "arg": "--train",
+                "help": "Command to train the model",
+                "required": False,
+                "action": "store_true",
+            },
+            {
+                "arg": "--deploy",
+                "help": "Command to deploy the model (limited availability)",
+                "required": False,
+                "action": "store_true",
+            },
+            {
+                "arg": "--inference",
+                "help": "Command to run inference (limited availability)",
+                "required": False,
+                "action": "store_true",
+            },
+            {
+                "arg": "--backend",
+                "help": "Backend",
+                "required": False,
+                "type": str,
+                "default": "local",
+            },
+        ] + arg_list
+        arg_list = [arg for arg in arg_list if arg["arg"] != "--disable-gradient-checkpointing"]
+        run_audio_classification_parser = parser.add_parser(
+            "audio-classification", description="✨ Run AutoTrain Audio Classification"
+        )
+        for arg in arg_list:
+            names = [arg["arg"]] + arg.get("alias", [])
+            if "action" in arg:
+                run_audio_classification_parser.add_argument(
+                    *names,
+                    dest=arg["arg"].replace("--", "").replace("-", "_"),
+                    help=arg["help"],
+                    required=arg.get("required", False),
+                    action=arg.get("action"),
+                    default=arg.get("default"),
+                )
+            else:
+                run_audio_classification_parser.add_argument(
+                    *names,
+                    dest=arg["arg"].replace("--", "").replace("-", "_"),
+                    help=arg["help"],
+                    required=arg.get("required", False),
+                    type=arg.get("type"),
+                    default=arg.get("default"),
+                    choices=arg.get("choices"),
+                )
+        run_audio_classification_parser.set_defaults(func=run_audio_classification_command_factory)
+
+    def __init__(self, args):
+        self.args = args
+
+        store_true_arg_names = [
+            "train",
+            "deploy",
+            "inference",
+            "auto_find_batch_size",
+            "push_to_hub",
+            "feature_extractor_normalize",
+            "feature_extractor_return_attention_mask",
+        ]
+        for arg_name in store_true_arg_names:
+            if getattr(self.args, arg_name) is None:
+                setattr(self.args, arg_name, False)
+
+        if self.args.train:
+            if self.args.project_name is None:
+                raise ValueError("Project name must be specified")
+            if self.args.data_path is None:
+                raise ValueError("Data path must be specified")
+            if self.args.model is None:
+                raise ValueError("Model must be specified")
+            if self.args.push_to_hub:
+                if self.args.username is None:
+                    raise ValueError("Username must be specified for push to hub")
+        else:
+            raise ValueError("Must specify --train, --deploy or --inference")
+
+    def run(self):
+        logger.info("Running Audio Classification")
+        if self.args.train:
+            params = AudioClassificationParams(**vars(self.args))
+            project = AutoTrainProject(params=params, backend=self.args.backend, process=True)
+            job_id = project.create()
+            logger.info(f"Job ID: {job_id}") 
\ No newline at end of file
diff --git a/src/autotrain/cli/run_audio_detection.py b/src/autotrain/cli/run_audio_detection.py
new file mode 100644
index 0000000000..165509c615
--- /dev/null
+++ b/src/autotrain/cli/run_audio_detection.py
@@ -0,0 +1,106 @@
+from argparse import ArgumentParser
+
+from autotrain import logger
+from autotrain.cli.utils import get_field_info
+from autotrain.project import AutoTrainProject
+from autotrain.trainers.audio_detection.params import AudioDetectionParams
+
+from . import BaseAutoTrainCommand
+
+
+def run_audio_detection_command_factory(args):
+    return RunAutoTrainAudioDetectionCommand(args)
+
+
+class RunAutoTrainAudioDetectionCommand(BaseAutoTrainCommand):
+    @staticmethod
+    def register_subcommand(parser: ArgumentParser):
+        arg_list = get_field_info(AudioDetectionParams)
+        arg_list = [
+            {
+                "arg": "--train",
+                "help": "Command to train the model",
+                "required": False,
+                "action": "store_true",
+            },
+            {
+                "arg": "--deploy",
+                "help": "Command to deploy the model (limited availability)",
+                "required": False,
+                "action": "store_true",
+            },
+            {
+                "arg": "--inference",
+                "help": "Command to run inference (limited availability)",
+                "required": False,
+                "action": "store_true",
+            },
+            {
+                "arg": "--backend",
+                "help": "Backend",
+                "required": False,
+                "type": str,
+                "default": "local",
+            },
+        ] + arg_list
+        arg_list = [arg for arg in arg_list if arg["arg"] != "--disable-gradient-checkpointing"]
+        run_audio_detection_parser = parser.add_parser(
+            "audio-detection", description="✨ Run AutoTrain Audio Detection"
+        )
+        for arg in arg_list:
+            names = [arg["arg"]] + arg.get("alias", [])
+            if "action" in arg:
+                run_audio_detection_parser.add_argument(
+                    *names,
+                    dest=arg["arg"].replace("--", "").replace("-", "_"),
+                    help=arg["help"],
+                    required=arg.get("required", False),
+                    action=arg.get("action"),
+                    default=arg.get("default"),
+                )
+            else:
+                run_audio_detection_parser.add_argument(
+                    *names,
+                    dest=arg["arg"].replace("--", "").replace("-", "_"),
+                    help=arg["help"],
+                    required=arg.get("required", False),
+                    type=arg.get("type"),
+                    default=arg.get("default"),
+                    choices=arg.get("choices"),
+                )
+        run_audio_detection_parser.set_defaults(func=run_audio_detection_command_factory)
+
+    def __init__(self, args):
+        self.args = args
+
+        store_true_arg_names = [
+            "train",
+            "deploy",
+            "inference",
+            "auto_find_batch_size",
+            "push_to_hub",
+        ]
+        for arg_name in store_true_arg_names:
+            if getattr(self.args, arg_name) is None:
+                setattr(self.args, arg_name, False)
+
+        if self.args.train:
+            if self.args.project_name is None:
+                raise ValueError("Project name must be specified")
+            if self.args.data_path is None:
+                raise ValueError("Data path must be specified")
+            if self.args.model is None:
+                raise ValueError("Model must be specified")
+            if self.args.push_to_hub:
+                if self.args.username is None:
+                    raise ValueError("Username must be specified for push to hub")
+        else:
+            raise ValueError("Must specify --train, --deploy or --inference")
+
+    def run(self):
+        logger.info("Running Audio Detection")
+        if self.args.train:
+            params = AudioDetectionParams(**vars(self.args))
+            project = AutoTrainProject(params=params, backend=self.args.backend, process=True)
+            job_id = project.create()
+            logger.info(f"Job ID: {job_id}") 
\ No newline at end of file
diff --git a/src/autotrain/cli/run_audio_segmentation.py b/src/autotrain/cli/run_audio_segmentation.py
new file mode 100644
index 0000000000..0db756e252
--- /dev/null
+++ b/src/autotrain/cli/run_audio_segmentation.py
@@ -0,0 +1,106 @@
+from argparse import ArgumentParser
+
+from autotrain import logger
+from autotrain.cli.utils import get_field_info
+from autotrain.project import AutoTrainProject
+from autotrain.trainers.audio_segmentation.params import AudioSegmentationParams
+
+from . import BaseAutoTrainCommand
+
+
+def run_audio_segmentation_command_factory(args):
+    return RunAutoTrainAudioSegmentationCommand(args)
+
+
+class RunAutoTrainAudioSegmentationCommand(BaseAutoTrainCommand):
+    @staticmethod
+    def register_subcommand(parser: ArgumentParser):
+        arg_list = get_field_info(AudioSegmentationParams)
+        arg_list = [
+            {
+                "arg": "--train",
+                "help": "Command to train the model",
+                "required": False,
+                "action": "store_true",
+            },
+            {
+                "arg": "--deploy",
+                "help": "Command to deploy the model (limited availability)",
+                "required": False,
+                "action": "store_true",
+            },
+            {
+                "arg": "--inference",
+                "help": "Command to run inference (limited availability)",
+                "required": False,
+                "action": "store_true",
+            },
+            {
+                "arg": "--backend",
+                "help": "Backend",
+                "required": False,
+                "type": str,
+                "default": "local",
+            },
+        ] + arg_list
+        arg_list = [arg for arg in arg_list if arg["arg"] != "--disable-gradient-checkpointing"]
+        run_audio_segmentation_parser = parser.add_parser(
+            "audio-segmentation", description="✨ Run AutoTrain Audio Segmentation"
+        )
+        for arg in arg_list:
+            names = [arg["arg"]] + arg.get("alias", [])
+            if "action" in arg:
+                run_audio_segmentation_parser.add_argument(
+                    *names,
+                    dest=arg["arg"].replace("--", "").replace("-", "_"),
+                    help=arg["help"],
+                    required=arg.get("required", False),
+                    action=arg.get("action"),
+                    default=arg.get("default"),
+                )
+            else:
+                run_audio_segmentation_parser.add_argument(
+                    *names,
+                    dest=arg["arg"].replace("--", "").replace("-", "_"),
+                    help=arg["help"],
+                    required=arg.get("required", False),
+                    type=arg.get("type"),
+                    default=arg.get("default"),
+                    choices=arg.get("choices"),
+                )
+        run_audio_segmentation_parser.set_defaults(func=run_audio_segmentation_command_factory)
+
+    def __init__(self, args):
+        self.args = args
+
+        store_true_arg_names = [
+            "train",
+            "deploy",
+            "inference",
+            "auto_find_batch_size",
+            "push_to_hub",
+        ]
+        for arg_name in store_true_arg_names:
+            if getattr(self.args, arg_name) is None:
+                setattr(self.args, arg_name, False)
+
+        if self.args.train:
+            if self.args.project_name is None:
+                raise ValueError("Project name must be specified")
+            if self.args.data_path is None:
+                raise ValueError("Data path must be specified")
+            if self.args.model is None:
+                raise ValueError("Model must be specified")
+            if self.args.push_to_hub:
+                if self.args.username is None:
+                    raise ValueError("Username must be specified for push to hub")
+        else:
+            raise ValueError("Must specify --train, --deploy or --inference")
+
+    def run(self):
+        logger.info("Running Audio Segmentation")
+        if self.args.train:
+            params = AudioSegmentationParams(**vars(self.args))
+            project = AutoTrainProject(params=params, backend=self.args.backend, process=True)
+            job_id = project.create()
+            logger.info(f"Job ID: {job_id}") 
\ No newline at end of file
diff --git a/src/autotrain/commands.py b/src/autotrain/commands.py
index 23182c26c5..2b9cf04911 100644
--- a/src/autotrain/commands.py
+++ b/src/autotrain/commands.py
@@ -1,9 +1,13 @@
 import os
 import shlex
+import sys
 
 import torch
 
 from autotrain import logger
+from autotrain.trainers.audio_classification.params import AudioClassificationParams
+from autotrain.trainers.audio_detection.params import AudioDetectionParams
+from autotrain.trainers.audio_segmentation.params import AudioSegmentationParams
 from autotrain.trainers.clm.params import LLMTrainingParams
 from autotrain.trainers.extractive_question_answering.params import ExtractiveQuestionAnsweringParams
 from autotrain.trainers.generic.params import GenericParams
@@ -151,9 +155,144 @@ def launch_command(params):
             ]
         )
 
+    elif isinstance(params, AudioClassificationParams):
+        if num_gpus == 0:
+            cmd = [
+                "accelerate",
+                "launch",
+                "--cpu",
+            ]
+        elif num_gpus == 1:
+            cmd = [
+                "accelerate",
+                "launch",
+                "--num_machines",
+                "1",
+                "--num_processes",
+                "1",
+            ]
+        else:
+            cmd = [
+                "accelerate",
+                "launch",
+                "--multi_gpu",
+                "--num_machines",
+                "1",
+                "--num_processes",
+                str(num_gpus),
+            ]
+
+        if num_gpus > 0:
+            cmd.append("--mixed_precision")
+            if params.mixed_precision == "fp16":
+                cmd.append("fp16")
+            elif params.mixed_precision == "bf16":
+                cmd.append("bf16")
+            else:
+                cmd.append("no")
+
+        cmd.extend(
+            [
+                "-m",
+                "autotrain.trainers.audio_classification",
+                "--training_config",
+                os.path.join(params.project_name, "training_params.json"),
+            ]
+        )
+
+    elif isinstance(params, AudioSegmentationParams):
+        if num_gpus == 0:
+            cmd = [
+                "accelerate",
+                "launch",
+                "--cpu",
+            ]
+        elif num_gpus == 1:
+            cmd = [
+                "accelerate",
+                "launch",
+                "--num_machines",
+                "1",
+                "--num_processes",
+                "1",
+            ]
+        else:
+            cmd = [
+                "accelerate",
+                "launch",
+                "--multi_gpu",
+                "--num_machines",
+                "1",
+                "--num_processes",
+                str(num_gpus),
+            ]
+
+        if num_gpus > 0:
+            cmd.append("--mixed_precision")
+            if params.mixed_precision == "fp16":
+                cmd.append("fp16")
+            elif params.mixed_precision == "bf16":
+                cmd.append("bf16")
+            else:
+                cmd.append("no")
+
+        cmd.extend(
+            [
+                "-m",
+                "autotrain.trainers.audio_segmentation",
+                "--training_config",
+                os.path.join(params.project_name, "training_params.json"),
+            ]
+        )
+
+    elif isinstance(params, AudioDetectionParams):
+        if num_gpus == 0:
+            cmd = [
+                "accelerate",
+                "launch",
+                "--cpu",
+            ]
+        elif num_gpus == 1:
+            cmd = [
+                "accelerate",
+                "launch",
+                "--num_machines",
+                "1",
+                "--num_processes",
+                "1",
+            ]
+        else:
+            cmd = [
+                "accelerate",
+                "launch",
+                "--multi_gpu",
+                "--num_machines",
+                "1",
+                "--num_processes",
+                str(num_gpus),
+            ]
+
+        if num_gpus > 0:
+            cmd.append("--mixed_precision")
+            if params.mixed_precision == "fp16":
+                cmd.append("fp16")
+            elif params.mixed_precision == "bf16":
+                cmd.append("bf16")
+            else:
+                cmd.append("no")
+
+        cmd.extend(
+            [
+                "-m",
+                "autotrain.trainers.audio_detection",
+                "--training_config",
+                os.path.join(params.project_name, "training_params.json"),
+            ]
+        )
+
     elif isinstance(params, GenericParams):
         cmd = [
-            "python",
+            sys.executable,
             "-m",
             "autotrain.trainers.generic",
             "--config",
@@ -161,7 +300,7 @@ def launch_command(params):
         ]
     elif isinstance(params, TabularParams):
         cmd = [
-            "python",
+            sys.executable,
             "-m",
             "autotrain.trainers.tabular",
             "--training_config",
diff --git a/src/autotrain/dataset.py b/src/autotrain/dataset.py
index 5da820985f..c73215cc63 100644
--- a/src/autotrain/dataset.py
+++ b/src/autotrain/dataset.py
@@ -7,6 +7,12 @@
 
 import pandas as pd
 
+from autotrain.preprocessor.audio import (
+    AudioClassificationPreprocessor, 
+    AudioDetectionPreprocessor, 
+    AudioSegmentationPreprocessor
+)
+
 from autotrain.preprocessor.tabular import (
     TabularBinaryClassificationPreprocessor,
     TabularMultiClassClassificationPreprocessor,
@@ -475,6 +481,398 @@ def prepare(self):
         return preprocessor.prepare()
 
 
+@dataclass
+class AutoTrainAudioClassificationDataset:
+    """
+    A dataset class for AutoTrain audio classification tasks (ZIP format).
+
+    Attributes:
+        train_data (str): Path to the training data ZIP file.
+        token (str): Authentication token.
+        project_name (str): Name of the project.
+        username (str): Username of the project owner.
+        valid_data (Optional[str]): Path to the validation data ZIP file. Default is None.
+        percent_valid (Optional[float]): Percentage of training data to be used for validation. Default is None.
+        local (bool): Flag indicating if the data is local. Default is False.
+
+    Methods:
+        __str__() -> str:
+            Returns a string representation of the dataset.
+
+        __post_init__():
+            Initializes the dataset and sets default values for validation data.
+
+        prepare():
+            Prepares the dataset for training by extracting and preprocessing the audio data.
+    """
+
+    train_data: str
+    token: str
+    project_name: str
+    username: str
+    valid_data: Optional[str] = None
+    percent_valid: Optional[float] = None
+    local: bool = False
+
+    def __str__(self) -> str:
+        info = f"Dataset: {self.project_name} ({self.task})\n"
+        info += f"Train data: {self.train_data}\n"
+        info += f"Valid data: {self.valid_data}\n"
+        return info
+
+    def __post_init__(self):
+        self.task = "audio_multi_class_classification"
+        if not self.valid_data and self.percent_valid is None:
+            self.percent_valid = 0.2
+        elif self.valid_data and self.percent_valid is not None:
+            raise ValueError("You can only specify one of valid_data or percent_valid")
+        elif self.valid_data:
+            self.percent_valid = 0.0
+
+    def prepare(self):
+        valid_dir = None
+        if not isinstance(self.train_data, str):
+            cache_dir = os.environ.get("HF_HOME")
+            if not cache_dir:
+                cache_dir = os.path.join(os.path.expanduser("~"), ".cache", "huggingface")
+
+            random_uuid = uuid.uuid4()
+            train_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+            os.makedirs(train_dir, exist_ok=True)
+            self.train_data.seek(0)
+            content = self.train_data.read()
+            bytes_io = io.BytesIO(content)
+
+            zip_ref = zipfile.ZipFile(bytes_io, "r")
+            zip_ref.extractall(train_dir)
+            # remove the __MACOSX directory
+            macosx_dir = os.path.join(train_dir, "__MACOSX")
+            if os.path.exists(macosx_dir):
+                os.system(f"rm -rf {macosx_dir}")
+            
+            # Validate audio files and metadata.jsonl
+            self._validate_audio_data(train_dir)
+            
+            if self.valid_data:
+                random_uuid = uuid.uuid4()
+                valid_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+                os.makedirs(valid_dir, exist_ok=True)
+                self.valid_data.seek(0)
+                content = self.valid_data.read()
+                bytes_io = io.BytesIO(content)
+                zip_ref = zipfile.ZipFile(bytes_io, "r")
+                zip_ref.extractall(valid_dir)
+                # remove the __MACOSX directory
+                macosx_dir = os.path.join(valid_dir, "__MACOSX")
+                if os.path.exists(macosx_dir):
+                    os.system(f"rm -rf {macosx_dir}")
+                self._validate_audio_data(valid_dir)
+        else:
+            train_dir = self.train_data
+            if self.valid_data:
+                valid_dir = self.valid_data
+
+        preprocessor = AudioClassificationPreprocessor(
+            train_data=train_dir,
+            valid_data=valid_dir,
+            token=self.token,
+            project_name=self.project_name,
+            username=self.username,
+            valid_split=self.percent_valid,
+            local=self.local,
+            audio_column="file_name",
+            target_column="label",
+        )
+        return preprocessor.prepare()
+    
+    def _validate_audio_data(self, data_dir):
+        """
+        Validate that the extracted data contains audio files and metadata.jsonl
+        """
+        # Check for metadata.jsonl
+        metadata_path = os.path.join(data_dir, "metadata.jsonl")
+        if not os.path.exists(metadata_path):
+            raise ValueError(f"metadata.jsonl not found in {data_dir}")
+        
+        # Check for audio files
+        audio_extensions = {".wav", ".mp3", ".flac", ".m4a", ".ogg"}
+        audio_files = []
+        for file in os.listdir(data_dir):
+            if os.path.splitext(file)[1].lower() in audio_extensions:
+                audio_files.append(file)
+        
+        if len(audio_files) < 1:
+            raise ValueError(f"No audio files found in {data_dir}")
+        
+        # Validate metadata.jsonl format
+        import json
+        try:
+            with open(metadata_path, 'r', encoding='utf-8') as f:
+                for line_num, line in enumerate(f, 1):
+                    if line.strip():
+                        data = json.loads(line)
+                        if 'file_name' not in data:
+                            raise ValueError(f"Line {line_num}: 'file_name' field missing in metadata.jsonl")
+                        if 'label' not in data:
+                            raise ValueError(f"Line {line_num}: 'label' field missing in metadata.jsonl")
+                        
+                        # Validate that the audio file exists
+                        audio_file = os.path.join(data_dir, data['file_name'])
+                        if not os.path.exists(audio_file):
+                            raise ValueError(f"Audio file {data['file_name']} referenced in metadata.jsonl not found")
+                            
+        except json.JSONDecodeError as e:
+            raise ValueError(f"Invalid JSON in metadata.jsonl: {e}")
+
+
+@dataclass
+class AutoTrainAudioSegmentationDataset:
+    """
+    A dataset class for AutoTrain audio segmentation tasks.
+
+    Attributes:
+        train_data (str): Path to the training data ZIP file.
+        token (str): Authentication token.
+        project_name (str): Name of the project.
+        username (str): Username of the project owner.
+        valid_data (Optional[str]): Path to the validation data ZIP file. Default is None.
+        percent_valid (Optional[float]): Percentage of training data to be used for validation. Default is None.
+        local (bool): Flag indicating if the data is local. Default is False.
+
+    Methods:
+        __str__() -> str:
+            Returns a string representation of the dataset.
+
+        __post_init__():
+            Initializes the dataset and sets default values for validation data.
+
+        prepare():
+            Prepares the dataset for training by extracting and preprocessing the audio data.
+    """
+
+    train_data: str
+    token: str
+    project_name: str
+    username: str
+    valid_data: Optional[str] = None
+    percent_valid: Optional[float] = None
+    local: bool = False
+
+    def __str__(self) -> str:
+        info = f"Dataset: {self.project_name} ({self.task})\n"
+        info += f"Train data: {self.train_data}\n"
+        info += f"Valid data: {self.valid_data}\n"
+        return info
+
+    def __post_init__(self):
+        self.task = "audio_segmentation"
+        if not self.valid_data and self.percent_valid is None:
+            self.percent_valid = 0.2
+        elif self.valid_data and self.percent_valid is not None:
+            raise ValueError("You can only specify one of valid_data or percent_valid")
+        elif self.valid_data:
+            self.percent_valid = 0.0
+
+    def prepare(self):
+        valid_dir = None
+        if not isinstance(self.train_data, str):
+            cache_dir = os.environ.get("HF_HOME")
+            if not cache_dir:
+                cache_dir = os.path.join(os.path.expanduser("~"), ".cache", "huggingface")
+
+            random_uuid = uuid.uuid4()
+            train_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+            os.makedirs(train_dir, exist_ok=True)
+            self.train_data.seek(0)
+            content = self.train_data.read()
+            bytes_io = io.BytesIO(content)
+
+            zip_ref = zipfile.ZipFile(bytes_io, "r")
+            zip_ref.extractall(train_dir)
+            # remove the __MACOSX directory
+            macosx_dir = os.path.join(train_dir, "__MACOSX")
+            if os.path.exists(macosx_dir):
+                os.system(f"rm -rf {macosx_dir}")
+            
+            # Validate audio files and metadata.jsonl
+            self._validate_audio_data(train_dir)
+            
+            if self.valid_data:
+                random_uuid = uuid.uuid4()
+                valid_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+                os.makedirs(valid_dir, exist_ok=True)
+                self.valid_data.seek(0)
+                content = self.valid_data.read()
+                bytes_io = io.BytesIO(content)
+                zip_ref = zipfile.ZipFile(bytes_io, "r")
+                zip_ref.extractall(valid_dir)
+                # remove the __MACOSX directory
+                macosx_dir = os.path.join(valid_dir, "__MACOSX")
+                if os.path.exists(macosx_dir):
+                    os.system(f"rm -rf {macosx_dir}")
+                self._validate_audio_data(valid_dir)
+        else:
+            train_dir = self.train_data
+            if self.valid_data:
+                valid_dir = self.valid_data
+
+        from autotrain.preprocessor.audio import AudioSegmentationPreprocessor
+        preprocessor = AudioSegmentationPreprocessor(
+            train_data=train_dir,
+            valid_data=valid_dir,
+            token=self.token,
+            project_name=self.project_name,
+            username=self.username,
+            valid_split=self.percent_valid,
+            local=self.local,
+            audio_column="file_name",
+            segments_column="segments",
+        )
+        return preprocessor.prepare()
+    
+    def _validate_audio_data(self, data_dir):
+        """
+        Validate that the extracted data contains audio files and metadata.jsonl
+        """
+        # Check for metadata.jsonl
+        metadata_path = os.path.join(data_dir, "metadata.jsonl")
+        if not os.path.exists(metadata_path):
+            raise ValueError(f"metadata.jsonl not found in {data_dir}")
+        
+        # Check for audio files
+        audio_extensions = {".wav", ".mp3", ".flac", ".m4a", ".ogg"}
+        audio_files = []
+        for file in os.listdir(data_dir):
+            if os.path.splitext(file)[1].lower() in audio_extensions:
+                audio_files.append(file)
+        
+        if len(audio_files) < 1:
+            raise ValueError(f"No audio files found in {data_dir}")
+        
+        # Validate metadata.jsonl format
+        import json
+        try:
+            with open(metadata_path, 'r', encoding='utf-8') as f:
+                for line_num, line in enumerate(f, 1):
+                    if line.strip():
+                        data = json.loads(line)
+                        if 'file_name' not in data:
+                            raise ValueError(f"Line {line_num}: 'file_name' field missing in metadata.jsonl")
+                        if 'segments' not in data:
+                            raise ValueError(f"Line {line_num}: 'segments' field missing in metadata.jsonl")
+                        
+                        # Validate that the audio file exists
+                        audio_file = os.path.join(data_dir, data['file_name'])
+                        if not os.path.exists(audio_file):
+                            raise ValueError(f"Audio file {data['file_name']} referenced in metadata.jsonl not found")
+                            
+        except json.JSONDecodeError as e:
+            raise ValueError(f"Invalid JSON in metadata.jsonl: {e}")
+
+
+@dataclass
+class AutoTrainAudioDetectionDataset:
+    """
+    AutoTrain Audio Detection Dataset
+    
+    Handles ZIP-based audio detection data with temporal event annotations.
+    Similar to object detection but for audio events with precise timing.
+    
+    Expected format:
+    - ZIP file containing audio files + metadata.jsonl
+    - metadata.jsonl: {"file_name": "audio.wav", "events": [{"start": 4.23, "end": 4.27, "label": "car_crash"}]}
+    """
+    train_data: str
+    token: str
+    project_name: str
+    username: str
+    valid_data: Optional[str] = None
+    percent_valid: Optional[float] = None
+    local: bool = False
+
+    def __str__(self) -> str:
+        info = f"Dataset: {self.train_data}\n"
+        if self.valid_data:
+            info += f"Valid: {self.valid_data}\n"
+        info += f"Task: Audio Detection\n"
+        if self.username:
+            info += f"Username: {self.username}\n"
+        info += f"Project: {self.project_name}\n"
+        info += f"Local: {self.local}"
+        return info
+
+    def __post_init__(self):
+        # Set username if not provided
+        if self.username is None:
+            self.username = "autotrain-user"
+
+        # Set validation split percentage if not provided
+        if self.valid_data is None and self.percent_valid is None:
+            self.percent_valid = 0.2
+        elif self.valid_data is not None and self.percent_valid is not None:
+            raise ValueError("Please provide either valid_data or percent_valid, not both")
+
+    def prepare(self):
+        """
+        Prepare the audio detection dataset from ZIP format.
+        
+        Expected ZIP structure:
+        - audio_data.zip
+          ├── audio1.wav
+          ├── audio2.wav  
+          └── metadata.jsonl
+        
+        metadata.jsonl format:
+        {"file_name": "audio1.wav", "events": [{"start": 0.0, "end": 2.5, "label": "speech"}, {"start": 2.5, "end": 3.0, "label": "silence"}]}
+        """
+        from autotrain.preprocessor.audio import AudioDetectionPreprocessor
+        
+        if isinstance(self.train_data, str) and self.train_data.endswith('.zip'):
+            # Handle ZIP file
+            processor = AudioDetectionPreprocessor(
+                train_data=self.train_data,
+                valid_data=self.valid_data,
+                token=self.token,
+                project_name=self.project_name,
+                username=self.username,
+                valid_split=self.percent_valid,
+                seed=42,
+                local=self.local,
+                audio_column="file_name",
+                events_column="events"
+            )
+        elif os.path.isdir(self.train_data):
+            # Handle extracted directory with metadata.jsonl
+            processor = AudioDetectionPreprocessor(
+                train_data=self.train_data,
+                valid_data=self.valid_data,
+                token=self.token,
+                project_name=self.project_name,
+                username=self.username,
+                valid_split=self.percent_valid,
+                seed=42,
+                local=self.local,
+                audio_column="file_name",
+                events_column="events"
+            )
+        else:
+            # Handle file-like object (from web upload)
+            processor = AudioDetectionPreprocessor(
+                train_data=self.train_data,
+                valid_data=self.valid_data,
+                token=self.token,
+                project_name=self.project_name,
+                username=self.username,
+                valid_split=self.percent_valid,
+                seed=42,
+                local=self.local,
+                audio_column="file_name",
+                events_column="events"
+            )
+        
+        return processor.prepare()
+
+
 @dataclass
 class AutoTrainDataset:
     """
@@ -808,5 +1206,50 @@ def prepare(self):
                 local=self.local,
             )
             return preprocessor.prepare()
+        elif self.task in ["audio_binary_classification", "audio_multi_class_classification"]:
+            audio_column = self.column_mapping["audio"]
+            label_column = self.column_mapping["label"]
+            preprocessor = AudioClassificationPreprocessor(
+                train_data=self.train_df,
+                valid_data=self.valid_df,
+                token=self.token,
+                project_name=self.project_name,
+                username=self.username,
+                valid_split=self.percent_valid,
+                local=self.local,
+                audio_column=audio_column,
+                target_column=label_column,
+            )
+            return preprocessor.prepare()
+        elif self.task == "audio_segmentation":
+            audio_column = self.column_mapping["audio"]
+            segments_column = self.column_mapping["label"]  # For segmentation, this contains segment annotations
+            preprocessor = AudioSegmentationPreprocessor(
+                train_data=self.train_df,
+                valid_data=self.valid_df,
+                token=self.token,
+                project_name=self.project_name,
+                username=self.username,
+                valid_split=self.percent_valid,
+                local=self.local,
+                audio_column=audio_column,
+                segments_column=segments_column,
+            )
+            return preprocessor.prepare()
+        elif self.task == "audio_detection":
+            audio_column = self.column_mapping["audio"]
+            events_column = self.column_mapping["events"]  # For detection, this contains event annotations
+            preprocessor = AudioDetectionPreprocessor(
+                train_data=self.train_df,
+                valid_data=self.valid_df,
+                token=self.token,
+                project_name=self.project_name,
+                username=self.username,
+                valid_split=self.percent_valid,
+                local=self.local,
+                audio_column=audio_column,
+                events_column=events_column,
+            )
+            return preprocessor.prepare()
         else:
             raise ValueError(f"Task {self.task} not supported")
diff --git a/src/autotrain/preprocessor/audio.py b/src/autotrain/preprocessor/audio.py
new file mode 100644
index 0000000000..9cee183738
--- /dev/null
+++ b/src/autotrain/preprocessor/audio.py
@@ -0,0 +1,841 @@
+import os
+from dataclasses import dataclass
+from typing import Optional, Union
+
+import pandas as pd
+from datasets import Dataset, DatasetDict
+from sklearn.model_selection import train_test_split
+
+from autotrain import logger
+
+
+@dataclass
+class AudioClassificationPreprocessor:
+    """
+    A preprocessor for audio classification datasets.
+
+    Attributes:
+        train_data (str): Path to the training data file or directory.
+        valid_data (Optional[str]): Path to the validation data file or directory (optional).
+        test_data (Optional[str]): Path to the test data file or directory (optional).
+        token (Optional[str]): Hugging Face Hub token for uploading datasets.
+        project_name (str): Name of the project for output directory.
+        username (Optional[str]): Hugging Face username for uploading datasets.
+        valid_split (float): Proportion of training data to use for validation if no validation data is provided.
+        seed (int): Random seed for reproducible train/validation splits.
+        local (bool): Whether to save the dataset locally or upload to Hugging Face Hub.
+        audio_column (str): Name of the column containing audio file paths or audio data.
+        target_column (str): Name of the column containing target labels.
+
+    Methods:
+        split(): Splits the data into training and validation sets.
+        prepare_columns(train_df, valid_df): Prepares the column names for the datasets.
+        prepare(): Main preprocessing method that prepares the complete dataset.
+    """
+
+    train_data: Union[str, pd.DataFrame]
+    valid_data: Optional[Union[str, pd.DataFrame]] = None
+    test_data: Optional[Union[str, pd.DataFrame]] = None
+    token: Optional[str] = None
+    project_name: str = "project-name"
+    username: Optional[str] = None
+    valid_split: float = 0.2
+    seed: int = 42
+    local: bool = True
+    audio_column: str = "audio"
+    target_column: str = "target"
+
+    def __post_init__(self):
+        """Post-initialization validation and setup."""
+        # Validate train_data
+        if isinstance(self.train_data, str):
+            if not os.path.exists(self.train_data):
+                raise ValueError(f"Training data path does not exist: {self.train_data}")
+        elif not isinstance(self.train_data, pd.DataFrame):
+            raise ValueError(f"Training data must be a string path or pandas DataFrame, got: {type(self.train_data)}")
+        
+        # Validate valid_data if provided
+        if self.valid_data:
+            if isinstance(self.valid_data, str):
+                if not os.path.exists(self.valid_data):
+                    raise ValueError(f"Validation data path does not exist: {self.valid_data}")
+            elif not isinstance(self.valid_data, pd.DataFrame):
+                raise ValueError(f"Validation data must be a string path or pandas DataFrame, got: {type(self.valid_data)}")
+        
+        # Validate test_data if provided
+        if self.test_data:
+            if isinstance(self.test_data, str):
+                if not os.path.exists(self.test_data):
+                    raise ValueError(f"Test data path does not exist: {self.test_data}")
+            elif not isinstance(self.test_data, pd.DataFrame):
+                raise ValueError(f"Test data must be a string path or pandas DataFrame, got: {type(self.test_data)}")
+
+    def split(self):
+        """
+        Splits the training data into training and validation sets if no validation data is provided.
+
+        Returns:
+            tuple: A tuple containing (train_df, valid_df) DataFrames.
+        """
+        # Load training data
+        if isinstance(self.train_data, pd.DataFrame):
+            train_df = self.train_data.copy()
+        else:
+            # Check if it's a directory with metadata.jsonl (ZIP format)
+            if os.path.isdir(self.train_data):
+                train_df = self._load_from_metadata_jsonl(self.train_data)
+            # Load from file path (CSV/JSONL format)
+            elif self.train_data.endswith(('.csv', '.tsv')):
+                separator = '\t' if self.train_data.endswith('.tsv') else ','
+                train_df = pd.read_csv(self.train_data, sep=separator)
+            elif self.train_data.endswith('.jsonl'):
+                train_df = pd.read_json(self.train_data, lines=True)
+            elif self.train_data.endswith('.json'):
+                train_df = pd.read_json(self.train_data)
+            else:
+                raise ValueError(f"Unsupported file format for training data: {self.train_data}")
+
+        # Load validation data if provided
+        if self.valid_data:
+            if isinstance(self.valid_data, pd.DataFrame):
+                valid_df = self.valid_data.copy()
+            else:
+                # Check if it's a directory with metadata.jsonl (ZIP format)
+                if os.path.isdir(self.valid_data):
+                    valid_df = self._load_from_metadata_jsonl(self.valid_data)
+                # Load from file path (CSV/JSONL format)
+                elif self.valid_data.endswith(('.csv', '.tsv')):
+                    separator = '\t' if self.valid_data.endswith('.tsv') else ','
+                    valid_df = pd.read_csv(self.valid_data, sep=separator)
+                elif self.valid_data.endswith('.jsonl'):
+                    valid_df = pd.read_json(self.valid_data, lines=True)
+                elif self.valid_data.endswith('.json'):
+                    valid_df = pd.read_json(self.valid_data)
+                else:
+                    raise ValueError(f"Unsupported file format for validation data: {self.valid_data}")
+        else:
+            # Split training data into train and validation
+            train_df, valid_df = train_test_split(
+                train_df,
+                test_size=self.valid_split,
+                random_state=self.seed,
+                stratify=train_df[self.target_column] if self.target_column in train_df.columns else None
+            )
+
+        logger.info(f"Training data shape: {train_df.shape}")
+        logger.info(f"Validation data shape: {valid_df.shape}")
+
+        return train_df, valid_df
+
+    def _load_from_metadata_jsonl(self, data_dir):
+        """
+        Load data from a directory containing audio files and metadata.jsonl
+        
+        Args:
+            data_dir (str): Directory containing audio files and metadata.jsonl
+            
+        Returns:
+            pd.DataFrame: DataFrame with file_name and label columns
+        """
+        import json
+        
+        metadata_path = os.path.join(data_dir, "metadata.jsonl")
+        if not os.path.exists(metadata_path):
+            raise ValueError(f"metadata.jsonl not found in {data_dir}")
+        
+        data_list = []
+        with open(metadata_path, 'r', encoding='utf-8') as f:
+            for line in f:
+                if line.strip():
+                    data = json.loads(line)
+                    # Convert file_name to full path
+                    audio_path = os.path.join(data_dir, data['file_name'])
+                    data_list.append({
+                        self.audio_column: audio_path,
+                        self.target_column: data['label']
+                    })
+        
+        return pd.DataFrame(data_list)
+
+    def prepare_columns(self, train_df, valid_df):
+        """
+        Prepares and standardizes column names for the datasets.
+
+        Args:
+            train_df (pd.DataFrame): Training DataFrame.
+            valid_df (pd.DataFrame): Validation DataFrame.
+
+        Returns:
+            tuple: A tuple containing (train_df, valid_df) with standardized column names.
+        """
+        # Rename columns to standard format
+        column_mapping = {
+            self.audio_column: "autotrain_audio",
+            self.target_column: "autotrain_label"
+        }
+
+        train_df = train_df.rename(columns=column_mapping)
+        valid_df = valid_df.rename(columns=column_mapping)
+
+        # Keep only the required columns
+        required_columns = ["autotrain_audio", "autotrain_label"]
+        train_df = train_df[required_columns]
+        valid_df = valid_df[required_columns]
+
+        # Ensure target labels are properly formatted
+        # Convert labels to categorical if they are strings
+        if train_df["autotrain_label"].dtype == 'object':
+            unique_labels = sorted(train_df["autotrain_label"].unique())
+            label_to_id = {label: idx for idx, label in enumerate(unique_labels)}
+            
+            train_df["autotrain_label"] = train_df["autotrain_label"].map(label_to_id)
+            valid_df["autotrain_label"] = valid_df["autotrain_label"].map(label_to_id)
+            
+            logger.info(f"Label mapping: {label_to_id}")
+        
+        logger.info(f"Final training columns: {list(train_df.columns)}")
+        logger.info(f"Final validation columns: {list(valid_df.columns)}")
+
+        return train_df, valid_df
+
+    def prepare(self):
+        """
+        Main preprocessing method that prepares the complete dataset.
+
+        Returns:
+            str: Path to the prepared dataset (local path or Hugging Face Hub dataset ID).
+        """
+        train_df, valid_df = self.split()
+        train_df, valid_df = self.prepare_columns(train_df, valid_df)
+
+        # Convert to Hugging Face Dataset
+        train_dataset = Dataset.from_pandas(train_df)
+        valid_dataset = Dataset.from_pandas(valid_df)
+
+        # Create DatasetDict
+        dataset_dict = DatasetDict({
+            "train": train_dataset,
+            "validation": valid_dataset
+        })
+
+        if self.local:
+            # Save dataset locally
+            output_path = f"{self.project_name}/autotrain-data"
+            os.makedirs(output_path, exist_ok=True)
+            dataset_dict.save_to_disk(output_path)
+            logger.info(f"Dataset saved locally to: {output_path}")
+            return output_path
+        else:
+            # Upload to Hugging Face Hub
+            if not self.username or not self.token:
+                raise ValueError("Username and token are required for uploading to Hugging Face Hub")
+            
+            hub_dataset_id = f"{self.username}/autotrain-data-{self.project_name}"
+            
+            # Push train split
+            train_dataset.push_to_hub(
+                hub_dataset_id,
+                split="train",
+                private=True,
+                token=self.token
+            )
+            
+            # Push validation split
+            valid_dataset.push_to_hub(
+                hub_dataset_id,
+                split="validation",
+                private=True,
+                token=self.token
+            )
+            
+            logger.info(f"Dataset uploaded to Hugging Face Hub: {hub_dataset_id}")
+            return hub_dataset_id
+
+@dataclass
+class AudioDetectionPreprocessor:
+    """
+    A preprocessor for audio detection datasets.
+    
+    Converts audio files with event annotations to temporal event predictions.
+    Expected formats:
+    - ZIP file with audio files + metadata.jsonl 
+    - CSV format with audio_column and events_column
+    
+    Events format: [{"start": 4.23, "end": 4.27, "label": "car_crash"}, ...]
+
+    Attributes:
+        train_data (Union[str, pd.DataFrame]): Path to training data file or DataFrame.
+        valid_data (Optional[Union[str, pd.DataFrame]]): Path to validation data file or DataFrame.
+        test_data (Optional[Union[str, pd.DataFrame]]): Path to test data file or DataFrame.
+        token (Optional[str]): Hugging Face Hub token for uploading datasets.
+        project_name (str): Name of the project for output directory.
+        username (Optional[str]): Hugging Face username for uploading datasets.
+        valid_split (float): Proportion of training data to use for validation if no validation data is provided.
+        seed (int): Random seed for reproducible train/validation splits.
+        local (bool): Whether to save the dataset locally or upload to Hugging Face Hub.
+        audio_column (str): Name of the column containing audio file paths.
+        events_column (str): Name of the column containing event annotations.
+    """
+    
+    train_data: Union[str, pd.DataFrame]
+    valid_data: Optional[Union[str, pd.DataFrame]] = None
+    test_data: Optional[Union[str, pd.DataFrame]] = None
+    token: Optional[str] = None
+    project_name: str = "project-name"
+    username: Optional[str] = None
+    valid_split: float = 0.2
+    seed: int = 42
+    local: bool = True
+    audio_column: str = "audio"
+    events_column: str = "events"
+
+    def __post_init__(self):
+        if self.username is None:
+            self.username = "autotrain-user"
+
+    def split(self):
+        """
+        Splits the training data into training and validation sets if no validation data is provided.
+
+        Returns:
+            tuple: A tuple containing (train_df, valid_df) DataFrames.
+        """
+        # Handle ZIP files with metadata.jsonl
+        if isinstance(self.train_data, str) and self.train_data.endswith('.zip'):
+            # Process ZIP file - extract and read metadata.jsonl
+            return self._process_zip_data()
+        
+        # Handle directory with metadata.jsonl  
+        if isinstance(self.train_data, str) and os.path.isdir(self.train_data):
+            metadata_path = os.path.join(self.train_data, "metadata.jsonl")
+            if os.path.exists(metadata_path):
+                return self._process_directory_data()
+        
+        # Handle regular file-based data
+        if isinstance(self.train_data, pd.DataFrame):
+            train_df = self.train_data.copy()
+        else:
+            # Load from file path
+            if self.train_data.endswith(('.csv', '.tsv')):
+                separator = '\t' if self.train_data.endswith('.tsv') else ','
+                train_df = pd.read_csv(self.train_data, sep=separator)
+            elif self.train_data.endswith('.jsonl'):
+                train_df = pd.read_json(self.train_data, lines=True)
+            elif self.train_data.endswith('.json'):
+                train_df = pd.read_json(self.train_data)
+            else:
+                raise ValueError(f"Unsupported file format: {self.train_data}")
+
+        # Process validation data if provided
+        if self.valid_data is not None:
+            if isinstance(self.valid_data, pd.DataFrame):
+                valid_df = self.valid_data.copy()
+            else:
+                if self.valid_data.endswith(('.csv', '.tsv')):
+                    separator = '\t' if self.valid_data.endswith('.tsv') else ','
+                    valid_df = pd.read_csv(self.valid_data, sep=separator)
+                elif self.valid_data.endswith('.jsonl'):
+                    valid_df = pd.read_json(self.valid_data, lines=True)
+                elif self.valid_data.endswith('.json'):
+                    valid_df = pd.read_json(self.valid_data)
+                else:
+                    raise ValueError(f"Unsupported file format: {self.valid_data}")
+        else:
+            # Split training data
+            train_df, valid_df = train_test_split(
+                train_df, test_size=self.valid_split, random_state=self.seed, stratify=None
+            )
+
+        return train_df, valid_df
+
+    def _process_zip_data(self):
+        """Process ZIP file containing audio files and metadata.jsonl"""
+        import tempfile
+        import zipfile
+        import json
+        
+        # Create temporary directory for extraction
+        temp_dir = tempfile.mkdtemp()
+        
+        try:
+            # Extract ZIP file
+            with zipfile.ZipFile(self.train_data, 'r') as zip_ref:
+                zip_ref.extractall(temp_dir)
+            
+            # Read metadata.jsonl
+            metadata_path = os.path.join(temp_dir, "metadata.jsonl")
+            if not os.path.exists(metadata_path):
+                raise ValueError("metadata.jsonl not found in ZIP file")
+            
+            # Load metadata
+            data_rows = []
+            with open(metadata_path, 'r') as f:
+                for line in f:
+                    data = json.loads(line.strip())
+                    # Convert audio path to full path
+                    audio_path = os.path.join(temp_dir, data['file_name'])
+                    if os.path.exists(audio_path):
+                        data_rows.append({
+                            self.audio_column: audio_path,
+                            self.events_column: data['events']
+                        })
+            
+            train_df = pd.DataFrame(data_rows)
+            
+            # Split into train/validation
+            train_df, valid_df = train_test_split(
+                train_df, test_size=self.valid_split, random_state=self.seed
+            )
+            
+            return train_df, valid_df
+            
+        except Exception as e:
+            # Clean up temp directory
+            import shutil
+            shutil.rmtree(temp_dir, ignore_errors=True)
+            raise e
+
+    def _process_directory_data(self):
+        """Process directory containing audio files and metadata.jsonl"""
+        import json
+        
+        metadata_path = os.path.join(self.train_data, "metadata.jsonl")
+        
+        # Load metadata
+        data_rows = []
+        with open(metadata_path, 'r') as f:
+            for line in f:
+                data = json.loads(line.strip())
+                # Convert audio path to full path
+                audio_path = os.path.join(self.train_data, data['file_name'])
+                if os.path.exists(audio_path):
+                    data_rows.append({
+                        self.audio_column: audio_path,
+                        self.events_column: data['events']
+                    })
+        
+        train_df = pd.DataFrame(data_rows)
+        
+        # Handle validation data
+        if self.valid_data and os.path.isdir(self.valid_data):
+            valid_metadata_path = os.path.join(self.valid_data, "metadata.jsonl")
+            if os.path.exists(valid_metadata_path):
+                valid_rows = []
+                with open(valid_metadata_path, 'r') as f:
+                    for line in f:
+                        data = json.loads(line.strip())
+                        audio_path = os.path.join(self.valid_data, data['file_name'])
+                        if os.path.exists(audio_path):
+                            valid_rows.append({
+                                self.audio_column: audio_path,
+                                self.events_column: data['events']
+                            })
+                valid_df = pd.DataFrame(valid_rows)
+            else:
+                # Split training data
+                train_df, valid_df = train_test_split(
+                    train_df, test_size=self.valid_split, random_state=self.seed
+                )
+        else:
+            # Split training data
+            train_df, valid_df = train_test_split(
+                train_df, test_size=self.valid_split, random_state=self.seed
+            )
+        
+        return train_df, valid_df
+
+    def prepare_columns(self, train_df, valid_df):
+        """
+        Prepares the column names for the datasets.
+
+        Args:
+            train_df (pd.DataFrame): Training DataFrame.
+            valid_df (pd.DataFrame): Validation DataFrame.
+
+        Returns:
+            tuple: A tuple containing the prepared training and validation DataFrames.
+        """
+        train_df.loc[:, "autotrain_audio"] = train_df[self.audio_column]
+        train_df.loc[:, "autotrain_events"] = train_df[self.events_column]
+        
+        valid_df.loc[:, "autotrain_audio"] = valid_df[self.audio_column]
+        valid_df.loc[:, "autotrain_events"] = valid_df[self.events_column]
+        
+        # Drop original columns if they have different names
+        cols_to_drop = []
+        if self.audio_column != "autotrain_audio":
+            cols_to_drop.append(self.audio_column)
+        if self.events_column != "autotrain_events":
+            cols_to_drop.append(self.events_column)
+            
+        if cols_to_drop:
+            train_df = train_df.drop(columns=cols_to_drop)
+            valid_df = valid_df.drop(columns=cols_to_drop)
+        
+        return train_df, valid_df
+
+    def prepare(self):
+        """
+        Main preprocessing method that prepares the complete audio detection dataset.
+
+        Returns:
+            str: Path to the prepared dataset or HuggingFace Hub dataset ID.
+        """
+        train_df, valid_df = self.split()
+        train_df, valid_df = self.prepare_columns(train_df, valid_df)
+
+        if self.local:
+            # Save locally
+            dataset_dict = DatasetDict({
+                "train": Dataset.from_pandas(train_df),
+                "validation": Dataset.from_pandas(valid_df)
+            })
+            
+            dataset_path = f"{self.project_name}/autotrain-data"
+            dataset_dict.save_to_disk(dataset_path)
+            return dataset_path
+        else:
+            # Upload to Hugging Face Hub
+            dataset_dict = DatasetDict({
+                "train": Dataset.from_pandas(train_df),
+                "validation": Dataset.from_pandas(valid_df)
+            })
+            
+            hub_dataset_id = f"{self.username}/autotrain-data-{self.project_name}"
+            dataset_dict.push_to_hub(
+                hub_dataset_id,
+                token=self.token,
+                commit_message="Upload audio detection dataset via AutoTrain"
+            )
+            return hub_dataset_id
+
+
+@dataclass
+class AudioSegmentationPreprocessor:
+    """
+    A preprocessor for audio segmentation datasets.
+    
+    Converts audio files with segment annotations to frame-level predictions.
+    Expected CSV format:
+    - audio_column: path to audio file
+    - segments_column: JSON string with segments like [{"start": 0.0, "end": 1.0, "label": "speech"}, ...]
+    OR separate columns for start_time, end_time, label (multiple rows per audio file)
+
+    Attributes:
+        train_data (Union[str, pd.DataFrame]): Path to training data file or DataFrame.
+        valid_data (Optional[Union[str, pd.DataFrame]]): Path to validation data file or DataFrame.
+        test_data (Optional[Union[str, pd.DataFrame]]): Path to test data file or DataFrame.
+        token (Optional[str]): Hugging Face Hub token for uploading datasets.
+        project_name (str): Name of the project for output directory.
+        username (Optional[str]): Hugging Face username for uploading datasets.
+        valid_split (float): Proportion of training data to use for validation if no validation data is provided.
+        seed (int): Random seed for reproducible train/validation splits.
+        local (bool): Whether to save the dataset locally or upload to Hugging Face Hub.
+        audio_column (str): Name of the column containing audio file paths.
+        segments_column (str): Name of the column containing segment annotations (JSON format).
+        frame_rate (int): Frame rate for segmentation (frames per second).
+        default_label (str): Default label for unlabeled segments.
+    """
+    
+    train_data: Union[str, pd.DataFrame]
+    valid_data: Optional[Union[str, pd.DataFrame]] = None
+    test_data: Optional[Union[str, pd.DataFrame]] = None
+    token: Optional[str] = None
+    project_name: str = "project-name"
+    username: Optional[str] = None
+    valid_split: float = 0.2
+    seed: int = 42
+    local: bool = True
+    audio_column: str = "audio"
+    segments_column: str = "segments"
+    frame_rate: int = 100  # 100 fps = 10ms frames
+    default_label: str = "silence"
+    
+    def __post_init__(self):
+        """Post-initialization validation and setup."""
+        # Validate train_data
+        if isinstance(self.train_data, str):
+            if not os.path.exists(self.train_data):
+                raise ValueError(f"Training data path does not exist: {self.train_data}")
+        elif not isinstance(self.train_data, pd.DataFrame):
+            raise ValueError(f"Training data must be a string path or pandas DataFrame, got: {type(self.train_data)}")
+        
+        # Validate valid_data if provided
+        if self.valid_data:
+            if isinstance(self.valid_data, str):
+                if not os.path.exists(self.valid_data):
+                    raise ValueError(f"Validation data path does not exist: {self.valid_data}")
+            elif not isinstance(self.valid_data, pd.DataFrame):
+                raise ValueError(f"Validation data must be a string path or pandas DataFrame, got: {type(self.valid_data)}")
+
+    def _create_frame_labels(self, audio_path, segments, audio_duration=None):
+        """
+        Create frame-level labels from segment annotations.
+        
+        Args:
+            audio_path (str): Path to audio file
+            segments (list): List of segment dictionaries with start, end, label
+            audio_duration (float): Duration of audio in seconds (auto-detected if None)
+            
+        Returns:
+            list: Frame-level labels
+        """
+        import librosa
+        import json
+        
+        # Load audio to get duration if not provided
+        if audio_duration is None:
+            try:
+                y, sr = librosa.load(audio_path, sr=None)
+                audio_duration = len(y) / sr
+            except Exception as e:
+                logger.warning(f"Could not load audio file {audio_path}: {e}")
+                audio_duration = 10.0  # Default fallback
+        
+        # Calculate total frames
+        total_frames = int(audio_duration * self.frame_rate)
+        
+        # Initialize all frames with default label
+        frame_labels = [self.default_label] * total_frames
+        
+        # Parse segments if string
+        if isinstance(segments, str):
+            try:
+                segments = json.loads(segments)
+            except:
+                logger.warning(f"Could not parse segments JSON: {segments}")
+                segments = []
+        elif not isinstance(segments, list):
+            logger.warning(f"Segments must be a list or JSON string, got: {type(segments)}")
+            segments = []
+        
+        # Fill in segment labels
+        for segment in segments:
+            start_frame = int(segment['start'] * self.frame_rate)
+            end_frame = int(segment['end'] * self.frame_rate)
+            label = segment['label']
+            
+            # Ensure frames are within bounds
+            start_frame = max(0, min(start_frame, total_frames - 1))
+            end_frame = max(0, min(end_frame, total_frames))
+            
+            # Fill frames
+            for i in range(start_frame, end_frame):
+                frame_labels[i] = label
+        
+        return frame_labels
+
+    def split(self):
+        """
+        Splits the training data into training and validation sets if no validation data is provided.
+
+        Returns:
+            tuple: A tuple containing (train_df, valid_df) DataFrames.
+        """
+        # Load training data
+        if isinstance(self.train_data, pd.DataFrame):
+            train_df = self.train_data.copy()
+        else:
+            # Check if it's a directory with metadata.jsonl (ZIP format)
+            if os.path.isdir(self.train_data):
+                train_df = self._load_from_metadata_jsonl(self.train_data)
+            # Load from file path (CSV/JSONL format)
+            elif self.train_data.endswith(('.csv', '.tsv')):
+                separator = '\t' if self.train_data.endswith('.tsv') else ','
+                train_df = pd.read_csv(self.train_data, sep=separator)
+            elif self.train_data.endswith('.jsonl'):
+                train_df = pd.read_json(self.train_data, lines=True)
+            elif self.train_data.endswith('.json'):
+                train_df = pd.read_json(self.train_data)
+            else:
+                raise ValueError(f"Unsupported file format for training data: {self.train_data}")
+
+        # Load validation data if provided
+        if self.valid_data:
+            if isinstance(self.valid_data, pd.DataFrame):
+                valid_df = self.valid_data.copy()
+            else:
+                # Check if it's a directory with metadata.jsonl (ZIP format)
+                if os.path.isdir(self.valid_data):
+                    valid_df = self._load_from_metadata_jsonl(self.valid_data)
+                # Load from file path (CSV/JSONL format)
+                elif self.valid_data.endswith(('.csv', '.tsv')):
+                    separator = '\t' if self.valid_data.endswith('.tsv') else ','
+                    valid_df = pd.read_csv(self.valid_data, sep=separator)
+                elif self.valid_data.endswith('.jsonl'):
+                    valid_df = pd.read_json(self.valid_data, lines=True)
+                elif self.valid_data.endswith('.json'):
+                    valid_df = pd.read_json(self.valid_data)
+                else:
+                    raise ValueError(f"Unsupported file format for validation data: {self.valid_data}")
+        else:
+            # Split training data into train and validation
+            train_df, valid_df = train_test_split(
+                train_df,
+                test_size=self.valid_split,
+                random_state=self.seed
+            )
+
+        logger.info(f"Training data shape: {train_df.shape}")
+        logger.info(f"Validation data shape: {valid_df.shape}")
+
+        return train_df, valid_df
+
+    def _load_from_metadata_jsonl(self, data_dir):
+        """
+        Load data from a directory containing audio files and metadata.jsonl
+        
+        Args:
+            data_dir (str): Directory containing audio files and metadata.jsonl
+            
+        Returns:
+            pd.DataFrame: DataFrame with file_name and segments columns
+        """
+        import json
+        
+        metadata_path = os.path.join(data_dir, "metadata.jsonl")
+        if not os.path.exists(metadata_path):
+            raise ValueError(f"metadata.jsonl not found in {data_dir}")
+        
+        data_list = []
+        with open(metadata_path, 'r', encoding='utf-8') as f:
+            for line in f:
+                if line.strip():
+                    data = json.loads(line)
+                    # Convert file_name to full path
+                    audio_path = os.path.join(data_dir, data['file_name'])
+                    data_list.append({
+                        self.audio_column: audio_path,
+                        self.segments_column: data['segments']
+                    })
+        
+        return pd.DataFrame(data_list)
+
+    def prepare_columns(self, train_df, valid_df):
+        """
+        Prepares and standardizes column names for the datasets.
+        Converts segment annotations to frame-level labels.
+
+        Args:
+            train_df (pd.DataFrame): Training DataFrame.
+            valid_df (pd.DataFrame): Validation DataFrame.
+
+        Returns:
+            tuple: A tuple containing (train_df, valid_df) with frame-level labels.
+        """
+        processed_train = []
+        processed_valid = []
+        
+        # Get unique labels for mapping
+        all_labels = set([self.default_label])
+        
+        # Collect all labels first
+        for df in [train_df, valid_df]:
+            for _, row in df.iterrows():
+                segments = row[self.segments_column]
+                if isinstance(segments, str):
+                    try:
+                        import json
+                        segments = json.loads(segments)
+                        for segment in segments:
+                            all_labels.add(segment['label'])
+                    except:
+                        pass
+                elif isinstance(segments, list):
+                    # Handle list of dictionaries directly
+                    for segment in segments:
+                        if isinstance(segment, dict) and 'label' in segment:
+                            all_labels.add(segment['label'])
+        
+        # Create label to ID mapping
+        label_list = sorted(list(all_labels))
+        label_to_id = {label: idx for idx, label in enumerate(label_list)}
+        logger.info(f"Label mapping: {label_to_id}")
+        
+        # Process training data
+        for _, row in train_df.iterrows():
+            audio_path = row[self.audio_column]
+            segments = row[self.segments_column]
+            
+            frame_labels = self._create_frame_labels(audio_path, segments)
+            frame_ids = [label_to_id[label] for label in frame_labels]
+            
+            processed_train.append({
+                "autotrain_audio": audio_path,
+                "autotrain_label": frame_ids
+            })
+        
+        # Process validation data
+        for _, row in valid_df.iterrows():
+            audio_path = row[self.audio_column]
+            segments = row[self.segments_column]
+            
+            frame_labels = self._create_frame_labels(audio_path, segments)
+            frame_ids = [label_to_id[label] for label in frame_labels]
+            
+            processed_valid.append({
+                "autotrain_audio": audio_path,
+                "autotrain_label": frame_ids
+            })
+        
+        train_df_processed = pd.DataFrame(processed_train)
+        valid_df_processed = pd.DataFrame(processed_valid)
+        
+        logger.info(f"Processed training data shape: {train_df_processed.shape}")
+        logger.info(f"Processed validation data shape: {valid_df_processed.shape}")
+        logger.info(f"Frame labels example length: {len(processed_train[0]['autotrain_label']) if processed_train else 0}")
+
+        return train_df_processed, valid_df_processed
+
+    def prepare(self):
+        """
+        Main preprocessing method that prepares the complete dataset.
+
+        Returns:
+            str: Path to the prepared dataset (local path or Hugging Face Hub dataset ID).
+        """
+        train_df, valid_df = self.split()
+        train_df, valid_df = self.prepare_columns(train_df, valid_df)
+
+        # Convert to Hugging Face Dataset
+        train_dataset = Dataset.from_pandas(train_df)
+        valid_dataset = Dataset.from_pandas(valid_df)
+
+        # Create DatasetDict
+        dataset_dict = DatasetDict({
+            "train": train_dataset,
+            "validation": valid_dataset
+        })
+
+        if self.local:
+            # Save dataset locally
+            output_path = f"{self.project_name}/autotrain-data"
+            os.makedirs(output_path, exist_ok=True)
+            dataset_dict.save_to_disk(output_path)
+            logger.info(f"Audio segmentation dataset saved locally to: {output_path}")
+            return output_path
+        else:
+            # Upload to Hugging Face Hub
+            if not self.username or not self.token:
+                raise ValueError("Username and token are required for uploading to Hugging Face Hub")
+            
+            hub_dataset_id = f"{self.username}/autotrain-data-{self.project_name}"
+            
+            # Push train split
+            train_dataset.push_to_hub(
+                hub_dataset_id,
+                split="train",
+                private=True,
+                token=self.token
+            )
+            
+            # Push validation split
+            valid_dataset.push_to_hub(
+                hub_dataset_id,
+                split="validation",
+                private=True,
+                token=self.token
+            )
+            
+            logger.info(f"Audio segmentation dataset uploaded to Hugging Face Hub: {hub_dataset_id}")
+            return hub_dataset_id 
\ No newline at end of file
diff --git a/src/autotrain/preprocessor/vision.py b/src/autotrain/preprocessor/vision.py
index b1075888a5..2c452d4667 100644
--- a/src/autotrain/preprocessor/vision.py
+++ b/src/autotrain/preprocessor/vision.py
@@ -66,11 +66,11 @@ def __post_init__(self):
         if len(subfolders) < 2:
             raise ValueError(f"{self.train_data} should contain at least 2 subfolders.")
 
-        # Check if each subfolder contains at least 5 image files in jpeg, png or jpg format only
+        # Check if each subfolder contains at least 2 image files in jpeg, png or jpg format only
         for subfolder in subfolders:
             image_files = [f for f in os.listdir(subfolder) if f.endswith(ALLOWED_EXTENSIONS)]
-            if len(image_files) < 5:
-                raise ValueError(f"{subfolder} should contain at least 5 jpeg, png or jpg files.")
+            if len(image_files) < 2:
+                raise ValueError(f"{subfolder} should contain at least 2 jpeg, png or jpg files.")
             # Check if there are no other files except image files in the subfolder
             if len(image_files) != len(os.listdir(subfolder)):
                 raise ValueError(f"{subfolder} should not contain any other files except image files.")
@@ -97,11 +97,11 @@ def __post_init__(self):
             if len(subfolders) < 2:
                 raise ValueError(f"{self.valid_data} should contain at least 2 subfolders.")
 
-            # Check if each subfolder contains at least 5 image files in jpeg, png or jpg format only
+            # Check if each subfolder contains at least 2 image files in jpeg, png or jpg format only
             for subfolder in subfolders:
                 image_files = [f for f in os.listdir(subfolder) if f.endswith(ALLOWED_EXTENSIONS)]
-                if len(image_files) < 5:
-                    raise ValueError(f"{subfolder} should contain at least 5 jpeg, png or jpg files.")
+                if len(image_files) < 2:
+                    raise ValueError(f"{subfolder} should contain at least 2 jpeg, png or jpg files.")
 
                 # Check if there are no other files except image files in the subfolder
                 if len(image_files) != len(os.listdir(subfolder)):
diff --git a/src/autotrain/project.py b/src/autotrain/project.py
index 86d5933f02..c28f579012 100644
--- a/src/autotrain/project.py
+++ b/src/autotrain/project.py
@@ -13,12 +13,18 @@
 from autotrain.backends.nvcf import NVCFRunner
 from autotrain.backends.spaces import SpaceRunner
 from autotrain.dataset import (
+    AutoTrainAudioClassificationDataset,
+    AutoTrainAudioDetectionDataset,
+    AutoTrainAudioSegmentationDataset,
     AutoTrainDataset,
     AutoTrainImageClassificationDataset,
     AutoTrainImageRegressionDataset,
     AutoTrainObjectDetectionDataset,
     AutoTrainVLMDataset,
 )
+from autotrain.trainers.audio_classification.params import AudioClassificationParams
+from autotrain.trainers.audio_detection.params import AudioDetectionParams
+from autotrain.trainers.audio_segmentation.params import AudioSegmentationParams
 from autotrain.trainers.clm.params import LLMTrainingParams
 from autotrain.trainers.extractive_question_answering.params import ExtractiveQuestionAnsweringParams
 from autotrain.trainers.image_classification.params import ImageClassificationParams
@@ -440,6 +446,271 @@ def ext_qa_munge_data(params, local):
     return params
 
 
+def audio_clf_munge_data(params, local):
+    if os.path.isfile(params.data_path) and params.data_path.endswith('.zip'):
+        with open(params.data_path, 'rb') as f:
+            dset = AutoTrainAudioClassificationDataset(
+                train_data=f,
+                token=params.token,
+                project_name=params.project_name,
+                username=params.username,
+                local=local,
+            )
+            params.data_path = dset.prepare()
+            params.valid_split = "validation"
+            params.audio_column = "autotrain_audio"
+            params.target_column = "autotrain_label"
+            return params
+    
+    train_data_path = f"{params.data_path}/{params.train_split}"
+    if params.valid_split is not None:
+        valid_data_path = f"{params.data_path}/{params.valid_split}"
+    else:
+        valid_data_path = None
+    
+    if os.path.isdir(train_data_path) and os.path.exists(os.path.join(train_data_path, "metadata.jsonl")):
+        dset = AutoTrainAudioClassificationDataset(
+            train_data=train_data_path,
+            valid_data=valid_data_path,
+            token=params.token,
+            project_name=params.project_name,
+            username=params.username,
+            local=local,
+        )
+        params.data_path = dset.prepare()
+        params.valid_split = "validation"
+        params.audio_column = "autotrain_audio"
+        params.target_column = "autotrain_label"
+        return params
+    
+    if os.path.isfile(params.data_path) and params.data_path.endswith('.csv'):
+        train_data_path = params.data_path
+        valid_data_path = None
+        
+        dset = AutoTrainDataset(
+            train_data=[train_data_path],
+            valid_data=[valid_data_path] if valid_data_path is not None else None,
+            task="audio_multi_class_classification",
+            token=params.token,
+            project_name=params.project_name,
+            username=params.username,
+            column_mapping={"audio": params.audio_column, "label": params.target_column},
+            local=local,
+            convert_to_class_label=True,
+        )
+        params.data_path = dset.prepare()
+        params.valid_split = "validation"
+        params.audio_column = "autotrain_audio"
+        params.target_column = "autotrain_label"
+        return params
+    
+    exts = ["csv", "jsonl"]
+    ext_to_use = None
+    for ext in exts:
+        path = f"{params.data_path}/{params.train_split}.{ext}"
+        if os.path.exists(path):
+            ext_to_use = ext
+            break
+
+    train_data_path = f"{params.data_path}/{params.train_split}.{ext_to_use}"
+    if params.valid_split is not None:
+        valid_data_path = f"{params.data_path}/{params.valid_split}.{ext_to_use}"
+    else:
+        valid_data_path = None
+    if os.path.exists(train_data_path):
+        dset = AutoTrainDataset(
+            train_data=[train_data_path],
+            valid_data=[valid_data_path] if valid_data_path is not None else None,
+            task="audio_multi_class_classification",
+            token=params.token,
+            project_name=params.project_name,
+            username=params.username,
+            column_mapping={"audio": params.audio_column, "label": params.target_column},
+            percent_valid=None,  # TODO: add to UI
+            local=local,
+            convert_to_class_label=True,
+            ext=ext_to_use,
+        )
+        params.data_path = dset.prepare()
+        params.valid_split = "validation"
+        params.audio_column = "autotrain_audio"
+        params.target_column = "autotrain_label"
+    return params
+
+
+def audio_det_munge_data(params, local):
+    if os.path.isfile(params.data_path) and params.data_path.endswith('.zip'):
+        dset = AutoTrainAudioDetectionDataset(
+            train_data=params.data_path,
+            token=params.token,
+            project_name=params.project_name,
+            username=params.username,
+            local=local,
+        )
+        prepared_data_path = dset.prepare()
+        params.data_path = prepared_data_path
+        from datasets import load_from_disk
+        try:
+            dataset = load_from_disk(prepared_data_path)
+            if "validation" in dataset:
+                params.valid_split = "validation"
+            else:
+                params.valid_split = None
+        except:
+            params.valid_split = None
+        params.audio_column = "autotrain_audio"
+        params.events_column = "autotrain_events"
+        return params
+    
+    train_data_path = f"{params.data_path}/{params.train_split}"
+    if params.valid_split is not None:
+        valid_data_path = f"{params.data_path}/{params.valid_split}"
+    else:
+        valid_data_path = None
+    
+    if os.path.isdir(train_data_path) and os.path.exists(os.path.join(train_data_path, "metadata.jsonl")):
+        dset = AutoTrainAudioDetectionDataset(
+            train_data=train_data_path,
+            valid_data=valid_data_path,
+            token=params.token,
+            project_name=params.project_name,
+            username=params.username,
+            local=local,
+        )
+        prepared_data_path = dset.prepare()
+        params.data_path = prepared_data_path
+        # Only set validation split if validation data exists
+        from datasets import load_from_disk
+        try:
+            dataset = load_from_disk(prepared_data_path)
+            if "validation" in dataset:
+                params.valid_split = "validation"
+            else:
+                params.valid_split = None
+        except:
+            params.valid_split = None
+        params.audio_column = "autotrain_audio"
+        params.events_column = "autotrain_events"
+        return params
+    
+    exts = ["csv", "jsonl"]
+    ext_to_use = None
+    for ext in exts:
+        if os.path.exists(f"{params.data_path}/{params.train_split}.{ext}"):
+            ext_to_use = ext
+            break
+    if ext_to_use is None:
+        raise ValueError(f"train.csv or train.jsonl not found in {params.data_path}")
+    
+    train_data_path = f"{params.data_path}/{params.train_split}.{ext_to_use}"
+    if params.valid_split is not None:
+        valid_data_path = f"{params.data_path}/{params.valid_split}.{ext_to_use}"
+        if not os.path.exists(valid_data_path):
+            valid_data_path = None
+    else:
+        valid_data_path = None
+    
+    dset = AutoTrainDataset(
+        train_data=[train_data_path],
+        valid_data=[valid_data_path] if valid_data_path is not None else None,
+        task="audio_detection",
+        token=params.token,
+        project_name=params.project_name,
+        username=params.username,
+        column_mapping={"audio": params.audio_column, "events": params.events_column},
+        percent_valid=None,  # TODO: add to UI
+        local=local,
+        convert_to_class_label=False,
+        ext=ext_to_use,
+    )
+    prepared_data_path = dset.prepare()
+    params.data_path = prepared_data_path
+    # Only set validation split if validation data exists
+    from datasets import load_from_disk
+    try:
+        dataset = load_from_disk(prepared_data_path)
+        if "validation" in dataset:
+            params.valid_split = "validation"
+        else:
+            params.valid_split = None
+    except:
+        params.valid_split = None
+    params.audio_column = "autotrain_audio"
+    params.events_column = "autotrain_events"
+    return params
+
+
+def audio_seg_munge_data(params, local):
+    if os.path.isfile(params.data_path) and params.data_path.endswith('.zip'):
+        with open(params.data_path, 'rb') as f:
+            dset = AutoTrainAudioSegmentationDataset(
+                train_data=f,
+                token=params.token,
+                project_name=params.project_name,
+                username=params.username,
+                local=local,
+            )
+            params.data_path = dset.prepare()
+            params.valid_split = "validation"
+            params.audio_column = "autotrain_audio"
+            params.tags_column = "autotrain_label"
+            return params
+    
+    train_data_path = f"{params.data_path}/{params.train_split}"
+    if params.valid_split is not None:
+        valid_data_path = f"{params.data_path}/{params.valid_split}"
+    else:
+        valid_data_path = None
+    
+    if os.path.isdir(train_data_path) and os.path.exists(os.path.join(train_data_path, "metadata.jsonl")):
+        dset = AutoTrainAudioSegmentationDataset(
+            train_data=train_data_path,
+            valid_data=valid_data_path,
+            token=params.token,
+            project_name=params.project_name,
+            username=params.username,
+            local=local,
+        )
+        params.data_path = dset.prepare()
+        params.valid_split = "validation"
+        params.audio_column = "autotrain_audio"
+        params.tags_column = "autotrain_label"
+        return params
+    exts = ["csv", "jsonl"]
+    ext_to_use = None
+    for ext in exts:
+        path = f"{params.data_path}/{params.train_split}.{ext}"
+        if os.path.exists(path):
+            ext_to_use = ext
+            break
+
+    if ext_to_use:
+        train_data_path = f"{params.data_path}/{params.train_split}.{ext_to_use}"
+        if params.valid_split is not None:
+            valid_data_path = f"{params.data_path}/{params.valid_split}.{ext_to_use}"
+        else:
+            valid_data_path = None
+        if os.path.exists(train_data_path):
+            dset = AutoTrainDataset(
+                train_data=[train_data_path],
+                valid_data=[valid_data_path] if valid_data_path is not None else None,
+                task="audio_segmentation",
+                token=params.token,
+                project_name=params.project_name,
+                username=params.username,
+                column_mapping={"audio": params.audio_column, "label": params.tags_column},
+                percent_valid=None,  # TODO: add to UI
+                local=local,
+                convert_to_class_label=False,
+                ext=ext_to_use,
+            )
+            params.data_path = dset.prepare()
+            params.valid_split = "validation"
+            params.audio_column = "autotrain_audio"
+            params.tags_column = "autotrain_label"
+    return params
+
+
 @dataclass
 class AutoTrainProject:
     """
@@ -491,6 +762,9 @@ class AutoTrainProject:
     """
 
     params: Union[
+        AudioClassificationParams,
+        AudioDetectionParams,
+        AudioSegmentationParams,
         LLMTrainingParams,
         TextClassificationParams,
         TabularParams,
@@ -537,6 +811,12 @@ def _process_params_data(self):
             return token_clf_munge_data(self.params, self.local)
         elif isinstance(self.params, VLMTrainingParams):
             return vlm_munge_data(self.params, self.local)
+        elif isinstance(self.params, AudioClassificationParams):
+            return audio_clf_munge_data(self.params, self.local)
+        elif isinstance(self.params, AudioDetectionParams):
+            return audio_det_munge_data(self.params, self.local)
+        elif isinstance(self.params, AudioSegmentationParams):
+            return audio_seg_munge_data(self.params, self.local)
         else:
             raise Exception("Invalid params class")
 
diff --git a/src/autotrain/tasks.py b/src/autotrain/tasks.py
index 05c1fed942..7fa0f9d00e 100644
--- a/src/autotrain/tasks.py
+++ b/src/autotrain/tasks.py
@@ -20,6 +20,12 @@
     "image_object_detection": 29,
 }
 
+AUDIO_TASKS = {
+    "audio_binary_classification": 32,
+    "audio_multi_class_classification": 33,
+    "audio_segmentation": 34,
+}
+
 TABULAR_TASKS = {
     "tabular_binary_classification": 13,
     "tabular_multi_class_classification": 14,
@@ -32,5 +38,6 @@
 TASKS = {
     **NLP_TASKS,
     **VISION_TASKS,
+    **AUDIO_TASKS,
     **TABULAR_TASKS,
 }
diff --git a/src/autotrain/trainers/audio_classification/__init__.py b/src/autotrain/trainers/audio_classification/__init__.py
new file mode 100644
index 0000000000..39c64623e8
--- /dev/null
+++ b/src/autotrain/trainers/audio_classification/__init__.py
@@ -0,0 +1,3 @@
+from autotrain.trainers.audio_classification.params import AudioClassificationParams
+
+__all__ = ["AudioClassificationParams"]
\ No newline at end of file
diff --git a/src/autotrain/trainers/audio_classification/__main__.py b/src/autotrain/trainers/audio_classification/__main__.py
new file mode 100644
index 0000000000..6aff686c42
--- /dev/null
+++ b/src/autotrain/trainers/audio_classification/__main__.py
@@ -0,0 +1,284 @@
+import argparse
+import json
+
+import torch
+from accelerate.state import PartialState
+from datasets import load_dataset, load_from_disk
+from huggingface_hub import HfApi
+from transformers import (
+    AutoConfig,
+    AutoFeatureExtractor,
+    AutoModelForAudioClassification,
+    EarlyStoppingCallback,
+    Trainer,
+    TrainingArguments,
+)
+from transformers.trainer_callback import PrinterCallback
+
+from autotrain import logger
+from autotrain.trainers.common import (
+    ALLOW_REMOTE_CODE,
+    LossLoggingCallback,
+    TrainStartCallback,
+    UploadLogs,
+    monitor,
+    pause_space,
+    remove_autotrain_data,
+    save_training_params,
+)
+from autotrain.trainers.audio_classification import utils
+from autotrain.trainers.audio_classification.params import AudioClassificationParams
+
+
+def parse_args():
+    # get training_config.json from the end user
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--training_config", type=str, required=True)
+    return parser.parse_args()
+
+
+@monitor
+def train(config):
+    if isinstance(config, dict):
+        config = AudioClassificationParams(**config)
+
+    if torch.backends.mps.is_available() and config.mixed_precision in ["fp16", "bf16"]:
+        logger.warning(f"{config.mixed_precision} mixed precision is not supported on Apple Silicon MPS. Disabling mixed precision.")
+        config.mixed_precision = None
+
+    valid_data = None
+    if config.data_path == f"{config.project_name}/autotrain-data":
+        train_data = load_from_disk(config.data_path)[config.train_split]
+    else:
+        if ":" in config.train_split:
+            dataset_config_name, split = config.train_split.split(":")
+            train_data = load_dataset(
+                config.data_path,
+                name=dataset_config_name,
+                split=split,
+                token=config.token,
+                trust_remote_code=ALLOW_REMOTE_CODE,
+            )
+        else:
+            train_data = load_dataset(
+                config.data_path,
+                split=config.train_split,
+                token=config.token,
+                trust_remote_code=ALLOW_REMOTE_CODE,
+            )
+
+    if config.valid_split is not None:
+        if config.data_path == f"{config.project_name}/autotrain-data":
+            valid_data = load_from_disk(config.data_path)[config.valid_split]
+        else:
+            if ":" in config.valid_split:
+                dataset_config_name, split = config.valid_split.split(":")
+                valid_data = load_dataset(
+                    config.data_path,
+                    name=dataset_config_name,
+                    split=split,
+                    token=config.token,
+                    trust_remote_code=ALLOW_REMOTE_CODE,
+                )
+            else:
+                valid_data = load_dataset(
+                    config.data_path,
+                    split=config.valid_split,
+                    token=config.token,
+                    trust_remote_code=ALLOW_REMOTE_CODE,
+                )
+
+    logger.info(f"Train data: {train_data}")
+    logger.info(f"Valid data: {valid_data}")
+
+    # Get classes from the dataset
+    if hasattr(train_data.features[config.target_column], 'names'):
+        classes = train_data.features[config.target_column].names
+    else:
+        # If no class names, get unique values
+        unique_labels = train_data.unique(config.target_column)
+        classes = [f"class_{i}" for i in range(len(unique_labels))]
+    
+    logger.info(f"Classes: {classes}")
+    label2id = {c: i for i, c in enumerate(classes)}
+    id2label = {i: c for i, c in enumerate(classes)}
+    num_classes = len(classes)
+
+    if num_classes < 2:
+        raise ValueError("Invalid number of classes. Must be greater than 1.")
+
+    if config.valid_split is not None:
+        if hasattr(valid_data.features[config.target_column], 'names'):
+            num_classes_valid = len(valid_data.features[config.target_column].names)
+        else:
+            num_classes_valid = len(valid_data.unique(config.target_column))
+        
+        if num_classes_valid != num_classes:
+            raise ValueError(
+                f"Number of classes in train and valid are not the same. Training has {num_classes} and valid has {num_classes_valid}"
+            )
+
+    # Load model configuration
+    model_config = AutoConfig.from_pretrained(
+        config.model,
+        num_labels=num_classes,
+        trust_remote_code=ALLOW_REMOTE_CODE,
+        token=config.token,
+    )
+    model_config._num_labels = len(label2id)
+    model_config.label2id = label2id
+    model_config.id2label = id2label
+
+    # Load model
+    try:
+        model = AutoModelForAudioClassification.from_pretrained(
+            config.model,
+            config=model_config,
+            trust_remote_code=ALLOW_REMOTE_CODE,
+            token=config.token,
+            ignore_mismatched_sizes=True,
+        )
+    except OSError:
+        try:
+            # Try loading from tf if pytorch version fails
+            model = AutoModelForAudioClassification.from_pretrained(
+                config.model,
+                config=model_config,
+                from_tf=True,
+                trust_remote_code=ALLOW_REMOTE_CODE,
+                token=config.token,
+                ignore_mismatched_sizes=True,
+            )
+        except Exception as e:
+            logger.error(f"Failed to load model: {e}")
+            raise
+
+    # Load feature extractor
+    try:
+        feature_extractor = AutoFeatureExtractor.from_pretrained(
+            config.model,
+            token=config.token,
+            trust_remote_code=ALLOW_REMOTE_CODE,
+        )
+    except Exception as e:
+        logger.warning(f"Could not load feature extractor: {e}")
+        logger.warning("Using default feature extractor settings")
+        feature_extractor = None
+
+    # Process data
+    train_data, valid_data = utils.process_data(train_data, valid_data, feature_extractor, config)
+
+    # Set up logging
+    if config.logging_steps == -1:
+        if config.valid_split is not None:
+            logging_steps = int(0.2 * len(train_data) / config.batch_size)
+        else:
+            logging_steps = int(0.2 * len(train_data) / config.batch_size)
+        if logging_steps == 0:
+            logging_steps = 1
+        if logging_steps > 100:
+            logging_steps = 100
+        config.logging_steps = logging_steps
+    else:
+        logging_steps = config.logging_steps
+
+    logger.info(f"Logging steps: {logging_steps}")
+
+    # Training arguments
+    training_args = dict(
+        output_dir=config.project_name,
+        per_device_train_batch_size=config.batch_size,
+        per_device_eval_batch_size=2 * config.batch_size,
+        learning_rate=config.lr,
+        num_train_epochs=config.epochs,
+        eval_strategy=config.eval_strategy if config.valid_split is not None else "no",
+        logging_steps=logging_steps,
+        save_total_limit=config.save_total_limit,
+        save_strategy=config.eval_strategy if config.valid_split is not None else "no",
+        gradient_accumulation_steps=config.gradient_accumulation,
+        report_to=config.log,
+        auto_find_batch_size=config.auto_find_batch_size,
+        lr_scheduler_type=config.scheduler,
+        optim=config.optimizer,
+        warmup_ratio=config.warmup_ratio,
+        weight_decay=config.weight_decay,
+        max_grad_norm=config.max_grad_norm,
+        push_to_hub=False,
+        load_best_model_at_end=True if config.valid_split is not None else False,
+        ddp_find_unused_parameters=False,
+    )
+
+    if config.mixed_precision == "fp16":
+        training_args["fp16"] = True
+    if config.mixed_precision == "bf16":
+        training_args["bf16"] = True
+
+    # Set up callbacks
+    if config.valid_split is not None:
+        early_stop = EarlyStoppingCallback(
+            early_stopping_patience=config.early_stopping_patience,
+            early_stopping_threshold=config.early_stopping_threshold,
+        )
+        callbacks_to_use = [early_stop]
+    else:
+        callbacks_to_use = []
+
+    callbacks_to_use.extend([UploadLogs(config=config), LossLoggingCallback(), TrainStartCallback()])
+
+    args = TrainingArguments(**training_args)
+    
+    # Choose metrics function based on number of classes
+    compute_metrics = (
+        utils._binary_classification_metrics if num_classes == 2 else utils._multi_class_classification_metrics
+    )
+    
+    trainer_args = dict(
+        args=args,
+        model=model,
+        callbacks=callbacks_to_use,
+        compute_metrics=compute_metrics,
+    )
+
+    trainer = Trainer(
+        **trainer_args,
+        train_dataset=train_data,
+        eval_dataset=valid_data,
+    )
+    trainer.remove_callback(PrinterCallback)
+    trainer.train()
+
+    logger.info("Finished training, saving model...")
+    trainer.save_model(config.project_name)
+    
+    # Save feature extractor if available
+    if feature_extractor is not None:
+        feature_extractor.save_pretrained(config.project_name)
+
+    # Create and save model card
+    model_card = utils.create_model_card(config, trainer, num_classes)
+    with open(f"{config.project_name}/README.md", "w") as f:
+        f.write(model_card)
+
+    # Push to hub if requested
+    if config.push_to_hub:
+        if PartialState().process_index == 0:
+            remove_autotrain_data(config)
+            save_training_params(config)
+            logger.info("Pushing model to hub...")
+            api = HfApi(token=config.token)
+            api.create_repo(
+                repo_id=f"{config.username}/{config.project_name}", repo_type="model", private=True, exist_ok=True
+            )
+            api.upload_folder(
+                folder_path=config.project_name, repo_id=f"{config.username}/{config.project_name}", repo_type="model"
+            )
+
+    if PartialState().process_index == 0:
+        pause_space(config)
+
+
+if __name__ == "__main__":
+    _args = parse_args()
+    training_config = json.load(open(_args.training_config))
+    _config = AudioClassificationParams(**training_config)
+    train(_config) 
\ No newline at end of file
diff --git a/src/autotrain/trainers/audio_classification/dataset.py b/src/autotrain/trainers/audio_classification/dataset.py
new file mode 100644
index 0000000000..084de0d827
--- /dev/null
+++ b/src/autotrain/trainers/audio_classification/dataset.py
@@ -0,0 +1,121 @@
+import torch
+import librosa
+import numpy as np
+from typing import Dict, Any
+
+
+class AudioClassificationDataset:
+    """
+    A custom dataset class for audio classification tasks.
+
+    Args:
+        data (list): A list of data samples, where each sample is a dictionary containing audio and target information.
+        feature_extractor (callable): A feature extractor that processes audio data.
+        config (object): A configuration object containing the column names for audio and targets.
+
+    Attributes:
+        data (list): The dataset containing audio and target information.
+        feature_extractor (callable): The feature extractor to be applied to the audio.
+        config (object): The configuration object with audio and target column names.
+
+    Methods:
+        __len__(): Returns the number of samples in the dataset.
+        __getitem__(item): Retrieves the audio and target at the specified index, processes audio, and returns them as tensors.
+
+    Example:
+        dataset = AudioClassificationDataset(data, feature_extractor, config)
+        audio_features, target = dataset[0]
+    """
+
+    def __init__(self, data, feature_extractor, config):
+        self.data = data
+        self.feature_extractor = feature_extractor
+        self.config = config
+
+    def __len__(self):
+        return len(self.data)
+
+    def __getitem__(self, item) -> Dict[str, Any]:
+        """
+        Get a single item from the dataset.
+        
+        Args:
+            item (int): Index of the item to retrieve
+            
+        Returns:
+            Dict[str, Any]: Dictionary containing processed audio features and labels
+        """
+        audio_data = self.data[item][self.config.audio_column]
+        target = int(self.data[item][self.config.target_column])
+
+        # Handle different audio input formats
+        if isinstance(audio_data, dict):
+            # HuggingFace dataset format
+            if 'array' in audio_data and 'sampling_rate' in audio_data:
+                audio_array = audio_data['array']
+                sampling_rate = audio_data['sampling_rate']
+            else:
+                raise ValueError("Audio data must contain 'array' and 'sampling_rate' keys")
+        elif isinstance(audio_data, str):
+            # File path - load the audio file
+            audio_array, sampling_rate = librosa.load(
+                audio_data, 
+                sr=self.config.sampling_rate, 
+                mono=True
+            )
+        elif isinstance(audio_data, np.ndarray):
+            # Raw numpy array
+            audio_array = audio_data
+            sampling_rate = self.config.sampling_rate
+        else:
+            raise ValueError(f"Unsupported audio data format: {type(audio_data)}")
+
+        # Resample if necessary
+        if sampling_rate != self.config.sampling_rate:
+            audio_array = librosa.resample(
+                audio_array, 
+                orig_sr=sampling_rate, 
+                target_sr=self.config.sampling_rate
+            )
+
+        # Truncate or pad audio to max_length if specified
+        if self.config.max_length is not None:
+            if len(audio_array) > self.config.max_length:
+                audio_array = audio_array[:self.config.max_length]
+            elif len(audio_array) < self.config.max_length:
+                # Pad with zeros
+                padding = self.config.max_length - len(audio_array)
+                audio_array = np.pad(audio_array, (0, padding), mode='constant')
+
+        # Process with feature extractor
+        try:
+            # Most audio models expect the feature extractor to handle the audio
+            inputs = self.feature_extractor(
+                audio_array,
+                sampling_rate=self.config.sampling_rate,
+                return_tensors="pt",
+                padding=True,
+                truncation=True,
+                max_length=self.config.max_length
+            )
+            
+            # Extract the first element if batch dimension was added
+            processed_inputs = {}
+            for key, value in inputs.items():
+                if isinstance(value, torch.Tensor) and value.dim() > 1:
+                    processed_inputs[key] = value.squeeze(0)
+                else:
+                    processed_inputs[key] = value
+                    
+        except Exception as e:
+            # Fallback: create basic input structure
+            processed_inputs = {
+                "input_values": torch.tensor(audio_array, dtype=torch.float32),
+            }
+            if self.config.feature_extractor_return_attention_mask:
+                processed_inputs["attention_mask"] = torch.ones(len(audio_array), dtype=torch.long)
+
+        # Add labels
+        processed_inputs["labels"] = torch.tensor(target, dtype=torch.long)
+
+        return processed_inputs 
\ No newline at end of file
diff --git a/src/autotrain/trainers/audio_classification/params.py b/src/autotrain/trainers/audio_classification/params.py
new file mode 100644
index 0000000000..f679e92ea2
--- /dev/null
+++ b/src/autotrain/trainers/audio_classification/params.py
@@ -0,0 +1,78 @@
+from typing import Optional
+
+from pydantic import Field
+
+from autotrain.trainers.common import AutoTrainParams
+
+
+class AudioClassificationParams(AutoTrainParams):
+    """
+    AudioClassificationParams is a configuration class for audio classification training parameters.
+
+    Attributes:
+        data_path (str): Path to the dataset.
+        model (str): Pre-trained model name or path. Default is "facebook/wav2vec2-base".
+        username (Optional[str]): Hugging Face account username.
+        lr (float): Learning rate for the optimizer. Default is 3e-5.
+        epochs (int): Number of epochs for training. Default is 5.
+        batch_size (int): Batch size for training. Default is 8.
+        warmup_ratio (float): Warmup ratio for learning rate scheduler. Default is 0.1.
+        gradient_accumulation (int): Number of gradient accumulation steps. Default is 1.
+        optimizer (str): Optimizer type. Default is "adamw_torch".
+        scheduler (str): Learning rate scheduler type. Default is "linear".
+        weight_decay (float): Weight decay for the optimizer. Default is 0.01.
+        max_grad_norm (float): Maximum gradient norm for clipping. Default is 1.0.
+        seed (int): Random seed for reproducibility. Default is 42.
+        train_split (str): Name of the training data split. Default is "train".
+        valid_split (Optional[str]): Name of the validation data split.
+        logging_steps (int): Number of steps between logging. Default is -1.
+        project_name (str): Name of the project for output directory. Default is "project-name".
+        auto_find_batch_size (bool): Automatically find optimal batch size. Default is False.
+        mixed_precision (Optional[str]): Mixed precision training mode (fp16, bf16, or None).
+        save_total_limit (int): Maximum number of checkpoints to keep. Default is 1.
+        token (Optional[str]): Hugging Face Hub token for authentication.
+        push_to_hub (bool): Whether to push the model to Hugging Face Hub. Default is False.
+        eval_strategy (str): Evaluation strategy during training. Default is "epoch".
+        audio_column (str): Column name for audio files in the dataset. Default is "audio".
+        target_column (str): Column name for target labels in the dataset. Default is "target".
+        log (str): Logging method for experiment tracking. Default is "none".
+        early_stopping_patience (int): Number of epochs with no improvement for early stopping. Default is 5.
+        early_stopping_threshold (float): Threshold for early stopping. Default is 0.01.
+        max_length (Optional[int]): Maximum length of audio in samples. Default is 16000*30 (30 seconds at 16kHz).
+        sampling_rate (int): Target sampling rate for audio. Default is 16000.
+        feature_extractor_normalize (bool): Whether to normalize features. Default is True.
+        feature_extractor_return_attention_mask (bool): Whether to return attention mask. Default is True.
+    """
+
+    data_path: str = Field(None, title="Path to the dataset")
+    model: str = Field("facebook/wav2vec2-base", title="Pre-trained model name or path")
+    username: Optional[str] = Field(None, title="Hugging Face account username")
+    lr: float = Field(3e-5, title="Learning rate for the optimizer")
+    epochs: int = Field(5, title="Number of epochs for training")
+    batch_size: int = Field(8, title="Batch size for training")
+    warmup_ratio: float = Field(0.1, title="Warmup ratio for learning rate scheduler")
+    gradient_accumulation: int = Field(1, title="Number of gradient accumulation steps")
+    optimizer: str = Field("adamw_torch", title="Optimizer type")
+    scheduler: str = Field("linear", title="Learning rate scheduler type")
+    weight_decay: float = Field(0.01, title="Weight decay for the optimizer")
+    max_grad_norm: float = Field(1.0, title="Maximum gradient norm for clipping")
+    seed: int = Field(42, title="Random seed for reproducibility")
+    train_split: str = Field("train", title="Name of the training data split")
+    valid_split: Optional[str] = Field(None, title="Name of the validation data split")
+    logging_steps: int = Field(-1, title="Number of steps between logging")
+    project_name: str = Field("project-name", title="Name of the project for output directory")
+    auto_find_batch_size: bool = Field(False, title="Automatically find optimal batch size")
+    mixed_precision: Optional[str] = Field(None, title="Mixed precision training mode (fp16, bf16, or None)")
+    save_total_limit: int = Field(1, title="Maximum number of checkpoints to keep")
+    token: Optional[str] = Field(None, title="Hugging Face Hub token for authentication")
+    push_to_hub: bool = Field(False, title="Whether to push the model to Hugging Face Hub")
+    eval_strategy: str = Field("epoch", title="Evaluation strategy during training")
+    audio_column: str = Field("audio", title="Column name for audio files in the dataset")
+    target_column: str = Field("target", title="Column name for target labels in the dataset")
+    log: str = Field("none", title="Logging method for experiment tracking")
+    early_stopping_patience: int = Field(5, title="Number of epochs with no improvement for early stopping")
+    early_stopping_threshold: float = Field(0.01, title="Threshold for early stopping")
+    max_length: Optional[int] = Field(480000, title="Maximum length of audio in samples (30 seconds at 16kHz)")
+    sampling_rate: int = Field(16000, title="Target sampling rate for audio")
+    feature_extractor_normalize: bool = Field(True, title="Whether to normalize features")
+    feature_extractor_return_attention_mask: bool = Field(True, title="Whether to return attention mask") 
\ No newline at end of file
diff --git a/src/autotrain/trainers/audio_classification/utils.py b/src/autotrain/trainers/audio_classification/utils.py
new file mode 100644
index 0000000000..e08186a3c2
--- /dev/null
+++ b/src/autotrain/trainers/audio_classification/utils.py
@@ -0,0 +1,216 @@
+import os
+from typing import Any, Dict, Optional, Tuple
+
+import numpy as np
+from sklearn import metrics
+
+from autotrain.trainers.audio_classification.dataset import AudioClassificationDataset
+
+
+# Constants
+BINARY_CLASSIFICATION_EVAL_METRICS = (
+    "eval_loss",
+    "eval_accuracy",
+    "eval_f1",
+    "eval_auc",
+    "eval_precision",
+    "eval_recall",
+)
+
+MULTI_CLASS_CLASSIFICATION_EVAL_METRICS = (
+    "eval_loss",
+    "eval_accuracy",
+    "eval_f1_macro",
+    "eval_f1_micro",
+    "eval_f1_weighted",
+    "eval_precision_macro",
+    "eval_precision_micro",
+    "eval_precision_weighted",
+    "eval_recall_macro",
+    "eval_recall_micro",
+    "eval_recall_weighted",
+)
+
+MODEL_CARD = """
+---
+tags:
+- autotrain
+- transformers
+- audio-classification{base_model}
+widget:
+- src: https://huggingface.co/datasets/Narsil/asr_dummy/resolve/main/mlk.flac
+  example_title: Audio sample{dataset_tag}
+---
+
+# Model Trained Using AutoTrain
+
+- Problem type: Audio Classification
+
+## Validation Metrics
+{validation_metrics}
+
+## Usage
+
+```python
+from transformers import AutoModelForAudioClassification, AutoFeatureExtractor
+import torch
+import librosa
+
+# Load model and feature extractor
+model = AutoModelForAudioClassification.from_pretrained("YOUR_MODEL_NAME")
+feature_extractor = AutoFeatureExtractor.from_pretrained("YOUR_MODEL_NAME")
+
+# Load and preprocess audio
+audio, sr = librosa.load("path_to_audio.wav", sr=16000)
+inputs = feature_extractor(audio, sampling_rate=sr, return_tensors="pt")
+
+# Make prediction
+with torch.no_grad():
+    outputs = model(**inputs)
+    predicted_class_id = outputs.logits.argmax().item()
+    predicted_label = model.config.id2label[predicted_class_id]
+
+print(f"Predicted class: {{predicted_label}}")
+```
+"""
+
+
+def _binary_classification_metrics(pred: Tuple[np.ndarray, np.ndarray]) -> Dict[str, float]:
+    """
+    Calculate various binary classification metrics for audio classification.
+
+    Args:
+        pred: A tuple containing raw predictions and true labels.
+              - raw_predictions (numpy.ndarray): The raw prediction scores from the model.
+              - labels (numpy.ndarray): The true labels.
+
+    Returns:
+        A dictionary containing the following metrics:
+        - "f1" (float): The F1 score.
+        - "precision" (float): The precision score.
+        - "recall" (float): The recall score.
+        - "auc" (float): The Area Under the ROC Curve (AUC) score.
+        - "accuracy" (float): The accuracy score.
+    """
+    raw_predictions, labels = pred
+    predictions = np.argmax(raw_predictions, axis=1)
+    return {
+        "f1": metrics.f1_score(labels, predictions),
+        "precision": metrics.precision_score(labels, predictions),
+        "recall": metrics.recall_score(labels, predictions),
+        "auc": metrics.roc_auc_score(labels, raw_predictions[:, 1]),
+        "accuracy": metrics.accuracy_score(labels, predictions),
+    }
+
+
+def _multi_class_classification_metrics(pred: Tuple[np.ndarray, np.ndarray]) -> Dict[str, float]:
+    """
+    Calculate various multi-class classification metrics for audio classification.
+
+    Args:
+        pred: A tuple containing raw predictions and true labels.
+              - raw_predictions (numpy.ndarray): The raw prediction scores from the model.
+              - labels (numpy.ndarray): The true labels.
+
+    Returns:
+        A dictionary containing the following metrics:
+        - "f1_macro" (float): The macro F1 score.
+        - "f1_micro" (float): The micro F1 score.
+        - "f1_weighted" (float): The weighted F1 score.
+        - "precision_macro" (float): The macro precision score.
+        - "precision_micro" (float): The micro precision score.
+        - "precision_weighted" (float): The weighted precision score.
+        - "recall_macro" (float): The macro recall score.
+        - "recall_micro" (float): The micro recall score.
+        - "recall_weighted" (float): The weighted recall score.
+        - "accuracy" (float): The accuracy score.
+    """
+    raw_predictions, labels = pred
+    predictions = np.argmax(raw_predictions, axis=1)
+    return {
+        "f1_macro": metrics.f1_score(labels, predictions, average="macro"),
+        "f1_micro": metrics.f1_score(labels, predictions, average="micro"),
+        "f1_weighted": metrics.f1_score(labels, predictions, average="weighted"),
+        "precision_macro": metrics.precision_score(labels, predictions, average="macro"),
+        "precision_micro": metrics.precision_score(labels, predictions, average="micro"),
+        "precision_weighted": metrics.precision_score(labels, predictions, average="weighted"),
+        "recall_macro": metrics.recall_score(labels, predictions, average="macro"),
+        "recall_micro": metrics.recall_score(labels, predictions, average="micro"),
+        "recall_weighted": metrics.recall_score(labels, predictions, average="weighted"),
+        "accuracy": metrics.accuracy_score(labels, predictions),
+    }
+
+
+def process_data(
+    train_data: Any,
+    valid_data: Optional[Any],
+    feature_extractor: Any,
+    config: Any,
+) -> Tuple[AudioClassificationDataset, Optional[AudioClassificationDataset]]:
+    """
+    Process training and validation data for audio classification.
+
+    Args:
+        train_data: The training dataset.
+        valid_data: The validation dataset. Can be None if no validation data is provided.
+        feature_extractor: An audio feature extractor.
+        config: Configuration dictionary containing additional parameters for dataset processing.
+
+    Returns:
+        A tuple containing the processed training dataset and the processed validation dataset 
+        (or None if no validation data is provided).
+    """
+    train_data = AudioClassificationDataset(train_data, feature_extractor, config)
+    if valid_data is not None:
+        valid_data = AudioClassificationDataset(valid_data, feature_extractor, config)
+        return train_data, valid_data
+    return train_data, None
+
+
+def create_model_card(config: Any, trainer: Any, num_classes: int) -> str:
+    """
+    Generate a model card for the given audio classification configuration and trainer.
+
+    Args:
+        config: Configuration object containing various settings.
+        trainer: Trainer object used for model training and evaluation.
+        num_classes: Number of classes in the classification task.
+
+    Returns:
+        A formatted string representing the model card.
+
+    The function evaluates the model if a validation split is provided in the config.
+    It then formats the evaluation scores based on whether the task is binary or multi-class classification.
+    If no validation split is provided, it notes that no validation metrics are available.
+
+    The function also checks the data path and model path in the config to determine if they are directories.
+    Based on these checks, it formats the dataset tag and base model information accordingly.
+
+    Finally, it uses the formatted information to create and return the model card string.
+    """
+    if config.valid_split is not None:
+        eval_scores = trainer.evaluate()
+        valid_metrics = (
+            BINARY_CLASSIFICATION_EVAL_METRICS if num_classes == 2 else MULTI_CLASS_CLASSIFICATION_EVAL_METRICS
+        )
+        eval_scores = [f"{k[len('eval_'):]}: {v}" for k, v in eval_scores.items() if k in valid_metrics]
+        eval_scores = "\n\n".join(eval_scores)
+    else:
+        eval_scores = "No validation metrics available"
+
+    if config.data_path == f"{config.project_name}/autotrain-data" or os.path.isdir(config.data_path):
+        dataset_tag = ""
+    else:
+        dataset_tag = f"\ndatasets:\n- {config.data_path}"
+
+    if os.path.isdir(config.model):
+        base_model = ""
+    else:
+        base_model = f"\nbase_model: {config.model}"
+
+    model_card = MODEL_CARD.format(
+        dataset_tag=dataset_tag,
+        validation_metrics=eval_scores,
+        base_model=base_model,
+    )
+    return model_card 
\ No newline at end of file
diff --git a/src/autotrain/trainers/audio_detection/__init__.py b/src/autotrain/trainers/audio_detection/__init__.py
new file mode 100644
index 0000000000..6839043939
--- /dev/null
+++ b/src/autotrain/trainers/audio_detection/__init__.py
@@ -0,0 +1,3 @@
+from autotrain.trainers.audio_detection.params import AudioDetectionParams
+
+__all__ = ["AudioDetectionParams"]
\ No newline at end of file
diff --git a/src/autotrain/trainers/audio_detection/__main__.py b/src/autotrain/trainers/audio_detection/__main__.py
new file mode 100644
index 0000000000..a27db55b1b
--- /dev/null
+++ b/src/autotrain/trainers/audio_detection/__main__.py
@@ -0,0 +1,276 @@
+import argparse
+import json
+
+import torch
+from accelerate.state import PartialState
+from datasets import load_dataset, load_from_disk
+from huggingface_hub import HfApi
+from transformers import (
+    AutoConfig,
+    AutoFeatureExtractor,
+    AutoModelForAudioClassification,
+    EarlyStoppingCallback,
+    Trainer,
+    TrainingArguments,
+)
+from transformers.trainer_callback import PrinterCallback
+
+from autotrain import logger
+from autotrain.trainers.common import (
+    ALLOW_REMOTE_CODE,
+    LossLoggingCallback,
+    TrainStartCallback,
+    UploadLogs,
+    monitor,
+    pause_space,
+    remove_autotrain_data,
+    save_training_params,
+)
+from autotrain.trainers.audio_detection import utils
+from autotrain.trainers.audio_detection.params import AudioDetectionParams
+
+
+def parse_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--training_config", type=str, required=True)
+    return parser.parse_args()
+
+
+@monitor
+def train(config):
+    if isinstance(config, dict):
+        config = AudioDetectionParams(**config)
+
+    if torch.backends.mps.is_available() and config.mixed_precision in ["fp16", "bf16"]:
+        logger.warning(f"{config.mixed_precision} mixed precision is not supported on Apple Silicon MPS. Disabling mixed precision.")
+        config.mixed_precision = None
+
+    valid_data = None
+    if config.data_path == f"{config.project_name}/autotrain-data":
+        train_data = load_from_disk(config.data_path)[config.train_split]
+    else:
+        if ":" in config.train_split:
+            dataset_config_name, split = config.train_split.split(":")
+            train_data = load_dataset(
+                config.data_path,
+                name=dataset_config_name,
+                split=split,
+                token=config.token,
+                trust_remote_code=ALLOW_REMOTE_CODE,
+            )
+        else:
+            train_data = load_dataset(
+                config.data_path,
+                split=config.train_split,
+                token=config.token,
+                trust_remote_code=ALLOW_REMOTE_CODE,
+            )
+
+    if config.valid_split is not None:
+        if config.data_path == f"{config.project_name}/autotrain-data":
+            valid_data = load_from_disk(config.data_path)[config.valid_split]
+        else:
+            if ":" in config.valid_split:
+                dataset_config_name, split = config.valid_split.split(":")
+                valid_data = load_dataset(
+                    config.data_path,
+                    name=dataset_config_name,
+                    split=split,
+                    token=config.token,
+                    trust_remote_code=ALLOW_REMOTE_CODE,
+                )
+            else:
+                valid_data = load_dataset(
+                    config.data_path,
+                    split=config.valid_split,
+                    token=config.token,
+                    trust_remote_code=ALLOW_REMOTE_CODE,
+                )
+
+    logger.info(f"Train data: {train_data}")
+    logger.info(f"Valid data: {valid_data}")
+
+    all_labels = set()
+    for example in train_data:
+        events_data = example[config.events_column]
+        if isinstance(events_data, str):
+            events = json.loads(events_data)
+        else:
+            events = events_data
+        
+        for event in events:
+            if 'label' in event:
+                all_labels.add(event['label'])
+    
+    classes = sorted(list(all_labels))
+    logger.info(f"Classes: {classes}")
+    label2id = {c: i for i, c in enumerate(classes)}
+    num_classes = len(classes)
+
+    if num_classes < 1:
+        raise ValueError("No event labels found in the dataset.")
+    
+# Store label mapping for dataset processing
+    id2label = {v: k for k, v in label2id.items()}
+
+    if config.valid_split is not None and valid_data is not None:
+        valid_all_labels = set()
+        for example in valid_data:
+            events_data = example[config.events_column]
+            if isinstance(events_data, str):
+                events = json.loads(events_data)
+            else:
+                events = events_data
+            
+            for event in events:
+                if 'label' in event:
+                    valid_all_labels.add(event['label'])
+        
+        valid_classes = sorted(list(valid_all_labels))
+        if len(valid_classes) != num_classes or valid_classes != classes:
+            logger.warning(
+                f"Number of classes in train and valid are not the same. Training has {classes} and valid has {valid_classes}. "
+                f"Skipping validation to continue training."
+            )
+            valid_data = None
+            config.valid_split = None
+
+    model_config = AutoConfig.from_pretrained(
+        config.model,
+        num_labels=num_classes,
+        trust_remote_code=ALLOW_REMOTE_CODE,
+        token=config.token,
+    )
+    model_config._num_labels = len(label2id)
+    model_config.label2id = label2id
+    model_config.id2label = {v: k for k, v in label2id.items()}
+
+    try:
+        model = AutoModelForAudioClassification.from_pretrained(
+            config.model,
+            config=model_config,
+            trust_remote_code=ALLOW_REMOTE_CODE,
+            token=config.token,
+            ignore_mismatched_sizes=True,
+        )
+    except OSError:
+        model = AutoModelForAudioClassification.from_pretrained(
+            config.model,
+            config=model_config,
+            from_tf=True,
+            trust_remote_code=ALLOW_REMOTE_CODE,
+            token=config.token,
+            ignore_mismatched_sizes=True,
+        )
+
+    feature_extractor = AutoFeatureExtractor.from_pretrained(
+        config.model,
+        token=config.token,
+        trust_remote_code=ALLOW_REMOTE_CODE,
+    )
+    train_data, valid_data = utils.process_data(train_data, valid_data, feature_extractor, config, label2id)
+
+    if config.logging_steps == -1:
+        if config.valid_split is not None:
+            logging_steps = int(0.2 * len(valid_data) / config.batch_size)
+        else:
+            logging_steps = int(0.2 * len(train_data) / config.batch_size)
+        if logging_steps == 0:
+            logging_steps = 1
+        if logging_steps > 25:
+            logging_steps = 25
+        config.logging_steps = logging_steps
+    else:
+        logging_steps = config.logging_steps
+
+    logger.info(f"Logging steps: {logging_steps}")
+
+    training_args = dict(
+        output_dir=config.project_name,
+        per_device_train_batch_size=config.batch_size,
+        per_device_eval_batch_size=2 * config.batch_size,
+        learning_rate=config.lr,
+        num_train_epochs=config.epochs,
+        eval_strategy=config.eval_strategy if config.valid_split is not None else "no",
+        logging_steps=logging_steps,
+        save_total_limit=config.save_total_limit,
+        save_strategy=config.eval_strategy if config.valid_split is not None else "no",
+        gradient_accumulation_steps=config.gradient_accumulation,
+        report_to=config.log,
+        auto_find_batch_size=config.auto_find_batch_size,
+        lr_scheduler_type=config.scheduler,
+        optim=config.optimizer,
+        warmup_ratio=config.warmup_ratio,
+        weight_decay=config.weight_decay,
+        max_grad_norm=config.max_grad_norm,
+        push_to_hub=False,
+        load_best_model_at_end=True if config.valid_split is not None else False,
+        ddp_find_unused_parameters=False,
+    )
+
+    if config.mixed_precision == "fp16":
+        training_args["fp16"] = True
+    if config.mixed_precision == "bf16":
+        training_args["bf16"] = True
+
+    if config.valid_split is not None:
+        early_stop = EarlyStoppingCallback(
+            early_stopping_patience=config.early_stopping_patience,
+            early_stopping_threshold=config.early_stopping_threshold,
+        )
+        callbacks_to_use = [early_stop]
+    else:
+        callbacks_to_use = []
+
+    callbacks_to_use.extend([UploadLogs(config=config), LossLoggingCallback(), TrainStartCallback()])
+
+    args = TrainingArguments(**training_args)
+    trainer_args = dict(
+        args=args,
+        model=model,
+        callbacks=callbacks_to_use,
+        compute_metrics=(
+            utils._binary_classification_metrics if num_classes == 2 else utils._multi_class_classification_metrics
+        ),
+    )
+
+    trainer = Trainer(
+        **trainer_args,
+        train_dataset=train_data,
+        eval_dataset=valid_data,
+    )
+    trainer.remove_callback(PrinterCallback)
+    trainer.train()
+
+    logger.info("Finished training, saving model...")
+    trainer.save_model(config.project_name)
+    feature_extractor.save_pretrained(config.project_name)
+
+    model_card = utils.create_model_card(config, trainer, num_classes)
+
+    # save model card to output directory as README.md
+    with open(f"{config.project_name}/README.md", "w") as f:
+        f.write(model_card)
+
+    if config.push_to_hub:
+        if PartialState().process_index == 0:
+            remove_autotrain_data(config)
+            save_training_params(config)
+            logger.info("Pushing model to hub...")
+            api = HfApi(token=config.token)
+            api.create_repo(
+                repo_id=f"{config.username}/{config.project_name}", repo_type="model", private=True, exist_ok=True
+            )
+            api.upload_folder(
+                folder_path=config.project_name, repo_id=f"{config.username}/{config.project_name}", repo_type="model"
+            )
+
+    if PartialState().process_index == 0:
+        pause_space(config)
+
+
+if __name__ == "__main__":
+    _args = parse_args()
+    training_config = json.load(open(_args.training_config))
+    _config = AudioDetectionParams(**training_config)
+    train(_config)
diff --git a/src/autotrain/trainers/audio_detection/dataset.py b/src/autotrain/trainers/audio_detection/dataset.py
new file mode 100644
index 0000000000..094905ab85
--- /dev/null
+++ b/src/autotrain/trainers/audio_detection/dataset.py
@@ -0,0 +1,131 @@
+import json
+import librosa
+import numpy as np
+import torch
+
+
+class AudioDetectionDataset:
+    """
+    A dataset class for audio detection tasks.
+    
+    Similar to object detection in images, but for temporal events in audio.
+    Each audio file can contain multiple events with start/end times and labels.
+
+    Args:
+        data (list): A list of data entries where each entry is a dictionary containing audio and events information.
+        feature_extractor (callable): Audio feature extractor for preprocessing.
+        config (object): A configuration object containing column names and audio parameters.
+
+    Attributes:
+        data (list): The dataset containing audio and events information.
+        feature_extractor (callable): The feature extractor for audio preprocessing.
+        config (object): The configuration object with column names and parameters.
+
+    Methods:
+        __len__(): Returns the number of items in the dataset.
+        __getitem__(item): Retrieves and processes the audio and events for the given index.
+
+    Expected data format:
+        audio_column: path to audio file or audio array
+        events_column: list of events with format:
+            [{"start": 4.23, "end": 4.27, "label": "car_crash"}, ...]
+    """
+
+    def __init__(self, data, feature_extractor, config, label2id=None):
+        self.data = data
+        self.feature_extractor = feature_extractor
+        self.config = config
+        self.label2id = label2id
+
+    def __len__(self):
+        return len(self.data)
+
+    def __getitem__(self, item):
+        audio_data = self.data[item][self.config.audio_column]
+        events_data = self.data[item][self.config.events_column]
+        
+        if isinstance(audio_data, str):
+            audio_array, sr = librosa.load(audio_data, sr=self.config.sampling_rate, mono=True)
+        elif isinstance(audio_data, dict) and 'array' in audio_data:
+            audio_array = audio_data['array']
+            sr = audio_data.get('sampling_rate', self.config.sampling_rate)
+        elif isinstance(audio_data, np.ndarray):
+            audio_array = audio_data
+            sr = self.config.sampling_rate
+        else:
+            raise ValueError(f"Unsupported audio data format: {type(audio_data)}")
+            
+        if sr != self.config.sampling_rate:
+            audio_array = librosa.resample(audio_array, orig_sr=sr, target_sr=self.config.sampling_rate)
+            
+        audio_duration = len(audio_array) / self.config.sampling_rate
+        
+        if isinstance(events_data, str):
+            events = json.loads(events_data)
+        elif isinstance(events_data, list):
+            events = events_data
+        else:
+            raise ValueError(f"Unsupported events format: {type(events_data)}")
+            
+        if len(audio_array) > self.config.max_length:
+            audio_array = audio_array[:self.config.max_length]
+            audio_duration = self.config.max_length / self.config.sampling_rate
+        elif len(audio_array) < self.config.max_length:
+            padding = self.config.max_length - len(audio_array)
+            audio_array = np.pad(audio_array, (0, padding), mode='constant', constant_values=0)
+            
+        if self.feature_extractor is not None:
+            inputs = self.feature_extractor(
+                audio_array,
+                sampling_rate=self.config.sampling_rate,
+                return_tensors="pt",
+                padding=True,
+                truncation=True,
+                max_length=self.config.max_length
+            )
+            audio_values = inputs.input_values.squeeze(0)
+            attention_mask = getattr(inputs, 'attention_mask', None)
+            if attention_mask is not None:
+                attention_mask = attention_mask.squeeze(0)
+        else:
+            audio_values = torch.tensor(audio_array, dtype=torch.float32)
+            attention_mask = torch.ones(len(audio_array), dtype=torch.long)
+            
+        label_counts = {}
+        valid_events = []
+        
+        for event in events:
+            start_time = float(event['start'])
+            end_time = float(event['end'])
+            label = event['label']
+            
+            if start_time < audio_duration and end_time <= audio_duration and start_time < end_time:
+                valid_events.append(event)
+                duration = end_time - start_time
+                if label in label_counts:
+                    label_counts[label] += duration
+                else:
+                    label_counts[label] = duration
+        
+        if label_counts:
+            primary_label = max(label_counts.keys(), key=lambda k: label_counts[k])
+        else:
+            primary_label = events[0]['label'] if events else 'unknown'
+        
+        if self.label2id and primary_label in self.label2id:
+            label_id = self.label2id[primary_label]
+        else:
+            label_id = 0
+                
+        result = {
+            "input_values": audio_values,
+            "labels": torch.tensor(label_id, dtype=torch.long),
+            "audio_id": str(item),
+            "audio_duration": audio_duration,
+            "events": valid_events 
+        }
+        
+        if attention_mask is not None:
+            result["attention_mask"] = attention_mask
+            
+        return result 
\ No newline at end of file
diff --git a/src/autotrain/trainers/audio_detection/params.py b/src/autotrain/trainers/audio_detection/params.py
new file mode 100644
index 0000000000..28a43992a2
--- /dev/null
+++ b/src/autotrain/trainers/audio_detection/params.py
@@ -0,0 +1,88 @@
+from typing import Optional
+
+from pydantic import Field
+
+from autotrain.trainers.common import AutoTrainParams
+
+
+class AudioDetectionParams(AutoTrainParams):
+    """
+    AudioDetectionParams is a configuration class for audio detection training parameters.
+    
+    Audio detection identifies specific events in audio and their precise timing (onset/offset).
+    Similar to object detection in images, but for temporal events in audio.
+
+    Attributes:
+        data_path (str): Path to the dataset.
+        model (str): Name of the model to be used. Default is "facebook/wav2vec2-base".
+        username (Optional[str]): Hugging Face Username.
+        lr (float): Learning rate. Default is 3e-5.
+        epochs (int): Number of training epochs. Default is 5.
+        batch_size (int): Training batch size. Default is 8.
+        warmup_ratio (float): Warmup proportion. Default is 0.1.
+        gradient_accumulation (int): Gradient accumulation steps. Default is 1.
+        optimizer (str): Optimizer to be used. Default is "adamw_torch".
+        scheduler (str): Scheduler to be used. Default is "linear".
+        weight_decay (float): Weight decay. Default is 0.01.
+        max_grad_norm (float): Max gradient norm. Default is 1.0.
+        seed (int): Random seed. Default is 42.
+        train_split (str): Name of the training data split. Default is "train".
+        valid_split (Optional[str]): Name of the validation data split.
+        logging_steps (int): Number of steps between logging. Default is -1.
+        project_name (str): Name of the project for output directory. Default is "project-name".
+        auto_find_batch_size (bool): Whether to automatically find batch size. Default is False.
+        mixed_precision (Optional[str]): Mixed precision type (fp16, bf16, or None).
+        save_total_limit (int): Total number of checkpoints to save. Default is 1.
+        token (Optional[str]): Hub Token for authentication.
+        push_to_hub (bool): Whether to push the model to the Hugging Face Hub. Default is False.
+        eval_strategy (str): Evaluation strategy. Default is "epoch".
+        audio_column (str): Name of the audio column in the dataset. Default is "audio".
+        events_column (str): Name of the events column in the dataset. Default is "events".
+        log (str): Logging method for experiment tracking. Default is "none".
+        max_length (int): Maximum audio length in samples. Default is 480000 (30 seconds at 16kHz).
+        sampling_rate (int): Target sampling rate for audio. Default is 16000.
+        early_stopping_patience (int): Number of epochs with no improvement after which training will be stopped. Default is 5.
+        early_stopping_threshold (float): Minimum change to qualify as an improvement. Default is 0.01.
+        event_overlap_threshold (float): IoU threshold for considering two events as overlapping. Default is 0.5.
+        confidence_threshold (float): Minimum confidence threshold for event detection. Default is 0.1.
+    """
+
+    data_path: str = Field(None, title="Data path")
+    model: str = Field("facebook/wav2vec2-base", title="Model name")
+    username: Optional[str] = Field(None, title="Hugging Face Username")
+    lr: float = Field(3e-5, title="Learning rate")
+    epochs: int = Field(3, title="Number of training epochs")
+    batch_size: int = Field(8, title="Training batch size")
+    warmup_ratio: float = Field(0.1, title="Warmup proportion")
+    gradient_accumulation: int = Field(1, title="Gradient accumulation steps")
+    optimizer: str = Field("adamw_torch", title="Optimizer")
+    scheduler: str = Field("linear", title="Scheduler")
+    weight_decay: float = Field(0.01, title="Weight decay")
+    max_grad_norm: float = Field(1.0, title="Max gradient norm")
+    seed: int = Field(42, title="Seed")
+    train_split: str = Field("train", title="Train split")
+    valid_split: Optional[str] = Field(None, title="Validation split")
+    logging_steps: int = Field(-1, title="Logging steps")
+    project_name: str = Field("project-name", title="Output directory")
+    auto_find_batch_size: bool = Field(False, title="Auto find batch size")
+    mixed_precision: Optional[str] = Field(None, title="fp16, bf16, or None")
+    save_total_limit: int = Field(1, title="Save total limit")
+    token: Optional[str] = Field(None, title="Hub Token")
+    push_to_hub: bool = Field(False, title="Push to hub")
+    eval_strategy: str = Field("epoch", title="Evaluation strategy")
+    audio_column: str = Field("audio", title="Audio column")
+    events_column: str = Field("events", title="Events column")
+    log: str = Field("none", title="Logging using experiment tracking")
+    max_length: int = Field(480000, title="Maximum audio length in samples (30 seconds at 16kHz)")
+    sampling_rate: int = Field(16000, title="Target sampling rate for audio")
+    early_stopping_patience: int = Field(5, title="Early stopping patience")
+    early_stopping_threshold: float = Field(0.01, title="Early stopping threshold")
+    event_overlap_threshold: float = Field(0.5, title="IoU threshold for overlapping events")
+    confidence_threshold: float = Field(0.1, title="Minimum confidence threshold for event detection")
+
+    def __post_init__(self):
+        """Post-initialization validation."""
+        if self.max_length <= 0:
+            raise ValueError("max_length must be positive")
+        if self.sampling_rate <= 0:
+            raise ValueError("sampling_rate must be positive") 
\ No newline at end of file
diff --git a/src/autotrain/trainers/audio_detection/utils.py b/src/autotrain/trainers/audio_detection/utils.py
new file mode 100644
index 0000000000..4ded1b839e
--- /dev/null
+++ b/src/autotrain/trainers/audio_detection/utils.py
@@ -0,0 +1,209 @@
+import os
+import numpy as np
+from sklearn import metrics
+from autotrain.trainers.audio_detection.dataset import AudioDetectionDataset
+
+
+BINARY_CLASSIFICATION_EVAL_METRICS = (
+    "eval_loss",
+    "eval_accuracy",
+    "eval_f1",
+    "eval_auc",
+    "eval_precision",
+    "eval_recall",
+)
+
+MULTI_CLASS_CLASSIFICATION_EVAL_METRICS = (
+    "eval_loss",
+    "eval_accuracy",
+    "eval_f1_macro",
+    "eval_f1_micro",
+    "eval_f1_weighted",
+    "eval_precision_macro",
+    "eval_precision_micro",
+    "eval_precision_weighted",
+    "eval_recall_macro",
+    "eval_recall_micro",
+    "eval_recall_weighted",
+)
+
+MODEL_CARD = """
+---
+tags:
+- autotrain
+- transformers
+- audio-detection{base_model}
+widget:
+- src: https://huggingface.co/datasets/Narsil/asr_dummy/resolve/main/mlk.flac
+  example_title: Audio sample{dataset_tag}
+---
+
+# Model Trained Using AutoTrain
+
+- Problem type: Audio Detection
+
+## Validation Metrics
+{validation_metrics}
+
+## Usage
+
+```python
+from transformers import AutoModelForAudioClassification, AutoFeatureExtractor
+import torch
+import librosa
+
+# Load model and feature extractor
+model = AutoModelForAudioClassification.from_pretrained("YOUR_MODEL_NAME")
+feature_extractor = AutoFeatureExtractor.from_pretrained("YOUR_MODEL_NAME")
+
+# Load and preprocess audio
+audio, sr = librosa.load("path_to_audio.wav", sr=16000)
+inputs = feature_extractor(audio, sampling_rate=sr, return_tensors="pt")
+
+# Make prediction
+with torch.no_grad():
+    outputs = model(**inputs)
+    predicted_class_id = outputs.logits.argmax().item()
+    predicted_label = model.config.id2label[predicted_class_id]
+
+print(f"Predicted class: {{predicted_label}}")
+```
+"""
+
+
+def _binary_classification_metrics(pred):
+    """
+    Calculate various binary classification metrics for audio detection.
+
+    Args:
+        pred (tuple): A tuple containing raw predictions and true labels.
+                      - raw_predictions (numpy.ndarray): The raw prediction scores from the model.
+                      - labels (numpy.ndarray): The true labels.
+
+    Returns:
+        dict: A dictionary containing the following metrics:
+              - "f1" (float): The F1 score.
+              - "precision" (float): The precision score.
+              - "recall" (float): The recall score.
+              - "auc" (float): The Area Under the ROC Curve (AUC) score.
+              - "accuracy" (float): The accuracy score.
+    """
+    raw_predictions, labels = pred
+    predictions = np.argmax(raw_predictions, axis=1)
+    result = {
+        "f1": metrics.f1_score(labels, predictions),
+        "precision": metrics.precision_score(labels, predictions),
+        "recall": metrics.recall_score(labels, predictions),
+        "auc": metrics.roc_auc_score(labels, raw_predictions[:, 1]),
+        "accuracy": metrics.accuracy_score(labels, predictions),
+    }
+    return result
+
+
+def _multi_class_classification_metrics(pred):
+    """
+    Calculate various multi-class classification metrics for audio detection.
+
+    Args:
+        pred (tuple): A tuple containing raw predictions and true labels.
+                      - raw_predictions (numpy.ndarray): The raw prediction scores from the model.
+                      - labels (numpy.ndarray): The true labels.
+
+    Returns:
+        dict: A dictionary containing the following metrics:
+              - "f1_macro" (float): The macro F1 score.
+              - "f1_micro" (float): The micro F1 score.
+              - "f1_weighted" (float): The weighted F1 score.
+              - "precision_macro" (float): The macro precision score.
+              - "precision_micro" (float): The micro precision score.
+              - "precision_weighted" (float): The weighted precision score.
+              - "recall_macro" (float): The macro recall score.
+              - "recall_micro" (float): The micro recall score.
+              - "recall_weighted" (float): The weighted recall score.
+              - "accuracy" (float): The accuracy score.
+    """
+    raw_predictions, labels = pred
+    predictions = np.argmax(raw_predictions, axis=1)
+    result = {
+        "f1_macro": metrics.f1_score(labels, predictions, average="macro"),
+        "f1_micro": metrics.f1_score(labels, predictions, average="micro"),
+        "f1_weighted": metrics.f1_score(labels, predictions, average="weighted"),
+        "precision_macro": metrics.precision_score(labels, predictions, average="macro"),
+        "precision_micro": metrics.precision_score(labels, predictions, average="micro"),
+        "precision_weighted": metrics.precision_score(labels, predictions, average="weighted"),
+        "recall_macro": metrics.recall_score(labels, predictions, average="macro"),
+        "recall_micro": metrics.recall_score(labels, predictions, average="micro"),
+        "recall_weighted": metrics.recall_score(labels, predictions, average="weighted"),
+        "accuracy": metrics.accuracy_score(labels, predictions),
+    }
+    return result
+
+
+def process_data(train_data, valid_data, feature_extractor, config, label2id=None):
+    """
+    Processes training and validation data for audio detection.
+
+    Args:
+        train_data (Dataset): The training dataset.
+        valid_data (Dataset or None): The validation dataset. Can be None if no validation data is provided.
+        feature_extractor (FeatureExtractor): An audio feature extractor.
+        config (dict): Configuration dictionary containing additional parameters for dataset processing.
+        label2id (dict): Label to ID mapping dictionary.
+
+    Returns:
+        tuple: A tuple containing the processed training dataset and the processed validation dataset (or None if no validation data is provided).
+    """
+    train_data = AudioDetectionDataset(train_data, feature_extractor, config, label2id)
+    if valid_data is not None:
+        valid_data = AudioDetectionDataset(valid_data, feature_extractor, config, label2id)
+        return train_data, valid_data
+    return train_data, None
+
+
+def create_model_card(config, trainer, num_classes):
+    """
+    Generates a model card for the given audio detection configuration and trainer.
+
+    Args:
+        config (object): Configuration object containing various settings.
+        trainer (object): Trainer object used for model training and evaluation.
+        num_classes (int): Number of classes in the classification task.
+
+    Returns:
+        str: A formatted string representing the model card.
+
+    The function evaluates the model if a validation split is provided in the config.
+    It then formats the evaluation scores based on whether the task is binary or multi-class classification.
+    If no validation split is provided, it notes that no validation metrics are available.
+
+    The function also checks the data path and model path in the config to determine if they are directories.
+    Based on these checks, it formats the dataset tag and base model information accordingly.
+
+    Finally, it uses the formatted information to create and return the model card string.
+    """
+    if config.valid_split is not None:
+        eval_scores = trainer.evaluate()
+        valid_metrics = (
+            BINARY_CLASSIFICATION_EVAL_METRICS if num_classes == 2 else MULTI_CLASS_CLASSIFICATION_EVAL_METRICS
+        )
+        eval_scores = [f"{k[len('eval_'):]}: {v}" for k, v in eval_scores.items() if k in valid_metrics]
+        eval_scores = "\n\n".join(eval_scores)
+    else:
+        eval_scores = "No validation metrics available"
+
+    if config.data_path == f"{config.project_name}/autotrain-data" or os.path.isdir(config.data_path):
+        dataset_tag = ""
+    else:
+        dataset_tag = f"\ndatasets:\n- {config.data_path}"
+
+    if os.path.isdir(config.model):
+        base_model = ""
+    else:
+        base_model = f"\nbase_model: {config.model}"
+
+    model_card = MODEL_CARD.format(
+        dataset_tag=dataset_tag,
+        validation_metrics=eval_scores,
+        base_model=base_model,
+    )
+    return model_card 
\ No newline at end of file
diff --git a/src/autotrain/trainers/audio_segmentation/__init__.py b/src/autotrain/trainers/audio_segmentation/__init__.py
new file mode 100644
index 0000000000..ff8c984997
--- /dev/null
+++ b/src/autotrain/trainers/audio_segmentation/__init__.py
@@ -0,0 +1,3 @@
+from autotrain.trainers.audio_segmentation.params import AudioSegmentationParams
+
+__all__ = ["AudioSegmentationParams"]
\ No newline at end of file
diff --git a/src/autotrain/trainers/audio_segmentation/__main__.py b/src/autotrain/trainers/audio_segmentation/__main__.py
new file mode 100644
index 0000000000..c521fb6c33
--- /dev/null
+++ b/src/autotrain/trainers/audio_segmentation/__main__.py
@@ -0,0 +1,385 @@
+import argparse
+import json
+import os
+from functools import partial
+
+import torch
+import torch.nn as nn
+from accelerate.state import PartialState
+from datasets import load_dataset, load_from_disk
+from huggingface_hub import HfApi
+from transformers import (
+    AutoConfig,
+    AutoFeatureExtractor,
+    AutoModel,
+    EarlyStoppingCallback,
+    PreTrainedModel,
+    PretrainedConfig,
+    Trainer,
+    TrainingArguments,
+)
+from transformers.modeling_outputs import SequenceClassifierOutput
+from transformers.trainer_callback import PrinterCallback
+
+from autotrain import logger
+from autotrain.trainers.common import (
+    ALLOW_REMOTE_CODE,
+    LossLoggingCallback,
+    TrainStartCallback,
+    UploadLogs,
+    monitor,
+    pause_space,
+    remove_autotrain_data,
+    save_training_params,
+)
+from autotrain.trainers.audio_segmentation import utils
+from autotrain.trainers.audio_segmentation.dataset import AudioSegmentationDataset
+from autotrain.trainers.audio_segmentation.params import AudioSegmentationParams
+
+
+class AudioSegmentationConfig(PretrainedConfig):
+    """
+    Configuration for Audio Segmentation models.
+    Similar to how image_classification handles custom configs.
+    """
+    model_type = "audio_segmentation"
+    
+    def __init__(
+        self,
+        backbone_model_name: str = "facebook/wav2vec2-base",
+        num_labels: int = 2,
+        hidden_dropout: float = 0.1,
+        final_dropout: float = 0.1,
+        **kwargs
+    ):
+        super().__init__(**kwargs)
+        self.backbone_model_name = backbone_model_name
+        self.num_labels = num_labels
+        self.hidden_dropout = hidden_dropout
+        self.final_dropout = final_dropout
+
+
+class AudioSegmentationModel(PreTrainedModel):
+    """
+    Generic Audio Segmentation Model for frame-level predictions.
+    Similar structure to image_classification but for audio frames.
+    """
+    config_class = AudioSegmentationConfig
+    
+    def __init__(self, config):
+        super().__init__(config)
+        self.num_labels = config.num_labels
+
+        backbone_config = AutoConfig.from_pretrained(
+            config.backbone_model_name,
+            trust_remote_code=ALLOW_REMOTE_CODE
+        )
+        
+        self.backbone = AutoModel.from_pretrained(
+            config.backbone_model_name,
+            config=backbone_config,
+            trust_remote_code=ALLOW_REMOTE_CODE
+        )
+        
+        if hasattr(backbone_config, 'hidden_size'):
+            hidden_size = backbone_config.hidden_size
+        elif hasattr(backbone_config, 'd_model'):
+            hidden_size = backbone_config.d_model
+        else:
+            hidden_size = 768 
+            
+        self.dropout = nn.Dropout(config.final_dropout)
+        self.classifier = nn.Linear(hidden_size, config.num_labels)
+        
+        self.post_init()
+        
+    def forward(
+        self,
+        input_values=None,
+        attention_mask=None,
+        labels=None,
+        **kwargs
+    ):
+        outputs = self.backbone(
+            input_values,
+            attention_mask=attention_mask,
+            **kwargs
+        )
+        
+        if hasattr(outputs, 'last_hidden_state'):
+            sequence_output = outputs.last_hidden_state
+        else:
+            sequence_output = outputs[0]
+            
+        sequence_output = self.dropout(sequence_output)
+        logits = self.classifier(sequence_output)
+        
+        loss = None
+        if labels is not None:
+            loss_fct = nn.CrossEntropyLoss(ignore_index=-100)
+
+            seq_len = min(logits.size(1), labels.size(1))
+            active_logits = logits[:, :seq_len, :].contiguous().view(-1, self.num_labels)
+            active_labels = labels[:, :seq_len].contiguous().view(-1)
+            
+            loss = loss_fct(active_logits, active_labels)
+        
+        return SequenceClassifierOutput(
+            loss=loss,
+            logits=logits,
+            hidden_states=outputs.hidden_states if hasattr(outputs, 'hidden_states') else None,
+            attentions=outputs.attentions if hasattr(outputs, 'attentions') else None,
+        )
+
+
+def parse_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--training_config", type=str, required=True)
+    return parser.parse_args()
+
+
+@monitor
+def train(config):
+    if isinstance(config, dict):
+        config = AudioSegmentationParams(**config)
+
+    if torch.backends.mps.is_available() and config.mixed_precision in ["fp16", "bf16"]:
+        logger.warning(f"{config.mixed_precision} mixed precision is not supported on Apple Silicon MPS. Disabling mixed precision.")
+        config.mixed_precision = None
+
+    train_data = None
+    valid_data = None
+    
+    if config.train_split is not None:
+        if config.data_path == f"{config.project_name}/autotrain-data":
+            logger.info("loading dataset from disk")
+            train_data = load_from_disk(config.data_path)[config.train_split]
+        else:
+            if os.path.isdir(config.data_path) and os.path.exists(os.path.join(config.data_path, "dataset_info.json")):
+                logger.info("loading dataset from disk (save_to_disk format)")
+                train_data = load_from_disk(config.data_path)
+                if hasattr(train_data, 'train'):
+                    train_data = train_data['train']
+            elif config.data_path.endswith('.csv'):
+                train_data = load_dataset('csv', data_files=config.data_path, split='train')
+            else:
+                if ":" in config.train_split:
+                    dataset_config_name, split = config.train_split.split(":")
+                    train_data = load_dataset(
+                        config.data_path,
+                        name=dataset_config_name,
+                        split=split,
+                        token=config.token,
+                        trust_remote_code=ALLOW_REMOTE_CODE,
+                    )
+                else:
+                    train_data = load_dataset(
+                        config.data_path,
+                        split=config.train_split,
+                        token=config.token,
+                        trust_remote_code=ALLOW_REMOTE_CODE,
+                    )
+
+    if config.valid_split is not None:
+        if config.data_path == f"{config.project_name}/autotrain-data":
+            logger.info("loading dataset from disk")
+            valid_data = load_from_disk(config.data_path)[config.valid_split]
+        else:
+            if os.path.isdir(config.data_path) and os.path.exists(os.path.join(config.data_path, "dataset_info.json")):
+                logger.info("loading validation dataset from disk (save_to_disk format)")
+                loaded_data = load_from_disk(config.data_path)
+                if hasattr(loaded_data, config.valid_split):
+                    valid_data = loaded_data[config.valid_split]
+                else:
+                    valid_data = None
+            elif config.data_path.endswith('.csv'):
+                valid_data = None  
+            else:
+                if ":" in config.valid_split:
+                    dataset_config_name, split = config.valid_split.split(":")
+                    valid_data = load_dataset(
+                        config.data_path,
+                        name=dataset_config_name,
+                        split=split,
+                        token=config.token,
+                        trust_remote_code=ALLOW_REMOTE_CODE,
+                    )
+                else:
+                    valid_data = load_dataset(
+                        config.data_path,
+                        split=config.valid_split,
+                        token=config.token,
+                        trust_remote_code=ALLOW_REMOTE_CODE,
+                    )
+
+    logger.info(f"Train data: {train_data}")
+    logger.info(f"Valid data: {valid_data}")
+
+    # Handle both ClassLabel and Value (list of integers) features
+    if hasattr(train_data.features[config.tags_column], 'feature') and hasattr(train_data.features[config.tags_column].feature, 'names'):
+        # ClassLabel feature type
+        label_list = train_data.features[config.tags_column].feature.names
+    else:
+        # Value feature type (list of integers) - extract unique labels
+        all_labels = set()
+        for example in train_data:
+            all_labels.update(example[config.tags_column])
+        label_list = sorted(list(all_labels))
+        # Convert integer labels to string labels for consistency
+        label_list = [f"label_{i}" for i in label_list]
+    
+    num_classes = len(label_list)
+
+    if num_classes < 2:
+        raise ValueError("Invalid number of classes. Must be greater than 1.")
+
+    logger.info(f"Audio segmentation labels: {label_list}")
+    logger.info(f"Number of classes: {num_classes}")
+
+    if config.valid_split is not None and valid_data is not None:
+        # Same logic for validation data
+        if hasattr(valid_data.features[config.tags_column], 'feature') and hasattr(valid_data.features[config.tags_column].feature, 'names'):
+            valid_label_list = valid_data.features[config.tags_column].feature.names
+        else:
+            valid_all_labels = set()
+            for example in valid_data:
+                valid_all_labels.update(example[config.tags_column])
+            valid_label_list = sorted(list(valid_all_labels))
+            valid_label_list = [f"label_{i}" for i in valid_label_list]
+        
+        if len(valid_label_list) != num_classes:
+            raise ValueError(
+                f"Number of classes in train and valid are not the same. Training has {num_classes} and valid has {len(valid_label_list)}"
+            )
+
+    model_config = AudioSegmentationConfig(
+        backbone_model_name=config.model,
+        num_labels=num_classes,
+        hidden_dropout=0.1,
+        final_dropout=0.1,
+    )
+    
+    model = AudioSegmentationModel(model_config)
+
+    try:
+        feature_extractor = AutoFeatureExtractor.from_pretrained(
+            config.model,
+            token=config.token,
+            trust_remote_code=ALLOW_REMOTE_CODE,
+        )
+        
+        if hasattr(feature_extractor, 'sampling_rate'):
+            feature_extractor.sampling_rate = config.sampling_rate
+            
+    except Exception as e:
+        logger.warning(f"Could not load feature extractor: {e}")
+        feature_extractor = None
+
+    train_data = AudioSegmentationDataset(data=train_data, feature_extractor=feature_extractor, config=config)
+    if config.valid_split is not None and valid_data is not None:
+        valid_data = AudioSegmentationDataset(data=valid_data, feature_extractor=feature_extractor, config=config)
+
+    if config.logging_steps == -1:
+        if config.valid_split is not None and valid_data is not None:
+            logging_steps = int(0.2 * len(valid_data) / config.batch_size)
+        else:
+            logging_steps = int(0.2 * len(train_data) / config.batch_size)
+        if logging_steps == 0:
+            logging_steps = 1
+        if logging_steps > 25:
+            logging_steps = 25
+        config.logging_steps = logging_steps
+    else:
+        logging_steps = config.logging_steps
+
+    logger.info(f"Logging steps: {logging_steps}")
+    training_args = dict(
+        output_dir=config.project_name,
+        per_device_train_batch_size=config.batch_size,
+        per_device_eval_batch_size=2 * config.batch_size,
+        learning_rate=config.lr,
+        num_train_epochs=config.epochs,
+        eval_strategy=config.eval_strategy if config.valid_split is not None else "no",
+        logging_steps=logging_steps,
+        save_total_limit=config.save_total_limit,
+        save_strategy=config.eval_strategy if config.valid_split is not None else "no",
+        gradient_accumulation_steps=config.gradient_accumulation,
+        report_to=config.log,
+        auto_find_batch_size=config.auto_find_batch_size,
+        lr_scheduler_type=config.scheduler,
+        optim=config.optimizer,
+        warmup_ratio=config.warmup_ratio,
+        weight_decay=config.weight_decay,
+        max_grad_norm=config.max_grad_norm,
+        push_to_hub=False,
+        load_best_model_at_end=True if config.valid_split is not None else False,
+        ddp_find_unused_parameters=False,
+    )
+
+    if config.mixed_precision == "fp16":
+        training_args["fp16"] = True
+    if config.mixed_precision == "bf16":
+        training_args["bf16"] = True
+
+    if config.valid_split is not None and valid_data is not None:
+        early_stop = EarlyStoppingCallback(
+            early_stopping_patience=config.early_stopping_patience,
+            early_stopping_threshold=config.early_stopping_threshold,
+        )
+        callbacks_to_use = [early_stop]
+    else:
+        callbacks_to_use = []
+
+    callbacks_to_use.extend([UploadLogs(config=config), LossLoggingCallback(), TrainStartCallback()])
+
+    args = TrainingArguments(**training_args)
+    trainer_args = dict(
+        args=args,
+        model=model,
+        callbacks=callbacks_to_use,
+        compute_metrics=partial(utils.audio_segmentation_metrics, label_list=label_list),
+    )
+
+    trainer = Trainer(
+        **trainer_args,
+        train_dataset=train_data,
+        eval_dataset=valid_data,
+    )
+    trainer.remove_callback(PrinterCallback)
+    trainer.train()
+
+    logger.info("Finished training, saving model...")
+    trainer.save_model(config.project_name)
+    
+    if feature_extractor is not None:
+        feature_extractor.save_pretrained(config.project_name)
+
+    model_card = utils.create_model_card(config, trainer)
+
+    with open(f"{config.project_name}/README.md", "w", encoding="utf-8") as f:
+        f.write(model_card)
+    
+    if config.push_to_hub:
+        if PartialState().process_index == 0:
+            remove_autotrain_data(config)
+            save_training_params(config)
+            logger.info("Pushing model to hub...")
+            api = HfApi(token=config.token)
+            api.create_repo(
+                repo_id=f"{config.username}/{config.project_name}", repo_type="model", private=True, exist_ok=True
+            )
+            api.upload_folder(
+                folder_path=config.project_name,
+                repo_id=f"{config.username}/{config.project_name}",
+                repo_type="model",
+            )
+
+    if PartialState().process_index == 0:
+        pause_space(config)
+
+
+if __name__ == "__main__":
+    args = parse_args()
+    training_config = json.load(open(args.training_config))
+    config = AudioSegmentationParams(**training_config)
+    train(config) 
\ No newline at end of file
diff --git a/src/autotrain/trainers/audio_segmentation/dataset.py b/src/autotrain/trainers/audio_segmentation/dataset.py
new file mode 100644
index 0000000000..2d65ce469f
--- /dev/null
+++ b/src/autotrain/trainers/audio_segmentation/dataset.py
@@ -0,0 +1,101 @@
+import librosa
+import numpy as np
+import torch
+
+
+class AudioSegmentationDataset:
+    """
+    A dataset class for audio segmentation tasks.
+    
+    Similar to ImageClassificationDataset but for audio frames.
+    Each audio frame gets assigned a label (e.g., speech, music, silence, speaker_1, etc.).
+
+    Args:
+        data (Dataset): The dataset containing the audio and frame-level tags.
+        feature_extractor (PreTrainedFeatureExtractor): The feature extractor for audio processing.
+        config (Config): Configuration object containing necessary parameters.
+
+    Attributes:
+        data (Dataset): The dataset containing the audio and frame-level tags.
+        feature_extractor (PreTrainedFeatureExtractor): The feature extractor for audio processing.
+        config (Config): Configuration object containing necessary parameters.
+
+    Methods:
+        __len__():
+            Returns the number of samples in the dataset.
+
+        __getitem__(item):
+            Retrieves a processed audio sample and its corresponding frame-level labels.
+
+            Args:
+                item (int): The index of the sample to retrieve.
+
+            Returns:
+                dict: A dictionary containing processed audio features and corresponding labels.
+    """
+
+    def __init__(self, data, feature_extractor, config):
+        self.data = data
+        self.feature_extractor = feature_extractor
+        self.config = config
+
+    def __len__(self):
+        return len(self.data)
+
+    def __getitem__(self, item):
+        audio_path = self.data[item][self.config.audio_column]
+        tags = self.data[item][self.config.tags_column]
+
+        try:
+            audio, _ = librosa.load(audio_path, sr=self.config.sampling_rate)
+            
+            if len(audio) > self.config.max_length:
+                audio = audio[:self.config.max_length]
+            
+            if len(audio) < self.config.max_length:
+                padding = self.config.max_length - len(audio)
+                audio = np.pad(audio, (0, padding), mode='constant', constant_values=0)
+                
+        except Exception as e:
+            audio = np.zeros(self.config.max_length)
+            
+        if self.feature_extractor is not None:
+            processed_audio = self.feature_extractor(
+                audio,
+                sampling_rate=self.config.sampling_rate,
+                padding=True,
+                truncation=True,
+                max_length=self.config.max_length,
+                return_tensors="pt"
+            )
+            input_values = processed_audio.input_values.squeeze()
+            attention_mask = getattr(processed_audio, 'attention_mask', None)
+            if attention_mask is not None:
+                attention_mask = attention_mask.squeeze()
+        else:
+            input_values = torch.tensor(audio, dtype=torch.float32)
+            attention_mask = None
+
+
+        frame_reduction = 320
+        expected_frames = self.config.max_length // frame_reduction
+        
+        if isinstance(tags, list) and len(tags) > 0:
+            label_ids = tags[:expected_frames]
+            
+            while len(label_ids) < expected_frames:
+                label_ids.append(-100)
+        else:
+            label_ids = [0] * expected_frames
+            
+        labels = torch.tensor(label_ids, dtype=torch.long)
+
+        result = {
+            "input_values": input_values,
+            "labels": labels
+        }
+        
+        if attention_mask is not None:
+            result["attention_mask"] = attention_mask
+
+        return result 
\ No newline at end of file
diff --git a/src/autotrain/trainers/audio_segmentation/params.py b/src/autotrain/trainers/audio_segmentation/params.py
new file mode 100644
index 0000000000..1cb77e9c52
--- /dev/null
+++ b/src/autotrain/trainers/audio_segmentation/params.py
@@ -0,0 +1,84 @@
+from typing import Optional
+
+from pydantic import Field
+
+from autotrain.trainers.common import AutoTrainParams
+
+
+class AudioSegmentationParams(AutoTrainParams):
+    """
+    AudioSegmentationParams is a configuration class for audio segmentation training parameters.
+    
+    Audio segmentation is similar to token classification but for audio frames instead of text tokens.
+    Each audio frame gets assigned a label (e.g., speech, music, silence, speaker_1, etc.).
+
+    Attributes:
+        data_path (str): Path to the dataset.
+        model (str): Name of the model to use. Default is "facebook/wav2vec2-base".
+        lr (float): Learning rate. Default is 3e-5.
+        epochs (int): Number of training epochs. Default is 3.
+        max_length (int): Maximum audio length in samples. Default is 480000.
+        batch_size (int): Training batch size. Default is 8.
+        warmup_ratio (float): Warmup proportion. Default is 0.1.
+        gradient_accumulation (int): Gradient accumulation steps. Default is 1.
+        optimizer (str): Optimizer to use. Default is "adamw_torch".
+        scheduler (str): Scheduler to use. Default is "linear".
+        weight_decay (float): Weight decay. Default is 0.01.
+        max_grad_norm (float): Maximum gradient norm. Default is 1.0.
+        seed (int): Random seed. Default is 42.
+        train_split (str): Name of the training split. Default is "train".
+        valid_split (Optional[str]): Name of the validation split. Default is None.
+        audio_column (str): Name of the audio column. Default is "audio".
+        tags_column (str): Name of the tags column (frame-level labels). Default is "tags".
+        logging_steps (int): Number of steps between logging. Default is -1.
+        project_name (str): Name of the project. Default is "project-name".
+        auto_find_batch_size (bool): Whether to automatically find the batch size. Default is False.
+        mixed_precision (Optional[str]): Mixed precision setting (fp16, bf16, or None). Default is None.
+        save_total_limit (int): Total number of checkpoints to save. Default is 1.
+        token (Optional[str]): Hub token for authentication. Default is None.
+        push_to_hub (bool): Whether to push the model to the Hugging Face hub. Default is False.
+        eval_strategy (str): Evaluation strategy. Default is "epoch".
+        username (Optional[str]): Hugging Face username. Default is None.
+        log (str): Logging method for experiment tracking. Default is "none".
+        sampling_rate (int): Sampling rate for audio processing. Default is 16000.
+        early_stopping_patience (int): Patience for early stopping. Default is 5.
+        early_stopping_threshold (float): Threshold for early stopping. Default is 0.01.
+    """
+
+    data_path: str = Field(None, title="Data path")
+    model: str = Field("facebook/wav2vec2-base", title="Model name")
+    lr: float = Field(3e-5, title="Learning rate")
+    epochs: int = Field(3, title="Number of training epochs")
+    max_length: int = Field(480000, title="Max audio length in samples")
+    batch_size: int = Field(8, title="Training batch size")
+    warmup_ratio: float = Field(0.1, title="Warmup proportion")
+    gradient_accumulation: int = Field(1, title="Gradient accumulation steps")
+    optimizer: str = Field("adamw_torch", title="Optimizer")
+    scheduler: str = Field("linear", title="Scheduler")
+    weight_decay: float = Field(0.01, title="Weight decay")
+    max_grad_norm: float = Field(1.0, title="Max gradient norm")
+    seed: int = Field(42, title="Seed")
+    train_split: str = Field("train", title="Train split")
+    valid_split: Optional[str] = Field(None, title="Validation split")
+    audio_column: str = Field("audio", title="Audio column")
+    tags_column: str = Field("tags", title="Tags column (frame-level labels)")
+    logging_steps: int = Field(-1, title="Logging steps")
+    project_name: str = Field("project-name", title="Output directory")
+    auto_find_batch_size: bool = Field(False, title="Auto find batch size")
+    mixed_precision: Optional[str] = Field(None, title="fp16, bf16, or None")
+    save_total_limit: int = Field(1, title="Save total limit")
+    token: Optional[str] = Field(None, title="Hub Token")
+    push_to_hub: bool = Field(False, title="Push to hub")
+    eval_strategy: str = Field("epoch", title="Evaluation strategy")
+    username: Optional[str] = Field(None, title="Hugging Face Username")
+    log: str = Field("none", title="Logging using experiment tracking")
+    sampling_rate: int = Field(16000, title="Sampling rate for audio processing")
+    early_stopping_patience: int = Field(5, title="Early stopping patience")
+    early_stopping_threshold: float = Field(0.01, title="Early stopping threshold")
+
+    def __post_init__(self):
+        """Post-initialization validation."""
+        if self.max_length <= 0:
+            raise ValueError("max_length must be positive")
+        if self.sampling_rate <= 0:
+            raise ValueError("sampling_rate must be positive") 
\ No newline at end of file
diff --git a/src/autotrain/trainers/audio_segmentation/utils.py b/src/autotrain/trainers/audio_segmentation/utils.py
new file mode 100644
index 0000000000..747717f050
--- /dev/null
+++ b/src/autotrain/trainers/audio_segmentation/utils.py
@@ -0,0 +1,276 @@
+import json
+import os
+
+import librosa
+import numpy as np
+import torch
+from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score
+from seqeval import metrics
+
+from autotrain import logger
+
+
+AUDIO_SEGMENTATION_EVAL_METRICS = (
+    "eval_loss",
+    "eval_accuracy",
+    "eval_f1_macro",
+    "eval_f1_micro",
+    "eval_precision",
+    "eval_recall",
+)
+
+MODEL_CARD = """
+---
+library_name: transformers
+tags:
+- autotrain
+- audio-segmentation{base_model}
+widget:
+- example_title: "Audio Segmentation Example"
+  src: "https://cdn-media.huggingface.co/speech_samples/sample1.flac"{dataset_tag}
+---
+
+# Model Trained Using AutoTrain
+
+- Problem type: Audio Segmentation
+
+## Validation Metrics
+{validation_metrics}
+"""
+
+
+def process_data(train_data, valid_data, feature_extractor, config):
+    """
+    Process audio segmentation data for training.
+    
+    Args:
+        train_data (Dataset): Training dataset
+        valid_data (Dataset or None): Validation dataset
+        feature_extractor (FeatureExtractor): Audio feature extractor
+        config (object): Training configuration
+        
+    Returns:
+        tuple: Processed training and validation datasets
+    """
+    def preprocess_function(examples):
+        """Preprocess audio data for segmentation."""
+        audios = []
+        labels = []
+        
+        for audio_path, segments in zip(examples[config.audio_column], examples[config.target_column]):
+            try:
+                audio, sr = librosa.load(audio_path, sr=config.sampling_rate)
+                
+                if len(audio) > config.max_length:
+                    audio = audio[:config.max_length]
+                
+                if len(audio) < config.max_length:
+                    padding = config.max_length - len(audio)
+                    audio = np.pad(audio, (0, padding), mode='constant', constant_values=0)
+                
+                audios.append(audio)
+                
+                if isinstance(segments, str):
+                    segments = json.loads(segments)
+                
+                frame_labels = create_frame_labels(segments, len(audio), config.sampling_rate)
+                labels.append(frame_labels)
+                
+            except Exception as e:
+                logger.warning(f"Error processing audio {audio_path}: {e}")
+                audios.append(np.zeros(config.max_length))
+                labels.append(np.zeros(config.max_length // 1000))
+        
+        if feature_extractor is not None:
+            inputs = feature_extractor(
+                audios,
+                sampling_rate=config.sampling_rate,
+                padding=True,
+                truncation=True,
+                max_length=config.max_length,
+                return_tensors="pt"
+            )
+            
+            result = {
+                "input_values": inputs.input_values.tolist(),
+                "labels": labels
+            }
+            
+            if hasattr(inputs, "attention_mask") and inputs.attention_mask is not None:
+                result["attention_mask"] = inputs.attention_mask.tolist()
+                
+            return result
+        else:
+            return {
+                "input_values": audios,
+                "labels": labels
+            }
+
+    train_data = train_data.map(
+        preprocess_function,
+        batched=True,
+        remove_columns=train_data.column_names,
+        desc="Processing training data"
+    )
+    
+    if valid_data is not None:
+        valid_data = valid_data.map(
+            preprocess_function,
+            batched=True,
+            remove_columns=valid_data.column_names,
+            desc="Processing validation data"
+        )
+    
+    return train_data, valid_data
+
+
+def create_frame_labels(segments, audio_length, sampling_rate):
+    """
+    Create frame-level labels from segment annotations.
+    
+    Args:
+        segments (list): List of segment dictionaries with 'start', 'end', 'label'
+        audio_length (int): Length of audio in samples
+        sampling_rate (int): Audio sampling rate
+        
+    Returns:
+        numpy.ndarray: Frame-level labels array
+    """
+    frame_rate = 100
+    num_frames = int(audio_length / sampling_rate * frame_rate)
+    frame_labels = np.zeros(num_frames, dtype=np.int64)
+    
+    for segment in segments:
+        start_frame = int(segment['start'] * frame_rate)
+        end_frame = int(segment['end'] * frame_rate)
+        label = segment.get('label', 1)
+        
+        if isinstance(label, str):
+            label = hash(label) % 10
+        
+        start_frame = max(0, start_frame)
+        end_frame = min(num_frames, end_frame)
+        
+        frame_labels[start_frame:end_frame] = label
+    
+    return frame_labels
+
+
+def _segmentation_metrics(eval_pred):
+    """
+    Calculate segmentation metrics.
+    
+    Args:
+        eval_pred (EvalPrediction): EvalPrediction object containing predictions and labels
+        
+    Returns:
+        dict: Dictionary of metrics
+    """
+    predictions, labels = eval_pred
+
+    if isinstance(predictions, torch.Tensor):
+        predictions = predictions.detach().cpu().numpy()
+    if isinstance(labels, torch.Tensor):
+        labels = labels.detach().cpu().numpy()
+    
+    if predictions.ndim > 2:
+        predictions = np.argmax(predictions, axis=-1)
+    
+    predictions_flat = predictions.flatten()
+    labels_flat = labels.flatten()
+    
+    mask = labels_flat != -100
+    predictions_flat = predictions_flat[mask]
+    labels_flat = labels_flat[mask]
+    
+    accuracy = accuracy_score(labels_flat, predictions_flat)
+    f1_macro = f1_score(labels_flat, predictions_flat, average='macro', zero_division=0)
+    f1_micro = f1_score(labels_flat, predictions_flat, average='micro', zero_division=0)
+    precision = precision_score(labels_flat, predictions_flat, average='macro', zero_division=0)
+    recall = recall_score(labels_flat, predictions_flat, average='macro', zero_division=0)
+    
+    return {
+        "accuracy": accuracy,
+        "f1_macro": f1_macro,
+        "f1_micro": f1_micro,
+        "precision": precision,
+        "recall": recall,
+    }
+
+
+def audio_segmentation_metrics(pred, label_list):
+    """
+    Compute audio segmentation metrics including precision, recall, F1 score, and accuracy.
+    
+    Audio segmentation is similar to token classification but for audio frames instead of text tokens.
+    Each audio frame gets assigned a label (e.g., speech, music, silence, speaker_1, etc.).
+
+    Args:
+        pred (tuple): A tuple containing predictions and labels.
+                      Predictions should be a 3D array (batch_size, sequence_length, num_labels).
+                      Labels should be a 2D array (batch_size, sequence_length).
+        label_list (list): A list of label names corresponding to the indices used in predictions and labels.
+
+    Returns:
+        dict: A dictionary containing the following metrics:
+              - "precision": Precision score of the audio segmentation.
+              - "recall": Recall score of the audio segmentation.
+              - "f1": F1 score of the audio segmentation.
+              - "accuracy": Accuracy score of the audio segmentation.
+    """
+    predictions, labels = pred
+    predictions = np.argmax(predictions, axis=2)
+
+    true_predictions = [
+        [label_list[predi] for (predi, lbl) in zip(prediction, label) if lbl != -100]
+        for prediction, label in zip(predictions, labels)
+    ]
+    true_labels = [
+        [label_list[lbl] for (predi, lbl) in zip(prediction, label) if lbl != -100]
+        for prediction, label in zip(predictions, labels)
+    ]
+
+    results = {
+        "precision": metrics.precision_score(true_labels, true_predictions),
+        "recall": metrics.recall_score(true_labels, true_predictions),
+        "f1": metrics.f1_score(true_labels, true_predictions),
+        "accuracy": metrics.accuracy_score(true_labels, true_predictions),
+    }
+    return results
+
+
+def create_model_card(config, trainer):
+    """
+    Generates a model card string based on the provided configuration and trainer.
+
+    Args:
+        config (object): Configuration object containing model and dataset information.
+        trainer (object): Trainer object used to evaluate the model.
+
+    Returns:
+        str: A formatted model card string with dataset tags, validation metrics, and base model information.
+    """
+    if config.valid_split is not None:
+        eval_scores = trainer.evaluate()
+        valid_metrics = ["eval_loss", "eval_precision", "eval_recall", "eval_f1", "eval_accuracy"]
+        eval_scores = [f"{k[len('eval_'):]}: {v}" for k, v in eval_scores.items() if k in valid_metrics]
+        eval_scores = "\n\n".join(eval_scores)
+    else:
+        eval_scores = "No validation metrics available"
+
+    if config.data_path == f"{config.project_name}/autotrain-data" or os.path.isdir(config.data_path):
+        dataset_tag = ""
+    else:
+        dataset_tag = f"\ndatasets:\n- {config.data_path}"
+
+    if os.path.isdir(config.model):
+        base_model = ""
+    else:
+        base_model = f"\nbase_model: {config.model}"
+
+    model_card = MODEL_CARD.format(
+        dataset_tag=dataset_tag,
+        validation_metrics=eval_scores,
+        base_model=base_model,
+    )
+    return model_card 
\ No newline at end of file
diff --git a/src/autotrain/trainers/image_classification/__main__.py b/src/autotrain/trainers/image_classification/__main__.py
index 8d29c1c74a..731720ce2d 100644
--- a/src/autotrain/trainers/image_classification/__main__.py
+++ b/src/autotrain/trainers/image_classification/__main__.py
@@ -1,6 +1,7 @@
 import argparse
 import json
 
+import torch
 from accelerate.state import PartialState
 from datasets import load_dataset, load_from_disk
 from huggingface_hub import HfApi
@@ -41,6 +42,10 @@ def train(config):
     if isinstance(config, dict):
         config = ImageClassificationParams(**config)
 
+    if torch.backends.mps.is_available() and config.mixed_precision in ["fp16", "bf16"]:
+        logger.warning(f"{config.mixed_precision} mixed precision is not supported on Apple Silicon MPS. Disabling mixed precision.")
+        config.mixed_precision = None
+
     valid_data = None
     if config.data_path == f"{config.project_name}/autotrain-data":
         train_data = load_from_disk(config.data_path)[config.train_split]
diff --git a/src/autotrain/trainers/tabular/utils.py b/src/autotrain/trainers/tabular/utils.py
index 11e7d87c13..ab7d81dba3 100644
--- a/src/autotrain/trainers/tabular/utils.py
+++ b/src/autotrain/trainers/tabular/utils.py
@@ -10,7 +10,6 @@
 from sklearn import naive_bayes, neighbors, pipeline, preprocessing, svm, tree
 from xgboost import XGBClassifier, XGBRegressor
 
-
 MARKDOWN = """
 ---
 tags:
@@ -156,8 +155,8 @@ def __post_init__(self):
                 "r2": skmetrics.r2_score,
                 "mse": skmetrics.mean_squared_error,
                 "mae": skmetrics.mean_absolute_error,
-                "rmse": partial(skmetrics.mean_squared_error, squared=False),
-                "rmsle": partial(skmetrics.mean_squared_log_error, squared=False),
+                "rmse": lambda y_true, y_pred: np.sqrt(skmetrics.mean_squared_error(y_true, y_pred)),
+                "rmsle": skmetrics.mean_squared_log_error,
             }
         elif self.sub_task == "multi_label_classification":
             self.valid_metrics = {
@@ -194,9 +193,7 @@ def calculate(self, y_true, y_pred):
                     metrics[metric_name] = metric_func(y_true, y_pred)
             else:
                 if metric_name == "rmsle":
-                    temp_pred = copy.deepcopy(y_pred)
-                    temp_pred = np.clip(temp_pred, 0, None)
-                    metrics[metric_name] = metric_func(y_true, temp_pred)
+                    metrics[metric_name] = metric_func(y_true, y_pred)
                 else:
                     metrics[metric_name] = metric_func(y_true, y_pred)
         return metrics
diff --git a/src/autotrain/utils.py b/src/autotrain/utils.py
index e26cfb2bef..663f58a289 100644
--- a/src/autotrain/utils.py
+++ b/src/autotrain/utils.py
@@ -3,6 +3,9 @@
 import subprocess
 
 from autotrain.commands import launch_command
+from autotrain.trainers.audio_classification.params import AudioClassificationParams
+from autotrain.trainers.audio_detection.params import AudioDetectionParams
+from autotrain.trainers.audio_segmentation.params import AudioSegmentationParams
 from autotrain.trainers.clm.params import LLMTrainingParams
 from autotrain.trainers.extractive_question_answering.params import ExtractiveQuestionAnsweringParams
 from autotrain.trainers.generic.params import GenericParams
@@ -66,6 +69,12 @@ def run_training(params, task_id, local=False, wait=False):
         params = VLMTrainingParams(**params)
     elif task_id == 5:
         params = ExtractiveQuestionAnsweringParams(**params)
+    elif task_id == 33:
+        params = AudioClassificationParams(**params)
+    elif task_id == 35:
+        params = AudioDetectionParams(**params)
+    elif task_id == 34:
+        params = AudioSegmentationParams(**params)
     else:
         raise NotImplementedError
 

From 68a8fb2d7a3a2a1aa03c8920b3dc0706b62a5746 Mon Sep 17 00:00:00 2001
From: Pascal Seeber <seeber.p@gmx.de>
Date: Thu, 3 Jul 2025 15:18:27 +0200
Subject: [PATCH 2/4] update requirements

update requirements and add librosa
---
 requirements.txt | 10 ++++++----
 1 file changed, 6 insertions(+), 4 deletions(-)

diff --git a/requirements.txt b/requirements.txt
index 46cedd0ab5..94de8f947a 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -5,7 +5,7 @@ ipadic==1.0.0
 jiwer==3.0.5
 joblib==1.4.2
 loguru==0.7.3
-pandas==2.2.3
+pandas==2.3.0
 nltk==3.9.1
 optuna==4.1.0
 Pillow==11.0.0
@@ -14,12 +14,12 @@ scikit-learn==1.6.0
 sentencepiece==0.2.0
 tqdm==4.67.1
 werkzeug==3.1.3
-xgboost==2.1.3
-huggingface_hub==0.27.0
+xgboost==3.0.2
+huggingface_hub==0.33.1
 requests==2.32.3
 einops==0.8.0
 packaging==24.2
-cryptography==44.0.0
+cryptography==44.0.1
 nvitop==1.3.2
 # latest versions
 tensorboard==2.18.0
@@ -47,3 +47,5 @@ timm==1.0.12
 torchmetrics==1.6.0
 pycocotools==2.0.8
 sentence-transformers==3.3.1
+# audio processing dependencies
+librosa==0.10.2

From f34cf2fddec6d55ece7d36c9d5706b6fd043f02b Mon Sep 17 00:00:00 2001
From: Pascal Seeber <seeber.p@gmx.de>
Date: Thu, 3 Jul 2025 15:22:38 +0200
Subject: [PATCH 3/4] update audio tasks

---
 README.md | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/README.md b/README.md
index d0b153e762..9f031ca497 100644
--- a/README.md
+++ b/README.md
@@ -20,6 +20,9 @@ NOTE: AutoTrain is free! You only pay for the resources you use in case you deci
 | Extractive Question Answering | ✅ | Coming Soon | [extractive_qa.yaml](https://github.com/huggingface/autotrain-advanced/tree/main/configs/extractive_question_answering) |
 | Image Classification | ✅ | Coming Soon | [image_classification.yaml](https://github.com/huggingface/autotrain-advanced/tree/main/configs/image_classification) |
 | Image Scoring/Regression | ✅ | Coming Soon | [image_regression.yaml](https://github.com/huggingface/autotrain-advanced/tree/main/configs/image_scoring) |
+| Audio Classification | ✅ | Coming Soon | [audio_classification.yaml](https://github.com/huggingface/autotrain-advanced/tree/main/configs/audio_classification) |
+| Audio Detection | ✅ | Coming Soon | [audio_detection.yaml](https://github.com/huggingface/autotrain-advanced/tree/main/configs/audio_detection) |
+| Audio Segmentation | ✅ | Coming Soon | [audio_segmentation.yaml](https://github.com/huggingface/autotrain-advanced/tree/main/configs/audio_segmentation) |
 | VLM | 🟥 | Coming Soon | [vlm.yaml](https://github.com/huggingface/autotrain-advanced/tree/main/configs/vlm) |
 
 

From a66dfec300d8447ea6ec87db3a33fe7f0406081e Mon Sep 17 00:00:00 2001
From: Pascal Seeber <seeber.p@gmx.de>
Date: Sun, 10 Aug 2025 14:24:43 +0200
Subject: [PATCH 4/4] add new training pipelines

optimize audio trainers
add image instance segmentation
add image semantic segmentation
---
 colabs/audio_classification.ipynb             |  62 ++
 colabs/audio_detection.ipynb                  |  62 ++
 colabs/audio_segmentation.ipynb               |  62 ++
 colabs/clm.ipynb                              |  63 ++
 colabs/extractive_question_answering.ipynb    |  64 ++
 colabs/generic.ipynb                          |  62 ++
 colabs/image_instance_segmentation.ipynb      |  62 ++
 colabs/image_regression.ipynb                 |  62 ++
 colabs/image_semantic_segmentation.ipynb      |  62 ++
 colabs/object_detection.ipynb                 |  62 ++
 colabs/sent_transformers.ipynb                |  63 ++
 colabs/seq2seq.ipynb                          |  64 ++
 colabs/tabular.ipynb                          |  59 ++
 colabs/text_classification.ipynb              |  63 ++
 colabs/text_regression.ipynb                  |  63 ++
 colabs/token_classification.ipynb             |  63 ++
 colabs/vlm.ipynb                              |  62 ++
 .../hub_dataset.yml                           |  32 +
 configs/image_instance_segmentation/local.yml |  32 +
 .../hub_dataset.yml                           |  36 +
 configs/image_semantic_segmentation/local.yml |  29 +
 docs/source/_toctree.yml                      |   2 +
 docs/source/tasks/audio.mdx                   | 193 +++++
 .../tasks/image_semantic_segmentation.mdx     | 180 ++++
 notebooks/audio_classification.ipynb          | 116 +++
 notebooks/audio_detection.ipynb               | 116 +++
 notebooks/audio_segmentation.ipynb            | 116 +++
 notebooks/clm.ipynb                           | 117 +++
 notebooks/extractive_question_answering.ipynb | 119 +++
 notebooks/generic.ipynb                       | 113 +++
 notebooks/image_classification.ipynb          | 116 +++
 notebooks/image_instance_segmentation.ipynb   | 116 +++
 notebooks/image_regression.ipynb              | 116 +++
 notebooks/image_semantic_segmentation.ipynb   | 116 +++
 notebooks/object_detection.ipynb              | 116 +++
 notebooks/sent_transformers.ipynb             | 118 +++
 notebooks/seq2seq.ipynb                       | 119 +++
 notebooks/tabular.ipynb                       | 113 +++
 notebooks/token_classification.ipynb          | 118 +++
 notebooks/vlm.ipynb                           | 117 +++
 src/autotrain/app/api_routes.py               |  41 +
 src/autotrain/app/colab.py                    |  40 +
 src/autotrain/app/models.py                   |  42 +
 src/autotrain/app/params.py                   |  64 ++
 src/autotrain/app/templates/index.html        |  10 +
 src/autotrain/app/ui_routes.py                |  26 +
 src/autotrain/backends/base.py                |   5 +
 src/autotrain/cli/autotrain.py                |   4 +
 .../cli/run_image_instance_segmentation.py    |  79 ++
 .../cli/run_image_semantic_segmentation.py    | 127 +++
 src/autotrain/cli/utils.py                    |   9 +-
 src/autotrain/client.py                       |  10 +
 src/autotrain/commands.py                     |  21 +
 src/autotrain/dataset.py                      | 551 ++++++++++--
 src/autotrain/parser.py                       |  39 +
 src/autotrain/preprocessor/vision.py          | 793 ++++++++++++++++++
 src/autotrain/project.py                      | 253 ++++--
 src/autotrain/tasks.py                        |   3 +
 .../image_instance_segmentation/__init__.py   |   1 +
 .../image_instance_segmentation/__main__.py   | 278 ++++++
 .../image_instance_segmentation/dataset.py    | 109 +++
 .../image_instance_segmentation/params.py     |  81 ++
 .../image_instance_segmentation/utils.py      | 200 +++++
 .../image_semantic_segmentation/__init__.py   |   1 +
 .../image_semantic_segmentation/__main__.py   | 238 ++++++
 .../image_semantic_segmentation/dataset.py    |  80 ++
 .../image_semantic_segmentation/params.py     |  77 ++
 .../image_semantic_segmentation/utils.py      | 199 +++++
 src/autotrain/utils.py                        |   4 +
 69 files changed, 6682 insertions(+), 129 deletions(-)
 create mode 100644 colabs/audio_classification.ipynb
 create mode 100644 colabs/audio_detection.ipynb
 create mode 100644 colabs/audio_segmentation.ipynb
 create mode 100644 colabs/clm.ipynb
 create mode 100644 colabs/extractive_question_answering.ipynb
 create mode 100644 colabs/generic.ipynb
 create mode 100644 colabs/image_instance_segmentation.ipynb
 create mode 100644 colabs/image_regression.ipynb
 create mode 100644 colabs/image_semantic_segmentation.ipynb
 create mode 100644 colabs/object_detection.ipynb
 create mode 100644 colabs/sent_transformers.ipynb
 create mode 100644 colabs/seq2seq.ipynb
 create mode 100644 colabs/tabular.ipynb
 create mode 100644 colabs/text_classification.ipynb
 create mode 100644 colabs/text_regression.ipynb
 create mode 100644 colabs/token_classification.ipynb
 create mode 100644 colabs/vlm.ipynb
 create mode 100644 configs/image_instance_segmentation/hub_dataset.yml
 create mode 100644 configs/image_instance_segmentation/local.yml
 create mode 100644 configs/image_semantic_segmentation/hub_dataset.yml
 create mode 100644 configs/image_semantic_segmentation/local.yml
 create mode 100644 docs/source/tasks/audio.mdx
 create mode 100644 docs/source/tasks/image_semantic_segmentation.mdx
 create mode 100644 notebooks/audio_classification.ipynb
 create mode 100644 notebooks/audio_detection.ipynb
 create mode 100644 notebooks/audio_segmentation.ipynb
 create mode 100644 notebooks/clm.ipynb
 create mode 100644 notebooks/extractive_question_answering.ipynb
 create mode 100644 notebooks/generic.ipynb
 create mode 100644 notebooks/image_classification.ipynb
 create mode 100644 notebooks/image_instance_segmentation.ipynb
 create mode 100644 notebooks/image_regression.ipynb
 create mode 100644 notebooks/image_semantic_segmentation.ipynb
 create mode 100644 notebooks/object_detection.ipynb
 create mode 100644 notebooks/sent_transformers.ipynb
 create mode 100644 notebooks/seq2seq.ipynb
 create mode 100644 notebooks/tabular.ipynb
 create mode 100644 notebooks/token_classification.ipynb
 create mode 100644 notebooks/vlm.ipynb
 create mode 100644 src/autotrain/cli/run_image_instance_segmentation.py
 create mode 100644 src/autotrain/cli/run_image_semantic_segmentation.py
 create mode 100644 src/autotrain/trainers/image_instance_segmentation/__init__.py
 create mode 100644 src/autotrain/trainers/image_instance_segmentation/__main__.py
 create mode 100644 src/autotrain/trainers/image_instance_segmentation/dataset.py
 create mode 100644 src/autotrain/trainers/image_instance_segmentation/params.py
 create mode 100644 src/autotrain/trainers/image_instance_segmentation/utils.py
 create mode 100644 src/autotrain/trainers/image_semantic_segmentation/__init__.py
 create mode 100644 src/autotrain/trainers/image_semantic_segmentation/__main__.py
 create mode 100644 src/autotrain/trainers/image_semantic_segmentation/dataset.py
 create mode 100644 src/autotrain/trainers/image_semantic_segmentation/params.py
 create mode 100644 src/autotrain/trainers/image_semantic_segmentation/utils.py

diff --git a/colabs/audio_classification.ipynb b/colabs/audio_classification.ipynb
new file mode 100644
index 0000000000..99f37cc1f6
--- /dev/null
+++ b/colabs/audio_classification.ipynb
@@ -0,0 +1,62 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%writefile config.yml\n",
+    "task: audio_classification # do not change\n",
+    "base_model: facebook/wav2vec2-base # the model to be used from hugging face hub\n",
+    "project_name: autotrain-audio-classification-model # the name of the project, must be unique\n",
+    "log: tensorboard # do not change\n",
+    "backend: local # do not change\n",
+    "\n",
+    "data:\n",
+    "  path: data/ # the path to the data folder\n",
+    "  train_split: train # this folder inside data/ will be used for training\n",
+    "  valid_split: null # this folder inside data/ will be used for validation. If not available, set it to null\n",
+    "  column_mapping: # do not change\n",
+    "    audio_column: audio\n",
+    "    target_column: labels\n",
+    "\n",
+    "params:\n",
+    "  epochs: 3\n",
+    "  batch_size: 8\n",
+    "  lr: 1e-5\n",
+    "  optimizer: adamw_torch\n",
+    "  scheduler: linear\n",
+    "  gradient_accumulation: 1\n",
+    "  mixed_precision: fp16\n",
+    "\n",
+    "hub:\n",
+    "  username: ${HF_USERNAME} # please set HF_USERNAME in colab secrets\n",
+    "  token: ${HF_TOKEN} # please set HF_TOKEN in colab secrets, must be valid hugging face write token\n",
+    "  push_to_hub: true # set to true if you want to push the model to the hub"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from google.colab import userdata\n",
+    "HF_USERNAME = userdata.get('HF_USERNAME')\n",
+    "HF_TOKEN = userdata.get('HF_TOKEN')\n",
+    "os.environ['HF_USERNAME'] = HF_USERNAME\n",
+    "os.environ['HF_TOKEN'] = HF_TOKEN\n",
+    "!autotrain --config config.yml"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/colabs/audio_detection.ipynb b/colabs/audio_detection.ipynb
new file mode 100644
index 0000000000..8e4215e3fd
--- /dev/null
+++ b/colabs/audio_detection.ipynb
@@ -0,0 +1,62 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%writefile config.yml\n",
+    "task: audio_detection # do not change\n",
+    "base_model: facebook/wav2vec2-base # the model to be used from hugging face hub\n",
+    "project_name: autotrain-audio-detection-model # the name of the project, must be unique\n",
+    "log: tensorboard # do not change\n",
+    "backend: local # do not change\n",
+    "\n",
+    "data:\n",
+    "  path: data/ # the path to the data folder\n",
+    "  train_split: train # this folder inside data/ will be used for training\n",
+    "  valid_split: null # this folder inside data/ will be used for validation. If not available, set it to null\n",
+    "  column_mapping: # do not change\n",
+    "    audio_column: audio\n",
+    "    target_column: labels\n",
+    "\n",
+    "params:\n",
+    "  epochs: 3\n",
+    "  batch_size: 8\n",
+    "  lr: 1e-5\n",
+    "  optimizer: adamw_torch\n",
+    "  scheduler: linear\n",
+    "  gradient_accumulation: 1\n",
+    "  mixed_precision: fp16\n",
+    "\n",
+    "hub:\n",
+    "  username: ${HF_USERNAME} # please set HF_USERNAME in colab secrets\n",
+    "  token: ${HF_TOKEN} # please set HF_TOKEN in colab secrets, must be valid hugging face write token\n",
+    "  push_to_hub: true # set to true if you want to push the model to the hub"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from google.colab import userdata\n",
+    "HF_USERNAME = userdata.get('HF_USERNAME')\n",
+    "HF_TOKEN = userdata.get('HF_TOKEN')\n",
+    "os.environ['HF_USERNAME'] = HF_USERNAME\n",
+    "os.environ['HF_TOKEN'] = HF_TOKEN\n",
+    "!autotrain --config config.yml"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/colabs/audio_segmentation.ipynb b/colabs/audio_segmentation.ipynb
new file mode 100644
index 0000000000..97950e4dea
--- /dev/null
+++ b/colabs/audio_segmentation.ipynb
@@ -0,0 +1,62 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%writefile config.yml\n",
+    "task: audio_segmentation # do not change\n",
+    "base_model: facebook/wav2vec2-base # the model to be used from hugging face hub\n",
+    "project_name: autotrain-audio-segmentation-model # the name of the project, must be unique\n",
+    "log: tensorboard # do not change\n",
+    "backend: local # do not change\n",
+    "\n",
+    "data:\n",
+    "  path: data/ # the path to the data folder\n",
+    "  train_split: train # this folder inside data/ will be used for training\n",
+    "  valid_split: null # this folder inside data/ will be used for validation. If not available, set it to null\n",
+    "  column_mapping: # do not change\n",
+    "    audio_column: audio\n",
+    "    target_column: segments\n",
+    "\n",
+    "params:\n",
+    "  epochs: 3\n",
+    "  batch_size: 8\n",
+    "  lr: 1e-5\n",
+    "  optimizer: adamw_torch\n",
+    "  scheduler: linear\n",
+    "  gradient_accumulation: 1\n",
+    "  mixed_precision: fp16\n",
+    "\n",
+    "hub:\n",
+    "  username: ${HF_USERNAME} # please set HF_USERNAME in colab secrets\n",
+    "  token: ${HF_TOKEN} # please set HF_TOKEN in colab secrets, must be valid hugging face write token\n",
+    "  push_to_hub: true # set to true if you want to push the model to the hub"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from google.colab import userdata\n",
+    "HF_USERNAME = userdata.get('HF_USERNAME')\n",
+    "HF_TOKEN = userdata.get('HF_TOKEN')\n",
+    "os.environ['HF_USERNAME'] = HF_USERNAME\n",
+    "os.environ['HF_TOKEN'] = HF_TOKEN\n",
+    "!autotrain --config config.yml"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/colabs/clm.ipynb b/colabs/clm.ipynb
new file mode 100644
index 0000000000..bab8c59b3e
--- /dev/null
+++ b/colabs/clm.ipynb
@@ -0,0 +1,63 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%writefile config.yml\n",
+    "task: lm_training # do not change\n",
+    "base_model: gpt2 # the model to be used from hugging face hub\n",
+    "project_name: autotrain-clm-model # the name of the project, must be unique\n",
+    "log: tensorboard # do not change\n",
+    "backend: local # do not change\n",
+    "\n",
+    "data:\n",
+    "  path: data/ # the path to the data folder\n",
+    "  train_split: train # this folder inside data/ will be used for training\n",
+    "  valid_split: null # this folder inside data/ will be used for validation. If not available, set it to null\n",
+    "  column_mapping: # do not change\n",
+    "    text_column: text\n",
+    "\n",
+    "params:\n",
+    "  epochs: 3\n",
+    "  batch_size: 4\n",
+    "  block_size: 512\n",
+    "  model_max_length: 1024\n",
+    "  lr: 2e-5\n",
+    "  optimizer: adamw_torch\n",
+    "  scheduler: cosine\n",
+    "  gradient_accumulation: 4\n",
+    "  mixed_precision: fp16\n",
+    "\n",
+    "hub:\n",
+    "  username: ${HF_USERNAME} # please set HF_USERNAME in colab secrets\n",
+    "  token: ${HF_TOKEN} # please set HF_TOKEN in colab secrets, must be valid hugging face write token\n",
+    "  push_to_hub: true # set to true if you want to push the model to the hub"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from google.colab import userdata\n",
+    "HF_USERNAME = userdata.get('HF_USERNAME')\n",
+    "HF_TOKEN = userdata.get('HF_TOKEN')\n",
+    "os.environ['HF_USERNAME'] = HF_USERNAME\n",
+    "os.environ['HF_TOKEN'] = HF_TOKEN\n",
+    "!autotrain --config config.yml"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/colabs/extractive_question_answering.ipynb b/colabs/extractive_question_answering.ipynb
new file mode 100644
index 0000000000..0e3f667741
--- /dev/null
+++ b/colabs/extractive_question_answering.ipynb
@@ -0,0 +1,64 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%writefile config.yml\n",
+    "task: extractive_question_answering # do not change\n",
+    "base_model: google-bert/bert-base-uncased # the model to be used from hugging face hub\n",
+    "project_name: autotrain-extractive-qa-model # the name of the project, must be unique\n",
+    "log: tensorboard # do not change\n",
+    "backend: local # do not change\n",
+    "\n",
+    "data:\n",
+    "  path: data/ # the path to the data folder\n",
+    "  train_split: train # this folder inside data/ will be used for training\n",
+    "  valid_split: null # this folder inside data/ will be used for validation. If not available, set it to null\n",
+    "  column_mapping: # do not change\n",
+    "    context_column: context\n",
+    "    question_column: question\n",
+    "    answer_column: answers\n",
+    "\n",
+    "params:\n",
+    "  epochs: 3\n",
+    "  batch_size: 8\n",
+    "  max_seq_length: 384\n",
+    "  lr: 2e-5\n",
+    "  optimizer: adamw_torch\n",
+    "  scheduler: linear\n",
+    "  gradient_accumulation: 1\n",
+    "  mixed_precision: fp16\n",
+    "\n",
+    "hub:\n",
+    "  username: ${HF_USERNAME} # please set HF_USERNAME in colab secrets\n",
+    "  token: ${HF_TOKEN} # please set HF_TOKEN in colab secrets, must be valid hugging face write token\n",
+    "  push_to_hub: true # set to true if you want to push the model to the hub"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from google.colab import userdata\n",
+    "HF_USERNAME = userdata.get('HF_USERNAME')\n",
+    "HF_TOKEN = userdata.get('HF_TOKEN')\n",
+    "os.environ['HF_USERNAME'] = HF_USERNAME\n",
+    "os.environ['HF_TOKEN'] = HF_TOKEN\n",
+    "!autotrain --config config.yml"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/colabs/generic.ipynb b/colabs/generic.ipynb
new file mode 100644
index 0000000000..22240c0cb1
--- /dev/null
+++ b/colabs/generic.ipynb
@@ -0,0 +1,62 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%writefile config.yml\n",
+    "task: generic # do not change\n",
+    "base_model: your_model_name # the model to be used from hugging face hub\n",
+    "project_name: autotrain-generic-model # the name of the project, must be unique\n",
+    "log: tensorboard # do not change\n",
+    "backend: local # do not change\n",
+    "\n",
+    "data:\n",
+    "  path: data/ # the path to the data folder\n",
+    "  train_split: train # this folder inside data/ will be used for training\n",
+    "  valid_split: null # this folder inside data/ will be used for validation. If not available, set it to null\n",
+    "  column_mapping: # adjust based on your data\n",
+    "    text_column: text\n",
+    "    target_column: labels\n",
+    "\n",
+    "params:\n",
+    "  epochs: 3\n",
+    "  batch_size: 8\n",
+    "  lr: 2e-5\n",
+    "  optimizer: adamw_torch\n",
+    "  scheduler: linear\n",
+    "  gradient_accumulation: 1\n",
+    "  mixed_precision: fp16\n",
+    "\n",
+    "hub:\n",
+    "  username: ${HF_USERNAME} # please set HF_USERNAME in colab secrets\n",
+    "  token: ${HF_TOKEN} # please set HF_TOKEN in colab secrets, must be valid hugging face write token\n",
+    "  push_to_hub: true # set to true if you want to push the model to the hub"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from google.colab import userdata\n",
+    "HF_USERNAME = userdata.get('HF_USERNAME')\n",
+    "HF_TOKEN = userdata.get('HF_TOKEN')\n",
+    "os.environ['HF_USERNAME'] = HF_USERNAME\n",
+    "os.environ['HF_TOKEN'] = HF_TOKEN\n",
+    "!autotrain --config config.yml"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/colabs/image_instance_segmentation.ipynb b/colabs/image_instance_segmentation.ipynb
new file mode 100644
index 0000000000..fb090ad366
--- /dev/null
+++ b/colabs/image_instance_segmentation.ipynb
@@ -0,0 +1,62 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%writefile config.yml\n",
+    "task: image_instance_segmentation # do not change\n",
+    "base_model: facebook/mask2former-swin-large-coco-instance # the model to be used from hugging face hub\n",
+    "project_name: autotrain-image-instance-segmentation-model # the name of the project, must be unique\n",
+    "log: tensorboard # do not change\n",
+    "backend: local # do not change\n",
+    "\n",
+    "data:\n",
+    "  path: data/ # the path to the data folder\n",
+    "  train_split: train # this folder inside data/ will be used for training\n",
+    "  valid_split: null # this folder inside data/ will be used for validation. If not available, set it to null\n",
+    "  column_mapping: # do not change\n",
+    "    image_column: image\n",
+    "    objects_column: objects\n",
+    "\n",
+    "params:\n",
+    "  epochs: 3\n",
+    "  batch_size: 4\n",
+    "  lr: 5e-5\n",
+    "  optimizer: adamw_torch\n",
+    "  scheduler: linear\n",
+    "  gradient_accumulation: 2\n",
+    "  mixed_precision: fp16\n",
+    "\n",
+    "hub:\n",
+    "  username: ${HF_USERNAME} # please set HF_USERNAME in colab secrets\n",
+    "  token: ${HF_TOKEN} # please set HF_TOKEN in colab secrets, must be valid hugging face write token\n",
+    "  push_to_hub: true # set to true if you want to push the model to the hub"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from google.colab import userdata\n",
+    "HF_USERNAME = userdata.get('HF_USERNAME')\n",
+    "HF_TOKEN = userdata.get('HF_TOKEN')\n",
+    "os.environ['HF_USERNAME'] = HF_USERNAME\n",
+    "os.environ['HF_TOKEN'] = HF_TOKEN\n",
+    "!autotrain --config config.yml"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/colabs/image_regression.ipynb b/colabs/image_regression.ipynb
new file mode 100644
index 0000000000..d878822302
--- /dev/null
+++ b/colabs/image_regression.ipynb
@@ -0,0 +1,62 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%writefile config.yml\n",
+    "task: image_regression # do not change\n",
+    "base_model: google/vit-base-patch16-224 # the model to be used from hugging face hub\n",
+    "project_name: autotrain-image-regression-model # the name of the project, must be unique\n",
+    "log: tensorboard # do not change\n",
+    "backend: local # do not change\n",
+    "\n",
+    "data:\n",
+    "  path: data/ # the path to the data folder\n",
+    "  train_split: train # this folder inside data/ will be used for training\n",
+    "  valid_split: null # this folder inside data/ will be used for validation. If not available, set it to null\n",
+    "  column_mapping: # do not change\n",
+    "    image_column: image\n",
+    "    target_column: target\n",
+    "\n",
+    "params:\n",
+    "  epochs: 3\n",
+    "  batch_size: 8\n",
+    "  lr: 5e-5\n",
+    "  optimizer: adamw_torch\n",
+    "  scheduler: linear\n",
+    "  gradient_accumulation: 1\n",
+    "  mixed_precision: fp16\n",
+    "\n",
+    "hub:\n",
+    "  username: ${HF_USERNAME} # please set HF_USERNAME in colab secrets\n",
+    "  token: ${HF_TOKEN} # please set HF_TOKEN in colab secrets, must be valid hugging face write token\n",
+    "  push_to_hub: true # set to true if you want to push the model to the hub"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from google.colab import userdata\n",
+    "HF_USERNAME = userdata.get('HF_USERNAME')\n",
+    "HF_TOKEN = userdata.get('HF_TOKEN')\n",
+    "os.environ['HF_USERNAME'] = HF_USERNAME\n",
+    "os.environ['HF_TOKEN'] = HF_TOKEN\n",
+    "!autotrain --config config.yml"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/colabs/image_semantic_segmentation.ipynb b/colabs/image_semantic_segmentation.ipynb
new file mode 100644
index 0000000000..53a1fa4f09
--- /dev/null
+++ b/colabs/image_semantic_segmentation.ipynb
@@ -0,0 +1,62 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%writefile config.yml\n",
+    "task: image_semantic_segmentation # do not change\n",
+    "base_model: nvidia/segformer-b0-finetuned-ade-512-512 # the model to be used from hugging face hub\n",
+    "project_name: autotrain-image-semantic-segmentation-model # the name of the project, must be unique\n",
+    "log: tensorboard # do not change\n",
+    "backend: local # do not change\n",
+    "\n",
+    "data:\n",
+    "  path: data/ # the path to the data folder\n",
+    "  train_split: train # this folder inside data/ will be used for training\n",
+    "  valid_split: null # this folder inside data/ will be used for validation. If not available, set it to null\n",
+    "  column_mapping: # do not change\n",
+    "    image_column: image\n",
+    "    target_column: annotation\n",
+    "\n",
+    "params:\n",
+    "  epochs: 3\n",
+    "  batch_size: 4\n",
+    "  lr: 6e-5\n",
+    "  optimizer: adamw_torch\n",
+    "  scheduler: linear\n",
+    "  gradient_accumulation: 2\n",
+    "  mixed_precision: fp16\n",
+    "\n",
+    "hub:\n",
+    "  username: ${HF_USERNAME} # please set HF_USERNAME in colab secrets\n",
+    "  token: ${HF_TOKEN} # please set HF_TOKEN in colab secrets, must be valid hugging face write token\n",
+    "  push_to_hub: true # set to true if you want to push the model to the hub"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from google.colab import userdata\n",
+    "HF_USERNAME = userdata.get('HF_USERNAME')\n",
+    "HF_TOKEN = userdata.get('HF_TOKEN')\n",
+    "os.environ['HF_USERNAME'] = HF_USERNAME\n",
+    "os.environ['HF_TOKEN'] = HF_TOKEN\n",
+    "!autotrain --config config.yml"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/colabs/object_detection.ipynb b/colabs/object_detection.ipynb
new file mode 100644
index 0000000000..31be3568a5
--- /dev/null
+++ b/colabs/object_detection.ipynb
@@ -0,0 +1,62 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%writefile config.yml\n",
+    "task: object_detection # do not change\n",
+    "base_model: facebook/detr-resnet-50 # the model to be used from hugging face hub\n",
+    "project_name: autotrain-object-detection-model # the name of the project, must be unique\n",
+    "log: tensorboard # do not change\n",
+    "backend: local # do not change\n",
+    "\n",
+    "data:\n",
+    "  path: data/ # the path to the data folder\n",
+    "  train_split: train # this folder inside data/ will be used for training\n",
+    "  valid_split: null # this folder inside data/ will be used for validation. If not available, set it to null\n",
+    "  column_mapping: # do not change\n",
+    "    image_column: image\n",
+    "    objects_column: objects\n",
+    "\n",
+    "params:\n",
+    "  epochs: 3\n",
+    "  batch_size: 4\n",
+    "  lr: 1e-4\n",
+    "  optimizer: adamw_torch\n",
+    "  scheduler: linear\n",
+    "  gradient_accumulation: 2\n",
+    "  mixed_precision: fp16\n",
+    "\n",
+    "hub:\n",
+    "  username: ${HF_USERNAME} # please set HF_USERNAME in colab secrets\n",
+    "  token: ${HF_TOKEN} # please set HF_TOKEN in colab secrets, must be valid hugging face write token\n",
+    "  push_to_hub: true # set to true if you want to push the model to the hub"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from google.colab import userdata\n",
+    "HF_USERNAME = userdata.get('HF_USERNAME')\n",
+    "HF_TOKEN = userdata.get('HF_TOKEN')\n",
+    "os.environ['HF_USERNAME'] = HF_USERNAME\n",
+    "os.environ['HF_TOKEN'] = HF_TOKEN\n",
+    "!autotrain --config config.yml"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/colabs/sent_transformers.ipynb b/colabs/sent_transformers.ipynb
new file mode 100644
index 0000000000..21e75922d1
--- /dev/null
+++ b/colabs/sent_transformers.ipynb
@@ -0,0 +1,63 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%writefile config.yml\n",
+    "task: sentence_transformers # do not change\n",
+    "base_model: sentence-transformers/all-MiniLM-L6-v2 # the model to be used from hugging face hub\n",
+    "project_name: autotrain-sentence-transformers-model # the name of the project, must be unique\n",
+    "log: tensorboard # do not change\n",
+    "backend: local # do not change\n",
+    "\n",
+    "data:\n",
+    "  path: data/ # the path to the data folder\n",
+    "  train_split: train # this folder inside data/ will be used for training\n",
+    "  valid_split: null # this folder inside data/ will be used for validation. If not available, set it to null\n",
+    "  column_mapping: # do not change\n",
+    "    sentence1_column: sentence1\n",
+    "    sentence2_column: sentence2\n",
+    "    target_column: score\n",
+    "\n",
+    "params:\n",
+    "  epochs: 3\n",
+    "  batch_size: 16\n",
+    "  lr: 2e-5\n",
+    "  optimizer: adamw_torch\n",
+    "  scheduler: linear\n",
+    "  gradient_accumulation: 1\n",
+    "  mixed_precision: fp16\n",
+    "\n",
+    "hub:\n",
+    "  username: ${HF_USERNAME} # please set HF_USERNAME in colab secrets\n",
+    "  token: ${HF_TOKEN} # please set HF_TOKEN in colab secrets, must be valid hugging face write token\n",
+    "  push_to_hub: true # set to true if you want to push the model to the hub"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from google.colab import userdata\n",
+    "HF_USERNAME = userdata.get('HF_USERNAME')\n",
+    "HF_TOKEN = userdata.get('HF_TOKEN')\n",
+    "os.environ['HF_USERNAME'] = HF_USERNAME\n",
+    "os.environ['HF_TOKEN'] = HF_TOKEN\n",
+    "!autotrain --config config.yml"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/colabs/seq2seq.ipynb b/colabs/seq2seq.ipynb
new file mode 100644
index 0000000000..68467069f1
--- /dev/null
+++ b/colabs/seq2seq.ipynb
@@ -0,0 +1,64 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%writefile config.yml\n",
+    "task: seq2seq # do not change\n",
+    "base_model: google-t5/t5-small # the model to be used from hugging face hub\n",
+    "project_name: autotrain-seq2seq-model # the name of the project, must be unique\n",
+    "log: tensorboard # do not change\n",
+    "backend: local # do not change\n",
+    "\n",
+    "data:\n",
+    "  path: data/ # the path to the data folder\n",
+    "  train_split: train # this folder inside data/ will be used for training\n",
+    "  valid_split: null # this folder inside data/ will be used for validation. If not available, set it to null\n",
+    "  column_mapping: # do not change\n",
+    "    text_column: article\n",
+    "    target_column: highlights\n",
+    "\n",
+    "params:\n",
+    "  epochs: 3\n",
+    "  batch_size: 8\n",
+    "  max_seq_length: 512\n",
+    "  max_target_length: 128\n",
+    "  lr: 3e-4\n",
+    "  optimizer: adamw_torch\n",
+    "  scheduler: linear\n",
+    "  gradient_accumulation: 1\n",
+    "  mixed_precision: fp16\n",
+    "\n",
+    "hub:\n",
+    "  username: ${HF_USERNAME} # please set HF_USERNAME in colab secrets\n",
+    "  token: ${HF_TOKEN} # please set HF_TOKEN in colab secrets, must be valid hugging face write token\n",
+    "  push_to_hub: true # set to true if you want to push the model to the hub"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from google.colab import userdata\n",
+    "HF_USERNAME = userdata.get('HF_USERNAME')\n",
+    "HF_TOKEN = userdata.get('HF_TOKEN')\n",
+    "os.environ['HF_USERNAME'] = HF_USERNAME\n",
+    "os.environ['HF_TOKEN'] = HF_TOKEN\n",
+    "!autotrain --config config.yml"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/colabs/tabular.ipynb b/colabs/tabular.ipynb
new file mode 100644
index 0000000000..a5b994b8cc
--- /dev/null
+++ b/colabs/tabular.ipynb
@@ -0,0 +1,59 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%writefile config.yml\n",
+    "task: tabular # do not change\n",
+    "base_model: xgboost # can be xgboost, lightgbm, catboost, randomforest, etc.\n",
+    "project_name: autotrain-tabular-model # the name of the project, must be unique\n",
+    "log: tensorboard # do not change\n",
+    "backend: local # do not change\n",
+    "\n",
+    "data:\n",
+    "  path: data/ # the path to the data folder\n",
+    "  train_split: train # this folder inside data/ will be used for training\n",
+    "  valid_split: null # this folder inside data/ will be used for validation. If not available, set it to null\n",
+    "  column_mapping: # adjust based on your data\n",
+    "    id_column: id\n",
+    "    target_columns:\n",
+    "      - target\n",
+    "\n",
+    "params:\n",
+    "  task: classification # can be \"classification\" or \"regression\"\n",
+    "  num_trials: 10 # number of hyperparameter optimization trials\n",
+    "  time_limit: 600 # time limit in seconds\n",
+    "\n",
+    "hub:\n",
+    "  username: ${HF_USERNAME} # please set HF_USERNAME in colab secrets\n",
+    "  token: ${HF_TOKEN} # please set HF_TOKEN in colab secrets, must be valid hugging face write token\n",
+    "  push_to_hub: true # set to true if you want to push the model to the hub"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from google.colab import userdata\n",
+    "HF_USERNAME = userdata.get('HF_USERNAME')\n",
+    "HF_TOKEN = userdata.get('HF_TOKEN')\n",
+    "os.environ['HF_USERNAME'] = HF_USERNAME\n",
+    "os.environ['HF_TOKEN'] = HF_TOKEN\n",
+    "!autotrain --config config.yml"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/colabs/text_classification.ipynb b/colabs/text_classification.ipynb
new file mode 100644
index 0000000000..862a42ed4f
--- /dev/null
+++ b/colabs/text_classification.ipynb
@@ -0,0 +1,63 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%writefile config.yml\n",
+    "task: text_classification # do not change\n",
+    "base_model: google-bert/bert-base-uncased # the model to be used from hugging face hub\n",
+    "project_name: autotrain-text-classification-model # the name of the project, must be unique\n",
+    "log: tensorboard # do not change\n",
+    "backend: local # do not change\n",
+    "\n",
+    "data:\n",
+    "  path: data/ # the path to the data folder\n",
+    "  train_split: train # this folder inside data/ will be used for training\n",
+    "  valid_split: null # this folder inside data/ will be used for validation. If not available, set it to null\n",
+    "  column_mapping: # do not change\n",
+    "    text_column: text\n",
+    "    target_column: labels\n",
+    "\n",
+    "params:\n",
+    "  epochs: 3\n",
+    "  batch_size: 8\n",
+    "  max_seq_length: 512\n",
+    "  lr: 1e-5\n",
+    "  optimizer: adamw_torch\n",
+    "  scheduler: linear\n",
+    "  gradient_accumulation: 1\n",
+    "  mixed_precision: fp16\n",
+    "\n",
+    "hub:\n",
+    "  username: ${HF_USERNAME} # please set HF_USERNAME in colab secrets\n",
+    "  token: ${HF_TOKEN} # please set HF_TOKEN in colab secrets, must be valid hugging face write token\n",
+    "  push_to_hub: true # set to true if you want to push the model to the hub"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from google.colab import userdata\n",
+    "HF_USERNAME = userdata.get('HF_USERNAME')\n",
+    "HF_TOKEN = userdata.get('HF_TOKEN')\n",
+    "os.environ['HF_USERNAME'] = HF_USERNAME\n",
+    "os.environ['HF_TOKEN'] = HF_TOKEN\n",
+    "!autotrain --config config.yml"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/colabs/text_regression.ipynb b/colabs/text_regression.ipynb
new file mode 100644
index 0000000000..de8f3a0427
--- /dev/null
+++ b/colabs/text_regression.ipynb
@@ -0,0 +1,63 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%writefile config.yml\n",
+    "task: text_regression # do not change\n",
+    "base_model: google-bert/bert-base-uncased # the model to be used from hugging face hub\n",
+    "project_name: autotrain-text-regression-model # the name of the project, must be unique\n",
+    "log: tensorboard # do not change\n",
+    "backend: local # do not change\n",
+    "\n",
+    "data:\n",
+    "  path: data/ # the path to the data folder\n",
+    "  train_split: train # this folder inside data/ will be used for training\n",
+    "  valid_split: null # this folder inside data/ will be used for validation. If not available, set it to null\n",
+    "  column_mapping: # do not change\n",
+    "    text_column: text\n",
+    "    target_column: target\n",
+    "\n",
+    "params:\n",
+    "  epochs: 3\n",
+    "  batch_size: 8\n",
+    "  max_seq_length: 512\n",
+    "  lr: 1e-5\n",
+    "  optimizer: adamw_torch\n",
+    "  scheduler: linear\n",
+    "  gradient_accumulation: 1\n",
+    "  mixed_precision: fp16\n",
+    "\n",
+    "hub:\n",
+    "  username: ${HF_USERNAME} # please set HF_USERNAME in colab secrets\n",
+    "  token: ${HF_TOKEN} # please set HF_TOKEN in colab secrets, must be valid hugging face write token\n",
+    "  push_to_hub: true # set to true if you want to push the model to the hub"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from google.colab import userdata\n",
+    "HF_USERNAME = userdata.get('HF_USERNAME')\n",
+    "HF_TOKEN = userdata.get('HF_TOKEN')\n",
+    "os.environ['HF_USERNAME'] = HF_USERNAME\n",
+    "os.environ['HF_TOKEN'] = HF_TOKEN\n",
+    "!autotrain --config config.yml"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/colabs/token_classification.ipynb b/colabs/token_classification.ipynb
new file mode 100644
index 0000000000..b6cbdd7987
--- /dev/null
+++ b/colabs/token_classification.ipynb
@@ -0,0 +1,63 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%writefile config.yml\n",
+    "task: token_classification # do not change\n",
+    "base_model: google-bert/bert-base-uncased # the model to be used from hugging face hub\n",
+    "project_name: autotrain-token-classification-model # the name of the project, must be unique\n",
+    "log: tensorboard # do not change\n",
+    "backend: local # do not change\n",
+    "\n",
+    "data:\n",
+    "  path: data/ # the path to the data folder\n",
+    "  train_split: train # this folder inside data/ will be used for training\n",
+    "  valid_split: null # this folder inside data/ will be used for validation. If not available, set it to null\n",
+    "  column_mapping: # do not change\n",
+    "    tokens_column: tokens\n",
+    "    tags_column: ner_tags\n",
+    "\n",
+    "params:\n",
+    "  epochs: 3\n",
+    "  batch_size: 8\n",
+    "  max_seq_length: 512\n",
+    "  lr: 2e-5\n",
+    "  optimizer: adamw_torch\n",
+    "  scheduler: linear\n",
+    "  gradient_accumulation: 1\n",
+    "  mixed_precision: fp16\n",
+    "\n",
+    "hub:\n",
+    "  username: ${HF_USERNAME} # please set HF_USERNAME in colab secrets\n",
+    "  token: ${HF_TOKEN} # please set HF_TOKEN in colab secrets, must be valid hugging face write token\n",
+    "  push_to_hub: true # set to true if you want to push the model to the hub"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from google.colab import userdata\n",
+    "HF_USERNAME = userdata.get('HF_USERNAME')\n",
+    "HF_TOKEN = userdata.get('HF_TOKEN')\n",
+    "os.environ['HF_USERNAME'] = HF_USERNAME\n",
+    "os.environ['HF_TOKEN'] = HF_TOKEN\n",
+    "!autotrain --config config.yml"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/colabs/vlm.ipynb b/colabs/vlm.ipynb
new file mode 100644
index 0000000000..206a45f31a
--- /dev/null
+++ b/colabs/vlm.ipynb
@@ -0,0 +1,62 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%writefile config.yml\n",
+    "task: vlm # do not change\n",
+    "base_model: microsoft/kosmos-2-patch14-224 # the model to be used from hugging face hub\n",
+    "project_name: autotrain-vlm-model # the name of the project, must be unique\n",
+    "log: tensorboard # do not change\n",
+    "backend: local # do not change\n",
+    "\n",
+    "data:\n",
+    "  path: data/ # the path to the data folder\n",
+    "  train_split: train # this folder inside data/ will be used for training\n",
+    "  valid_split: null # this folder inside data/ will be used for validation. If not available, set it to null\n",
+    "  column_mapping: # do not change\n",
+    "    image_column: image\n",
+    "    text_column: text\n",
+    "\n",
+    "params:\n",
+    "  epochs: 3\n",
+    "  batch_size: 4\n",
+    "  lr: 1e-5\n",
+    "  optimizer: adamw_torch\n",
+    "  scheduler: linear\n",
+    "  gradient_accumulation: 4\n",
+    "  mixed_precision: fp16\n",
+    "\n",
+    "hub:\n",
+    "  username: ${HF_USERNAME} # please set HF_USERNAME in colab secrets\n",
+    "  token: ${HF_TOKEN} # please set HF_TOKEN in colab secrets, must be valid hugging face write token\n",
+    "  push_to_hub: true # set to true if you want to push the model to the hub"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os\n",
+    "from google.colab import userdata\n",
+    "HF_USERNAME = userdata.get('HF_USERNAME')\n",
+    "HF_TOKEN = userdata.get('HF_TOKEN')\n",
+    "os.environ['HF_USERNAME'] = HF_USERNAME\n",
+    "os.environ['HF_TOKEN'] = HF_TOKEN\n",
+    "!autotrain --config config.yml"
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/configs/image_instance_segmentation/hub_dataset.yml b/configs/image_instance_segmentation/hub_dataset.yml
new file mode 100644
index 0000000000..fa0856b252
--- /dev/null
+++ b/configs/image_instance_segmentation/hub_dataset.yml
@@ -0,0 +1,32 @@
+task: image_instance_segmentation
+base_model: facebook/detr-resnet-50-panoptic
+data_path: username/dataset_name
+train_split: train
+valid_split: validation
+image_column: image
+target_column: instance_mask
+bbox_column: bbox
+category_column: category
+epochs: 3
+batch_size: 2
+lr: 5e-5
+seed: 42
+gradient_accumulation: 1
+eval_strategy: epoch
+save_total_limit: 1
+auto_find_batch_size: false
+mixed_precision: null
+warmup_ratio: 0.1
+weight_decay: 0.0
+optimizer: adamw_torch
+scheduler: linear
+project_name: instance-segmentation-model
+log: none
+early_stopping_patience: 5
+early_stopping_threshold: 0.01
+push_to_hub: false
+repo_id: username/repo_name
+token: your_hf_token_here
+ignore_mismatched_sizes: true
+reduce_labels: false
+max_instances: 100 
\ No newline at end of file
diff --git a/configs/image_instance_segmentation/local.yml b/configs/image_instance_segmentation/local.yml
new file mode 100644
index 0000000000..cc8fb924a9
--- /dev/null
+++ b/configs/image_instance_segmentation/local.yml
@@ -0,0 +1,32 @@
+task: image_instance_segmentation
+base_model: facebook/detr-resnet-50-panoptic
+data_path: data/
+train_split: train
+valid_split: validation
+image_column: image
+target_column: instance_mask
+bbox_column: bbox
+category_column: category
+epochs: 3
+batch_size: 2
+lr: 5e-5
+seed: 42
+gradient_accumulation: 1
+eval_strategy: epoch
+save_total_limit: 1
+auto_find_batch_size: false
+mixed_precision: null
+warmup_ratio: 0.1
+weight_decay: 0.0
+optimizer: adamw_torch
+scheduler: linear
+project_name: instance-segmentation-model
+log: none
+early_stopping_patience: 5
+early_stopping_threshold: 0.01
+push_to_hub: false
+repo_id: username/repo_name
+token: your_hf_token_here
+ignore_mismatched_sizes: true
+reduce_labels: false
+max_instances: 100 
\ No newline at end of file
diff --git a/configs/image_semantic_segmentation/hub_dataset.yml b/configs/image_semantic_segmentation/hub_dataset.yml
new file mode 100644
index 0000000000..28360e2c41
--- /dev/null
+++ b/configs/image_semantic_segmentation/hub_dataset.yml
@@ -0,0 +1,36 @@
+task: image_semantic_segmentation
+base_model: nvidia/mit-b0
+project_name: autotrain-image-semantic-segmentation-hub
+log: tensorboard
+backend: spaces-a10g-large
+
+# Hub dataset configuration
+data_path: your_username/your_segmentation_dataset
+train_split: train
+valid_split: validation
+column_mapping:
+  image_column: image
+  target_column: segmentation_mask
+
+# Training parameters
+params:
+  epochs: 10
+  batch_size: 4
+  lr: 3e-5
+  optimizer: adamw_torch
+  scheduler: linear
+  gradient_accumulation: 2
+  mixed_precision: fp16
+  ignore_mismatched_sizes: true
+  reduce_labels: false
+  logging_steps: 50
+  save_total_limit: 3
+  eval_strategy: epoch
+  early_stopping_patience: 3
+  early_stopping_threshold: 0.01
+
+# Hub settings
+hub:
+  username: ${HF_USERNAME}
+  token: ${HF_TOKEN}
+  push_to_hub: true 
\ No newline at end of file
diff --git a/configs/image_semantic_segmentation/local.yml b/configs/image_semantic_segmentation/local.yml
new file mode 100644
index 0000000000..057b588414
--- /dev/null
+++ b/configs/image_semantic_segmentation/local.yml
@@ -0,0 +1,29 @@
+task: image_semantic_segmentation
+base_model: nvidia/mit-b0
+project_name: autotrain-image-semantic-segmentation-model
+log: tensorboard
+backend: local
+
+data:
+  path: data/
+  train_split: train # this folder inside data/ will be used for training, it contains the images and masks.
+  valid_split: null
+  column_mapping:
+    image_column: image
+    target_column: segmentation_mask
+
+params:
+  epochs: 3
+  batch_size: 1
+  lr: 5e-5
+  optimizer: adamw_torch
+  scheduler: linear
+  gradient_accumulation: 1
+  mixed_precision: fp16
+  ignore_mismatched_sizes: true
+  reduce_labels: false
+
+hub:
+  username: ${HF_USERNAME}
+  token: ${HF_TOKEN}
+  push_to_hub: true 
\ No newline at end of file
diff --git a/docs/source/_toctree.yml b/docs/source/_toctree.yml
index fbb26c0f87..f1e56871da 100644
--- a/docs/source/_toctree.yml
+++ b/docs/source/_toctree.yml
@@ -31,6 +31,8 @@
     title: Image Classification / Regression
   - local: tasks/object_detection
     title: Object Detection
+  - local: tasks/audio
+    title: Audio Tasks
   - local: tasks/seq2seq
     title: Seq2Seq
   - local: tasks/token_classification
diff --git a/docs/source/tasks/audio.mdx b/docs/source/tasks/audio.mdx
new file mode 100644
index 0000000000..01c12365e6
--- /dev/null
+++ b/docs/source/tasks/audio.mdx
@@ -0,0 +1,193 @@
+# Audio Tasks with AutoTrain Advanced
+
+AutoTrain Advanced supports multiple audio-related machine learning tasks. This guide covers everything you need to know about training audio models.
+
+## Supported Audio Tasks
+
+AutoTrain supports three main audio tasks:
+- **Audio Classification**: Classify audio files into categories
+- **Audio Segmentation**: Segment audio into different classes over time
+- **Audio Detection**: Detect and locate specific events in audio
+
+Config file task names:
+- `audio-classification` / `audio_classification`
+- `audio-segmentation` / `audio_segmentation` 
+- `audio-detection` / `audio_detection`
+
+## Data Format
+
+All audio tasks support data in ZIP format containing audio files and metadata.
+
+### Audio Classification
+
+For audio classification, your data should be in ZIP format with the following structure:
+
+```
+dataset.zip
+├── audio1.wav
+├── audio2.wav
+├── audio3.mp3
+└── metadata.jsonl
+```
+
+The `metadata.jsonl` file should contain:
+
+```json
+{"file_name": "audio1.wav", "label": "speech"}
+{"file_name": "audio2.wav", "label": "music"}
+{"file_name": "audio3.mp3", "label": "noise"}
+```
+
+Example use cases:
+- Speech vs music classification
+- Emotion recognition from audio
+- Environmental sound classification
+
+### Audio Segmentation
+
+For audio segmentation, use the same ZIP structure but with temporal segment annotations:
+
+```json
+{"file_name": "audio1.wav", "segments": [{"start": 0.0, "end": 2.5, "label": "speech"}, {"start": 2.5, "end": 5.0, "label": "music"}]}
+{"file_name": "audio2.wav", "segments": [{"start": 0.0, "end": 1.0, "label": "silence"}, {"start": 1.0, "end": 3.0, "label": "speech"}]}
+```
+
+Example use cases:
+- Speaker diarization
+- Music genre segmentation
+- Audio scene analysis
+
+### Audio Detection
+
+For audio detection, provide event annotations with precise timing:
+
+```json
+{"file_name": "audio1.wav", "events": [{"start": 1.23, "end": 1.87, "label": "car_horn"}, {"start": 3.45, "end": 4.12, "label": "siren"}]}
+{"file_name": "audio2.wav", "events": [{"start": 0.5, "end": 2.1, "label": "dog_bark"}]}
+```
+
+Example use cases:
+- Sound event detection
+- Anomaly detection in audio
+- Audio surveillance systems
+
+## Column Mapping
+
+### Audio Classification
+Your dataset columns should map to:
+- `audio_column`: Path to audio files (default: "audio_path")
+- `target_column`: Classification labels (default: "intent")
+
+### Audio Segmentation  
+Your dataset columns should map to:
+- `audio_column`: Path to audio files (default: "audio_path")
+- `target_column`: Segment annotations (default: "segments")
+
+### Audio Detection
+Your dataset columns should map to:
+- `audio_column`: Path to audio files (default: "audio_path") 
+- `events_column`: Event annotations (default: "events")
+
+## Training
+
+### Local Training
+
+To train an audio model locally, use:
+
+```bash
+autotrain --config config.yaml
+```
+
+Example configuration for audio classification:
+
+```yaml
+task: audio-classification
+base_model: facebook/wav2vec2-base
+project_name: my-audio-classifier
+log: tensorboard
+backend: local
+
+data:
+  path: ./my-audio-dataset.zip
+  train_split: train
+  valid_split: validation
+  column_mapping:
+    audio_column: audio_path
+    target_column: intent
+
+params:
+  lr: 3e-5
+  epochs: 10
+  batch_size: 8
+  seed: 42
+  eval_strategy: epoch
+  save_total_limit: 1
+  auto_find_batch_size: true
+
+hub:
+  username: your-username
+  token: ${HF_TOKEN}
+  push_to_hub: true
+```
+
+### Recommended Models
+
+**Audio Classification:**
+- `facebook/wav2vec2-base`
+- `microsoft/unispeech-sat-base`
+- `facebook/hubert-base-ls960`
+
+**Audio Segmentation:**
+- `facebook/wav2vec2-base`
+- `microsoft/wavlm-base`
+
+**Audio Detection:** 
+- `facebook/wav2vec2-base`
+- `microsoft/unispeech-sat-base`
+
+## Tips and Best Practices
+
+1. **Audio Format**: WAV and MP3 formats are supported
+2. **Sample Rate**: Most models work best with 16kHz audio
+3. **Duration**: Keep audio clips under 30 seconds for best performance  
+4. **Data Quality**: Ensure consistent audio quality across your dataset
+5. **Balanced Dataset**: Try to have balanced classes for classification tasks
+6. **Validation Split**: Reserve 10-20% of data for validation
+
+## Python API
+
+You can also train using Python:
+
+```python
+from autotrain import AutoTrain
+
+# Audio Classification
+project = AutoTrain(
+    task="audio-classification",
+    project_name="my-audio-classifier",
+    base_model="facebook/wav2vec2-base",
+    data_path="./audio-dataset.zip",
+    lr=3e-5,
+    epochs=10,
+    batch_size=8,
+)
+project.train()
+```
+
+## Inference
+
+After training, use your model for inference:
+
+```python
+from transformers import pipeline
+
+# Load your trained model
+classifier = pipeline(
+    "audio-classification", 
+    model="your-username/my-audio-classifier"
+)
+
+# Classify audio
+result = classifier("path/to/audio.wav")
+print(result)
+``` 
\ No newline at end of file
diff --git a/docs/source/tasks/image_semantic_segmentation.mdx b/docs/source/tasks/image_semantic_segmentation.mdx
new file mode 100644
index 0000000000..345a97da9e
--- /dev/null
+++ b/docs/source/tasks/image_semantic_segmentation.mdx
@@ -0,0 +1,180 @@
+# Image Semantic Segmentation
+
+Image semantic segmentation is a computer vision task that involves classifying each pixel in an image to a specific class or category. AutoTrain simplifies the process, enabling you to train a state-of-the-art semantic segmentation model by providing labeled images and their corresponding segmentation masks.
+
+## Preparing your data
+
+AutoTrain supports the **standard semantic segmentation format** used by popular annotation tools like CVAT, Supervisely, and Pascal VOC. You can provide your data as either a **zip file** or a **directory**.
+
+### Supported Input Formats
+
+**Option 1: Zip File** (Recommended)
+Upload a single zip file containing your entire dataset.
+
+**Option 2: Directory**
+Upload a directory with the proper structure.
+
+**Option 3: Hugging Face Dataset**
+Use a Hugging Face dataset with column mapping.
+
+### Directory Structure
+
+AutoTrain automatically detects various common naming conventions:
+
+```
+segmentation_data.zip  # or segmentation_data/
+├── images/          # or: img/, image/, imgs/
+│   ├── image1.jpg
+│   ├── image2.png
+│   └── ...
+├── masks/           # or: mask/, annotations/, ann/, segmentations/, labels/
+│   ├── image1.png   # Same base name as corresponding image
+│   ├── image2.png
+│   └── ...
+└── classes.txt      # OPTIONAL: class names (one per line)
+```
+
+### Alternative: Flat Structure
+```
+segmentation_data/
+├── image1.jpg       # Images and masks in same directory
+├── image1.png       # (masks distinguished by .png extension)
+├── image2.jpg
+├── image2.png
+└── classes.txt      # Optional
+```
+
+### File Requirements
+
+**Images:**
+- Formats: JPG, JPEG, PNG, BMP, WEBP, TIFF, TIF, JFIF, AVIF, HEIC, HEIF
+- Any resolution (will be automatically resized for training)
+
+**Masks:**
+- Format: PNG (grayscale)
+- Pixel values represent class IDs:
+  - 0 = background
+  - 1 = first class
+  - 2 = second class
+  - etc.
+- Same base filename as corresponding image
+
+**Classes File (Optional):**
+- Filename: `classes.txt`, `labelmap.txt`, or `labels.txt`
+- Format: One class name per line
+- If not provided, classes will be auto-named as `class_0`, `class_1`, etc.
+
+Example classes.txt:
+```
+background
+person
+car
+bicycle
+dog
+cat
+```
+
+### Compatible with Annotation Tools
+
+This format is directly compatible with exports from:
+- **CVAT** (Computer Vision Annotation Tool)
+- **Supervisely**
+- **Labelme**
+- **Pascal VOC segmentation format**
+- **VGG Image Annotator (VIA)**
+
+### Hugging Face Dataset Format
+
+For Hugging Face datasets, use the column mapping:
+- `image_column`: column containing the input images
+- `target_column`: column containing the segmentation masks
+
+## Configuration Options
+
+### Key Parameters
+
+- `model`: Pre-trained model to use (default: "nvidia/mit-b0")
+- `batch_size`: Training batch size (default: 2, smaller due to memory requirements)
+- `learning_rate`: Learning rate for training (default: 5e-5)
+- `epochs`: Number of training epochs (default: 3)
+- `ignore_mismatched_sizes`: Ignore size mismatches when loading model (default: true)
+- `reduce_labels`: Whether to reduce label ids by 1 (useful for some datasets) (default: false)
+
+### Example Configuration
+
+```yaml
+task: image_semantic_segmentation
+base_model: nvidia/mit-b0
+project_name: my-segmentation-model
+log: tensorboard
+backend: local
+
+data:
+  path: data/
+  train_split: train
+  valid_split: validation
+  column_mapping:
+    image_column: image
+    target_column: segmentation_mask
+
+params:
+  epochs: 10
+  batch_size: 4
+  lr: 3e-5
+  optimizer: adamw_torch
+  scheduler: linear
+  mixed_precision: fp16
+  ignore_mismatched_sizes: true
+  reduce_labels: false
+
+hub:
+  username: ${HF_USERNAME}
+  token: ${HF_TOKEN}
+  push_to_hub: true
+```
+
+## Supported Models
+
+AutoTrain supports various pre-trained models for semantic segmentation, including:
+
+- MIT (nvidia/mit-b0, nvidia/mit-b1, etc.)
+- SegFormer models
+- Other transformer-based segmentation models available on Hugging Face Hub
+
+## CLI Usage
+
+Train a semantic segmentation model using the CLI:
+
+```bash
+autotrain image-semantic-segmentation \
+  --train \
+  --project-name my-segmentation-project \
+  --data-path /path/to/data \
+  --model nvidia/mit-b0 \
+  --epochs 10 \
+  --batch-size 4 \
+  --lr 3e-5 \
+  --push-to-hub \
+  --username your-hf-username \
+  --token your-hf-token
+```
+
+## Use Cases
+
+Image semantic segmentation is useful for:
+
+- Medical image analysis (tumor detection, organ segmentation)
+- Autonomous driving (road, vehicle, pedestrian segmentation)
+- Satellite imagery analysis (land use classification)
+- Industrial quality control
+- Agricultural monitoring
+- Scene understanding and parsing
+
+## Tips for Better Results
+
+1. **Data Quality**: Ensure your segmentation masks are accurate and consistent
+2. **Class Balance**: Try to have balanced representation of different classes
+3. **Data Augmentation**: Use appropriate augmentation that preserves mask-image correspondence
+4. **Model Selection**: Choose models pre-trained on similar domains when possible
+5. **Batch Size**: Start with smaller batch sizes due to memory requirements
+6. **Learning Rate**: Use lower learning rates for fine-tuning pre-trained models 
\ No newline at end of file
diff --git a/notebooks/audio_classification.ipynb b/notebooks/audio_classification.ipynb
new file mode 100644
index 0000000000..5644762535
--- /dev/null
+++ b/notebooks/audio_classification.ipynb
@@ -0,0 +1,116 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Audio Classification using AutoTrain Advanced\n",
+    "\n",
+    "In this notebook, we will train an audio classification model using AutoTrain Advanced.\n",
+    "You can replace the model with any Hugging Face transformers compatible model and dataset with any other dataset in proper formatting.\n",
+    "For dataset formatting, please take a look at [docs](https://huggingface.co/docs/autotrain/index)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from autotrain.trainers.audio_classification.params import AudioClassificationParams\n",
+    "from autotrain.project import AutoTrainProject"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "HF_USERNAME = \"your_huggingface_username\"\n",
+    "HF_TOKEN = \"your_huggingface_write_token\" # get it from https://huggingface.co/settings/token\n",
+    "# It is recommended to use secrets or environment variables to store your HF_TOKEN\n",
+    "# your token is required if push_to_hub is set to True or if you are accessing a gated model/dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "params = AudioClassificationParams(\n",
+    "    model=\"facebook/wav2vec2-base\",\n",
+    "    data_path=\"speech_commands\", # path to the dataset on huggingface hub\n",
+    "    audio_column=\"audio\", # the column in the dataset that contains the audio\n",
+    "    target_column=\"label\", # the column in the dataset that contains the labels\n",
+    "    train_split=\"train\",\n",
+    "    valid_split=\"validation\",\n",
+    "    epochs=3,\n",
+    "    batch_size=8,\n",
+    "    lr=1e-5,\n",
+    "    optimizer=\"adamw_torch\",\n",
+    "    scheduler=\"linear\",\n",
+    "    gradient_accumulation=1,\n",
+    "    mixed_precision=\"fp16\",\n",
+    "    project_name=\"autotrain-audio-classification\",\n",
+    "    log=\"tensorboard\",\n",
+    "    push_to_hub=True,\n",
+    "    username=HF_USERNAME,\n",
+    "    token=HF_TOKEN,\n",
+    ")\n",
+    "# tip: you can use `?AudioClassificationParams` to see the full list of allowed parameters"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "If your dataset is in CSV / JSONL format (JSONL is most preferred) and is stored locally, make the following changes to `params`:\n",
+    "\n",
+    "```python\n",
+    "params = AudioClassificationParams(\n",
+    "    data_path=\"data/\", # this is the path to folder where train.jsonl/train.csv is located\n",
+    "    audio_column=\"audio\", # this is the column name in the CSV/JSONL file which contains the audio file paths\n",
+    "    train_split = \"train\" # this is the filename without extension\n",
+    "    valid_split = \"valid\" # this is the filename without extension\n",
+    "    .\n",
+    "    .\n",
+    "    .\n",
+    ")\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# this will train the model locally\n",
+    "project = AutoTrainProject(params=params, backend=\"local\", process=True)\n",
+    "project.create()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "autotrain",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/notebooks/audio_detection.ipynb b/notebooks/audio_detection.ipynb
new file mode 100644
index 0000000000..ca73de41ff
--- /dev/null
+++ b/notebooks/audio_detection.ipynb
@@ -0,0 +1,116 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Audio Detection using AutoTrain Advanced\n",
+    "\n",
+    "In this notebook, we will train an audio detection model using AutoTrain Advanced.\n",
+    "You can replace the model with any Hugging Face transformers compatible model and dataset with any other dataset in proper formatting.\n",
+    "For dataset formatting, please take a look at [docs](https://huggingface.co/docs/autotrain/index)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from autotrain.trainers.audio_detection.params import AudioDetectionParams\n",
+    "from autotrain.project import AutoTrainProject"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "HF_USERNAME = \"your_huggingface_username\"\n",
+    "HF_TOKEN = \"your_huggingface_write_token\" # get it from https://huggingface.co/settings/token\n",
+    "# It is recommended to use secrets or environment variables to store your HF_TOKEN\n",
+    "# your token is required if push_to_hub is set to True or if you are accessing a gated model/dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "params = AudioDetectionParams(\n",
+    "    model=\"facebook/wav2vec2-base\",\n",
+    "    data_path=\"your_audio_detection_dataset\", # path to the dataset on huggingface hub\n",
+    "    audio_column=\"audio\", # the column in the dataset that contains the audio\n",
+    "    target_column=\"labels\", # the column in the dataset that contains the detection labels\n",
+    "    train_split=\"train\",\n",
+    "    valid_split=\"validation\",\n",
+    "    epochs=3,\n",
+    "    batch_size=8,\n",
+    "    lr=1e-5,\n",
+    "    optimizer=\"adamw_torch\",\n",
+    "    scheduler=\"linear\",\n",
+    "    gradient_accumulation=1,\n",
+    "    mixed_precision=\"fp16\",\n",
+    "    project_name=\"autotrain-audio-detection\",\n",
+    "    log=\"tensorboard\",\n",
+    "    push_to_hub=True,\n",
+    "    username=HF_USERNAME,\n",
+    "    token=HF_TOKEN,\n",
+    ")\n",
+    "# tip: you can use `?AudioDetectionParams` to see the full list of allowed parameters"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "If your dataset is in CSV / JSONL format (JSONL is most preferred) and is stored locally, make the following changes to `params`:\n",
+    "\n",
+    "```python\n",
+    "params = AudioDetectionParams(\n",
+    "    data_path=\"data/\", # this is the path to folder where train.jsonl/train.csv is located\n",
+    "    audio_column=\"audio\", # this is the column name in the CSV/JSONL file which contains the audio file paths\n",
+    "    train_split = \"train\" # this is the filename without extension\n",
+    "    valid_split = \"valid\" # this is the filename without extension\n",
+    "    .\n",
+    "    .\n",
+    "    .\n",
+    ")\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# this will train the model locally\n",
+    "project = AutoTrainProject(params=params, backend=\"local\", process=True)\n",
+    "project.create()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "autotrain",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/notebooks/audio_segmentation.ipynb b/notebooks/audio_segmentation.ipynb
new file mode 100644
index 0000000000..873506e8c3
--- /dev/null
+++ b/notebooks/audio_segmentation.ipynb
@@ -0,0 +1,116 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Audio Segmentation using AutoTrain Advanced\n",
+    "\n",
+    "In this notebook, we will train an audio segmentation model using AutoTrain Advanced.\n",
+    "You can replace the model with any Hugging Face transformers compatible model and dataset with any other dataset in proper formatting.\n",
+    "For dataset formatting, please take a look at [docs](https://huggingface.co/docs/autotrain/index)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from autotrain.trainers.audio_segmentation.params import AudioSegmentationParams\n",
+    "from autotrain.project import AutoTrainProject"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "HF_USERNAME = \"your_huggingface_username\"\n",
+    "HF_TOKEN = \"your_huggingface_write_token\" # get it from https://huggingface.co/settings/token\n",
+    "# It is recommended to use secrets or environment variables to store your HF_TOKEN\n",
+    "# your token is required if push_to_hub is set to True or if you are accessing a gated model/dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "params = AudioSegmentationParams(\n",
+    "    model=\"facebook/wav2vec2-base\",\n",
+    "    data_path=\"your_audio_segmentation_dataset\", # path to the dataset on huggingface hub\n",
+    "    audio_column=\"audio\", # the column in the dataset that contains the audio\n",
+    "    target_column=\"segments\", # the column in the dataset that contains the segmentation labels\n",
+    "    train_split=\"train\",\n",
+    "    valid_split=\"validation\",\n",
+    "    epochs=3,\n",
+    "    batch_size=8,\n",
+    "    lr=1e-5,\n",
+    "    optimizer=\"adamw_torch\",\n",
+    "    scheduler=\"linear\",\n",
+    "    gradient_accumulation=1,\n",
+    "    mixed_precision=\"fp16\",\n",
+    "    project_name=\"autotrain-audio-segmentation\",\n",
+    "    log=\"tensorboard\",\n",
+    "    push_to_hub=True,\n",
+    "    username=HF_USERNAME,\n",
+    "    token=HF_TOKEN,\n",
+    ")\n",
+    "# tip: you can use `?AudioSegmentationParams` to see the full list of allowed parameters"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "If your dataset is in CSV / JSONL format (JSONL is most preferred) and is stored locally, make the following changes to `params`:\n",
+    "\n",
+    "```python\n",
+    "params = AudioSegmentationParams(\n",
+    "    data_path=\"data/\", # this is the path to folder where train.jsonl/train.csv is located\n",
+    "    audio_column=\"audio\", # this is the column name in the CSV/JSONL file which contains the audio file paths\n",
+    "    train_split = \"train\" # this is the filename without extension\n",
+    "    valid_split = \"valid\" # this is the filename without extension\n",
+    "    .\n",
+    "    .\n",
+    "    .\n",
+    ")\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# this will train the model locally\n",
+    "project = AutoTrainProject(params=params, backend=\"local\", process=True)\n",
+    "project.create()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "autotrain",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/notebooks/clm.ipynb b/notebooks/clm.ipynb
new file mode 100644
index 0000000000..b0731f3268
--- /dev/null
+++ b/notebooks/clm.ipynb
@@ -0,0 +1,117 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Causal Language Modeling using AutoTrain Advanced\n",
+    "\n",
+    "In this notebook, we will train a causal language model using AutoTrain Advanced.\n",
+    "You can replace the model with any Hugging Face transformers compatible model and dataset with any other dataset in proper formatting.\n",
+    "For dataset formatting, please take a look at [docs](https://huggingface.co/docs/autotrain/index)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from autotrain.trainers.clm.params import LLMTrainingParams\n",
+    "from autotrain.project import AutoTrainProject"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "HF_USERNAME = \"your_huggingface_username\"\n",
+    "HF_TOKEN = \"your_huggingface_write_token\" # get it from https://huggingface.co/settings/token\n",
+    "# It is recommended to use secrets or environment variables to store your HF_TOKEN\n",
+    "# your token is required if push_to_hub is set to True or if you are accessing a gated model/dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "params = LLMTrainingParams(\n",
+    "    model=\"gpt2\",\n",
+    "    data_path=\"wikitext-103-v1\", # path to the dataset on huggingface hub\n",
+    "    text_column=\"text\", # the column in the dataset that contains the text\n",
+    "    train_split=\"train\",\n",
+    "    valid_split=\"validation\",\n",
+    "    epochs=3,\n",
+    "    batch_size=4,\n",
+    "    block_size=512,\n",
+    "    model_max_length=1024,\n",
+    "    lr=2e-5,\n",
+    "    optimizer=\"adamw_torch\",\n",
+    "    scheduler=\"cosine\",\n",
+    "    gradient_accumulation=4,\n",
+    "    mixed_precision=\"fp16\",\n",
+    "    project_name=\"autotrain-clm\",\n",
+    "    log=\"tensorboard\",\n",
+    "    push_to_hub=True,\n",
+    "    username=HF_USERNAME,\n",
+    "    token=HF_TOKEN,\n",
+    ")\n",
+    "# tip: you can use `?LLMTrainingParams` to see the full list of allowed parameters"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "If your dataset is in CSV / JSONL format (JSONL is most preferred) and is stored locally, make the following changes to `params`:\n",
+    "\n",
+    "```python\n",
+    "params = LLMTrainingParams(\n",
+    "    data_path=\"data/\", # this is the path to folder where train.jsonl/train.csv is located\n",
+    "    text_column=\"text\", # this is the column name in the CSV/JSONL file which contains the text\n",
+    "    train_split = \"train\" # this is the filename without extension\n",
+    "    valid_split = \"valid\" # this is the filename without extension\n",
+    "    .\n",
+    "    .\n",
+    "    .\n",
+    ")\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# this will train the model locally\n",
+    "project = AutoTrainProject(params=params, backend=\"local\", process=True)\n",
+    "project.create()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "autotrain",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/notebooks/extractive_question_answering.ipynb b/notebooks/extractive_question_answering.ipynb
new file mode 100644
index 0000000000..3069b99b9a
--- /dev/null
+++ b/notebooks/extractive_question_answering.ipynb
@@ -0,0 +1,119 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Extractive Question Answering using AutoTrain Advanced\n",
+    "\n",
+    "In this notebook, we will train an extractive question answering model using AutoTrain Advanced.\n",
+    "You can replace the model with any Hugging Face transformers compatible model and dataset with any other dataset in proper formatting.\n",
+    "For dataset formatting, please take a look at [docs](https://huggingface.co/docs/autotrain/index)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from autotrain.trainers.extractive_question_answering.params import ExtractiveQuestionAnsweringParams\n",
+    "from autotrain.project import AutoTrainProject"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "HF_USERNAME = \"your_huggingface_username\"\n",
+    "HF_TOKEN = \"your_huggingface_write_token\" # get it from https://huggingface.co/settings/token\n",
+    "# It is recommended to use secrets or environment variables to store your HF_TOKEN\n",
+    "# your token is required if push_to_hub is set to True or if you are accessing a gated model/dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "params = ExtractiveQuestionAnsweringParams(\n",
+    "    model=\"google-bert/bert-base-uncased\",\n",
+    "    data_path=\"squad\", # path to the dataset on huggingface hub\n",
+    "    context_column=\"context\", # the column in the dataset that contains the context\n",
+    "    question_column=\"question\", # the column in the dataset that contains the questions\n",
+    "    answer_column=\"answers\", # the column in the dataset that contains the answers\n",
+    "    train_split=\"train\",\n",
+    "    valid_split=\"validation\",\n",
+    "    epochs=3,\n",
+    "    batch_size=8,\n",
+    "    max_seq_length=384,\n",
+    "    lr=2e-5,\n",
+    "    optimizer=\"adamw_torch\",\n",
+    "    scheduler=\"linear\",\n",
+    "    gradient_accumulation=1,\n",
+    "    mixed_precision=\"fp16\",\n",
+    "    project_name=\"autotrain-extractive-qa\",\n",
+    "    log=\"tensorboard\",\n",
+    "    push_to_hub=True,\n",
+    "    username=HF_USERNAME,\n",
+    "    token=HF_TOKEN,\n",
+    ")\n",
+    "# tip: you can use `?ExtractiveQuestionAnsweringParams` to see the full list of allowed parameters"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "If your dataset is in CSV / JSONL format (JSONL is most preferred) and is stored locally, make the following changes to `params`:\n",
+    "\n",
+    "```python\n",
+    "params = ExtractiveQuestionAnsweringParams(\n",
+    "    data_path=\"data/\", # this is the path to folder where train.jsonl/train.csv is located\n",
+    "    context_column=\"context\", # this is the column name in the CSV/JSONL file which contains the context\n",
+    "    question_column=\"question\", # this is the column name in the CSV/JSONL file which contains the questions\n",
+    "    train_split = \"train\" # this is the filename without extension\n",
+    "    valid_split = \"valid\" # this is the filename without extension\n",
+    "    .\n",
+    "    .\n",
+    "    .\n",
+    ")\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# this will train the model locally\n",
+    "project = AutoTrainProject(params=params, backend=\"local\", process=True)\n",
+    "project.create()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "autotrain",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/notebooks/generic.ipynb b/notebooks/generic.ipynb
new file mode 100644
index 0000000000..a397edf746
--- /dev/null
+++ b/notebooks/generic.ipynb
@@ -0,0 +1,113 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Generic Training using AutoTrain Advanced\n",
+    "\n",
+    "In this notebook, we will train a generic model using AutoTrain Advanced.\n",
+    "You can replace the model with any Hugging Face transformers compatible model and dataset with any other dataset in proper formatting.\n",
+    "For dataset formatting, please take a look at [docs](https://huggingface.co/docs/autotrain/index)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from autotrain.trainers.generic.params import GenericParams\n",
+    "from autotrain.project import AutoTrainProject"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "HF_USERNAME = \"your_huggingface_username\"\n",
+    "HF_TOKEN = \"your_huggingface_write_token\" # get it from https://huggingface.co/settings/token\n",
+    "# It is recommended to use secrets or environment variables to store your HF_TOKEN\n",
+    "# your token is required if push_to_hub is set to True or if you are accessing a gated model/dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "params = GenericParams(\n",
+    "    model=\"your_model_name\",\n",
+    "    data_path=\"your_dataset\", # path to the dataset on huggingface hub\n",
+    "    train_split=\"train\",\n",
+    "    valid_split=\"validation\",\n",
+    "    epochs=3,\n",
+    "    batch_size=8,\n",
+    "    lr=2e-5,\n",
+    "    optimizer=\"adamw_torch\",\n",
+    "    scheduler=\"linear\",\n",
+    "    gradient_accumulation=1,\n",
+    "    mixed_precision=\"fp16\",\n",
+    "    project_name=\"autotrain-generic\",\n",
+    "    log=\"tensorboard\",\n",
+    "    push_to_hub=True,\n",
+    "    username=HF_USERNAME,\n",
+    "    token=HF_TOKEN,\n",
+    ")\n",
+    "# tip: you can use `?GenericParams` to see the full list of allowed parameters"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "If your dataset is in CSV / JSONL format (JSONL is most preferred) and is stored locally, make the following changes to `params`:\n",
+    "\n",
+    "```python\n",
+    "params = GenericParams(\n",
+    "    data_path=\"data/\", # this is the path to folder where train.jsonl/train.csv is located\n",
+    "    train_split = \"train\" # this is the filename without extension\n",
+    "    valid_split = \"valid\" # this is the filename without extension\n",
+    "    .\n",
+    "    .\n",
+    "    .\n",
+    ")\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# this will train the model locally\n",
+    "project = AutoTrainProject(params=params, backend=\"local\", process=True)\n",
+    "project.create()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "autotrain",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/notebooks/image_classification.ipynb b/notebooks/image_classification.ipynb
new file mode 100644
index 0000000000..9140b33b42
--- /dev/null
+++ b/notebooks/image_classification.ipynb
@@ -0,0 +1,116 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Image Classification using AutoTrain Advanced\n",
+    "\n",
+    "In this notebook, we will train an image classification model using AutoTrain Advanced.\n",
+    "You can replace the model with any Hugging Face transformers compatible model and dataset with any other dataset in proper formatting.\n",
+    "For dataset formatting, please take a look at [docs](https://huggingface.co/docs/autotrain/index)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from autotrain.trainers.image_classification.params import ImageClassificationParams\n",
+    "from autotrain.project import AutoTrainProject"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "HF_USERNAME = \"your_huggingface_username\"\n",
+    "HF_TOKEN = \"your_huggingface_write_token\" # get it from https://huggingface.co/settings/token\n",
+    "# It is recommended to use secrets or environment variables to store your HF_TOKEN\n",
+    "# your token is required if push_to_hub is set to True or if you are accessing a gated model/dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "params = ImageClassificationParams(\n",
+    "    model=\"google/vit-base-patch16-224\",\n",
+    "    data_path=\"imagenet-1k\", # path to the dataset on huggingface hub\n",
+    "    image_column=\"image\", # the column in the dataset that contains the image\n",
+    "    target_column=\"label\", # the column in the dataset that contains the labels\n",
+    "    train_split=\"train\",\n",
+    "    valid_split=\"validation\",\n",
+    "    epochs=3,\n",
+    "    batch_size=8,\n",
+    "    lr=5e-5,\n",
+    "    optimizer=\"adamw_torch\",\n",
+    "    scheduler=\"linear\",\n",
+    "    gradient_accumulation=1,\n",
+    "    mixed_precision=\"fp16\",\n",
+    "    project_name=\"autotrain-image-classification\",\n",
+    "    log=\"tensorboard\",\n",
+    "    push_to_hub=True,\n",
+    "    username=HF_USERNAME,\n",
+    "    token=HF_TOKEN,\n",
+    ")\n",
+    "# tip: you can use `?ImageClassificationParams` to see the full list of allowed parameters"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "If your dataset is in CSV / JSONL format (JSONL is most preferred) and is stored locally, make the following changes to `params`:\n",
+    "\n",
+    "```python\n",
+    "params = ImageClassificationParams(\n",
+    "    data_path=\"data/\", # this is the path to folder where train.jsonl/train.csv is located\n",
+    "    image_column=\"image\", # this is the column name in the CSV/JSONL file which contains the image file paths\n",
+    "    train_split = \"train\" # this is the filename without extension\n",
+    "    valid_split = \"valid\" # this is the filename without extension\n",
+    "    .\n",
+    "    .\n",
+    "    .\n",
+    ")\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# this will train the model locally\n",
+    "project = AutoTrainProject(params=params, backend=\"local\", process=True)\n",
+    "project.create()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "autotrain",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/notebooks/image_instance_segmentation.ipynb b/notebooks/image_instance_segmentation.ipynb
new file mode 100644
index 0000000000..d58845c1fc
--- /dev/null
+++ b/notebooks/image_instance_segmentation.ipynb
@@ -0,0 +1,116 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Image Instance Segmentation using AutoTrain Advanced\n",
+    "\n",
+    "In this notebook, we will train an image instance segmentation model using AutoTrain Advanced.\n",
+    "You can replace the model with any Hugging Face transformers compatible model and dataset with any other dataset in proper formatting.\n",
+    "For dataset formatting, please take a look at [docs](https://huggingface.co/docs/autotrain/index)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from autotrain.trainers.image_instance_segmentation.params import ImageInstanceSegmentationParams\n",
+    "from autotrain.project import AutoTrainProject"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "HF_USERNAME = \"your_huggingface_username\"\n",
+    "HF_TOKEN = \"your_huggingface_write_token\" # get it from https://huggingface.co/settings/token\n",
+    "# It is recommended to use secrets or environment variables to store your HF_TOKEN\n",
+    "# your token is required if push_to_hub is set to True or if you are accessing a gated model/dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "params = ImageInstanceSegmentationParams(\n",
+    "    model=\"facebook/mask2former-swin-large-coco-instance\",\n",
+    "    data_path=\"your_instance_segmentation_dataset\", # path to the dataset on huggingface hub\n",
+    "    image_column=\"image\", # the column in the dataset that contains the image\n",
+    "    objects_column=\"objects\", # the column in the dataset that contains the instance segmentation annotations\n",
+    "    train_split=\"train\",\n",
+    "    valid_split=\"validation\",\n",
+    "    epochs=3,\n",
+    "    batch_size=4,\n",
+    "    lr=5e-5,\n",
+    "    optimizer=\"adamw_torch\",\n",
+    "    scheduler=\"linear\",\n",
+    "    gradient_accumulation=2,\n",
+    "    mixed_precision=\"fp16\",\n",
+    "    project_name=\"autotrain-image-instance-segmentation\",\n",
+    "    log=\"tensorboard\",\n",
+    "    push_to_hub=True,\n",
+    "    username=HF_USERNAME,\n",
+    "    token=HF_TOKEN,\n",
+    ")\n",
+    "# tip: you can use `?ImageInstanceSegmentationParams` to see the full list of allowed parameters"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "If your dataset is in CSV / JSONL format (JSONL is most preferred) and is stored locally, make the following changes to `params`:\n",
+    "\n",
+    "```python\n",
+    "params = ImageInstanceSegmentationParams(\n",
+    "    data_path=\"data/\", # this is the path to folder where train.jsonl/train.csv is located\n",
+    "    image_column=\"image\", # this is the column name in the CSV/JSONL file which contains the image file paths\n",
+    "    train_split = \"train\" # this is the filename without extension\n",
+    "    valid_split = \"valid\" # this is the filename without extension\n",
+    "    .\n",
+    "    .\n",
+    "    .\n",
+    ")\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# this will train the model locally\n",
+    "project = AutoTrainProject(params=params, backend=\"local\", process=True)\n",
+    "project.create()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "autotrain",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/notebooks/image_regression.ipynb b/notebooks/image_regression.ipynb
new file mode 100644
index 0000000000..5f6603f473
--- /dev/null
+++ b/notebooks/image_regression.ipynb
@@ -0,0 +1,116 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Image Regression using AutoTrain Advanced\n",
+    "\n",
+    "In this notebook, we will train an image regression model using AutoTrain Advanced.\n",
+    "You can replace the model with any Hugging Face transformers compatible model and dataset with any other dataset in proper formatting.\n",
+    "For dataset formatting, please take a look at [docs](https://huggingface.co/docs/autotrain/index)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from autotrain.trainers.image_regression.params import ImageRegressionParams\n",
+    "from autotrain.project import AutoTrainProject"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "HF_USERNAME = \"your_huggingface_username\"\n",
+    "HF_TOKEN = \"your_huggingface_write_token\" # get it from https://huggingface.co/settings/token\n",
+    "# It is recommended to use secrets or environment variables to store your HF_TOKEN\n",
+    "# your token is required if push_to_hub is set to True or if you are accessing a gated model/dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "params = ImageRegressionParams(\n",
+    "    model=\"google/vit-base-patch16-224\",\n",
+    "    data_path=\"your_image_regression_dataset\", # path to the dataset on huggingface hub\n",
+    "    image_column=\"image\", # the column in the dataset that contains the image\n",
+    "    target_column=\"target\", # the column in the dataset that contains the regression targets\n",
+    "    train_split=\"train\",\n",
+    "    valid_split=\"validation\",\n",
+    "    epochs=3,\n",
+    "    batch_size=8,\n",
+    "    lr=5e-5,\n",
+    "    optimizer=\"adamw_torch\",\n",
+    "    scheduler=\"linear\",\n",
+    "    gradient_accumulation=1,\n",
+    "    mixed_precision=\"fp16\",\n",
+    "    project_name=\"autotrain-image-regression\",\n",
+    "    log=\"tensorboard\",\n",
+    "    push_to_hub=True,\n",
+    "    username=HF_USERNAME,\n",
+    "    token=HF_TOKEN,\n",
+    ")\n",
+    "# tip: you can use `?ImageRegressionParams` to see the full list of allowed parameters"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "If your dataset is in CSV / JSONL format (JSONL is most preferred) and is stored locally, make the following changes to `params`:\n",
+    "\n",
+    "```python\n",
+    "params = ImageRegressionParams(\n",
+    "    data_path=\"data/\", # this is the path to folder where train.jsonl/train.csv is located\n",
+    "    image_column=\"image\", # this is the column name in the CSV/JSONL file which contains the image file paths\n",
+    "    train_split = \"train\" # this is the filename without extension\n",
+    "    valid_split = \"valid\" # this is the filename without extension\n",
+    "    .\n",
+    "    .\n",
+    "    .\n",
+    ")\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# this will train the model locally\n",
+    "project = AutoTrainProject(params=params, backend=\"local\", process=True)\n",
+    "project.create()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "autotrain",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/notebooks/image_semantic_segmentation.ipynb b/notebooks/image_semantic_segmentation.ipynb
new file mode 100644
index 0000000000..6b7b925e21
--- /dev/null
+++ b/notebooks/image_semantic_segmentation.ipynb
@@ -0,0 +1,116 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Image Semantic Segmentation using AutoTrain Advanced\n",
+    "\n",
+    "In this notebook, we will train an image semantic segmentation model using AutoTrain Advanced.\n",
+    "You can replace the model with any Hugging Face transformers compatible model and dataset with any other dataset in proper formatting.\n",
+    "For dataset formatting, please take a look at [docs](https://huggingface.co/docs/autotrain/index)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from autotrain.trainers.image_semantic_segmentation.params import ImageSemanticSegmentationParams\n",
+    "from autotrain.project import AutoTrainProject"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "HF_USERNAME = \"your_huggingface_username\"\n",
+    "HF_TOKEN = \"your_huggingface_write_token\" # get it from https://huggingface.co/settings/token\n",
+    "# It is recommended to use secrets or environment variables to store your HF_TOKEN\n",
+    "# your token is required if push_to_hub is set to True or if you are accessing a gated model/dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "params = ImageSemanticSegmentationParams(\n",
+    "    model=\"nvidia/segformer-b0-finetuned-ade-512-512\",\n",
+    "    data_path=\"scene_parse_150\", # path to the dataset on huggingface hub\n",
+    "    image_column=\"image\", # the column in the dataset that contains the image\n",
+    "    target_column=\"annotation\", # the column in the dataset that contains the segmentation masks\n",
+    "    train_split=\"train\",\n",
+    "    valid_split=\"validation\",\n",
+    "    epochs=3,\n",
+    "    batch_size=4,\n",
+    "    lr=6e-5,\n",
+    "    optimizer=\"adamw_torch\",\n",
+    "    scheduler=\"linear\",\n",
+    "    gradient_accumulation=2,\n",
+    "    mixed_precision=\"fp16\",\n",
+    "    project_name=\"autotrain-image-semantic-segmentation\",\n",
+    "    log=\"tensorboard\",\n",
+    "    push_to_hub=True,\n",
+    "    username=HF_USERNAME,\n",
+    "    token=HF_TOKEN,\n",
+    ")\n",
+    "# tip: you can use `?ImageSemanticSegmentationParams` to see the full list of allowed parameters"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "If your dataset is in CSV / JSONL format (JSONL is most preferred) and is stored locally, make the following changes to `params`:\n",
+    "\n",
+    "```python\n",
+    "params = ImageSemanticSegmentationParams(\n",
+    "    data_path=\"data/\", # this is the path to folder where train.jsonl/train.csv is located\n",
+    "    image_column=\"image\", # this is the column name in the CSV/JSONL file which contains the image file paths\n",
+    "    train_split = \"train\" # this is the filename without extension\n",
+    "    valid_split = \"valid\" # this is the filename without extension\n",
+    "    .\n",
+    "    .\n",
+    "    .\n",
+    ")\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# this will train the model locally\n",
+    "project = AutoTrainProject(params=params, backend=\"local\", process=True)\n",
+    "project.create()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "autotrain",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/notebooks/object_detection.ipynb b/notebooks/object_detection.ipynb
new file mode 100644
index 0000000000..465d8790a7
--- /dev/null
+++ b/notebooks/object_detection.ipynb
@@ -0,0 +1,116 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Object Detection using AutoTrain Advanced\n",
+    "\n",
+    "In this notebook, we will train an object detection model using AutoTrain Advanced.\n",
+    "You can replace the model with any Hugging Face transformers compatible model and dataset with any other dataset in proper formatting.\n",
+    "For dataset formatting, please take a look at [docs](https://huggingface.co/docs/autotrain/index)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from autotrain.trainers.object_detection.params import ObjectDetectionParams\n",
+    "from autotrain.project import AutoTrainProject"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "HF_USERNAME = \"your_huggingface_username\"\n",
+    "HF_TOKEN = \"your_huggingface_write_token\" # get it from https://huggingface.co/settings/token\n",
+    "# It is recommended to use secrets or environment variables to store your HF_TOKEN\n",
+    "# your token is required if push_to_hub is set to True or if you are accessing a gated model/dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "params = ObjectDetectionParams(\n",
+    "    model=\"facebook/detr-resnet-50\",\n",
+    "    data_path=\"detection-datasets/coco\", # path to the dataset on huggingface hub\n",
+    "    image_column=\"image\", # the column in the dataset that contains the image\n",
+    "    objects_column=\"objects\", # the column in the dataset that contains the object annotations\n",
+    "    train_split=\"train\",\n",
+    "    valid_split=\"validation\",\n",
+    "    epochs=3,\n",
+    "    batch_size=4,\n",
+    "    lr=1e-4,\n",
+    "    optimizer=\"adamw_torch\",\n",
+    "    scheduler=\"linear\",\n",
+    "    gradient_accumulation=2,\n",
+    "    mixed_precision=\"fp16\",\n",
+    "    project_name=\"autotrain-object-detection\",\n",
+    "    log=\"tensorboard\",\n",
+    "    push_to_hub=True,\n",
+    "    username=HF_USERNAME,\n",
+    "    token=HF_TOKEN,\n",
+    ")\n",
+    "# tip: you can use `?ObjectDetectionParams` to see the full list of allowed parameters"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "If your dataset is in CSV / JSONL format (JSONL is most preferred) and is stored locally, make the following changes to `params`:\n",
+    "\n",
+    "```python\n",
+    "params = ObjectDetectionParams(\n",
+    "    data_path=\"data/\", # this is the path to folder where train.jsonl/train.csv is located\n",
+    "    image_column=\"image\", # this is the column name in the CSV/JSONL file which contains the image file paths\n",
+    "    train_split = \"train\" # this is the filename without extension\n",
+    "    valid_split = \"valid\" # this is the filename without extension\n",
+    "    .\n",
+    "    .\n",
+    "    .\n",
+    ")\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# this will train the model locally\n",
+    "project = AutoTrainProject(params=params, backend=\"local\", process=True)\n",
+    "project.create()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "autotrain",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/notebooks/sent_transformers.ipynb b/notebooks/sent_transformers.ipynb
new file mode 100644
index 0000000000..4a3ed5d3b1
--- /dev/null
+++ b/notebooks/sent_transformers.ipynb
@@ -0,0 +1,118 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Sentence Transformers using AutoTrain Advanced\n",
+    "\n",
+    "In this notebook, we will train a sentence transformer model using AutoTrain Advanced.\n",
+    "You can replace the model with any Hugging Face transformers compatible model and dataset with any other dataset in proper formatting.\n",
+    "For dataset formatting, please take a look at [docs](https://huggingface.co/docs/autotrain/index)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from autotrain.trainers.sent_transformers.params import SentenceTransformersParams\n",
+    "from autotrain.project import AutoTrainProject"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "HF_USERNAME = \"your_huggingface_username\"\n",
+    "HF_TOKEN = \"your_huggingface_write_token\" # get it from https://huggingface.co/settings/token\n",
+    "# It is recommended to use secrets or environment variables to store your HF_TOKEN\n",
+    "# your token is required if push_to_hub is set to True or if you are accessing a gated model/dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "params = SentenceTransformersParams(\n",
+    "    model=\"sentence-transformers/all-MiniLM-L6-v2\",\n",
+    "    data_path=\"sentence-transformers/stsb\", # path to the dataset on huggingface hub\n",
+    "    sentence1_column=\"sentence1\", # the column in the dataset that contains the first sentence\n",
+    "    sentence2_column=\"sentence2\", # the column in the dataset that contains the second sentence\n",
+    "    target_column=\"score\", # the column in the dataset that contains the similarity scores\n",
+    "    train_split=\"train\",\n",
+    "    valid_split=\"validation\",\n",
+    "    epochs=3,\n",
+    "    batch_size=16,\n",
+    "    lr=2e-5,\n",
+    "    optimizer=\"adamw_torch\",\n",
+    "    scheduler=\"linear\",\n",
+    "    gradient_accumulation=1,\n",
+    "    mixed_precision=\"fp16\",\n",
+    "    project_name=\"autotrain-sentence-transformers\",\n",
+    "    log=\"tensorboard\",\n",
+    "    push_to_hub=True,\n",
+    "    username=HF_USERNAME,\n",
+    "    token=HF_TOKEN,\n",
+    ")\n",
+    "# tip: you can use `?SentenceTransformersParams` to see the full list of allowed parameters"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "If your dataset is in CSV / JSONL format (JSONL is most preferred) and is stored locally, make the following changes to `params`:\n",
+    "\n",
+    "```python\n",
+    "params = SentenceTransformersParams(\n",
+    "    data_path=\"data/\", # this is the path to folder where train.jsonl/train.csv is located\n",
+    "    sentence1_column=\"sentence1\", # this is the column name in the CSV/JSONL file which contains the first sentence\n",
+    "    sentence2_column=\"sentence2\", # this is the column name in the CSV/JSONL file which contains the second sentence\n",
+    "    train_split = \"train\" # this is the filename without extension\n",
+    "    valid_split = \"valid\" # this is the filename without extension\n",
+    "    .\n",
+    "    .\n",
+    "    .\n",
+    ")\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# this will train the model locally\n",
+    "project = AutoTrainProject(params=params, backend=\"local\", process=True)\n",
+    "project.create()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "autotrain",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/notebooks/seq2seq.ipynb b/notebooks/seq2seq.ipynb
new file mode 100644
index 0000000000..e72eb28c49
--- /dev/null
+++ b/notebooks/seq2seq.ipynb
@@ -0,0 +1,119 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Sequence-to-Sequence using AutoTrain Advanced\n",
+    "\n",
+    "In this notebook, we will train a sequence-to-sequence model using AutoTrain Advanced.\n",
+    "You can replace the model with any Hugging Face transformers compatible model and dataset with any other dataset in proper formatting.\n",
+    "For dataset formatting, please take a look at [docs](https://huggingface.co/docs/autotrain/index)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from autotrain.trainers.seq2seq.params import Seq2SeqParams\n",
+    "from autotrain.project import AutoTrainProject"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "HF_USERNAME = \"your_huggingface_username\"\n",
+    "HF_TOKEN = \"your_huggingface_write_token\" # get it from https://huggingface.co/settings/token\n",
+    "# It is recommended to use secrets or environment variables to store your HF_TOKEN\n",
+    "# your token is required if push_to_hub is set to True or if you are accessing a gated model/dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "params = Seq2SeqParams(\n",
+    "    model=\"google-t5/t5-small\",\n",
+    "    data_path=\"cnn_dailymail\", # path to the dataset on huggingface hub\n",
+    "    text_column=\"article\", # the column in the dataset that contains the input text\n",
+    "    target_column=\"highlights\", # the column in the dataset that contains the target text\n",
+    "    train_split=\"train\",\n",
+    "    valid_split=\"validation\",\n",
+    "    epochs=3,\n",
+    "    batch_size=8,\n",
+    "    max_seq_length=512,\n",
+    "    max_target_length=128,\n",
+    "    lr=3e-4,\n",
+    "    optimizer=\"adamw_torch\",\n",
+    "    scheduler=\"linear\",\n",
+    "    gradient_accumulation=1,\n",
+    "    mixed_precision=\"fp16\",\n",
+    "    project_name=\"autotrain-seq2seq\",\n",
+    "    log=\"tensorboard\",\n",
+    "    push_to_hub=True,\n",
+    "    username=HF_USERNAME,\n",
+    "    token=HF_TOKEN,\n",
+    ")\n",
+    "# tip: you can use `?Seq2SeqParams` to see the full list of allowed parameters"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "If your dataset is in CSV / JSONL format (JSONL is most preferred) and is stored locally, make the following changes to `params`:\n",
+    "\n",
+    "```python\n",
+    "params = Seq2SeqParams(\n",
+    "    data_path=\"data/\", # this is the path to folder where train.jsonl/train.csv is located\n",
+    "    text_column=\"article\", # this is the column name in the CSV/JSONL file which contains the input text\n",
+    "    target_column=\"highlights\", # this is the column name in the CSV/JSONL file which contains the target text\n",
+    "    train_split = \"train\" # this is the filename without extension\n",
+    "    valid_split = \"valid\" # this is the filename without extension\n",
+    "    .\n",
+    "    .\n",
+    "    .\n",
+    ")\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# this will train the model locally\n",
+    "project = AutoTrainProject(params=params, backend=\"local\", process=True)\n",
+    "project.create()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "autotrain",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/notebooks/tabular.ipynb b/notebooks/tabular.ipynb
new file mode 100644
index 0000000000..2f8d3be98a
--- /dev/null
+++ b/notebooks/tabular.ipynb
@@ -0,0 +1,113 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Tabular Data Training using AutoTrain Advanced\n",
+    "\n",
+    "In this notebook, we will train a model on tabular data using AutoTrain Advanced.\n",
+    "You can replace the model with any supported tabular model and dataset with any other dataset in proper formatting.\n",
+    "For dataset formatting, please take a look at [docs](https://huggingface.co/docs/autotrain/index)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from autotrain.trainers.tabular.params import TabularParams\n",
+    "from autotrain.project import AutoTrainProject"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "HF_USERNAME = \"your_huggingface_username\"\n",
+    "HF_TOKEN = \"your_huggingface_write_token\" # get it from https://huggingface.co/settings/token\n",
+    "# It is recommended to use secrets or environment variables to store your HF_TOKEN\n",
+    "# your token is required if push_to_hub is set to True or if you are accessing a gated model/dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "params = TabularParams(\n",
+    "    model=\"xgboost\", # can be xgboost, lightgbm, catboost, randomforest, etc.\n",
+    "    data_path=\"your_tabular_dataset\", # path to the dataset on huggingface hub or local path\n",
+    "    target_columns=[\"target\"], # the column(s) in the dataset that contain the target values\n",
+    "    id_column=\"id\", # the column that contains unique identifiers (optional)\n",
+    "    train_split=\"train\",\n",
+    "    valid_split=\"validation\",\n",
+    "    task=\"classification\", # can be \"classification\" or \"regression\"\n",
+    "    num_trials=10, # number of hyperparameter optimization trials\n",
+    "    time_limit=600, # time limit in seconds\n",
+    "    project_name=\"autotrain-tabular\",\n",
+    "    push_to_hub=True,\n",
+    "    username=HF_USERNAME,\n",
+    "    token=HF_TOKEN,\n",
+    ")\n",
+    "# tip: you can use `?TabularParams` to see the full list of allowed parameters"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "If your dataset is in CSV format and is stored locally, make the following changes to `params`:\n",
+    "\n",
+    "```python\n",
+    "params = TabularParams(\n",
+    "    data_path=\"data/\", # this is the path to folder where train.csv is located\n",
+    "    target_columns=[\"target\"], # the column name(s) in the CSV file which contains the target\n",
+    "    categorical_columns=[\"cat_col1\", \"cat_col2\"], # list of categorical columns (optional)\n",
+    "    numerical_columns=[\"num_col1\", \"num_col2\"], # list of numerical columns (optional)\n",
+    "    train_split = \"train\" # this is the filename without extension\n",
+    "    valid_split = \"valid\" # this is the filename without extension\n",
+    "    .\n",
+    "    .\n",
+    "    .\n",
+    ")\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# this will train the model locally\n",
+    "project = AutoTrainProject(params=params, backend=\"local\", process=True)\n",
+    "project.create()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "autotrain",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/notebooks/token_classification.ipynb b/notebooks/token_classification.ipynb
new file mode 100644
index 0000000000..7dcd4dcacd
--- /dev/null
+++ b/notebooks/token_classification.ipynb
@@ -0,0 +1,118 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Token Classification using AutoTrain Advanced\n",
+    "\n",
+    "In this notebook, we will train a token classification model using AutoTrain Advanced.\n",
+    "You can replace the model with any Hugging Face transformers compatible model and dataset with any other dataset in proper formatting.\n",
+    "For dataset formatting, please take a look at [docs](https://huggingface.co/docs/autotrain/index)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from autotrain.trainers.token_classification.params import TokenClassificationParams\n",
+    "from autotrain.project import AutoTrainProject"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "HF_USERNAME = \"your_huggingface_username\"\n",
+    "HF_TOKEN = \"your_huggingface_write_token\" # get it from https://huggingface.co/settings/token\n",
+    "# It is recommended to use secrets or environment variables to store your HF_TOKEN\n",
+    "# your token is required if push_to_hub is set to True or if you are accessing a gated model/dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "params = TokenClassificationParams(\n",
+    "    model=\"google-bert/bert-base-uncased\",\n",
+    "    data_path=\"conll2003\", # path to the dataset on huggingface hub\n",
+    "    tokens_column=\"tokens\", # the column in the dataset that contains the tokens\n",
+    "    tags_column=\"ner_tags\", # the column in the dataset that contains the NER tags\n",
+    "    train_split=\"train\",\n",
+    "    valid_split=\"validation\",\n",
+    "    epochs=3,\n",
+    "    batch_size=8,\n",
+    "    max_seq_length=512,\n",
+    "    lr=2e-5,\n",
+    "    optimizer=\"adamw_torch\",\n",
+    "    scheduler=\"linear\",\n",
+    "    gradient_accumulation=1,\n",
+    "    mixed_precision=\"fp16\",\n",
+    "    project_name=\"autotrain-token-classification\",\n",
+    "    log=\"tensorboard\",\n",
+    "    push_to_hub=True,\n",
+    "    username=HF_USERNAME,\n",
+    "    token=HF_TOKEN,\n",
+    ")\n",
+    "# tip: you can use `?TokenClassificationParams` to see the full list of allowed parameters"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "If your dataset is in CSV / JSONL format (JSONL is most preferred) and is stored locally, make the following changes to `params`:\n",
+    "\n",
+    "```python\n",
+    "params = TokenClassificationParams(\n",
+    "    data_path=\"data/\", # this is the path to folder where train.jsonl/train.csv is located\n",
+    "    tokens_column=\"tokens\", # this is the column name in the CSV/JSONL file which contains the tokens\n",
+    "    tags_column=\"ner_tags\", # this is the column name in the CSV/JSONL file which contains the tags\n",
+    "    train_split = \"train\" # this is the filename without extension\n",
+    "    valid_split = \"valid\" # this is the filename without extension\n",
+    "    .\n",
+    "    .\n",
+    "    .\n",
+    ")\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# this will train the model locally\n",
+    "project = AutoTrainProject(params=params, backend=\"local\", process=True)\n",
+    "project.create()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "autotrain",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/notebooks/vlm.ipynb b/notebooks/vlm.ipynb
new file mode 100644
index 0000000000..1b896dd1d9
--- /dev/null
+++ b/notebooks/vlm.ipynb
@@ -0,0 +1,117 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Vision Language Model using AutoTrain Advanced\n",
+    "\n",
+    "In this notebook, we will train a vision language model using AutoTrain Advanced.\n",
+    "You can replace the model with any Hugging Face transformers compatible model and dataset with any other dataset in proper formatting.\n",
+    "For dataset formatting, please take a look at [docs](https://huggingface.co/docs/autotrain/index)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from autotrain.trainers.vlm.params import VLMTrainingParams\n",
+    "from autotrain.project import AutoTrainProject"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "HF_USERNAME = \"your_huggingface_username\"\n",
+    "HF_TOKEN = \"your_huggingface_write_token\" # get it from https://huggingface.co/settings/token\n",
+    "# It is recommended to use secrets or environment variables to store your HF_TOKEN\n",
+    "# your token is required if push_to_hub is set to True or if you are accessing a gated model/dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "params = VLMTrainingParams(\n",
+    "    model=\"microsoft/kosmos-2-patch14-224\",\n",
+    "    data_path=\"your_vlm_dataset\", # path to the dataset on huggingface hub\n",
+    "    image_column=\"image\", # the column in the dataset that contains the image\n",
+    "    text_column=\"text\", # the column in the dataset that contains the text\n",
+    "    train_split=\"train\",\n",
+    "    valid_split=\"validation\",\n",
+    "    epochs=3,\n",
+    "    batch_size=4,\n",
+    "    lr=1e-5,\n",
+    "    optimizer=\"adamw_torch\",\n",
+    "    scheduler=\"linear\",\n",
+    "    gradient_accumulation=4,\n",
+    "    mixed_precision=\"fp16\",\n",
+    "    project_name=\"autotrain-vlm\",\n",
+    "    log=\"tensorboard\",\n",
+    "    push_to_hub=True,\n",
+    "    username=HF_USERNAME,\n",
+    "    token=HF_TOKEN,\n",
+    ")\n",
+    "# tip: you can use `?VLMTrainingParams` to see the full list of allowed parameters"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "If your dataset is in CSV / JSONL format (JSONL is most preferred) and is stored locally, make the following changes to `params`:\n",
+    "\n",
+    "```python\n",
+    "params = VLMTrainingParams(\n",
+    "    data_path=\"data/\", # this is the path to folder where train.jsonl/train.csv is located\n",
+    "    image_column=\"image\", # this is the column name in the CSV/JSONL file which contains the image file paths\n",
+    "    text_column=\"text\", # this is the column name in the CSV/JSONL file which contains the text\n",
+    "    train_split = \"train\" # this is the filename without extension\n",
+    "    valid_split = \"valid\" # this is the filename without extension\n",
+    "    .\n",
+    "    .\n",
+    "    .\n",
+    ")\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# this will train the model locally\n",
+    "project = AutoTrainProject(params=params, backend=\"local\", process=True)\n",
+    "project.create()"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "autotrain",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/src/autotrain/app/api_routes.py b/src/autotrain/app/api_routes.py
index 7a5b19e8b8..8759245a1c 100644
--- a/src/autotrain/app/api_routes.py
+++ b/src/autotrain/app/api_routes.py
@@ -18,6 +18,8 @@
 from autotrain.trainers.extractive_question_answering.params import ExtractiveQuestionAnsweringParams
 from autotrain.trainers.image_classification.params import ImageClassificationParams
 from autotrain.trainers.image_regression.params import ImageRegressionParams
+from autotrain.trainers.image_semantic_segmentation.params import ImageSemanticSegmentationParams
+from autotrain.trainers.image_instance_segmentation.params import ImageInstanceSegmentationParams
 from autotrain.trainers.object_detection.params import ObjectDetectionParams
 from autotrain.trainers.sent_transformers.params import SentenceTransformersParams
 from autotrain.trainers.seq2seq.params import Seq2SeqParams
@@ -110,6 +112,8 @@ def create_api_base_model(base_class, class_name):
 TokenClassificationParamsAPI = create_api_base_model(TokenClassificationParams, "TokenClassificationParamsAPI")
 SentenceTransformersParamsAPI = create_api_base_model(SentenceTransformersParams, "SentenceTransformersParamsAPI")
 ImageRegressionParamsAPI = create_api_base_model(ImageRegressionParams, "ImageRegressionParamsAPI")
+ImageSemanticSegmentationParamsAPI = create_api_base_model(ImageSemanticSegmentationParams, "ImageSemanticSegmentationParamsAPI")
+ImageInstanceSegmentationParamsAPI = create_api_base_model(ImageInstanceSegmentationParams, "ImageInstanceSegmentationParamsAPI")
 VLMTrainingParamsAPI = create_api_base_model(VLMTrainingParams, "VLMTrainingParamsAPI")
 ExtractiveQuestionAnsweringParamsAPI = create_api_base_model(ExtractiveQuestionAnsweringParams, "ExtractiveQuestionAnsweringParamsAPI")
 ObjectDetectionParamsAPI = create_api_base_model(ObjectDetectionParams, "ObjectDetectionParamsAPI")
@@ -153,6 +157,16 @@ class ImageRegressionColumnMapping(BaseModel):
     target_column: str
 
 
+class ImageSemanticSegmentationColumnMapping(BaseModel):
+    image_column: str
+    target_column: str
+
+
+class ImageInstanceSegmentationColumnMapping(BaseModel):
+    image_column: str
+    objects_column: str
+
+
 class Seq2SeqColumnMapping(BaseModel):
     text_column: str
     target_column: str
@@ -290,12 +304,15 @@ class APICreateProjectModel(BaseModel):
         "tabular-classification",
         "tabular-regression",
         "image-regression",
+        "image-semantic-segmentation",
+        "image-instance-segmentation",
         "vlm:captioning",
         "vlm:vqa",
         "extractive-question-answering",
         "image-object-detection",
         "audio-classification",
         "audio-segmentation",
+        "audio-detection",
     ]
     base_model: str
     hardware: Literal[
@@ -330,6 +347,8 @@ class APICreateProjectModel(BaseModel):
         TextRegressionParamsAPI,
         TokenClassificationParamsAPI,
         ImageRegressionParamsAPI,
+        ImageSemanticSegmentationParamsAPI,
+        ImageInstanceSegmentationParamsAPI,
         VLMTrainingParamsAPI,
         ExtractiveQuestionAnsweringParamsAPI,
         ObjectDetectionParamsAPI,
@@ -358,6 +377,8 @@ class APICreateProjectModel(BaseModel):
             STTripletColumnMapping,
             STQAColumnMapping,
             ImageRegressionColumnMapping,
+            ImageSemanticSegmentationColumnMapping,
+        ImageInstanceSegmentationColumnMapping,
             VLMColumnMapping,
             ExtractiveQuestionAnsweringColumnMapping,
             ObjectDetectionColumnMapping,
@@ -523,6 +544,22 @@ def validate_column_mapping(cls, values):
             if not values.get("column_mapping").get("target_column"):
                 raise ValueError("target_column is required for image-regression")
             values["column_mapping"] = ImageRegressionColumnMapping(**values["column_mapping"])
+        elif values.get("task") == "image-semantic-segmentation":
+            if not values.get("column_mapping"):
+                raise ValueError("column_mapping is required for image-semantic-segmentation")
+            if not values.get("column_mapping").get("image_column"):
+                raise ValueError("image_column is required for image-semantic-segmentation")
+            if not values.get("column_mapping").get("target_column"):
+                raise ValueError("target_column is required for image-semantic-segmentation")
+            values["column_mapping"] = ImageSemanticSegmentationColumnMapping(**values["column_mapping"])
+        elif values.get("task") == "image-instance-segmentation":
+            if not values.get("column_mapping"):
+                raise ValueError("column_mapping is required for image-instance-segmentation")
+            if not values.get("column_mapping").get("image_column"):
+                raise ValueError("image_column is required for image-instance-segmentation")
+            if not values.get("column_mapping").get("objects_column"):
+                raise ValueError("objects_column is required for image-instance-segmentation")
+            values["column_mapping"] = ImageInstanceSegmentationColumnMapping(**values["column_mapping"])
         elif values.get("task") == "vlm:captioning":
             if not values.get("column_mapping"):
                 raise ValueError("column_mapping is required for vlm:captioning")
@@ -618,6 +655,10 @@ def validate_params(cls, values):
             values["params"] = SentenceTransformersParamsAPI(**values["params"])
         elif values.get("task") == "image-regression":
             values["params"] = ImageRegressionParamsAPI(**values["params"])
+        elif values.get("task") == "image-semantic-segmentation":
+            values["params"] = ImageSemanticSegmentationParamsAPI(**values["params"])
+        elif values.get("task") == "image-instance-segmentation":
+            values["params"] = ImageInstanceSegmentationParamsAPI(**values["params"])
         elif values.get("task").startswith("vlm:"):
             values["params"] = VLMTrainingParamsAPI(**values["params"])
         elif values.get("task") == "extractive-question-answering":
diff --git a/src/autotrain/app/colab.py b/src/autotrain/app/colab.py
index a54a6d6465..4d1e0e857d 100644
--- a/src/autotrain/app/colab.py
+++ b/src/autotrain/app/colab.py
@@ -34,7 +34,12 @@ def colab_app():
         "Token Classification",
         "Image Classification",
         "Image Regression",
+        "Image Semantic Segmentation", 
+        "Image Instance Segmentation",
         "Object Detection",
+        "Audio Classification",
+        "Audio Segmentation", 
+        "Audio Detection",
         "Tabular Classification",
         "Tabular Regression",
         "ST Pair",
@@ -56,7 +61,12 @@ def colab_app():
         "Token Classification": "token-classification",
         "Image Classification": "image-classification",
         "Image Regression": "image-regression",
+        "Image Semantic Segmentation": "image-semantic-segmentation",
+        "Image Instance Segmentation": "image-instance-segmentation", 
         "Object Detection": "image-object-detection",
+        "Audio Classification": "audio-classification",
+        "Audio Segmentation": "audio-segmentation",
+        "Audio Detection": "audio-detection",
         "Tabular Classification": "tabular:classification",
         "Tabular Regression": "tabular:regression",
         "ST Pair": "st:pair",
@@ -266,10 +276,30 @@ def update_col_mapping(*args):
             col_mapping.value = '{"image": "image", "label": "target"}'
             dataset_source_dropdown.disabled = False
             valid_split.disabled = False
+        elif task == "image-semantic-segmentation":
+            col_mapping.value = '{"image": "image", "target": "segmentation_mask"}'
+            dataset_source_dropdown.disabled = False
+            valid_split.disabled = False
+        elif task == "image-instance-segmentation":
+            col_mapping.value = '{"image": "image", "objects": "objects"}'
+            dataset_source_dropdown.disabled = False
+            valid_split.disabled = False
         elif task == "image-object-detection":
             col_mapping.value = '{"image": "image", "objects": "objects"}'
             dataset_source_dropdown.disabled = False
             valid_split.disabled = False
+        elif task == "audio-classification":
+            col_mapping.value = '{"audio": "audio_path", "label": "intent"}'
+            dataset_source_dropdown.disabled = False
+            valid_split.disabled = False
+        elif task == "audio-segmentation":
+            col_mapping.value = '{"audio": "audio_path", "label": "segments"}'
+            dataset_source_dropdown.disabled = False
+            valid_split.disabled = False
+        elif task == "audio-detection":
+            col_mapping.value = '{"audio": "audio_path", "events": "events"}'
+            dataset_source_dropdown.disabled = False
+            valid_split.disabled = False
         elif task == "tabular:classification":
             col_mapping.value = '{"id": "id", "label": ["target"]}'
             dataset_source_dropdown.disabled = False
@@ -318,8 +348,18 @@ def update_base_model(*args):
             base_model.value = MODEL_CHOICES["token-classification"][0]
         elif TASK_MAP[task_dropdown.value] == "text-regression":
             base_model.value = MODEL_CHOICES["text-regression"][0]
+        elif TASK_MAP[task_dropdown.value] == "image-semantic-segmentation":
+            base_model.value = MODEL_CHOICES["image-semantic-segmentation"][0]
+        elif TASK_MAP[task_dropdown.value] == "image-instance-segmentation":
+            base_model.value = MODEL_CHOICES["image-instance-segmentation"][0]
         elif TASK_MAP[task_dropdown.value] == "image-object-detection":
             base_model.value = MODEL_CHOICES["image-object-detection"][0]
+        elif TASK_MAP[task_dropdown.value] == "audio-classification":
+            base_model.value = MODEL_CHOICES["audio-classification"][0]
+        elif TASK_MAP[task_dropdown.value] == "audio-segmentation":
+            base_model.value = MODEL_CHOICES["audio-segmentation"][0]
+        elif TASK_MAP[task_dropdown.value] == "audio-detection":
+            base_model.value = MODEL_CHOICES["audio-detection"][0]
         elif TASK_MAP[task_dropdown.value].startswith("st:"):
             base_model.value = MODEL_CHOICES["sentence-transformers"][0]
         else:
diff --git a/src/autotrain/app/models.py b/src/autotrain/app/models.py
index caba63ec57..d08cbad6f9 100644
--- a/src/autotrain/app/models.py
+++ b/src/autotrain/app/models.py
@@ -133,6 +133,46 @@ def _fetch_image_classification_models():
     return hub_models
 
 
+def _fetch_image_segmentation_models():
+    """
+    Fetches and sorts image segmentation models from the Hugging Face model hub.
+
+    This function retrieves models suitable for image semantic segmentation tasks.
+    It fetches models tagged with 'image-segmentation' task from the transformers library.
+
+    Returns:
+        list: A sorted list of model identifiers from the Hugging Face model hub.
+    """
+    hub_models = list(
+        list_models(
+            task="image-segmentation",
+            library="transformers",
+            sort="downloads",
+            direction=-1,
+            limit=100,
+            full=False,
+        )
+    )
+    hub_models = get_sorted_models(hub_models)
+
+    trending_models = list(
+        list_models(
+            task="image-segmentation",
+            library="transformers",
+            sort="likes7d",
+            direction=-1,
+            limit=30,
+            full=False,
+        )
+    )
+    if len(trending_models) > 0:
+        trending_models = get_sorted_models(trending_models)
+        hub_models = [m for m in hub_models if m not in trending_models]
+        hub_models = trending_models + hub_models
+
+    return hub_models
+
+
 def _fetch_image_object_detection_models():
     hub_models = list(
         list_models(
@@ -522,6 +562,8 @@ def fetch_models():
     _mc["llm"] = _fetch_llm_models()
     _mc["image-classification"] = _fetch_image_classification_models()
     _mc["image-regression"] = _fetch_image_classification_models()
+    _mc["image-semantic-segmentation"] = _fetch_image_segmentation_models()
+    _mc["image-instance-segmentation"] = _fetch_image_segmentation_models()
     _mc["seq2seq"] = _fetch_seq2seq_models()
     _mc["token-classification"] = _fetch_token_classification_models()
     _mc["text-regression"] = _fetch_text_classification_models()
diff --git a/src/autotrain/app/params.py b/src/autotrain/app/params.py
index bebb1a5d84..72d25e02c6 100644
--- a/src/autotrain/app/params.py
+++ b/src/autotrain/app/params.py
@@ -9,6 +9,8 @@
 from autotrain.trainers.extractive_question_answering.params import ExtractiveQuestionAnsweringParams
 from autotrain.trainers.image_classification.params import ImageClassificationParams
 from autotrain.trainers.image_regression.params import ImageRegressionParams
+from autotrain.trainers.image_semantic_segmentation.params import ImageSemanticSegmentationParams
+from autotrain.trainers.image_instance_segmentation.params import ImageInstanceSegmentationParams
 from autotrain.trainers.object_detection.params import ObjectDetectionParams
 from autotrain.trainers.sent_transformers.params import SentenceTransformersParams
 from autotrain.trainers.seq2seq.params import Seq2SeqParams
@@ -123,6 +125,14 @@
     mixed_precision="fp16",
     log="tensorboard",
 ).model_dump()
+PARAMS["image-semantic-segmentation"] = ImageSemanticSegmentationParams(
+    mixed_precision="fp16",
+    log="tensorboard",
+).model_dump()
+PARAMS["image-instance-segmentation"] = ImageInstanceSegmentationParams(
+    mixed_precision="fp16",
+    log="tensorboard",
+).model_dump()
 PARAMS["vlm"] = VLMTrainingParams(
     mixed_precision="fp16",
     target_modules="all-linear",
@@ -226,6 +236,10 @@ def munge(self):
             return self._munge_params_sent_transformers()
         elif self.task == "image-regression":
             return self._munge_params_img_reg()
+        elif self.task == "image-semantic-segmentation":
+            return self._munge_params_img_semantic_seg()
+        elif self.task == "image-instance-segmentation":
+            return self._munge_params_img_instance_seg()
         elif self.task.startswith("vlm"):
             return self._munge_params_vlm()
         elif self.task == "extractive-qa":
@@ -457,6 +471,40 @@ def _munge_params_img_reg(self):
 
         return ImageRegressionParams(**_params)
 
+    def _munge_params_img_semantic_seg(self):
+        _params = self._munge_common_params()
+        _params["model"] = self.base_model
+        if "log" not in _params:
+            _params["log"] = "tensorboard"
+        if not self.using_hub_dataset:
+            _params["image_column"] = "autotrain_image"
+            _params["target_column"] = "autotrain_label"
+            _params["valid_split"] = "validation"
+        else:
+            _params["image_column"] = self.column_mapping.get("image" if not self.api else "image_column", "image")
+            _params["target_column"] = self.column_mapping.get("target" if not self.api else "target_column", "segmentation_mask")
+            _params["train_split"] = self.train_split
+            _params["valid_split"] = self.valid_split
+
+        return ImageSemanticSegmentationParams(**_params)
+
+    def _munge_params_img_instance_seg(self):
+        _params = self._munge_common_params()
+        _params["model"] = self.base_model
+        if "log" not in _params:
+            _params["log"] = "tensorboard"
+        if not self.using_hub_dataset:
+            _params["image_column"] = "autotrain_image"
+            _params["target_column"] = "autotrain_objects"
+            _params["valid_split"] = "validation"
+        else:
+            _params["image_column"] = self.column_mapping.get("image" if not self.api else "image_column", "image")
+            _params["target_column"] = self.column_mapping.get("objects" if not self.api else "target_column", "objects")
+            _params["train_split"] = self.train_split
+            _params["valid_split"] = self.valid_split
+
+        return ImageInstanceSegmentationParams(**_params)
+
     def _munge_params_img_obj_det(self):
         _params = self._munge_common_params()
         _params["model"] = self.base_model
@@ -756,6 +804,22 @@ def get_task_params(task, param_type):
             "early_stopping_threshold",
         ]
         task_params = {k: v for k, v in task_params.items() if k not in more_hidden_params}
+    if task == "image-semantic-segmentation" and param_type == "basic":
+        more_hidden_params = [
+            "warmup_ratio",
+            "weight_decay",
+            "max_grad_norm",
+            "seed",
+            "logging_steps",
+            "auto_find_batch_size",
+            "save_total_limit",
+            "eval_strategy",
+            "early_stopping_patience",
+            "early_stopping_threshold",
+            "ignore_mismatched_sizes",
+            "reduce_labels",
+        ]
+        task_params = {k: v for k, v in task_params.items() if k not in more_hidden_params}
     if task == "image-object-detection" and param_type == "basic":
         more_hidden_params = [
             "warmup_ratio",
diff --git a/src/autotrain/app/templates/index.html b/src/autotrain/app/templates/index.html
index c513389960..7c0ae4dcb2 100644
--- a/src/autotrain/app/templates/index.html
+++ b/src/autotrain/app/templates/index.html
@@ -84,6 +84,14 @@
                     fields = ['image', 'label'];
                     fieldNames = ['image', 'target'];
                     break;
+                case 'image-semantic-segmentation':
+                    fields = ['image', 'label'];
+                    fieldNames = ['image', 'segmentation_mask'];
+                    break;
+                case 'image-instance-segmentation':
+                    fields = ['image', 'objects'];
+                    fieldNames = ['image', 'objects'];
+                    break;
                 case 'audio-classification':
                     fields = ['audio', 'label'];
                     fieldNames = ['audio_path', 'intent'];
@@ -232,6 +240,8 @@
                         <optgroup label="Image Tasks">
                             <option value="image-classification">Image Classification</option>
                             <option value="image-regression">Image Scoring/Regression</option>
+                            <option value="image-semantic-segmentation">Image Semantic Segmentation</option>
+                            <option value="image-instance-segmentation">Image Instance Segmentation</option>
                             <option value="image-object-detection">Object Detection</option>
                         </optgroup>
                         <optgroup label="Audio Tasks">
diff --git a/src/autotrain/app/ui_routes.py b/src/autotrain/app/ui_routes.py
index 5b3b21d9f2..28b42b0f47 100644
--- a/src/autotrain/app/ui_routes.py
+++ b/src/autotrain/app/ui_routes.py
@@ -24,6 +24,8 @@
     AutoTrainDataset,
     AutoTrainImageClassificationDataset,
     AutoTrainImageRegressionDataset,
+    AutoTrainImageSemanticSegmentationDataset,
+    AutoTrainImageInstanceSegmentationDataset,
     AutoTrainObjectDetectionDataset,
     AutoTrainVLMDataset,
 )
@@ -503,6 +505,10 @@ async def fetch_model_choices(
         hub_models = MODEL_CHOICE["image-object-detection"]
     elif task == "image-regression":
         hub_models = MODEL_CHOICE["image-regression"]
+    elif task == "image-semantic-segmentation":
+        hub_models = MODEL_CHOICE["image-semantic-segmentation"]
+    elif task == "image-instance-segmentation":
+        hub_models = MODEL_CHOICE["image-instance-segmentation"]
     elif task.startswith("vlm:"):
         hub_models = MODEL_CHOICE["vlm"]
     elif task == "extractive-qa":
@@ -630,6 +636,26 @@ async def handle_form(
                 percent_valid=None,  # TODO: add to UI
                 local=hardware.lower() == "local-ui",
             )
+        elif task == "image-semantic-segmentation":
+            dset = AutoTrainImageSemanticSegmentationDataset(
+                train_data=training_files[0],
+                token=token,
+                project_name=project_name,
+                username=autotrain_user,
+                valid_data=validation_files[0] if validation_files else None,
+                percent_valid=None,  # TODO: add to UI
+                local=hardware.lower() == "local-ui",
+            )
+        elif task == "image-instance-segmentation":
+            dset = AutoTrainImageInstanceSegmentationDataset(
+                train_data=training_files[0],
+                token=token,
+                project_name=project_name,
+                username=autotrain_user,
+                valid_data=validation_files[0] if validation_files else None,
+                percent_valid=None,  # TODO: add to UI
+                local=hardware.lower() == "local-ui",
+            )
         elif task == "image-object-detection":
             dset = AutoTrainObjectDetectionDataset(
                 train_data=training_files[0],
diff --git a/src/autotrain/backends/base.py b/src/autotrain/backends/base.py
index 3808c3bdcb..7b2de76115 100644
--- a/src/autotrain/backends/base.py
+++ b/src/autotrain/backends/base.py
@@ -10,6 +10,8 @@
 from autotrain.trainers.generic.params import GenericParams
 from autotrain.trainers.image_classification.params import ImageClassificationParams
 from autotrain.trainers.image_regression.params import ImageRegressionParams
+from autotrain.trainers.image_semantic_segmentation.params import ImageSemanticSegmentationParams
+from autotrain.trainers.image_instance_segmentation.params import ImageInstanceSegmentationParams
 from autotrain.trainers.object_detection.params import ObjectDetectionParams
 from autotrain.trainers.sent_transformers.params import SentenceTransformersParams
 from autotrain.trainers.seq2seq.params import Seq2SeqParams
@@ -97,6 +99,7 @@ class BaseBackend:
         ObjectDetectionParams,
         SentenceTransformersParams,
         ImageRegressionParams,
+        ImageSemanticSegmentationParams,
         VLMTrainingParams,
         ExtractiveQuestionAnsweringParams,
     ]
@@ -141,6 +144,8 @@ def __post_init__(self):
             self.task_id = 30
         elif isinstance(self.params, ImageRegressionParams):
             self.task_id = 24
+        elif isinstance(self.params, ImageSemanticSegmentationParams):
+            self.task_id = 36
         elif isinstance(self.params, VLMTrainingParams):
             self.task_id = 31
         elif isinstance(self.params, ExtractiveQuestionAnsweringParams):
diff --git a/src/autotrain/cli/autotrain.py b/src/autotrain/cli/autotrain.py
index 1a91148d42..914288170a 100644
--- a/src/autotrain/cli/autotrain.py
+++ b/src/autotrain/cli/autotrain.py
@@ -9,6 +9,8 @@
 from autotrain.cli.run_extractive_qa import RunAutoTrainExtractiveQACommand
 from autotrain.cli.run_image_classification import RunAutoTrainImageClassificationCommand
 from autotrain.cli.run_image_regression import RunAutoTrainImageRegressionCommand
+from autotrain.cli.run_image_semantic_segmentation import RunAutoTrainImageSemanticSegmentationCommand
+from autotrain.cli.run_image_instance_segmentation import RunAutoTrainImageInstanceSegmentationCommand
 from autotrain.cli.run_llm import RunAutoTrainLLMCommand
 from autotrain.cli.run_object_detection import RunAutoTrainObjectDetectionCommand
 from autotrain.cli.run_sent_tranformers import RunAutoTrainSentenceTransformersCommand
@@ -43,6 +45,8 @@ def main():
     RunAutoTrainAudioDetectionCommand.register_subcommand(commands_parser)
     RunAutoTrainAudioSegmentationCommand.register_subcommand(commands_parser)
     RunAutoTrainImageClassificationCommand.register_subcommand(commands_parser)
+    RunAutoTrainImageSemanticSegmentationCommand.register_subcommand(commands_parser)
+    RunAutoTrainImageInstanceSegmentationCommand.register_subcommand(commands_parser)
     RunAutoTrainTabularCommand.register_subcommand(commands_parser)
     RunAutoTrainSpaceRunnerCommand.register_subcommand(commands_parser)
     RunAutoTrainSeq2SeqCommand.register_subcommand(commands_parser)
diff --git a/src/autotrain/cli/run_image_instance_segmentation.py b/src/autotrain/cli/run_image_instance_segmentation.py
new file mode 100644
index 0000000000..35992a46ae
--- /dev/null
+++ b/src/autotrain/cli/run_image_instance_segmentation.py
@@ -0,0 +1,79 @@
+import argparse
+
+from autotrain import logger
+from autotrain.cli.utils import common_args
+from autotrain.trainers.image_instance_segmentation.params import ImageInstanceSegmentationParams
+
+
+def run_image_instance_segmentation_command_factory(args):
+    return RunAutoTrainImageInstanceSegmentationCommand(args)
+
+
+class RunAutoTrainImageInstanceSegmentationCommand:
+    def __init__(self, args):
+        self.args = args
+
+    @staticmethod
+    def register_subcommand(parser: argparse.ArgumentParser):
+        from autotrain.cli.run_image_instance_segmentation import add_subparser
+        add_subparser(parser)
+
+    def run(self):
+        logger.info("Running Image Instance Segmentation")
+        if self.args.train:
+            params = ImageInstanceSegmentationParams(**vars(self.args))
+            params.save(output_dir=self.args.project_name)
+            if self.args.backend.startswith("spaces"):
+                from autotrain.backend import SpaceRunner
+
+                sr = SpaceRunner(
+                    params=params,
+                    backend=self.args.backend,
+                )
+                space_id = sr.prepare()
+                print(f"Space created: {space_id}")
+            else:
+                from autotrain.trainers.image_instance_segmentation import train
+
+                train(params)
+
+
+def add_subparser(parser):
+    from autotrain.trainers.image_instance_segmentation.params import ImageInstanceSegmentationParams
+    from autotrain.cli.utils import get_field_info
+    
+    arg_list = get_field_info(ImageInstanceSegmentationParams)
+    arg_list = [
+        {
+            "arg": "--train",
+            "help": "Command to train the model",
+            "required": False,
+            "action": "store_true",
+        },
+    ] + arg_list
+    
+    run_image_instance_segmentation_parser = parser.add_parser(
+        "image-instance-segmentation", help="✨ Run AutoTrain Image Instance Segmentation"
+    )
+    for arg in arg_list:
+        names = [arg["arg"]] + arg.get("alias", [])
+        if "action" in arg:
+            run_image_instance_segmentation_parser.add_argument(
+                *names,
+                dest=arg["arg"].replace("--", "").replace("-", "_"),
+                help=arg["help"],
+                required=arg.get("required", False),
+                action=arg.get("action"),
+                default=arg.get("default"),
+            )
+        else:
+            run_image_instance_segmentation_parser.add_argument(
+                *names,
+                dest=arg["arg"].replace("--", "").replace("-", "_"),
+                help=arg["help"],
+                required=arg.get("required", False),
+                type=arg.get("type"),
+                default=arg.get("default"),
+            )
+    
+    run_image_instance_segmentation_parser.set_defaults(func=run_image_instance_segmentation_command_factory) 
\ No newline at end of file
diff --git a/src/autotrain/cli/run_image_semantic_segmentation.py b/src/autotrain/cli/run_image_semantic_segmentation.py
new file mode 100644
index 0000000000..c68c001565
--- /dev/null
+++ b/src/autotrain/cli/run_image_semantic_segmentation.py
@@ -0,0 +1,127 @@
+from argparse import ArgumentParser
+
+from autotrain import logger
+from autotrain.cli.utils import get_field_info
+from autotrain.project import AutoTrainProject
+from autotrain.trainers.image_semantic_segmentation.params import ImageSemanticSegmentationParams
+
+from . import BaseAutoTrainCommand
+
+
+def run_image_semantic_segmentation_command_factory(args):
+    return RunAutoTrainImageSemanticSegmentationCommand(args)
+
+
+class RunAutoTrainImageSemanticSegmentationCommand(BaseAutoTrainCommand):
+    @staticmethod
+    def register_subcommand(parser: ArgumentParser):
+        arg_list = get_field_info(ImageSemanticSegmentationParams)
+        arg_list = [
+            {
+                "arg": "--train",
+                "help": "Command to train the model",
+                "required": False,
+                "action": "store_true",
+            },
+            {
+                "arg": "--deploy",
+                "help": "Command to deploy the model (limited availability)",
+                "required": False,
+                "action": "store_true",
+            },
+            {
+                "arg": "--inference",
+                "help": "Command to run inference (limited availability)",
+                "required": False,
+                "action": "store_true",
+            },
+            {
+                "arg": "--backend",
+                "help": "Backend",
+                "required": False,
+                "type": str,
+                "default": "local",
+            },
+        ] + arg_list
+        run_image_semantic_segmentation_parser = parser.add_parser(
+            "image-semantic-segmentation", description="✨ Run AutoTrain Image Semantic Segmentation"
+        )
+        for arg in arg_list:
+            names = [arg["arg"]] + arg.get("alias", [])
+            if len(names) == 1:
+                names = [arg["arg"]]
+
+            kwargs = {
+                "dest": arg["arg"].replace("--", "").replace("-", "_"),
+                "help": arg["help"],
+                "required": arg.get("required", False),
+                "default": arg.get("default"),
+                "choices": arg.get("choices"),
+                "action": arg.get("action"),
+            }
+            
+            if arg.get("action") != "store_true":
+                kwargs["type"] = arg.get("type", str)
+            kwargs = {k: v for k, v in kwargs.items() if v is not None}
+            run_image_semantic_segmentation_parser.add_argument(*names, **kwargs)
+
+        run_image_semantic_segmentation_parser.add_argument(
+            "--config",
+            type=str,
+            required=False,
+            help="Optional config file path to override parameters.",
+        )
+
+        run_image_semantic_segmentation_parser.add_argument(
+            "--col-mapping",
+            type=str,
+            required=False,
+            help="Optional column mapping for the dataset.",
+        )
+
+        run_image_semantic_segmentation_parser.set_defaults(func=run_image_semantic_segmentation_command_factory)
+
+    def __init__(self, args):
+        self.args = args
+
+        store_true_arg_names = [
+            "train",
+            "deploy",
+            "inference",
+            "auto_find_batch_size",
+            "push_to_hub",
+            "ignore_mismatched_sizes",
+            "reduce_labels",
+        ]
+        for arg_name in store_true_arg_names:
+            if getattr(self.args, arg_name) is None:
+                setattr(self.args, arg_name, False)
+
+        if self.args.train:
+            if self.args.project_name is None:
+                raise ValueError("Project name must be specified")
+            if self.args.data_path is None:
+                raise ValueError("Data path must be specified")
+            if self.args.model is None:
+                raise ValueError("Model must be specified")
+            if self.args.push_to_hub:
+                if self.args.username is None:
+                    raise ValueError("Username must be specified for push to hub")
+        else:
+            raise ValueError("Must specify --train, --deploy or --inference")
+
+        if self.args.backend.startswith("spaces") or self.args.backend.startswith("ep-"):
+            if not self.args.push_to_hub:
+                raise ValueError("Push to hub must be specified for spaces backend")
+            if self.args.username is None:
+                raise ValueError("Username must be specified for spaces backend")
+            if self.args.token is None:
+                raise ValueError("Token must be specified for spaces backend")
+
+    def run(self):
+        logger.info("Running Image Semantic Segmentation")
+        if self.args.train:
+            params = ImageSemanticSegmentationParams(**vars(self.args))
+            project = AutoTrainProject(params=params, backend=self.args.backend, process=True)
+            job_id = project.create()
+            logger.info(f"Job ID: {job_id}") 
\ No newline at end of file
diff --git a/src/autotrain/cli/utils.py b/src/autotrain/cli/utils.py
index d95cbb8860..898bf224a4 100644
--- a/src/autotrain/cli/utils.py
+++ b/src/autotrain/cli/utils.py
@@ -164,9 +164,14 @@ def get_field_info(params_class):
     properties = schema.get("properties", {})
     field_info = []
     for field_name, field_data in properties.items():
+        main_arg = f"--{field_name.replace('_', '-')}"
+        underscore_arg = f"--{field_name}"
+        
+        alias_list = [underscore_arg] if underscore_arg != main_arg else []
+        
         temp_info = {
-            "arg": f"--{field_name.replace('_', '-')}",
-            "alias": [f"--{field_name}", f"--{field_name.replace('_', '-')}"],
+            "arg": main_arg,
+            "alias": alias_list,
             "type": python_type_from_schema_field(field_data),
             "help": field_data.get("title", ""),
             "default": get_default_value(field_data),
diff --git a/src/autotrain/client.py b/src/autotrain/client.py
index ea3734c0e9..8ec0014dbb 100644
--- a/src/autotrain/client.py
+++ b/src/autotrain/client.py
@@ -91,6 +91,11 @@
     "log": "tensorboard",
 }
 
+PARAMS["image-semantic-segmentation"] = {
+    "mixed_precision": "fp16",
+    "log": "tensorboard",
+}
+
 PARAMS["vlm"] = {
     "mixed_precision": "fp16",
     "target_modules": "all-linear",
@@ -151,7 +156,12 @@
 DEFAULT_COLUMN_MAPPING["token-classification"] = {"text_column": "tokens", "target_column": "tags"}
 DEFAULT_COLUMN_MAPPING["image-classification"] = {"image_column": "image", "target_column": "label"}
 DEFAULT_COLUMN_MAPPING["image-regression"] = {"image_column": "image", "target_column": "target"}
+DEFAULT_COLUMN_MAPPING["image-semantic-segmentation"] = {"image_column": "image", "target_column": "segmentation_mask"}
+DEFAULT_COLUMN_MAPPING["image-instance-segmentation"] = {"image_column": "image", "objects_column": "objects"}
 DEFAULT_COLUMN_MAPPING["image-object-detection"] = {"image_column": "image", "objects_column": "objects"}
+DEFAULT_COLUMN_MAPPING["audio-classification"] = {"audio_column": "audio_path", "target_column": "intent"}
+DEFAULT_COLUMN_MAPPING["audio-segmentation"] = {"audio_column": "audio_path", "target_column": "segments"}
+DEFAULT_COLUMN_MAPPING["audio-detection"] = {"audio_column": "audio_path", "events_column": "events"}
 DEFAULT_COLUMN_MAPPING["tabular:classification"] = {"id_column": "id", "target__columns": ["target"]}
 DEFAULT_COLUMN_MAPPING["tabular:regression"] = {"id_column": "id", "target_columns": ["target"]}
 DEFAULT_COLUMN_MAPPING["extractive-qa"] = {
diff --git a/src/autotrain/commands.py b/src/autotrain/commands.py
index 2b9cf04911..5d51dcc32f 100644
--- a/src/autotrain/commands.py
+++ b/src/autotrain/commands.py
@@ -13,6 +13,8 @@
 from autotrain.trainers.generic.params import GenericParams
 from autotrain.trainers.image_classification.params import ImageClassificationParams
 from autotrain.trainers.image_regression.params import ImageRegressionParams
+from autotrain.trainers.image_semantic_segmentation.params import ImageSemanticSegmentationParams
+from autotrain.trainers.image_instance_segmentation.params import ImageInstanceSegmentationParams
 from autotrain.trainers.object_detection.params import ObjectDetectionParams
 from autotrain.trainers.sent_transformers.params import SentenceTransformersParams
 from autotrain.trainers.seq2seq.params import Seq2SeqParams
@@ -431,6 +433,7 @@ def launch_command(params):
         isinstance(params, ImageClassificationParams)
         or isinstance(params, ObjectDetectionParams)
         or isinstance(params, ImageRegressionParams)
+        or isinstance(params, ImageSemanticSegmentationParams)
     ):
         if num_gpus == 0:
             cmd = [
@@ -485,6 +488,24 @@ def launch_command(params):
                     os.path.join(params.project_name, "training_params.json"),
                 ]
             )
+        elif isinstance(params, ImageSemanticSegmentationParams):
+            cmd.extend(
+                [
+                    "-m",
+                    "autotrain.trainers.image_semantic_segmentation",
+                    "--training_config",
+                    os.path.join(params.project_name, "training_params.json"),
+                ]
+            )
+        elif isinstance(params, ImageInstanceSegmentationParams):
+            cmd.extend(
+                [
+                    "-m",
+                    "autotrain.trainers.image_instance_segmentation",
+                    "--training_config",
+                    os.path.join(params.project_name, "training_params.json"),
+                ]
+            )
         else:
             cmd.extend(
                 [
diff --git a/src/autotrain/dataset.py b/src/autotrain/dataset.py
index c73215cc63..9e18ec2391 100644
--- a/src/autotrain/dataset.py
+++ b/src/autotrain/dataset.py
@@ -32,7 +32,9 @@
 )
 from autotrain.preprocessor.vision import (
     ImageClassificationPreprocessor,
+    ImageInstanceSegmentationPreprocessor,
     ImageRegressionPreprocessor,
+    ImageSemanticSegmentationPreprocessor,
     ObjectDetectionPreprocessor,
 )
 from autotrain.preprocessor.vlm import VLMPreprocessor
@@ -52,26 +54,114 @@ def remove_non_image_files(folder):
     Returns:
         None
     """
-    # Define allowed image file extensions
-    allowed_extensions = {".jpg", ".jpeg", ".png", ".JPG", ".JPEG", ".PNG", ".jsonl"}
+    allowed_extensions = {".jpg", ".jpeg", ".png", ".JPG", ".JPEG", ".PNG", ".jsonl", ".txt"}
 
-    # Iterate through all files in the folder
     for root, dirs, files in os.walk(folder):
         for file in files:
-            # Get the file extension
             file_extension = os.path.splitext(file)[1]
 
-            # If the file extension is not in the allowed list, remove the file
             if file_extension.lower() not in allowed_extensions:
                 file_path = os.path.join(root, file)
                 os.remove(file_path)
                 print(f"Removed file: {file_path}")
 
-        # Recursively call the function on each subfolder
         for subfolder in dirs:
             remove_non_image_files(os.path.join(root, subfolder))
 
 
+def remove_non_audio_files(folder):
+    """
+    Remove non-audio files from a specified folder and its subfolders.
+
+    This function iterates through all files in the given folder and its subfolders,
+    and removes any file that does not have an allowed audio file extension. The allowed
+    extensions are: .wav, .mp3, .flac, .m4a, .ogg, .aac, .jsonl.
+
+    Args:
+        folder (str): The path to the folder from which non-audio files should be removed.
+
+    Returns:
+        None
+    """
+    allowed_extensions = {".wav", ".mp3", ".flac", ".m4a", ".ogg", ".aac", ".WAV", ".MP3", ".FLAC", ".M4A", ".OGG", ".AAC", ".jsonl", ".txt"}
+
+    for root, dirs, files in os.walk(folder):
+        for file in files:
+            file_extension = os.path.splitext(file)[1]
+
+            if file_extension.lower() not in allowed_extensions:
+                file_path = os.path.join(root, file)
+                os.remove(file_path)
+                print(f"Removed file: {file_path}")
+
+        for subfolder in dirs:
+            remove_non_audio_files(os.path.join(root, subfolder))
+
+
+def extract_zip_file(zip_path, extract_dir, task_type="general"):
+    """
+    Extract ZIP file and handle nested directory structures.
+    
+    Args:
+        zip_path (str): Path to the ZIP file
+        extract_dir (str): Directory to extract to
+        task_type (str): Type of task to detect appropriate data patterns
+                        ("classification", "segmentation", "detection", "regression", "vlm", "audio", "general")
+        
+    Returns:
+        str: Path to the actual data directory (handles nested structures)
+    """
+    import zipfile
+    
+    os.makedirs(extract_dir, exist_ok=True)
+    
+    with zipfile.ZipFile(zip_path, 'r') as zip_ref:
+        zip_ref.extractall(extract_dir)
+    
+    macosx_dir = os.path.join(extract_dir, "__MACOSX")
+    if os.path.exists(macosx_dir):
+        os.system(f"rm -rf {macosx_dir}")
+    
+    # Clean up non-relevant files based on task type
+    if task_type == "audio":
+        remove_non_audio_files(extract_dir)
+    else:
+        # Default to image cleanup for vision tasks
+        remove_non_image_files(extract_dir)
+    
+    subdirs = [d for d in os.listdir(extract_dir) if os.path.isdir(os.path.join(extract_dir, d))]
+    if len(subdirs) == 1:
+        potential_data_dir = os.path.join(extract_dir, subdirs[0])
+        subdir_contents = os.listdir(potential_data_dir)
+        
+        if task_type == "classification":
+            class_dirs = [d for d in subdir_contents if os.path.isdir(os.path.join(potential_data_dir, d))]
+            if len(class_dirs) >= 2:
+                return potential_data_dir
+        elif task_type == "segmentation":
+            data_indicators = ['images', 'img', 'masks', 'mask', 'annotations', 'classes.txt']
+            if any(item in subdir_contents for item in data_indicators):
+                return potential_data_dir
+        elif task_type in ["detection", "regression", "vlm"]:
+            has_metadata = 'metadata.jsonl' in subdir_contents
+            has_images = any(f.lower().endswith(('.jpg', '.jpeg', '.png')) for f in subdir_contents)
+            if has_metadata and has_images:
+                return potential_data_dir
+        else:
+            data_indicators = ['images', 'img', 'masks', 'mask', 'annotations', 'classes.txt', 'metadata.jsonl']
+            has_data_structure = any(item in subdir_contents for item in data_indicators)
+            class_dirs = [d for d in subdir_contents if os.path.isdir(os.path.join(potential_data_dir, d))]
+            has_class_structure = len(class_dirs) >= 2
+            has_metadata = 'metadata.jsonl' in subdir_contents
+            has_images = any(f.lower().endswith(('.jpg', '.jpeg', '.png')) for f in subdir_contents)
+            has_detection_structure = has_metadata and has_images
+            
+            if has_data_structure or has_class_structure or has_detection_structure:
+                return potential_data_dir
+    
+    return extract_dir
+
+
 @dataclass
 class AutoTrainImageClassificationDataset:
     """
@@ -122,6 +212,7 @@ def __post_init__(self):
 
     def prepare(self):
         valid_dir = None
+        
         if not isinstance(self.train_data, str):
             cache_dir = os.environ.get("HF_HOME")
             if not cache_dir:
@@ -136,11 +227,11 @@ def prepare(self):
 
             zip_ref = zipfile.ZipFile(bytes_io, "r")
             zip_ref.extractall(train_dir)
-            # remove the __MACOSX directory
             macosx_dir = os.path.join(train_dir, "__MACOSX")
             if os.path.exists(macosx_dir):
                 os.system(f"rm -rf {macosx_dir}")
             remove_non_image_files(train_dir)
+            
             if self.valid_data:
                 random_uuid = uuid.uuid4()
                 valid_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
@@ -150,11 +241,27 @@ def prepare(self):
                 bytes_io = io.BytesIO(content)
                 zip_ref = zipfile.ZipFile(bytes_io, "r")
                 zip_ref.extractall(valid_dir)
-                # remove the __MACOSX directory
                 macosx_dir = os.path.join(valid_dir, "__MACOSX")
                 if os.path.exists(macosx_dir):
                     os.system(f"rm -rf {macosx_dir}")
                 remove_non_image_files(valid_dir)
+                
+        elif isinstance(self.train_data, str) and self.train_data.endswith('.zip') and os.path.isfile(self.train_data):
+            cache_dir = os.environ.get("HF_HOME")
+            if not cache_dir:
+                cache_dir = os.path.join(os.path.expanduser("~"), ".cache", "huggingface")
+
+            random_uuid = uuid.uuid4()
+            extract_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+            train_dir = extract_zip_file(self.train_data, extract_dir, task_type="classification")
+            
+            if self.valid_data and self.valid_data.endswith('.zip') and os.path.isfile(self.valid_data):
+                random_uuid = uuid.uuid4()
+                valid_extract_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+                valid_dir = extract_zip_file(self.valid_data, valid_extract_dir, task_type="classification")
+            elif self.valid_data:
+                valid_dir = self.valid_data
+                
         else:
             train_dir = self.train_data
             if self.valid_data:
@@ -171,10 +278,245 @@ def prepare(self):
         return preprocessor.prepare()
 
 
+@dataclass  
+class AutoTrainImageSemanticSegmentationDataset:
+    """
+    A class to handle image semantic segmentation datasets for AutoTrain.
+
+    Attributes:
+        train_data (str): Path to the training data.
+        token (str): Authentication token.
+        project_name (str): Name of the project.
+        username (str): Username of the project owner.
+        valid_data (Optional[str]): Path to the validation data. Default is None.
+        percent_valid (Optional[float]): Percentage of training data to use for validation. Default is None.
+        local (bool): Flag to indicate if the data is local. Default is False.
+
+    Methods:
+        __str__() -> str:
+            Returns a string representation of the dataset.
+
+        __post_init__():
+            Initializes the dataset and sets default values for validation data.
+
+        prepare():
+            Prepares the dataset for training by extracting and preprocessing the data.
+    """
+
+    train_data: str
+    token: str
+    project_name: str
+    username: str
+    valid_data: Optional[str] = None
+    percent_valid: Optional[float] = None
+    local: bool = False
+
+    def __str__(self) -> str:
+        info = f"Dataset: {self.project_name} ({self.task})\n"
+        info += f"Train data: {self.train_data}\n"
+        info += f"Valid data: {self.valid_data}\n"
+        return info
+
+    def __post_init__(self):
+        self.task = "image_semantic_segmentation"
+        if not self.valid_data and self.percent_valid is None:
+            self.percent_valid = 0.2
+        elif self.valid_data and self.percent_valid is not None:
+            raise ValueError("You can only specify one of valid_data or percent_valid")
+        elif self.valid_data:
+            self.percent_valid = 0.0
+
+    def prepare(self):
+        valid_dir = None
+        
+        if not isinstance(self.train_data, str):
+            cache_dir = os.environ.get("HF_HOME")
+            if not cache_dir:
+                cache_dir = os.path.join(os.path.expanduser("~"), ".cache", "huggingface")
+
+            random_uuid = uuid.uuid4()
+            train_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+            os.makedirs(train_dir, exist_ok=True)
+            self.train_data.seek(0)
+            content = self.train_data.read()
+            bytes_io = io.BytesIO(content)
+
+            zip_ref = zipfile.ZipFile(bytes_io, "r")
+            zip_ref.extractall(train_dir)
+            macosx_dir = os.path.join(train_dir, "__MACOSX")
+            if os.path.exists(macosx_dir):
+                os.system(f"rm -rf {macosx_dir}")
+            remove_non_image_files(train_dir)
+            
+            if self.valid_data:
+                random_uuid = uuid.uuid4()
+                valid_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+                os.makedirs(valid_dir, exist_ok=True)
+                self.valid_data.seek(0)
+                content = self.valid_data.read()
+                bytes_io = io.BytesIO(content)
+                zip_ref = zipfile.ZipFile(bytes_io, "r")
+                zip_ref.extractall(valid_dir)
+                macosx_dir = os.path.join(valid_dir, "__MACOSX")
+                if os.path.exists(macosx_dir):
+                    os.system(f"rm -rf {macosx_dir}")
+                remove_non_image_files(valid_dir)
+                
+        elif isinstance(self.train_data, str) and self.train_data.endswith('.zip') and os.path.isfile(self.train_data):
+            cache_dir = os.environ.get("HF_HOME")
+            if not cache_dir:
+                cache_dir = os.path.join(os.path.expanduser("~"), ".cache", "huggingface")
+
+            random_uuid = uuid.uuid4()
+            extract_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+            train_dir = extract_zip_file(self.train_data, extract_dir, task_type="segmentation")
+            
+            if self.valid_data and self.valid_data.endswith('.zip') and os.path.isfile(self.valid_data):
+                random_uuid = uuid.uuid4()
+                valid_extract_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+                valid_dir = extract_zip_file(self.valid_data, valid_extract_dir, task_type="segmentation")
+            elif self.valid_data:
+                valid_dir = self.valid_data
+                
+        else:
+            train_dir = self.train_data
+            if self.valid_data:
+                valid_dir = self.valid_data
+
+        preprocessor = ImageSemanticSegmentationPreprocessor(
+            train_data=train_dir,
+            valid_data=valid_dir,
+            token=self.token,
+            project_name=self.project_name,
+            username=self.username,
+            local=self.local,
+        )
+        return preprocessor.prepare()
+
+
+@dataclass  
+class AutoTrainImageInstanceSegmentationDataset:
+    """
+    A class to handle image instance segmentation datasets for AutoTrain.
+
+    Attributes:
+        train_data (str): Path to the training data.
+        token (str): Authentication token.
+        project_name (str): Name of the project.
+        username (str): Username of the project owner.
+        valid_data (Optional[str]): Path to the validation data. Default is None.
+        percent_valid (Optional[float]): Percentage of training data to use for validation. Default is None.
+        local (bool): Flag to indicate if the data is local. Default is False.
+
+    Methods:
+        __str__() -> str:
+            Returns a string representation of the dataset.
+
+        __post_init__():
+            Initializes the dataset and sets default values for validation data.
+
+        prepare():
+            Prepares the dataset for training by extracting and preprocessing the data.
+    """
+
+    train_data: str
+    token: str
+    project_name: str
+    username: str
+    valid_data: Optional[str] = None
+    percent_valid: Optional[float] = None
+    local: bool = False
+
+    def __str__(self) -> str:
+        info = f"Dataset: {self.project_name} ({self.task})\n"
+        info += f"Train data: {self.train_data}\n"
+        info += f"Valid data: {self.valid_data}\n"
+        return info
+
+    def __post_init__(self):
+        self.task = "image_instance_segmentation"
+        if not self.valid_data and self.percent_valid is None:
+            self.percent_valid = 0.2
+        elif self.valid_data and self.percent_valid is not None:
+            raise ValueError("You can only specify one of valid_data or percent_valid")
+        elif self.valid_data:
+            self.percent_valid = 0.0
+
+    def prepare(self):
+        valid_dir = None
+        
+        if not isinstance(self.train_data, str):
+            cache_dir = os.environ.get("HF_HOME")
+            if not cache_dir:
+                cache_dir = os.path.join(os.path.expanduser("~"), ".cache", "huggingface")
+
+            random_uuid = uuid.uuid4()
+            train_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+            os.makedirs(train_dir, exist_ok=True)
+            self.train_data.seek(0)
+            content = self.train_data.read()
+            bytes_io = io.BytesIO(content)
+
+            zip_ref = zipfile.ZipFile(bytes_io, "r")
+            zip_ref.extractall(train_dir)
+            macosx_dir = os.path.join(train_dir, "__MACOSX")
+            if os.path.exists(macosx_dir):
+                os.system(f"rm -rf {macosx_dir}")
+            remove_non_image_files(train_dir)
+            
+            if self.valid_data:
+                random_uuid = uuid.uuid4()
+                valid_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+                os.makedirs(valid_dir, exist_ok=True)
+                self.valid_data.seek(0)
+                content = self.valid_data.read()
+                bytes_io = io.BytesIO(content)
+                zip_ref = zipfile.ZipFile(bytes_io, "r")
+                zip_ref.extractall(valid_dir)
+                # remove the __MACOSX directory
+                macosx_dir = os.path.join(valid_dir, "__MACOSX")
+                if os.path.exists(macosx_dir):
+                    os.system(f"rm -rf {macosx_dir}")
+                remove_non_image_files(valid_dir)
+                
+        elif isinstance(self.train_data, str) and self.train_data.endswith('.zip') and os.path.isfile(self.train_data):
+            # CLI: ZIP file path -> extract ZIP
+            cache_dir = os.environ.get("HF_HOME")
+            if not cache_dir:
+                cache_dir = os.path.join(os.path.expanduser("~"), ".cache", "huggingface")
+
+            random_uuid = uuid.uuid4()
+            extract_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+            train_dir = extract_zip_file(self.train_data, extract_dir, task_type="segmentation")
+            
+            if self.valid_data and self.valid_data.endswith('.zip') and os.path.isfile(self.valid_data):
+                random_uuid = uuid.uuid4()
+                valid_extract_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+                valid_dir = extract_zip_file(self.valid_data, valid_extract_dir, task_type="segmentation")
+            elif self.valid_data:
+                valid_dir = self.valid_data
+                
+        else:
+            # CLI: Directory path -> use directly
+            train_dir = self.train_data
+            if self.valid_data:
+                valid_dir = self.valid_data
+
+        preprocessor = ImageInstanceSegmentationPreprocessor(
+            train_data=train_dir,
+            valid_data=valid_dir,
+            token=self.token,
+            project_name=self.project_name,
+            username=self.username,
+            local=self.local,
+        )
+        return preprocessor.prepare()
+
+
 @dataclass
 class AutoTrainObjectDetectionDataset:
     """
-    A dataset class for AutoTrain object detection tasks.
+    A class to handle object detection datasets for AutoTrain.
 
     Attributes:
         train_data (str): Path to the training data.
@@ -182,8 +524,8 @@ class AutoTrainObjectDetectionDataset:
         project_name (str): Name of the project.
         username (str): Username of the project owner.
         valid_data (Optional[str]): Path to the validation data. Default is None.
-        percent_valid (Optional[float]): Percentage of training data to be used for validation. Default is None.
-        local (bool): Flag indicating if the data is local. Default is False.
+        percent_valid (Optional[float]): Percentage of training data to use for validation. Default is None.
+        local (bool): Flag to indicate if the data is local. Default is False.
 
     Methods:
         __str__() -> str:
@@ -211,7 +553,7 @@ def __str__(self) -> str:
         return info
 
     def __post_init__(self):
-        self.task = "image_object_detection"
+        self.task = "object_detection"
         if not self.valid_data and self.percent_valid is None:
             self.percent_valid = 0.2
         elif self.valid_data and self.percent_valid is not None:
@@ -221,7 +563,10 @@ def __post_init__(self):
 
     def prepare(self):
         valid_dir = None
+        
+        # Handle different input types
         if not isinstance(self.train_data, str):
+            # Web upload: file-like object -> extract ZIP
             cache_dir = os.environ.get("HF_HOME")
             if not cache_dir:
                 cache_dir = os.path.join(os.path.expanduser("~"), ".cache", "huggingface")
@@ -240,6 +585,7 @@ def prepare(self):
             if os.path.exists(macosx_dir):
                 os.system(f"rm -rf {macosx_dir}")
             remove_non_image_files(train_dir)
+            
             if self.valid_data:
                 random_uuid = uuid.uuid4()
                 valid_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
@@ -254,7 +600,26 @@ def prepare(self):
                 if os.path.exists(macosx_dir):
                     os.system(f"rm -rf {macosx_dir}")
                 remove_non_image_files(valid_dir)
+                
+        elif isinstance(self.train_data, str) and self.train_data.endswith('.zip') and os.path.isfile(self.train_data):
+            # CLI: ZIP file path -> extract ZIP
+            cache_dir = os.environ.get("HF_HOME")
+            if not cache_dir:
+                cache_dir = os.path.join(os.path.expanduser("~"), ".cache", "huggingface")
+
+            random_uuid = uuid.uuid4()
+            extract_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+            train_dir = extract_zip_file(self.train_data, extract_dir, task_type="detection")
+            
+            if self.valid_data and self.valid_data.endswith('.zip') and os.path.isfile(self.valid_data):
+                random_uuid = uuid.uuid4()
+                valid_extract_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+                valid_dir = extract_zip_file(self.valid_data, valid_extract_dir, task_type="detection")
+            elif self.valid_data:
+                valid_dir = self.valid_data
+                
         else:
+            # CLI: Directory path -> use directly
             train_dir = self.train_data
             if self.valid_data:
                 valid_dir = self.valid_data
@@ -273,44 +638,34 @@ def prepare(self):
 @dataclass
 class AutoTrainVLMDataset:
     """
-    A class to handle dataset for AutoTrain Vision-Language Model (VLM) task.
+    A class to handle VLM (Vision Language Model) datasets for AutoTrain.
 
     Attributes:
-    -----------
-    train_data : str
-        Path to the training data or a file-like object containing the training data.
-    token : str
-        Authentication token for accessing the dataset.
-    project_name : str
-        Name of the project.
-    username : str
-        Username of the project owner.
-    column_mapping : Dict[str, str]
-        Mapping of columns in the dataset.
-    valid_data : Optional[str], default=None
-        Path to the validation data or a file-like object containing the validation data.
-    percent_valid : Optional[float], default=None
-        Percentage of the training data to be used for validation if `valid_data` is not provided.
-    local : bool, default=False
-        Flag indicating whether the dataset is stored locally.
+        train_data (str): Path to the training data.
+        token (str): Authentication token.
+        project_name (str): Name of the project.
+        username (str): Username of the project owner.
+        column_mapping (dict): Mapping of column names for the dataset.
+        valid_data (Optional[str]): Path to the validation data. Default is None.
+        percent_valid (Optional[float]): Percentage of training data to use for validation. Default is None.
+        local (bool): Flag to indicate if the data is local. Default is False.
 
     Methods:
-    --------
-    __str__() -> str:
-        Returns a string representation of the dataset.
+        __str__() -> str:
+            Returns a string representation of the dataset.
 
-    __post_init__():
-        Initializes the dataset and sets default values for validation data percentage.
+        __post_init__():
+            Initializes the dataset and sets default values for validation data.
 
-    prepare():
-        Prepares the dataset for training by extracting and processing the data.
+        prepare():
+            Prepares the dataset for training by extracting and preprocessing the data.
     """
 
     train_data: str
     token: str
     project_name: str
     username: str
-    column_mapping: Dict[str, str]
+    column_mapping: dict
     valid_data: Optional[str] = None
     percent_valid: Optional[float] = None
     local: bool = False
@@ -332,6 +687,7 @@ def __post_init__(self):
 
     def prepare(self):
         valid_dir = None
+        
         if not isinstance(self.train_data, str):
             cache_dir = os.environ.get("HF_HOME")
             if not cache_dir:
@@ -346,11 +702,11 @@ def prepare(self):
 
             zip_ref = zipfile.ZipFile(bytes_io, "r")
             zip_ref.extractall(train_dir)
-            # remove the __MACOSX directory
             macosx_dir = os.path.join(train_dir, "__MACOSX")
             if os.path.exists(macosx_dir):
                 os.system(f"rm -rf {macosx_dir}")
             remove_non_image_files(train_dir)
+            
             if self.valid_data:
                 random_uuid = uuid.uuid4()
                 valid_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
@@ -360,11 +716,27 @@ def prepare(self):
                 bytes_io = io.BytesIO(content)
                 zip_ref = zipfile.ZipFile(bytes_io, "r")
                 zip_ref.extractall(valid_dir)
-                # remove the __MACOSX directory
                 macosx_dir = os.path.join(valid_dir, "__MACOSX")
                 if os.path.exists(macosx_dir):
                     os.system(f"rm -rf {macosx_dir}")
                 remove_non_image_files(valid_dir)
+                
+        elif isinstance(self.train_data, str) and self.train_data.endswith('.zip') and os.path.isfile(self.train_data):
+            cache_dir = os.environ.get("HF_HOME")
+            if not cache_dir:
+                cache_dir = os.path.join(os.path.expanduser("~"), ".cache", "huggingface")
+
+            random_uuid = uuid.uuid4()
+            extract_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+            train_dir = extract_zip_file(self.train_data, extract_dir, task_type="vlm")
+            
+            if self.valid_data and self.valid_data.endswith('.zip') and os.path.isfile(self.valid_data):
+                random_uuid = uuid.uuid4()
+                valid_extract_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+                valid_dir = extract_zip_file(self.valid_data, valid_extract_dir, task_type="vlm")
+            elif self.valid_data:
+                valid_dir = self.valid_data
+                
         else:
             train_dir = self.train_data
             if self.valid_data:
@@ -376,8 +748,8 @@ def prepare(self):
             token=self.token,
             project_name=self.project_name,
             username=self.username,
-            local=self.local,
             column_mapping=self.column_mapping,
+            local=self.local,
         )
         return preprocessor.prepare()
 
@@ -385,7 +757,7 @@ def prepare(self):
 @dataclass
 class AutoTrainImageRegressionDataset:
     """
-    AutoTrainImageRegressionDataset is a class designed for handling image regression datasets in the AutoTrain framework.
+    A class to handle image regression datasets for AutoTrain.
 
     Attributes:
         train_data (str): Path to the training data.
@@ -393,18 +765,18 @@ class AutoTrainImageRegressionDataset:
         project_name (str): Name of the project.
         username (str): Username of the project owner.
         valid_data (Optional[str]): Path to the validation data. Default is None.
-        percent_valid (Optional[float]): Percentage of training data to be used for validation if valid_data is not provided. Default is None.
-        local (bool): Flag indicating if the data is local. Default is False.
+        percent_valid (Optional[float]): Percentage of training data to use for validation. Default is None.
+        local (bool): Flag to indicate if the data is local. Default is False.
 
     Methods:
         __str__() -> str:
-            Returns a string representation of the dataset information.
+            Returns a string representation of the dataset.
 
         __post_init__():
-            Initializes the task attribute and sets the percent_valid attribute based on the presence of valid_data.
+            Initializes the dataset and sets default values for validation data.
 
         prepare():
-            Prepares the dataset for training by extracting and organizing the data, and returns a preprocessor object.
+            Prepares the dataset for training by extracting and preprocessing the data.
     """
 
     train_data: str
@@ -422,7 +794,7 @@ def __str__(self) -> str:
         return info
 
     def __post_init__(self):
-        self.task = "image_single_column_regression"
+        self.task = "image_regression"
         if not self.valid_data and self.percent_valid is None:
             self.percent_valid = 0.2
         elif self.valid_data and self.percent_valid is not None:
@@ -432,6 +804,7 @@ def __post_init__(self):
 
     def prepare(self):
         valid_dir = None
+        
         if not isinstance(self.train_data, str):
             cache_dir = os.environ.get("HF_HOME")
             if not cache_dir:
@@ -446,11 +819,11 @@ def prepare(self):
 
             zip_ref = zipfile.ZipFile(bytes_io, "r")
             zip_ref.extractall(train_dir)
-            # remove the __MACOSX directory
             macosx_dir = os.path.join(train_dir, "__MACOSX")
             if os.path.exists(macosx_dir):
                 os.system(f"rm -rf {macosx_dir}")
             remove_non_image_files(train_dir)
+            
             if self.valid_data:
                 random_uuid = uuid.uuid4()
                 valid_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
@@ -460,11 +833,27 @@ def prepare(self):
                 bytes_io = io.BytesIO(content)
                 zip_ref = zipfile.ZipFile(bytes_io, "r")
                 zip_ref.extractall(valid_dir)
-                # remove the __MACOSX directory
                 macosx_dir = os.path.join(valid_dir, "__MACOSX")
                 if os.path.exists(macosx_dir):
                     os.system(f"rm -rf {macosx_dir}")
                 remove_non_image_files(valid_dir)
+                
+        elif isinstance(self.train_data, str) and self.train_data.endswith('.zip') and os.path.isfile(self.train_data):
+            cache_dir = os.environ.get("HF_HOME")
+            if not cache_dir:
+                cache_dir = os.path.join(os.path.expanduser("~"), ".cache", "huggingface")
+
+            random_uuid = uuid.uuid4()
+            extract_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+            train_dir = extract_zip_file(self.train_data, extract_dir, task_type="regression")
+            
+            if self.valid_data and self.valid_data.endswith('.zip') and os.path.isfile(self.valid_data):
+                random_uuid = uuid.uuid4()
+                valid_extract_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+                valid_dir = extract_zip_file(self.valid_data, valid_extract_dir, task_type="regression")
+            elif self.valid_data:
+                valid_dir = self.valid_data
+                
         else:
             train_dir = self.train_data
             if self.valid_data:
@@ -545,12 +934,10 @@ def prepare(self):
 
             zip_ref = zipfile.ZipFile(bytes_io, "r")
             zip_ref.extractall(train_dir)
-            # remove the __MACOSX directory
             macosx_dir = os.path.join(train_dir, "__MACOSX")
             if os.path.exists(macosx_dir):
                 os.system(f"rm -rf {macosx_dir}")
             
-            # Validate audio files and metadata.jsonl
             self._validate_audio_data(train_dir)
             
             if self.valid_data:
@@ -561,12 +948,28 @@ def prepare(self):
                 content = self.valid_data.read()
                 bytes_io = io.BytesIO(content)
                 zip_ref = zipfile.ZipFile(bytes_io, "r")
-                zip_ref.extractall(valid_dir)
-                # remove the __MACOSX directory
+                zip_ref.extractall(valid_dir)   
                 macosx_dir = os.path.join(valid_dir, "__MACOSX")
                 if os.path.exists(macosx_dir):
                     os.system(f"rm -rf {macosx_dir}")
                 self._validate_audio_data(valid_dir)
+                
+        elif isinstance(self.train_data, str) and self.train_data.endswith('.zip') and os.path.isfile(self.train_data):
+            cache_dir = os.environ.get("HF_HOME")
+            if not cache_dir:
+                cache_dir = os.path.join(os.path.expanduser("~"), ".cache", "huggingface")
+            
+            random_uuid = uuid.uuid4()
+            train_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+            train_dir = extract_zip_file(self.train_data, train_dir, task_type="audio")
+            self._validate_audio_data(train_dir)
+            
+            if self.valid_data:
+                random_uuid = uuid.uuid4()
+                valid_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+                valid_dir = extract_zip_file(self.valid_data, valid_dir, task_type="audio")
+                self._validate_audio_data(valid_dir)
+                
         else:
             train_dir = self.train_data
             if self.valid_data:
@@ -589,12 +992,10 @@ def _validate_audio_data(self, data_dir):
         """
         Validate that the extracted data contains audio files and metadata.jsonl
         """
-        # Check for metadata.jsonl
         metadata_path = os.path.join(data_dir, "metadata.jsonl")
         if not os.path.exists(metadata_path):
             raise ValueError(f"metadata.jsonl not found in {data_dir}")
         
-        # Check for audio files
         audio_extensions = {".wav", ".mp3", ".flac", ".m4a", ".ogg"}
         audio_files = []
         for file in os.listdir(data_dir):
@@ -604,7 +1005,6 @@ def _validate_audio_data(self, data_dir):
         if len(audio_files) < 1:
             raise ValueError(f"No audio files found in {data_dir}")
         
-        # Validate metadata.jsonl format
         import json
         try:
             with open(metadata_path, 'r', encoding='utf-8') as f:
@@ -616,7 +1016,6 @@ def _validate_audio_data(self, data_dir):
                         if 'label' not in data:
                             raise ValueError(f"Line {line_num}: 'label' field missing in metadata.jsonl")
                         
-                        # Validate that the audio file exists
                         audio_file = os.path.join(data_dir, data['file_name'])
                         if not os.path.exists(audio_file):
                             raise ValueError(f"Audio file {data['file_name']} referenced in metadata.jsonl not found")
@@ -689,12 +1088,10 @@ def prepare(self):
 
             zip_ref = zipfile.ZipFile(bytes_io, "r")
             zip_ref.extractall(train_dir)
-            # remove the __MACOSX directory
             macosx_dir = os.path.join(train_dir, "__MACOSX")
             if os.path.exists(macosx_dir):
                 os.system(f"rm -rf {macosx_dir}")
             
-            # Validate audio files and metadata.jsonl
             self._validate_audio_data(train_dir)
             
             if self.valid_data:
@@ -705,18 +1102,33 @@ def prepare(self):
                 content = self.valid_data.read()
                 bytes_io = io.BytesIO(content)
                 zip_ref = zipfile.ZipFile(bytes_io, "r")
-                zip_ref.extractall(valid_dir)
-                # remove the __MACOSX directory
+                zip_ref.extractall(valid_dir)   
                 macosx_dir = os.path.join(valid_dir, "__MACOSX")
                 if os.path.exists(macosx_dir):
                     os.system(f"rm -rf {macosx_dir}")
                 self._validate_audio_data(valid_dir)
+                
+        elif isinstance(self.train_data, str) and self.train_data.endswith('.zip') and os.path.isfile(self.train_data):
+            cache_dir = os.environ.get("HF_HOME")
+            if not cache_dir:
+                cache_dir = os.path.join(os.path.expanduser("~"), ".cache", "huggingface")
+            
+            random_uuid = uuid.uuid4()
+            train_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+            train_dir = extract_zip_file(self.train_data, train_dir, task_type="audio")
+            self._validate_audio_data(train_dir)
+            
+            if self.valid_data:
+                random_uuid = uuid.uuid4()
+                valid_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+                valid_dir = extract_zip_file(self.valid_data, valid_dir, task_type="audio")
+                self._validate_audio_data(valid_dir)
+                
         else:
             train_dir = self.train_data
             if self.valid_data:
                 valid_dir = self.valid_data
 
-        from autotrain.preprocessor.audio import AudioSegmentationPreprocessor
         preprocessor = AudioSegmentationPreprocessor(
             train_data=train_dir,
             valid_data=valid_dir,
@@ -734,12 +1146,10 @@ def _validate_audio_data(self, data_dir):
         """
         Validate that the extracted data contains audio files and metadata.jsonl
         """
-        # Check for metadata.jsonl
         metadata_path = os.path.join(data_dir, "metadata.jsonl")
         if not os.path.exists(metadata_path):
             raise ValueError(f"metadata.jsonl not found in {data_dir}")
         
-        # Check for audio files
         audio_extensions = {".wav", ".mp3", ".flac", ".m4a", ".ogg"}
         audio_files = []
         for file in os.listdir(data_dir):
@@ -749,7 +1159,6 @@ def _validate_audio_data(self, data_dir):
         if len(audio_files) < 1:
             raise ValueError(f"No audio files found in {data_dir}")
         
-        # Validate metadata.jsonl format
         import json
         try:
             with open(metadata_path, 'r', encoding='utf-8') as f:
@@ -761,7 +1170,6 @@ def _validate_audio_data(self, data_dir):
                         if 'segments' not in data:
                             raise ValueError(f"Line {line_num}: 'segments' field missing in metadata.jsonl")
                         
-                        # Validate that the audio file exists
                         audio_file = os.path.join(data_dir, data['file_name'])
                         if not os.path.exists(audio_file):
                             raise ValueError(f"Audio file {data['file_name']} referenced in metadata.jsonl not found")
@@ -802,11 +1210,9 @@ def __str__(self) -> str:
         return info
 
     def __post_init__(self):
-        # Set username if not provided
         if self.username is None:
             self.username = "autotrain-user"
 
-        # Set validation split percentage if not provided
         if self.valid_data is None and self.percent_valid is None:
             self.percent_valid = 0.2
         elif self.valid_data is not None and self.percent_valid is not None:
@@ -828,7 +1234,6 @@ def prepare(self):
         from autotrain.preprocessor.audio import AudioDetectionPreprocessor
         
         if isinstance(self.train_data, str) and self.train_data.endswith('.zip'):
-            # Handle ZIP file
             processor = AudioDetectionPreprocessor(
                 train_data=self.train_data,
                 valid_data=self.valid_data,
@@ -842,7 +1247,6 @@ def prepare(self):
                 events_column="events"
             )
         elif os.path.isdir(self.train_data):
-            # Handle extracted directory with metadata.jsonl
             processor = AudioDetectionPreprocessor(
                 train_data=self.train_data,
                 valid_data=self.valid_data,
@@ -856,7 +1260,6 @@ def prepare(self):
                 events_column="events"
             )
         else:
-            # Handle file-like object (from web upload)
             processor = AudioDetectionPreprocessor(
                 train_data=self.train_data,
                 valid_data=self.valid_data,
@@ -1223,7 +1626,7 @@ def prepare(self):
             return preprocessor.prepare()
         elif self.task == "audio_segmentation":
             audio_column = self.column_mapping["audio"]
-            segments_column = self.column_mapping["label"]  # For segmentation, this contains segment annotations
+            segments_column = self.column_mapping["label"]
             preprocessor = AudioSegmentationPreprocessor(
                 train_data=self.train_df,
                 valid_data=self.valid_df,
@@ -1238,7 +1641,7 @@ def prepare(self):
             return preprocessor.prepare()
         elif self.task == "audio_detection":
             audio_column = self.column_mapping["audio"]
-            events_column = self.column_mapping["events"]  # For detection, this contains event annotations
+            events_column = self.column_mapping["events"]
             preprocessor = AudioDetectionPreprocessor(
                 train_data=self.train_df,
                 valid_data=self.valid_df,
diff --git a/src/autotrain/parser.py b/src/autotrain/parser.py
index fd7327e904..338d5cc587 100644
--- a/src/autotrain/parser.py
+++ b/src/autotrain/parser.py
@@ -7,10 +7,13 @@
 from autotrain import logger
 from autotrain.project import (
     AutoTrainProject,
+
     ext_qa_munge_data,
     img_clf_munge_data,
     img_obj_detect_munge_data,
     img_reg_munge_data,
+    img_semantic_seg_munge_data,
+    img_instance_seg_munge_data,
     llm_munge_data,
     sent_transformers_munge_data,
     seq2seq_munge_data,
@@ -19,12 +22,20 @@
     text_reg_munge_data,
     token_clf_munge_data,
     vlm_munge_data,
+    audio_clf_munge_data,
+    audio_det_munge_data,
+    audio_seg_munge_data,
 )
 from autotrain.tasks import TASKS
+from autotrain.trainers.audio_classification.params import AudioClassificationParams
+from autotrain.trainers.audio_detection.params import AudioDetectionParams
+from autotrain.trainers.audio_segmentation.params import AudioSegmentationParams
 from autotrain.trainers.clm.params import LLMTrainingParams
 from autotrain.trainers.extractive_question_answering.params import ExtractiveQuestionAnsweringParams
 from autotrain.trainers.image_classification.params import ImageClassificationParams
 from autotrain.trainers.image_regression.params import ImageRegressionParams
+from autotrain.trainers.image_semantic_segmentation.params import ImageSemanticSegmentationParams
+from autotrain.trainers.image_instance_segmentation.params import ImageInstanceSegmentationParams
 from autotrain.trainers.object_detection.params import ObjectDetectionParams
 from autotrain.trainers.sent_transformers.params import SentenceTransformersParams
 from autotrain.trainers.seq2seq.params import Seq2SeqParams
@@ -85,8 +96,14 @@ def __post_init__(self):
             "text_token_classification": TokenClassificationParams,
             "sentence_transformers": SentenceTransformersParams,
             "image_single_column_regression": ImageRegressionParams,
+            "image_semantic_segmentation": ImageSemanticSegmentationParams,
+            "image_instance_segmentation": ImageInstanceSegmentationParams,
             "vlm": VLMTrainingParams,
             "text_extractive_question_answering": ExtractiveQuestionAnsweringParams,
+            "audio_binary_classification": AudioClassificationParams,
+            "audio_multi_class_classification": AudioClassificationParams,
+            "audio_detection": AudioDetectionParams,
+            "audio_segmentation": AudioSegmentationParams,
         }
         self.munge_data_map = {
             "lm_training": llm_munge_data,
@@ -99,8 +116,14 @@ def __post_init__(self):
             "text_single_column_regression": text_reg_munge_data,
             "sentence_transformers": sent_transformers_munge_data,
             "image_single_column_regression": img_reg_munge_data,
+            "image_semantic_segmentation": img_semantic_seg_munge_data,
+            "image_instance_segmentation": img_instance_seg_munge_data,
             "vlm": vlm_munge_data,
             "text_extractive_question_answering": ext_qa_munge_data,
+            "audio_binary_classification": audio_clf_munge_data,
+            "audio_multi_class_classification": audio_clf_munge_data,
+            "audio_detection": audio_det_munge_data,
+            "audio_segmentation": audio_seg_munge_data,
         }
         self.task_aliases = {
             "llm": "lm_training",
@@ -113,6 +136,14 @@ def __post_init__(self):
             "image-binary-classification": "image_multi_class_classification",
             "image_classification": "image_multi_class_classification",
             "image-classification": "image_multi_class_classification",
+            "image_semantic_segmentation": "image_semantic_segmentation",
+            "image-semantic-segmentation": "image_semantic_segmentation",
+            "semantic_segmentation": "image_semantic_segmentation",
+            "semantic-segmentation": "image_semantic_segmentation",
+            "image_instance_segmentation": "image_instance_segmentation",
+            "image-instance-segmentation": "image_instance_segmentation",
+            "instance_segmentation": "image_instance_segmentation",
+            "instance-segmentation": "image_instance_segmentation",
             "seq2seq": "seq2seq",
             "tabular": "tabular",
             "text_binary_classification": "text_multi_class_classification",
@@ -151,6 +182,14 @@ def __post_init__(self):
             "ext_qa": "text_extractive_question_answering",
             "ext-qa": "text_extractive_question_answering",
             "extractive-qa": "text_extractive_question_answering",
+            "audio_binary_classification": "audio_binary_classification",
+            "audio-binary-classification": "audio_binary_classification",
+            "audio_classification": "audio_multi_class_classification",
+            "audio-classification": "audio_multi_class_classification",
+            "audio_detection": "audio_detection",
+            "audio-detection": "audio_detection",
+            "audio_segmentation": "audio_segmentation",
+            "audio-segmentation": "audio_segmentation",
         }
         task = self.config.get("task")
         self.task = self.task_aliases.get(task, task)
diff --git a/src/autotrain/preprocessor/vision.py b/src/autotrain/preprocessor/vision.py
index 2c452d4667..c0502c7886 100644
--- a/src/autotrain/preprocessor/vision.py
+++ b/src/autotrain/preprocessor/vision.py
@@ -563,3 +563,796 @@ def prepare(self):
         if self.local:
             return f"{self.project_name}/autotrain-data"
         return f"{self.username}/autotrain-data-{self.project_name}"
+
+
+@dataclass
+class ImageSemanticSegmentationPreprocessor:
+    """
+    A class used to preprocess image data for semantic segmentation tasks.
+    
+    Supports the standard semantic segmentation format used by CVAT, Supervisely, Pascal VOC:
+    - images/ folder with RGB images (JPG/PNG)
+    - masks/ or annotations/ folder with grayscale PNG masks (pixel values = class IDs)
+    - Optional classes.txt or labelmap.txt with class names (one per line)
+    
+    Expected input structure (directory):
+    ```
+    dataset/
+    ├── images/
+    │   ├── image1.jpg
+    │   ├── image2.jpg
+    │   └── ...
+    ├── masks/ (or annotations/)
+    │   ├── image1.png
+    │   ├── image2.png  
+    │   └── ...
+    └── classes.txt (optional)
+    ```
+
+    Attributes
+    ----------
+    train_data : str
+        Path to the training data directory.
+    username : str
+        Username for the Hugging Face Hub.
+    project_name : str
+        Name of the project.
+    token : str
+        Authentication token for the Hugging Face Hub.
+    valid_data : Optional[str], optional
+        Path to the validation data directory, by default None.
+    test_size : Optional[float], optional
+        Proportion of the dataset to include in the validation split, by default 0.2.
+    seed : Optional[int], optional
+        Random seed for reproducibility, by default 42.
+    local : Optional[bool], optional
+        Whether to save the dataset locally or push to the Hugging Face Hub, by default False.
+
+    Methods
+    -------
+    __post_init__():
+        Validates the structure and contents of the training and validation data.
+    prepare() -> str:
+        Prepares the dataset for training and either saves it locally or pushes it to the Hugging Face Hub.
+    """
+
+    train_data: str
+    username: str
+    project_name: str
+    token: str
+    valid_data: Optional[str] = None
+    test_size: Optional[float] = 0.2
+    seed: Optional[int] = 42
+    local: Optional[bool] = False
+
+    @staticmethod
+    def _find_images_and_masks_dirs(data_dir):
+        """
+        Find images and masks directories.
+        Supports common naming conventions: images/masks, img/ann, images/annotations, etc.
+        """
+        # Common directory name patterns
+        image_dir_names = ['images', 'img', 'image', 'imgs']
+        mask_dir_names = ['masks', 'mask', 'annotations', 'ann', 'segmentations', 'labels']
+        
+        images_dir = None
+        masks_dir = None
+        
+        # Look for subdirectories
+        subdirs = [d for d in os.listdir(data_dir) if os.path.isdir(os.path.join(data_dir, d))]
+        
+        # Find images directory
+        for subdir in subdirs:
+            if subdir.lower() in image_dir_names:
+                images_dir = os.path.join(data_dir, subdir)
+                break
+        
+        # Find masks directory
+        for subdir in subdirs:
+            if subdir.lower() in mask_dir_names:
+                masks_dir = os.path.join(data_dir, subdir)
+                break
+        
+        # If no subdirectories found, assume flat structure
+        if images_dir is None or masks_dir is None:
+            # Check if we have images and masks in the same directory
+            files = os.listdir(data_dir)
+            image_files = [f for f in files if f.lower().endswith(ALLOWED_EXTENSIONS)]
+            mask_files = [f for f in files if f.lower().endswith('.png')]
+            
+            if len(image_files) > 0 and len(mask_files) > 0:
+                return data_dir, data_dir  # Same directory for both
+        
+        return images_dir, masks_dir
+
+    @staticmethod
+    def _find_classes_file(data_dir):
+        """Find the path to classes.txt or similar file if available."""
+        class_file_names = ['classes.txt', 'labelmap.txt', 'labels.txt']
+        
+        for class_file in class_file_names:
+            class_path = os.path.join(data_dir, class_file)
+            if os.path.exists(class_path):
+                return class_path
+        
+        return None
+
+    @staticmethod
+    def _load_classes(data_dir):
+        """Load class names from classes.txt or labelmap.txt if available."""
+        class_file_names = ['classes.txt', 'labelmap.txt', 'labels.txt']
+        
+        for class_file in class_file_names:
+            class_path = os.path.join(data_dir, class_file)
+            if os.path.exists(class_path):
+                with open(class_path, 'r') as f:
+                    classes = [line.strip() for line in f.readlines() if line.strip()]
+                return classes
+        
+        return None
+
+    @staticmethod
+    def _get_unique_mask_values(mask_dir):
+        """Get unique pixel values from all mask files to determine number of classes."""
+        import numpy as np
+        from PIL import Image as PILImage
+        
+        unique_values = set()
+        mask_files = [f for f in os.listdir(mask_dir) if f.lower().endswith('.png')]
+        
+        for mask_file in mask_files[:10]:  # Sample first 10 masks to determine classes
+            mask_path = os.path.join(mask_dir, mask_file)
+            mask = PILImage.open(mask_path)
+            mask_array = np.array(mask)
+            unique_values.update(np.unique(mask_array).tolist())
+        
+        return sorted(list(unique_values))
+
+    @staticmethod
+    def _validate_dataset_structure(images_dir, masks_dir):
+        """Validate that the dataset has proper structure."""
+        if not os.path.exists(images_dir):
+            raise ValueError(f"Images directory not found: {images_dir}")
+        
+        if not os.path.exists(masks_dir):
+            raise ValueError(f"Masks directory not found: {masks_dir}")
+        
+        # Get image and mask files
+        image_files = [f for f in os.listdir(images_dir) if f.lower().endswith(ALLOWED_EXTENSIONS)]
+        mask_files = [f for f in os.listdir(masks_dir) if f.lower().endswith('.png')]
+        
+        if len(image_files) == 0:
+            raise ValueError(f"No image files found in {images_dir}")
+        
+        if len(mask_files) == 0:
+            raise ValueError(f"No mask files found in {masks_dir}")
+        
+        # Check if we have corresponding masks for images
+        image_basenames = {os.path.splitext(f)[0] for f in image_files}
+        mask_basenames = {os.path.splitext(f)[0] for f in mask_files}
+        
+        missing_masks = image_basenames - mask_basenames
+        if missing_masks:
+            raise ValueError(f"Missing masks for images: {list(missing_masks)[:5]}...")
+        
+        return image_files, mask_files
+
+    def __post_init__(self):
+        if not os.path.exists(self.train_data):
+            raise ValueError(f"{self.train_data} does not exist.")
+        
+        # Find and validate training data structure
+        train_images_dir, train_masks_dir = self._find_images_and_masks_dirs(self.train_data)
+        self._validate_dataset_structure(train_images_dir, train_masks_dir)
+        
+        # Validate validation data if provided
+        if self.valid_data:
+            if not os.path.exists(self.valid_data):
+                raise ValueError(f"{self.valid_data} does not exist.")
+            
+            valid_images_dir, valid_masks_dir = self._find_images_and_masks_dirs(self.valid_data)
+            self._validate_dataset_structure(valid_images_dir, valid_masks_dir)
+
+    def split(self, df):
+        """Split dataframe into train and validation sets."""
+        train_df, valid_df = train_test_split(
+            df,
+            test_size=self.test_size,
+            random_state=self.seed,
+        )
+        train_df = train_df.reset_index(drop=True)
+        valid_df = valid_df.reset_index(drop=True)
+        return train_df, valid_df
+
+    def prepare(self):
+        """
+        Prepare the semantic segmentation dataset following the standard format.
+        Creates a Hugging Face dataset with images and segmentation masks.
+        """
+        from datasets import Dataset, DatasetDict, Features, Image, ClassLabel
+        import numpy as np
+        from PIL import Image as PILImage
+        
+        random_uuid = uuid.uuid4()
+        cache_dir = os.environ.get("HF_HOME")
+        if not cache_dir:
+            cache_dir = os.path.join(os.path.expanduser("~"), ".cache", "huggingface")
+        data_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+        
+        # Process training data
+        train_images_dir, train_masks_dir = self._find_images_and_masks_dirs(self.train_data)
+        train_image_files, train_mask_files = self._validate_dataset_structure(train_images_dir, train_masks_dir)
+        
+        # Load class names if available
+        classes = self._load_classes(self.train_data)
+        if classes is None:
+            # Determine classes from unique mask values
+            unique_values = self._get_unique_mask_values(train_masks_dir)
+            classes = [f"class_{i}" for i in unique_values]
+        
+        num_classes = len(classes)
+        print(f"Found {num_classes} classes: {classes}")
+        
+        if self.valid_data:
+            # Use provided validation data
+            shutil.copytree(self.train_data, os.path.join(data_dir, "train"))
+            shutil.copytree(self.valid_data, os.path.join(data_dir, "validation"))
+        else:
+            # Create train/validation split
+            # Create DataFrame with image-mask pairs
+            image_mask_pairs = []
+            for img_file in train_image_files:
+                img_basename = os.path.splitext(img_file)[0]
+                # Find corresponding mask
+                mask_file = None
+                for mask_f in train_mask_files:
+                    if os.path.splitext(mask_f)[0] == img_basename:
+                        mask_file = mask_f
+                        break
+                
+                if mask_file:
+                    image_mask_pairs.append({
+                        'image_file': img_file,
+                        'mask_file': mask_file,
+                        'basename': img_basename
+                    })
+            
+            df = pd.DataFrame(image_mask_pairs)
+            train_df, valid_df = self.split(df)
+            
+            # Create train directory
+            train_img_dir = os.path.join(data_dir, "train", "images")
+            train_mask_dir = os.path.join(data_dir, "train", "masks")
+            os.makedirs(train_img_dir, exist_ok=True)
+            os.makedirs(train_mask_dir, exist_ok=True)
+            
+            # Create validation directory  
+            valid_img_dir = os.path.join(data_dir, "validation", "images")
+            valid_mask_dir = os.path.join(data_dir, "validation", "masks")
+            os.makedirs(valid_img_dir, exist_ok=True)
+            os.makedirs(valid_mask_dir, exist_ok=True)
+            
+            # Copy training files
+            for _, row in train_df.iterrows():
+                shutil.copy(
+                    os.path.join(train_images_dir, row['image_file']),
+                    os.path.join(train_img_dir, row['image_file'])
+                )
+                shutil.copy(
+                    os.path.join(train_masks_dir, row['mask_file']),
+                    os.path.join(train_mask_dir, row['mask_file'])
+                )
+            
+            # Copy validation files
+            for _, row in valid_df.iterrows():
+                shutil.copy(
+                    os.path.join(train_images_dir, row['image_file']),
+                    os.path.join(valid_img_dir, row['image_file'])
+                )
+                shutil.copy(
+                    os.path.join(train_masks_dir, row['mask_file']),
+                    os.path.join(valid_mask_dir, row['mask_file'])
+                )
+        
+        # Create metadata.jsonl files for both splits
+        def create_metadata(img_dir, mask_dir, split_name):
+            img_files = [f for f in os.listdir(img_dir) if f.lower().endswith(ALLOWED_EXTENSIONS)]
+            metadata = []
+            
+            for img_file in img_files:
+                img_basename = os.path.splitext(img_file)[0]
+                # Find corresponding mask
+                mask_file = None
+                for f in os.listdir(mask_dir):
+                    if f.lower().endswith('.png') and os.path.splitext(f)[0] == img_basename:
+                        mask_file = f
+                        break
+                
+                if mask_file:
+                    # Include subdirectory paths for imagefolder loader
+                    if img_dir != mask_dir:
+                        # Different directories (images/ and masks/)
+                        img_rel_path = f"images/{img_file}"
+                        mask_rel_path = f"masks/{mask_file}"
+                    else:
+                        # Same directory (flat structure)
+                        img_rel_path = img_file
+                        mask_rel_path = mask_file
+                    
+                    metadata.append({
+                        'file_name': img_file,
+                        'image': img_rel_path,
+                        'segmentation_mask': mask_rel_path
+                    })
+            
+            # Save metadata
+            metadata_df = pd.DataFrame(metadata)
+            metadata_path = os.path.join(data_dir, split_name, "metadata.jsonl")
+            metadata_df.to_json(metadata_path, orient='records', lines=True, force_ascii=False)
+        
+        # Create metadata for train split
+        train_final_img_dir = os.path.join(data_dir, "train", "images")
+        train_final_mask_dir = os.path.join(data_dir, "train", "masks")
+        if not os.path.exists(train_final_img_dir):
+            train_final_img_dir = os.path.join(data_dir, "train")
+            train_final_mask_dir = os.path.join(data_dir, "train")
+        
+        create_metadata(train_final_img_dir, train_final_mask_dir, "train")
+        
+        # Create metadata for validation split if exists
+        valid_final_img_dir = os.path.join(data_dir, "validation", "images")
+        valid_final_mask_dir = os.path.join(data_dir, "validation", "masks")
+        if os.path.exists(os.path.join(data_dir, "validation")):
+            if not os.path.exists(valid_final_img_dir):
+                valid_final_img_dir = os.path.join(data_dir, "validation")
+                valid_final_mask_dir = os.path.join(data_dir, "validation")
+            create_metadata(valid_final_img_dir, valid_final_mask_dir, "validation")
+        
+        # Create dataset directly instead of using imagefolder with metadata
+        from datasets import Dataset, DatasetDict, Features, Image
+        
+        def load_segmentation_data(split_dir):
+            
+            metadata_path = os.path.join(split_dir, "metadata.jsonl")
+            if not os.path.exists(metadata_path):
+                return None
+            
+            # Read metadata
+            metadata_df = pd.read_json(metadata_path, lines=True)
+            
+            # Create full paths
+            data = []
+            for _, row in metadata_df.iterrows():
+                img_path = os.path.join(split_dir, row['image'])
+                mask_path = os.path.join(split_dir, row['segmentation_mask'])
+                
+                if os.path.exists(img_path) and os.path.exists(mask_path):
+                    data.append({
+                        'autotrain_image': img_path,
+                        'autotrain_label': mask_path
+                    })
+            
+            # Create dataset with proper features for semantic segmentation
+            # Images are loaded as regular images, masks are loaded as grayscale label maps
+            features = Features({
+                'autotrain_image': Image(),
+                'autotrain_label': Image(mode='L')  # Grayscale for label maps
+            })
+            
+            return Dataset.from_list(data, features=features)
+        
+        # Load train and validation splits
+        train_dataset = load_segmentation_data(os.path.join(data_dir, "train"))
+        valid_dataset = load_segmentation_data(os.path.join(data_dir, "validation"))
+        
+        if valid_dataset is not None:
+            dataset = DatasetDict({
+                "train": train_dataset,
+                "validation": valid_dataset
+            })
+        else:
+            dataset = DatasetDict({
+                "train": train_dataset
+            })
+        
+        # Save or push dataset
+        if self.local:
+            dataset.save_to_disk(f"{self.project_name}/autotrain-data")
+            
+            # Copy classes.txt to the output directory if it exists
+            classes_file_source = self._find_classes_file(self.train_data)
+            if classes_file_source:
+                classes_file_dest = os.path.join(f"{self.project_name}/autotrain-data", "classes.txt")
+                shutil.copy2(classes_file_source, classes_file_dest)
+                print(f"Copied classes.txt to {classes_file_dest}")
+        else:
+            dataset.push_to_hub(
+                f"{self.username}/autotrain-data-{self.project_name}",
+                private=True,
+                token=self.token,
+            )
+        
+        if self.local:
+            return f"{self.project_name}/autotrain-data"
+        return f"{self.username}/autotrain-data-{self.project_name}"
+
+
+@dataclass
+class ImageInstanceSegmentationPreprocessor:
+    """
+    A class used to preprocess image data for instance segmentation tasks.
+    
+    Supports the standard instance segmentation format:
+    - images/ folder with RGB images (JPG/PNG)
+    - masks/ folder with instance masks (PNG files with unique instance IDs)
+    - Optional annotations/ folder with bounding box and category information
+    - Optional classes.txt or labelmap.txt with class names (one per line)
+    
+    Expected input structure (directory):
+    ```
+    dataset/
+    ├── images/
+    │   ├── image1.jpg
+    │   ├── image2.jpg
+    │   └── ...
+    ├── masks/ 
+    │   ├── image1.png
+    │   ├── image2.png  
+    │   └── ...
+    ├── annotations/ (optional)
+    │   ├── image1.json
+    │   ├── image2.json
+    │   └── ...
+    └── classes.txt (optional)
+    ```
+
+    Attributes
+    ----------
+    train_data : str
+        Path to the training data directory.
+    username : str
+        Username for the Hugging Face Hub.
+    project_name : str
+        Name of the project.
+    token : str
+        Authentication token for the Hugging Face Hub.
+    valid_data : Optional[str], optional
+        Path to the validation data directory, by default None.
+    test_size : Optional[float], optional
+        Proportion of the dataset to include in the validation split, by default 0.2.
+    seed : Optional[int], optional
+        Random seed for reproducibility, by default 42.
+    local : Optional[bool], optional
+        Whether to save the dataset locally or push to the Hugging Face Hub, by default False.
+
+    Methods
+    -------
+    __post_init__():
+        Validates the structure and contents of the training and validation data.
+    prepare() -> str:
+        Prepares the dataset for training and either saves it locally or pushes it to the Hugging Face Hub.
+    """
+
+    train_data: str
+    username: str
+    project_name: str
+    token: str
+    valid_data: Optional[str] = None
+    test_size: Optional[float] = 0.2
+    seed: Optional[int] = 42
+    local: Optional[bool] = False
+
+    @staticmethod
+    def _find_images_and_masks_dirs(data_dir):
+        """Find images and masks directories."""
+        image_dir_names = ['images', 'img', 'image', 'imgs']
+        mask_dir_names = ['masks', 'mask', 'instances', 'instance_masks']
+        
+        images_dir = None
+        masks_dir = None
+        
+        for name in image_dir_names:
+            potential_dir = os.path.join(data_dir, name)
+            if os.path.exists(potential_dir):
+                images_dir = potential_dir
+                break
+        
+        for name in mask_dir_names:
+            potential_dir = os.path.join(data_dir, name)
+            if os.path.exists(potential_dir):
+                masks_dir = potential_dir
+                break
+        
+        if images_dir is None:
+            raise ValueError(f"Could not find images directory in {data_dir}")
+        
+        if masks_dir is None:
+            raise ValueError(f"Could not find masks directory in {data_dir}")
+        
+        return images_dir, masks_dir
+
+    @staticmethod
+    def _find_classes_file(data_dir):
+        """Find and load classes file."""
+        class_file_names = ['classes.txt', 'labelmap.txt', 'labels.txt']
+        for class_file in class_file_names:
+            class_path = os.path.join(data_dir, class_file)
+            if os.path.exists(class_path):
+                return class_path
+        return None
+
+    @staticmethod
+    def _load_classes(data_dir):
+        """Load class names from file."""
+        class_file_path = ImageInstanceSegmentationPreprocessor._find_classes_file(data_dir)
+        if class_file_path:
+            with open(class_file_path, 'r') as f:
+                classes = [line.strip() for line in f.readlines() if line.strip()]
+            return classes
+        return None
+
+    @staticmethod
+    def _get_unique_mask_values(mask_dir):
+        """Get unique pixel values from all mask files to determine number of instances."""
+        import numpy as np
+        from PIL import Image as PILImage
+        
+        unique_values = set()
+        mask_files = [f for f in os.listdir(mask_dir) if f.lower().endswith('.png')]
+        
+        for mask_file in mask_files[:10]:  # Sample first 10 masks
+            mask_path = os.path.join(mask_dir, mask_file)
+            mask = PILImage.open(mask_path)
+            mask_array = np.array(mask)
+            unique_values.update(np.unique(mask_array).tolist())
+        
+        # Remove background (0) and sort
+        unique_values.discard(0)
+        return sorted(list(unique_values))
+
+    @staticmethod
+    def _validate_dataset_structure(images_dir, masks_dir):
+        """Validate that the dataset has proper structure."""
+        if not os.path.exists(images_dir):
+            raise ValueError(f"Images directory not found: {images_dir}")
+        
+        if not os.path.exists(masks_dir):
+            raise ValueError(f"Masks directory not found: {masks_dir}")
+        
+        # Get image and mask files
+        image_files = [f for f in os.listdir(images_dir) if f.lower().endswith(ALLOWED_EXTENSIONS)]
+        mask_files = [f for f in os.listdir(masks_dir) if f.lower().endswith('.png')]
+        
+        if len(image_files) == 0:
+            raise ValueError(f"No image files found in {images_dir}")
+        
+        if len(mask_files) == 0:
+            raise ValueError(f"No mask files found in {masks_dir}")
+        
+        # Check if we have corresponding masks for images
+        image_basenames = {os.path.splitext(f)[0] for f in image_files}
+        mask_basenames = {os.path.splitext(f)[0] for f in mask_files}
+        
+        missing_masks = image_basenames - mask_basenames
+        if missing_masks:
+            raise ValueError(f"Missing masks for images: {list(missing_masks)[:5]}...")
+        
+        return image_files, mask_files
+
+    def __post_init__(self):
+        if not os.path.exists(self.train_data):
+            raise ValueError(f"{self.train_data} does not exist.")
+        
+        # Find and validate training data structure
+        train_images_dir, train_masks_dir = self._find_images_and_masks_dirs(self.train_data)
+        self._validate_dataset_structure(train_images_dir, train_masks_dir)
+        
+        # Validate validation data if provided
+        if self.valid_data:
+            if not os.path.exists(self.valid_data):
+                raise ValueError(f"{self.valid_data} does not exist.")
+            
+            valid_images_dir, valid_masks_dir = self._find_images_and_masks_dirs(self.valid_data)
+            self._validate_dataset_structure(valid_images_dir, valid_masks_dir)
+
+    def split(self, df):
+        """Split dataframe into train and validation sets."""
+        train_df, valid_df = train_test_split(
+            df,
+            test_size=self.test_size,
+            random_state=self.seed,
+        )
+        train_df = train_df.reset_index(drop=True)
+        valid_df = valid_df.reset_index(drop=True)
+        return train_df, valid_df
+
+    def prepare(self):
+        """
+        Prepare the instance segmentation dataset following the standard format.
+        Creates a Hugging Face dataset with images and instance masks.
+        """
+        from datasets import Dataset, DatasetDict, Features, Image
+        import json
+        
+        random_uuid = uuid.uuid4()
+        cache_dir = os.environ.get("HF_HOME")
+        if not cache_dir:
+            cache_dir = os.path.join(os.path.expanduser("~"), ".cache", "huggingface")
+        data_dir = os.path.join(cache_dir, "autotrain", str(random_uuid))
+        
+        # Process training data
+        train_images_dir, train_masks_dir = self._find_images_and_masks_dirs(self.train_data)
+        train_image_files, train_mask_files = self._validate_dataset_structure(train_images_dir, train_masks_dir)
+        
+        # Load class names if available
+        classes = self._load_classes(self.train_data)
+        if classes is None:
+            # Create default classes
+            classes = ["object"]  # Default single class for instance segmentation
+        
+        num_classes = len(classes)
+        print(f"Found {num_classes} classes: {classes}")
+        
+        # Check for annotations directory
+        annotations_dir = os.path.join(self.train_data, "annotations")
+        has_annotations = os.path.exists(annotations_dir)
+        
+        if self.valid_data:
+            # Use provided validation data
+            shutil.copytree(self.train_data, os.path.join(data_dir, "train"))
+            shutil.copytree(self.valid_data, os.path.join(data_dir, "validation"))
+        else:
+            # Create train/validation split
+            image_mask_pairs = []
+            for img_file in train_image_files:
+                img_basename = os.path.splitext(img_file)[0]
+                # Find corresponding mask
+                mask_file = None
+                for mask_f in train_mask_files:
+                    if os.path.splitext(mask_f)[0] == img_basename:
+                        mask_file = mask_f
+                        break
+                
+                if mask_file:
+                    entry = {
+                        'image_file': img_file,
+                        'mask_file': mask_file,
+                        'basename': img_basename
+                    }
+                    
+                    # Add annotation file if it exists
+                    if has_annotations:
+                        ann_file = f"{img_basename}.json"
+                        ann_path = os.path.join(annotations_dir, ann_file)
+                        if os.path.exists(ann_path):
+                            entry['annotation_file'] = ann_file
+                    
+                    image_mask_pairs.append(entry)
+            
+            df = pd.DataFrame(image_mask_pairs)
+            train_df, valid_df = self.split(df)
+            
+            # Create directories
+            for split, split_df in [("train", train_df), ("validation", valid_df)]:
+                split_dir = os.path.join(data_dir, split)
+                split_img_dir = os.path.join(split_dir, "images")
+                split_mask_dir = os.path.join(split_dir, "masks")
+                os.makedirs(split_img_dir, exist_ok=True)
+                os.makedirs(split_mask_dir, exist_ok=True)
+                
+                if has_annotations:
+                    split_ann_dir = os.path.join(split_dir, "annotations")
+                    os.makedirs(split_ann_dir, exist_ok=True)
+                
+                # Copy files
+                for _, row in split_df.iterrows():
+                    shutil.copy(
+                        os.path.join(train_images_dir, row['image_file']),
+                        os.path.join(split_img_dir, row['image_file'])
+                    )
+                    shutil.copy(
+                        os.path.join(train_masks_dir, row['mask_file']),
+                        os.path.join(split_mask_dir, row['mask_file'])
+                    )
+                    
+                    if has_annotations and 'annotation_file' in row:
+                        shutil.copy(
+                            os.path.join(annotations_dir, row['annotation_file']),
+                            os.path.join(split_ann_dir, row['annotation_file'])
+                        )
+        
+        # Create dataset
+        def load_instance_segmentation_data(split_dir):
+            img_dir = os.path.join(split_dir, "images")
+            mask_dir = os.path.join(split_dir, "masks")
+            ann_dir = os.path.join(split_dir, "annotations")
+            
+            if not os.path.exists(img_dir):
+                return None
+            
+            data = []
+            img_files = [f for f in os.listdir(img_dir) if f.lower().endswith(ALLOWED_EXTENSIONS)]
+            
+            for img_file in img_files:
+                img_basename = os.path.splitext(img_file)[0]
+                img_path = os.path.join(img_dir, img_file)
+                mask_path = os.path.join(mask_dir, f"{img_basename}.png")
+                
+                if os.path.exists(mask_path):
+                    entry = {
+                        'autotrain_image': img_path,
+                        'autotrain_instance_mask': mask_path,
+                        'autotrain_bbox': [],  # Placeholder for bounding boxes
+                        'autotrain_category': []  # Placeholder for categories
+                    }
+                    
+                    # Load annotation if available
+                    ann_path = os.path.join(ann_dir, f"{img_basename}.json")
+                    if os.path.exists(ann_path):
+                        try:
+                            with open(ann_path, 'r') as f:
+                                ann_data = json.load(f)
+                            
+                            # Extract bounding boxes and categories if available
+                            if 'objects' in ann_data:
+                                bboxes = []
+                                categories = []
+                                for obj in ann_data['objects']:
+                                    if 'bbox' in obj:
+                                        bboxes.append(obj['bbox'])
+                                    if 'category' in obj:
+                                        categories.append(obj['category'])
+                                    elif 'class' in obj:
+                                        categories.append(obj['class'])
+                                
+                                entry['autotrain_bbox'] = bboxes
+                                entry['autotrain_category'] = categories
+                        except Exception as e:
+                            print(f"Warning: Could not parse annotation {ann_path}: {e}")
+                    
+                    data.append(entry)
+            
+            # Create dataset with proper features for instance segmentation
+            features = Features({
+                'autotrain_image': Image(),
+                'autotrain_instance_mask': Image(mode='L'),  # Grayscale for instance masks
+                'autotrain_bbox': [[float]],  # List of bounding boxes
+                'autotrain_category': [int]  # List of category IDs
+            })
+            
+            return Dataset.from_list(data, features=features)
+        
+        # Load train and validation splits
+        train_dataset = load_instance_segmentation_data(os.path.join(data_dir, "train"))
+        valid_dataset = load_instance_segmentation_data(os.path.join(data_dir, "validation"))
+        
+        if valid_dataset is not None:
+            dataset = DatasetDict({
+                "train": train_dataset,
+                "validation": valid_dataset
+            })
+        else:
+            dataset = DatasetDict({
+                "train": train_dataset
+            })
+        
+        # Save or push dataset
+        if self.local:
+            dataset.save_to_disk(f"{self.project_name}/autotrain-data")
+            
+            # Copy classes.txt to the output directory if it exists
+            classes_file_source = self._find_classes_file(self.train_data)
+            if classes_file_source:
+                classes_file_dest = os.path.join(f"{self.project_name}/autotrain-data", "classes.txt")
+                shutil.copy2(classes_file_source, classes_file_dest)
+                print(f"Copied classes.txt to {classes_file_dest}")
+        else:
+            dataset.push_to_hub(
+                f"{self.username}/autotrain-data-{self.project_name}",
+                private=True,
+                token=self.token,
+            )
+        
+        if self.local:
+            return f"{self.project_name}/autotrain-data"
+        return f"{self.username}/autotrain-data-{self.project_name}"
diff --git a/src/autotrain/project.py b/src/autotrain/project.py
index c28f579012..f1f4ff9ee7 100644
--- a/src/autotrain/project.py
+++ b/src/autotrain/project.py
@@ -19,6 +19,8 @@
     AutoTrainDataset,
     AutoTrainImageClassificationDataset,
     AutoTrainImageRegressionDataset,
+    AutoTrainImageSemanticSegmentationDataset,
+    AutoTrainImageInstanceSegmentationDataset,
     AutoTrainObjectDetectionDataset,
     AutoTrainVLMDataset,
 )
@@ -28,6 +30,8 @@
 from autotrain.trainers.clm.params import LLMTrainingParams
 from autotrain.trainers.extractive_question_answering.params import ExtractiveQuestionAnsweringParams
 from autotrain.trainers.image_classification.params import ImageClassificationParams
+from autotrain.trainers.image_semantic_segmentation.params import ImageSemanticSegmentationParams
+from autotrain.trainers.image_instance_segmentation.params import ImageInstanceSegmentationParams
 from autotrain.trainers.image_regression.params import ImageRegressionParams
 from autotrain.trainers.object_detection.params import ObjectDetectionParams
 from autotrain.trainers.sent_transformers.params import SentenceTransformersParams
@@ -272,46 +276,156 @@ def token_clf_munge_data(params, local):
 
 
 def img_clf_munge_data(params, local):
+    # Handle directory structures
     train_data_path = f"{params.data_path}/{params.train_split}"
     if params.valid_split is not None:
         valid_data_path = f"{params.data_path}/{params.valid_split}"
     else:
         valid_data_path = None
+    
+    # Check if standard split structure exists (data_path/train, data_path/validation)
     if os.path.isdir(train_data_path):
-        dset = AutoTrainImageClassificationDataset(
-            train_data=train_data_path,
-            valid_data=valid_data_path,
-            token=params.token,
-            project_name=params.project_name,
-            username=params.username,
-            local=local,
-        )
-        params.data_path = dset.prepare()
-        params.valid_split = "validation"
-        params.image_column = "autotrain_image"
-        params.target_column = "autotrain_label"
+        # Standard structure: use train_data_path
+        data_to_process = train_data_path
+        valid_to_process = valid_data_path
+    else:
+        # Direct path (could be ZIP file, directory, or other)
+        data_to_process = params.data_path
+        valid_to_process = None
+    
+    # AutoTrainImageClassificationDataset handles ZIP files, directories, and file-like objects
+    dset = AutoTrainImageClassificationDataset(
+        train_data=data_to_process,
+        valid_data=valid_to_process,
+        token=params.token,
+        project_name=params.project_name,
+        username=params.username,
+        local=local,
+    )
+    params.data_path = dset.prepare()
+    params.valid_split = "validation"
+    params.image_column = "autotrain_image"
+    params.target_column = "autotrain_label"
+    return params
+
+
+def img_semantic_seg_munge_data(params, local):
+    # Handle directory structures
+    train_data_path = f"{params.data_path}/{params.train_split}"
+    if params.valid_split is not None:
+        valid_data_path = f"{params.data_path}/{params.valid_split}"
+    else:
+        valid_data_path = None
+    
+    # Check if standard split structure exists (data_path/train, data_path/validation)
+    if os.path.isdir(train_data_path):
+        # Standard structure: use train_data_path
+        data_to_process = train_data_path
+        valid_to_process = valid_data_path
+    else:
+        # Check if semantic segmentation structure exists (images/, masks/ in data_path)
+        images_dir = os.path.join(params.data_path, "images")
+        masks_dir = os.path.join(params.data_path, "masks")
+        if os.path.isdir(images_dir) and os.path.isdir(masks_dir):
+            # Semantic segmentation structure: use data_path directly
+            data_to_process = params.data_path
+            valid_to_process = None  # No validation data in this structure
+        else:
+            # Direct path (could be ZIP file or other)
+            data_to_process = params.data_path
+            valid_to_process = None
+
+    # AutoTrainImageSemanticSegmentationDataset handles ZIP files, directories, and file-like objects
+    dset = AutoTrainImageSemanticSegmentationDataset(
+        train_data=data_to_process,
+        valid_data=valid_to_process,
+        token=params.token,
+        project_name=params.project_name,
+        username=params.username,
+        local=local,
+    )
+    params.data_path = dset.prepare()
+    params.valid_split = "validation"
+    params.image_column = "autotrain_image"
+    params.target_column = "autotrain_label"
+    return params
+
+
+def img_instance_seg_munge_data(params, local):
+    # Handle directory structures
+    train_data_path = f"{params.data_path}/{params.train_split}"
+    if params.valid_split is not None:
+        valid_data_path = f"{params.data_path}/{params.valid_split}"
+    else:
+        valid_data_path = None
+    
+    # Check if standard split structure exists (data_path/train, data_path/validation)
+    if os.path.isdir(train_data_path):
+        # Standard structure: use train_data_path
+        data_to_process = train_data_path
+        valid_to_process = valid_data_path
+    else:
+        # Check if instance segmentation structure exists (images/, masks/, annotations/ in data_path)
+        images_dir = os.path.join(params.data_path, "images")
+        masks_dir = os.path.join(params.data_path, "masks")
+        if os.path.isdir(images_dir) and os.path.isdir(masks_dir):
+            # Instance segmentation structure: use data_path directly
+            data_to_process = params.data_path
+            valid_to_process = None  # No validation data in this structure
+        else:
+            # Direct path (could be ZIP file or other)
+            data_to_process = params.data_path
+            valid_to_process = None
+
+    # AutoTrainImageInstanceSegmentationDataset handles ZIP files, directories, and file-like objects
+    dset = AutoTrainImageInstanceSegmentationDataset(
+        train_data=data_to_process,
+        valid_data=valid_to_process,
+        token=params.token,
+        project_name=params.project_name,
+        username=params.username,
+        local=local,
+    )
+    params.data_path = dset.prepare()
+    params.valid_split = "validation"
+    params.image_column = "autotrain_image"
+    params.target_column = "autotrain_instance_mask"
+    params.bbox_column = "autotrain_bbox"
+    params.category_column = "autotrain_category"
     return params
 
 
 def img_obj_detect_munge_data(params, local):
+    # Handle directory structures
     train_data_path = f"{params.data_path}/{params.train_split}"
     if params.valid_split is not None:
         valid_data_path = f"{params.data_path}/{params.valid_split}"
     else:
         valid_data_path = None
+    
+    # Check if standard split structure exists (data_path/train, data_path/validation)
     if os.path.isdir(train_data_path):
-        dset = AutoTrainObjectDetectionDataset(
-            train_data=train_data_path,
-            valid_data=valid_data_path,
-            token=params.token,
-            project_name=params.project_name,
-            username=params.username,
-            local=local,
-        )
-        params.data_path = dset.prepare()
-        params.valid_split = "validation"
-        params.image_column = "autotrain_image"
-        params.objects_column = "autotrain_objects"
+        # Standard structure: use train_data_path
+        data_to_process = train_data_path
+        valid_to_process = valid_data_path
+    else:
+        # Direct path (could be ZIP file, directory, or other)
+        data_to_process = params.data_path
+        valid_to_process = None
+    
+    # AutoTrainObjectDetectionDataset handles ZIP files, directories, and file-like objects
+    dset = AutoTrainObjectDetectionDataset(
+        train_data=data_to_process,
+        valid_data=valid_to_process,
+        token=params.token,
+        project_name=params.project_name,
+        username=params.username,
+        local=local,
+    )
+    params.data_path = dset.prepare()
+    params.valid_split = "validation"
+    params.image_column = "autotrain_image"
+    params.objects_column = "autotrain_objects"
     return params
 
 
@@ -358,51 +472,77 @@ def sent_transformers_munge_data(params, local):
 
 
 def img_reg_munge_data(params, local):
+    # Handle directory structures
     train_data_path = f"{params.data_path}/{params.train_split}"
     if params.valid_split is not None:
         valid_data_path = f"{params.data_path}/{params.valid_split}"
     else:
         valid_data_path = None
+    
+    # Check if standard split structure exists (data_path/train, data_path/validation)
     if os.path.isdir(train_data_path):
-        dset = AutoTrainImageRegressionDataset(
-            train_data=train_data_path,
-            valid_data=valid_data_path,
-            token=params.token,
-            project_name=params.project_name,
-            username=params.username,
-            local=local,
-        )
-        params.data_path = dset.prepare()
-        params.valid_split = "validation"
-        params.image_column = "autotrain_image"
-        params.target_column = "autotrain_label"
+        # Standard structure: use train_data_path
+        data_to_process = train_data_path
+        valid_to_process = valid_data_path
+    else:
+        # Direct path (could be ZIP file, directory, or other)
+        data_to_process = params.data_path
+        valid_to_process = None
+    
+    # AutoTrainImageRegressionDataset handles ZIP files, directories, and file-like objects
+    dset = AutoTrainImageRegressionDataset(
+        train_data=data_to_process,
+        valid_data=valid_to_process,
+        token=params.token,
+        project_name=params.project_name,
+        username=params.username,
+        local=local,
+    )
+    params.data_path = dset.prepare()
+    params.valid_split = "validation"
+    params.image_column = "autotrain_image"
+    params.target_column = "autotrain_label"
     return params
 
 
 def vlm_munge_data(params, local):
+    # Handle directory structures
     train_data_path = f"{params.data_path}/{params.train_split}"
     if params.valid_split is not None:
         valid_data_path = f"{params.data_path}/{params.valid_split}"
     else:
         valid_data_path = None
+    
+    # Check if standard split structure exists (data_path/train, data_path/validation)
     if os.path.exists(train_data_path):
-        col_map = {"text": params.text_column}
-        if params.prompt_text_column is not None:
-            col_map["prompt"] = params.prompt_text_column
-        dset = AutoTrainVLMDataset(
-            train_data=train_data_path,
-            token=params.token,
-            project_name=params.project_name,
-            username=params.username,
-            column_mapping=col_map,
-            valid_data=valid_data_path if valid_data_path is not None else None,
-            percent_valid=None,  # TODO: add to UI
-            local=local,
-        )
-        params.data_path = dset.prepare()
-        params.text_column = "autotrain_text"
-        params.image_column = "autotrain_image"
-        params.prompt_text_column = "autotrain_prompt"
+        # Standard structure: use train_data_path
+        data_to_process = train_data_path
+        valid_to_process = valid_data_path if valid_data_path is not None else None
+    else:
+        # Direct path (could be ZIP file, directory, or other)
+        data_to_process = params.data_path
+        valid_to_process = None
+    
+    col_map = {"text": params.text_column}
+    if params.prompt_text_column is not None:
+        col_map["prompt"] = params.prompt_text_column
+    
+    # AutoTrainVLMDataset handles ZIP files, directories, and file-like objects
+    dset = AutoTrainVLMDataset(
+        train_data=data_to_process,
+        token=params.token,
+        project_name=params.project_name,
+        username=params.username,
+        column_mapping=col_map,
+        valid_data=valid_to_process,
+        percent_valid=None,  # TODO: add to UI
+        local=local,
+    )
+    params.data_path = dset.prepare()
+    params.text_column = "autotrain_text"
+    params.image_column = "autotrain_image"
+    params.prompt_text_column = "autotrain_prompt"
+    params.valid_split = "validation"
     return params
 
 
@@ -724,6 +864,7 @@ class AutoTrainProject:
         TabularParams,
         Seq2SeqParams,
         ImageClassificationParams,
+        ImageSemanticSegmentationParams,
         TextRegressionParams,
         ObjectDetectionParams,
         TokenClassificationParams,
@@ -731,6 +872,9 @@ class AutoTrainProject:
         ImageRegressionParams,
         ExtractiveQuestionAnsweringParams,
         VLMTrainingParams,
+        AudioClassificationParams,
+        AudioDetectionParams,
+        AudioSegmentationParams,
     ]
         The parameters for the AutoTrain project.
     backend : str
@@ -770,6 +914,7 @@ class AutoTrainProject:
         TabularParams,
         Seq2SeqParams,
         ImageClassificationParams,
+        ImageSemanticSegmentationParams,
         TextRegressionParams,
         ObjectDetectionParams,
         TokenClassificationParams,
@@ -795,6 +940,8 @@ def _process_params_data(self):
             return img_clf_munge_data(self.params, self.local)
         elif isinstance(self.params, ImageRegressionParams):
             return img_reg_munge_data(self.params, self.local)
+        elif isinstance(self.params, ImageSemanticSegmentationParams):
+            return img_semantic_seg_munge_data(self.params, self.local)
         elif isinstance(self.params, ObjectDetectionParams):
             return img_obj_detect_munge_data(self.params, self.local)
         elif isinstance(self.params, SentenceTransformersParams):
diff --git a/src/autotrain/tasks.py b/src/autotrain/tasks.py
index 7fa0f9d00e..1e47ce287c 100644
--- a/src/autotrain/tasks.py
+++ b/src/autotrain/tasks.py
@@ -18,12 +18,15 @@
     "image_multi_class_classification": 18,
     "image_single_column_regression": 24,
     "image_object_detection": 29,
+    "image_semantic_segmentation": 36,
+    "image_instance_segmentation": 37,
 }
 
 AUDIO_TASKS = {
     "audio_binary_classification": 32,
     "audio_multi_class_classification": 33,
     "audio_segmentation": 34,
+    "audio_detection": 35,
 }
 
 TABULAR_TASKS = {
diff --git a/src/autotrain/trainers/image_instance_segmentation/__init__.py b/src/autotrain/trainers/image_instance_segmentation/__init__.py
new file mode 100644
index 0000000000..df1b289b7d
--- /dev/null
+++ b/src/autotrain/trainers/image_instance_segmentation/__init__.py
@@ -0,0 +1 @@
+# Image Instance Segmentation Trainer 
\ No newline at end of file
diff --git a/src/autotrain/trainers/image_instance_segmentation/__main__.py b/src/autotrain/trainers/image_instance_segmentation/__main__.py
new file mode 100644
index 0000000000..8bbce2e771
--- /dev/null
+++ b/src/autotrain/trainers/image_instance_segmentation/__main__.py
@@ -0,0 +1,278 @@
+import argparse
+import json
+import os
+
+import torch
+from accelerate.state import PartialState
+from datasets import load_dataset, load_from_disk
+from huggingface_hub import HfApi
+from transformers import (
+    AutoConfig,
+    AutoImageProcessor,
+    EarlyStoppingCallback,
+    DEtrForSegmentation,
+    Trainer,
+    TrainingArguments,
+)
+from transformers.trainer_callback import PrinterCallback
+
+from autotrain import logger
+from autotrain.trainers.common import (
+    ALLOW_REMOTE_CODE,
+    LossLoggingCallback,
+    TrainStartCallback,
+    UploadLogs,
+    monitor,
+    pause_space,
+    remove_autotrain_data,
+    save_training_params,
+)
+from autotrain.trainers.image_instance_segmentation import utils
+from autotrain.trainers.image_instance_segmentation.params import ImageInstanceSegmentationParams
+
+
+def parse_args():
+    # get training_config.json from the end user
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--training_config", type=str, required=True)
+    return parser.parse_args()
+
+
+@monitor
+def train(config):
+    if isinstance(config, dict):
+        config = ImageInstanceSegmentationParams(**config)
+
+    if torch.backends.mps.is_available() and config.mixed_precision in ["fp16", "bf16"]:
+        logger.warning(f"{config.mixed_precision} mixed precision is not supported on Apple Silicon MPS. Disabling mixed precision.")
+        config.mixed_precision = None
+
+    valid_data = None
+    if config.data_path == f"{config.project_name}/autotrain-data":
+        train_data = load_from_disk(config.data_path)[config.train_split]
+    else:
+        if ":" in config.train_split:
+            dataset_config_name, split = config.train_split.split(":")
+            train_data = load_dataset(
+                config.data_path,
+                name=dataset_config_name,
+                split=split,
+                token=config.token,
+                trust_remote_code=ALLOW_REMOTE_CODE,
+            )
+        else:
+            train_data = load_dataset(
+                config.data_path,
+                split=config.train_split,
+                token=config.token,
+                trust_remote_code=ALLOW_REMOTE_CODE,
+            )
+
+    if config.valid_split is not None:
+        if config.data_path == f"{config.project_name}/autotrain-data":
+            valid_data = load_from_disk(config.data_path)[config.valid_split]
+        else:
+            if ":" in config.valid_split:
+                dataset_config_name, split = config.valid_split.split(":")
+                valid_data = load_dataset(
+                    config.data_path,
+                    name=dataset_config_name,
+                    split=split,
+                    token=config.token,
+                    trust_remote_code=ALLOW_REMOTE_CODE,
+                )
+            else:
+                valid_data = load_dataset(
+                    config.data_path,
+                    split=config.valid_split,
+                    token=config.token,
+                    trust_remote_code=ALLOW_REMOTE_CODE,
+                )
+
+    logger.info(f"Train data: {train_data}")
+    logger.info(f"Valid data: {valid_data}")
+
+    # Load classes from file if it exists
+    classes_file = os.path.join(config.data_path, "classes.txt")
+    if os.path.exists(classes_file):
+        with open(classes_file, "r") as f:
+            classes = [line.strip() for line in f.readlines() if line.strip()]
+    else:
+        # Try to infer classes from the dataset
+        logger.warning("No classes.txt file found. Attempting to infer classes from dataset.")
+        classes = []
+        sample_data = train_data[0] if len(train_data) > 0 else None
+        if sample_data and config.category_column in sample_data:
+            # This is a simplified approach - in practice, you'd need to scan the entire dataset
+            categories = sample_data[config.category_column]
+            if isinstance(categories, list):
+                unique_categories = set(categories)
+                classes = [f"class_{i}" for i in range(max(unique_categories) + 1)]
+            else:
+                classes = ["class_0", "class_1"]  # Default fallback
+        else:
+            classes = ["class_0", "class_1"]  # Default fallback
+    
+    logger.info(f"Classes: {classes}")
+    label2id = {c: i for i, c in enumerate(classes)}
+    num_classes = len(classes)
+
+    if num_classes < 1:
+        raise ValueError("Invalid number of classes. Must be greater than 0.")
+
+    # Configure model
+    model_config = AutoConfig.from_pretrained(
+        config.model,
+        num_labels=num_classes,
+        trust_remote_code=ALLOW_REMOTE_CODE,
+        token=config.token,
+    )
+    
+    # Set instance segmentation specific configurations
+    if hasattr(model_config, 'num_queries'):
+        model_config.num_queries = config.max_instances
+    
+    model_config._num_labels = len(label2id)
+    model_config.label2id = label2id
+    model_config.id2label = {v: k for k, v in label2id.items()}
+
+    # Load the model - try different model classes based on the model name
+    model = None
+    model_classes_to_try = [
+        ("transformers", "DEtrForSegmentation"),
+        ("transformers", "MaskFormerForInstanceSegmentation"), 
+        ("transformers", "Mask2FormerForInstanceSegmentation"),
+        ("transformers", "DEtrForObjectDetection"),  # Fallback
+    ]
+    
+    for module_name, class_name in model_classes_to_try:
+        try:
+            if module_name == "transformers":
+                from transformers import AutoModelForObjectDetection
+                # Try to load with AutoModel first
+                try:
+                    model = AutoModelForObjectDetection.from_pretrained(
+                        config.model,
+                        config=model_config,
+                        trust_remote_code=ALLOW_REMOTE_CODE,
+                        token=config.token,
+                        ignore_mismatched_sizes=True,
+                    )
+                    logger.info(f"Successfully loaded model using AutoModelForObjectDetection")
+                    break
+                except Exception as e:
+                    logger.warning(f"Failed to load with AutoModelForObjectDetection: {e}")
+                    continue
+        except Exception as e:
+            logger.warning(f"Failed to load model with {class_name}: {e}")
+            continue
+    
+    if model is None:
+        # Final fallback - try generic AutoModel
+        try:
+            from transformers import AutoModel
+            model = AutoModel.from_pretrained(
+                config.model,
+                config=model_config,
+                trust_remote_code=ALLOW_REMOTE_CODE,
+                token=config.token,
+                ignore_mismatched_sizes=True,
+            )
+            logger.info("Loaded model using AutoModel as fallback")
+        except Exception as e:
+            raise RuntimeError(f"Failed to load any compatible model for {config.model}: {e}")
+
+    # Load image processor
+    image_processor = AutoImageProcessor.from_pretrained(
+        config.model,
+        token=config.token,
+        trust_remote_code=ALLOW_REMOTE_CODE,
+    )
+
+    # Process data
+    train_data, valid_data = utils.process_data(train_data, valid_data, image_processor, config)
+
+    if config.logging_steps == -1:
+        if config.valid_split is not None:
+            logging_steps = int(0.2 * len(valid_data) / config.batch_size)
+        else:
+            logging_steps = int(0.2 * len(train_data) / config.batch_size)
+        if logging_steps == 0:
+            logging_steps = 1
+        if logging_steps > 25:
+            logging_steps = 25
+        config.logging_steps = logging_steps
+
+    logger.info(f"Logging steps: {config.logging_steps}")
+
+    training_args_dict = {
+        "output_dir": config.project_name,
+        "per_device_train_batch_size": config.batch_size,
+        "per_device_eval_batch_size": config.batch_size,
+        "gradient_accumulation_steps": config.gradient_accumulation,
+        "learning_rate": config.lr,
+        "num_train_epochs": config.epochs,
+        "eval_strategy": config.eval_strategy if config.valid_split is not None else "no",
+        "logging_steps": config.logging_steps,
+        "save_strategy": config.eval_strategy if config.valid_split is not None else "epoch",
+        "save_total_limit": config.save_total_limit,
+        "load_best_model_at_end": True if config.eval_strategy != "no" and config.valid_split is not None else False,
+        "warmup_ratio": config.warmup_ratio,
+        "weight_decay": config.weight_decay,
+        "optim": config.optimizer,
+        "lr_scheduler_type": config.scheduler,
+        "push_to_hub": config.push_to_hub,
+        "report_to": config.log,
+        "seed": config.seed,
+        "remove_unused_columns": False,
+        "dataloader_pin_memory": False,
+    }
+    
+    # Only add hub-related parameters if pushing to hub
+    if config.push_to_hub:
+        training_args_dict["hub_strategy"] = "every_save"
+        training_args_dict["hub_model_id"] = config.hub_model_id
+        training_args_dict["hub_token"] = config.token
+        training_args_dict["hub_private_repo"] = True
+    
+    training_args = TrainingArguments(**training_args_dict)
+
+    callbacks = []
+    callbacks.append(TrainStartCallback())
+    callbacks.append(UploadLogs(config=config))
+    callbacks.append(LossLoggingCallback())
+    if config.early_stopping_patience > 0 and config.valid_split is not None:
+        callbacks.append(EarlyStoppingCallback(early_stopping_patience=config.early_stopping_patience))
+
+    trainer = Trainer(
+        model=model,
+        args=training_args,
+        train_dataset=train_data,
+        eval_dataset=valid_data,
+        tokenizer=image_processor,
+        compute_metrics=utils.compute_metrics,
+        callbacks=callbacks,
+        data_collator=utils.collate_fn,
+    )
+
+    trainer.remove_callback(PrinterCallback)
+    trainer.train()
+
+    utils.create_model_card(config, trainer, num_classes)
+
+    trainer.save_model()
+    if config.push_to_hub:
+        trainer.push_to_hub()
+
+    if not config.push_to_hub:
+        save_training_params(config)
+
+    remove_autotrain_data(config)
+    pause_space(config)
+
+
+if __name__ == "__main__":
+    _args = parse_args()
+    training_config = json.load(open(_args.training_config))
+    _config = ImageInstanceSegmentationParams(**training_config)
+    train(_config) 
\ No newline at end of file
diff --git a/src/autotrain/trainers/image_instance_segmentation/dataset.py b/src/autotrain/trainers/image_instance_segmentation/dataset.py
new file mode 100644
index 0000000000..628b13bbc4
--- /dev/null
+++ b/src/autotrain/trainers/image_instance_segmentation/dataset.py
@@ -0,0 +1,109 @@
+import numpy as np
+import torch
+from PIL import Image
+
+
+class ImageInstanceSegmentationDataset:
+    """
+    A custom dataset class for image instance segmentation tasks.
+
+    Args:
+        data (list): A list of data samples, where each sample is a dictionary containing image and instance segmentation information.
+        transforms (callable): A function/transform that takes in an image and returns transformed versions.
+        config (object): A configuration object containing the column names for images, instance masks, bboxes, and categories.
+
+    Attributes:
+        data (list): The dataset containing image and instance segmentation information.
+        transforms (callable): The transformation function to be applied to the images.
+        config (object): The configuration object with image and target column names.
+
+    Methods:
+        __len__(): Returns the number of samples in the dataset.
+        __getitem__(item): Retrieves the image and annotations at the specified index, applies transformations, and returns them as tensors.
+
+    Example:
+        dataset = ImageInstanceSegmentationDataset(data, transforms, config)
+        batch = dataset[0]
+    """
+
+    def __init__(self, data, transforms, config):
+        self.data = data
+        self.transforms = transforms
+        self.config = config
+
+    def __len__(self):
+        return len(self.data)
+
+    def __getitem__(self, item):
+        sample = self.data[item]
+        
+        # Get image
+        image = sample[self.config.image_column]
+        if isinstance(image, str):
+            image = Image.open(image).convert("RGB")
+        elif hasattr(image, 'convert'):
+            image = image.convert("RGB")
+        
+        # Convert image to numpy array
+        image = np.array(image)
+        
+        # Get annotations
+        annotations = {}
+        
+        # Instance masks
+        if self.config.target_column in sample:
+            instance_mask = sample[self.config.target_column]
+            if hasattr(instance_mask, 'convert'):
+                instance_mask = np.array(instance_mask.convert("L"))
+            else:
+                instance_mask = np.array(instance_mask)
+            annotations["masks"] = instance_mask
+        
+        # Bounding boxes
+        if self.config.bbox_column in sample:
+            bboxes = sample[self.config.bbox_column]
+            if isinstance(bboxes, list):
+                bboxes = np.array(bboxes)
+            annotations["boxes"] = bboxes
+        
+        # Categories/labels
+        if self.config.category_column in sample:
+            categories = sample[self.config.category_column]
+            if isinstance(categories, list):
+                categories = np.array(categories)
+            annotations["labels"] = categories
+
+        # Apply transforms if provided
+        if self.transforms:
+            # For instance segmentation, we primarily transform the image
+            # Annotations might need special handling depending on the model
+            image = self.transforms(image=image)["image"]
+
+        # Convert image: (H, W, C) -> (C, H, W) and normalize to [0, 1]
+        if len(image.shape) == 3:
+            image = np.transpose(image, (2, 0, 1)).astype(np.float32)
+        else:
+            image = image.astype(np.float32)
+
+        # Prepare return dictionary
+        result = {
+            "pixel_values": torch.tensor(image, dtype=torch.float),
+        }
+        
+        # Add annotations as labels for training
+        if annotations:
+            # Convert annotations to the format expected by the model
+            labels = {}
+            
+            if "masks" in annotations:
+                labels["masks"] = torch.tensor(annotations["masks"], dtype=torch.long)
+            
+            if "boxes" in annotations:
+                labels["boxes"] = torch.tensor(annotations["boxes"], dtype=torch.float)
+            
+            if "labels" in annotations:
+                labels["class_labels"] = torch.tensor(annotations["labels"], dtype=torch.long)
+            
+            result["labels"] = labels
+
+        return result 
\ No newline at end of file
diff --git a/src/autotrain/trainers/image_instance_segmentation/params.py b/src/autotrain/trainers/image_instance_segmentation/params.py
new file mode 100644
index 0000000000..f0894957e6
--- /dev/null
+++ b/src/autotrain/trainers/image_instance_segmentation/params.py
@@ -0,0 +1,81 @@
+from typing import Optional
+
+from pydantic import Field
+
+from autotrain.trainers.common import AutoTrainParams
+
+
+class ImageInstanceSegmentationParams(AutoTrainParams):
+    """
+    ImageInstanceSegmentationParams is a configuration class for image instance segmentation training parameters.
+
+    Attributes:
+        data_path (str): Path to the dataset.
+        model (str): Pre-trained model name or path. Default is "facebook/detr-resnet-50-panoptic".
+        username (Optional[str]): Hugging Face account username.
+        lr (float): Learning rate for the optimizer. Default is 5e-5.
+        epochs (int): Number of epochs for training. Default is 3.
+        batch_size (int): Batch size for training. Default is 8.
+        warmup_ratio (float): Warmup ratio for learning rate scheduler. Default is 0.1.
+        gradient_accumulation (int): Number of gradient accumulation steps. Default is 1.
+        optimizer (str): Optimizer type. Default is "adamw_torch".
+        scheduler (str): Learning rate scheduler type. Default is "linear".
+        weight_decay (float): Weight decay for the optimizer. Default is 0.0.
+        max_grad_norm (float): Maximum gradient norm for clipping. Default is 1.0.
+        seed (int): Random seed for reproducibility. Default is 42.
+        train_split (str): Name of the training data split. Default is "train".
+        valid_split (Optional[str]): Name of the validation data split.
+        logging_steps (int): Number of steps between logging. Default is -1.
+        project_name (str): Name of the project for output directory. Default is "project-name".
+        auto_find_batch_size (bool): Automatically find optimal batch size. Default is False.
+        mixed_precision (Optional[str]): Mixed precision training mode (fp16, bf16, or None).
+        save_total_limit (int): Maximum number of checkpoints to keep. Default is 1.
+        token (Optional[str]): Hugging Face Hub token for authentication.
+        push_to_hub (bool): Whether to push the model to Hugging Face Hub. Default is False.
+        eval_strategy (str): Evaluation strategy during training. Default is "epoch".
+        image_column (str): Column name for images in the dataset. Default is "image".
+        target_column (str): Column name for target instance masks in the dataset. Default is "instance_mask".
+        bbox_column (str): Column name for bounding boxes in the dataset. Default is "bbox".
+        category_column (str): Column name for category labels in the dataset. Default is "category".
+        log (str): Logging method for experiment tracking. Default is "none".
+        early_stopping_patience (int): Number of epochs with no improvement for early stopping. Default is 5.
+        early_stopping_threshold (float): Threshold for early stopping. Default is 0.01.
+        ignore_mismatched_sizes (bool): Whether to ignore mismatched sizes when loading model. Default is True.
+        reduce_labels (bool): Whether to reduce label ids by 1 for datasets where 0 is background. Default is False.
+        max_instances (int): Maximum number of instances per image. Default is 100.
+        
+    """
+    
+    data_path: str = Field(None, title="Data path")
+    model: str = Field("facebook/detr-resnet-50-panoptic", title="Model")
+    username: Optional[str] = Field(None, title="Hugging Face Username")
+    lr: float = Field(5e-5, title="Learning rate")
+    epochs: int = Field(3, title="Number of training epochs")
+    batch_size: int = Field(2, title="Training batch size")
+    warmup_ratio: float = Field(0.1, title="Warmup proportion")
+    gradient_accumulation: int = Field(1, title="Gradient accumulation steps")
+    optimizer: str = Field("adamw_torch", title="Optimizer")
+    scheduler: str = Field("linear", title="Scheduler")
+    weight_decay: float = Field(0.0, title="Weight decay")
+    max_grad_norm: float = Field(1.0, title="Max gradient norm")
+    seed: int = Field(42, title="Seed")
+    train_split: str = Field("train", title="Train split")
+    valid_split: Optional[str] = Field(None, title="Validation split")
+    logging_steps: int = Field(-1, title="Logging steps")
+    project_name: str = Field("project-name", title="Output directory")
+    auto_find_batch_size: bool = Field(False, title="Auto find batch size")
+    mixed_precision: Optional[str] = Field(None, title="fp16, bf16, or None")
+    save_total_limit: int = Field(1, title="Save total limit")
+    token: Optional[str] = Field(None, title="Hub Token")
+    push_to_hub: bool = Field(False, title="Push to hub")
+    eval_strategy: str = Field("epoch", title="Evaluation strategy")
+    image_column: str = Field("image", title="Image column")
+    target_column: str = Field("instance_mask", title="Target column")
+    bbox_column: str = Field("bbox", title="Bounding box column")
+    category_column: str = Field("category", title="Category column")
+    log: str = Field("none", title="Logging using experiment tracking")
+    early_stopping_patience: int = Field(5, title="Early stopping patience")
+    early_stopping_threshold: float = Field(0.01, title="Early stopping threshold")
+    ignore_mismatched_sizes: bool = Field(True, title="Ignore mismatched sizes")
+    reduce_labels: bool = Field(False, title="Reduce label ids by 1")
+    max_instances: int = Field(100, title="Maximum instances per image") 
\ No newline at end of file
diff --git a/src/autotrain/trainers/image_instance_segmentation/utils.py b/src/autotrain/trainers/image_instance_segmentation/utils.py
new file mode 100644
index 0000000000..8a6b840539
--- /dev/null
+++ b/src/autotrain/trainers/image_instance_segmentation/utils.py
@@ -0,0 +1,200 @@
+import os
+
+import albumentations as A
+import numpy as np
+import torch
+from sklearn import metrics
+
+from autotrain.trainers.image_instance_segmentation.dataset import ImageInstanceSegmentationDataset
+
+
+INSTANCE_SEGMENTATION_EVAL_METRICS = (
+    "eval_loss",
+    "eval_bbox_map",
+    "eval_segm_map",
+)
+
+MODEL_CARD = """
+---
+tags:
+- autotrain
+- transformers
+- image-segmentation
+- instance-segmentation{base_model}
+widget:
+- src: https://huggingface.co/datasets/mishig/sample_images/resolve/main/tiger.jpg
+  example_title: Tiger
+- src: https://huggingface.co/datasets/mishig/sample_images/resolve/main/teapot.jpg
+  example_title: Teapot
+- src: https://huggingface.co/datasets/mishig/sample_images/resolve/main/palace.jpg
+  example_title: Palace{dataset_tag}
+---
+
+# Model Trained Using AutoTrain
+
+- Problem type: Image Instance Segmentation
+"""
+
+
+def compute_metrics(eval_pred):
+    """Compute metrics for evaluation."""
+    predictions, labels = eval_pred
+    
+    # For instance segmentation, metrics are typically computed during inference
+    # This is a placeholder that can be extended based on the specific model requirements
+    
+    # Basic loss-based metric
+    if hasattr(predictions, 'loss') and predictions.loss is not None:
+        return {"eval_loss": float(predictions.loss)}
+    
+    # If predictions contain logits, we can compute some basic metrics
+    if hasattr(predictions, 'logits'):
+        # This is a simplified metric computation
+        # In practice, you'd want more sophisticated metrics like mAP for bounding boxes and masks
+        return {"eval_loss": 0.0}
+    
+    return {"eval_loss": 0.0}
+
+
+def process_data(train_data, valid_data, image_processor, config):
+    """
+    Processes training and validation data for image instance segmentation.
+
+    Args:
+        train_data (Dataset): The training dataset.
+        valid_data (Dataset or None): The validation dataset. Can be None if no validation data is provided.
+        image_processor (ImageProcessor): An object containing image processing parameters such as size, mean, and std.
+        config (dict): Configuration dictionary containing additional parameters for dataset processing.
+
+    Returns:
+        tuple: A tuple containing the processed training dataset and the processed validation dataset (or None if no validation data is provided).
+    """
+    # Get image size from processor
+    if hasattr(image_processor, 'size'):
+        if isinstance(image_processor.size, dict):
+            if "shortest_edge" in image_processor.size:
+                size = image_processor.size["shortest_edge"]
+            elif "height" in image_processor.size and "width" in image_processor.size:
+                size = (image_processor.size["height"], image_processor.size["width"])
+            else:
+                size = 512  # Default size
+        else:
+            size = image_processor.size
+    else:
+        size = 512  # Default size
+    
+    try:
+        height, width = size
+    except (TypeError, ValueError):
+        height = size
+        width = size
+
+    # Get normalization parameters
+    mean = getattr(image_processor, 'image_mean', [0.485, 0.456, 0.406])
+    std = getattr(image_processor, 'image_std', [0.229, 0.224, 0.225])
+
+    train_transforms = A.Compose(
+        [
+            A.Resize(height=height, width=width),
+            A.HorizontalFlip(p=0.5),
+            A.Normalize(mean=mean, std=std),
+        ],
+        is_check_shapes=False
+    )
+
+    val_transforms = A.Compose(
+        [
+            A.Resize(height=height, width=width),
+            A.Normalize(mean=mean, std=std),
+        ],
+        is_check_shapes=False
+    )
+
+    train_data = ImageInstanceSegmentationDataset(train_data, train_transforms, config)
+    if valid_data is not None:
+        valid_data = ImageInstanceSegmentationDataset(valid_data, val_transforms, config)
+        return train_data, valid_data
+    return train_data, None
+
+
+def create_model_card(config, trainer, num_classes):
+    """
+    Generates a model card for the given configuration and trainer.
+
+    Args:
+        config (object): Configuration object containing various settings.
+        trainer (object): Trainer object used for model training and evaluation.
+        num_classes (int): Number of classes in the instance segmentation task.
+
+    Returns:
+        str: The generated model card as a string.
+    """
+    if os.path.exists(f"{config.project_name}/README.md"):
+        return
+    
+    model_card = MODEL_CARD
+
+    if config.data_path:
+        model_card = model_card.replace("{dataset_tag}", f"\ndatasets:\n- {config.data_path}")
+    else:
+        model_card = model_card.replace("{dataset_tag}", "")
+
+    if config.model:
+        model_card = model_card.replace("{base_model}", f"\nbase_model: {config.model}")
+    else:
+        model_card = model_card.replace("{base_model}", "")
+
+    eval_results = ""
+    if trainer.state.log_history:
+        eval_results = "## Training Results\n\n"
+        for log in trainer.state.log_history:
+            if "eval_loss" in log:
+                eval_results += f"- Eval Loss: {log['eval_loss']:.4f}\n"
+            if "eval_bbox_map" in log:
+                eval_results += f"- Eval BBox mAP: {log['eval_bbox_map']:.4f}\n"
+            if "eval_segm_map" in log:
+                eval_results += f"- Eval Segmentation mAP: {log['eval_segm_map']:.4f}\n"
+            if "train_loss" in log:
+                eval_results += f"- Train Loss: {log['train_loss']:.4f}\n"
+    
+    model_card += f"\n\n{eval_results}"
+    model_card += f"\n\n## Model Details\n\n"
+    model_card += f"- Problem Type: Image Instance Segmentation\n"
+    model_card += f"- Model Architecture: {config.model}\n"
+    model_card += f"- Number of Classes: {num_classes}\n"
+    model_card += f"- Training Epochs: {config.epochs}\n"
+    model_card += f"- Batch Size: {config.batch_size}\n"
+    model_card += f"- Learning Rate: {config.lr}\n"
+    model_card += f"- Max Instances: {config.max_instances}\n"
+
+    with open(f"{config.project_name}/README.md", "w") as f:
+        f.write(model_card)
+
+
+def collate_fn(batch):
+    """
+    Custom collate function for instance segmentation batches.
+    
+    Args:
+        batch (list): List of samples from the dataset
+        
+    Returns:
+        dict: Batched data ready for the model
+    """
+    pixel_values = []
+    labels = []
+    
+    for item in batch:
+        pixel_values.append(item["pixel_values"])
+        if "labels" in item:
+            labels.append(item["labels"])
+    
+    # Stack pixel values
+    pixel_values = torch.stack(pixel_values)
+    
+    result = {"pixel_values": pixel_values}
+    
+    if labels:
+        result["labels"] = labels
+    
+    return result 
\ No newline at end of file
diff --git a/src/autotrain/trainers/image_semantic_segmentation/__init__.py b/src/autotrain/trainers/image_semantic_segmentation/__init__.py
new file mode 100644
index 0000000000..0519ecba6e
--- /dev/null
+++ b/src/autotrain/trainers/image_semantic_segmentation/__init__.py
@@ -0,0 +1 @@
+ 
\ No newline at end of file
diff --git a/src/autotrain/trainers/image_semantic_segmentation/__main__.py b/src/autotrain/trainers/image_semantic_segmentation/__main__.py
new file mode 100644
index 0000000000..0ced6e54ce
--- /dev/null
+++ b/src/autotrain/trainers/image_semantic_segmentation/__main__.py
@@ -0,0 +1,238 @@
+import argparse
+import json
+import os
+
+import torch
+from accelerate.state import PartialState
+from datasets import load_dataset, load_from_disk
+from huggingface_hub import HfApi
+from transformers import (
+    AutoConfig,
+    AutoImageProcessor,
+    EarlyStoppingCallback,
+    SegformerForSemanticSegmentation,
+    Trainer,
+    TrainingArguments,
+)
+from transformers.trainer_callback import PrinterCallback
+
+from autotrain import logger
+from autotrain.trainers.common import (
+    ALLOW_REMOTE_CODE,
+    LossLoggingCallback,
+    TrainStartCallback,
+    UploadLogs,
+    monitor,
+    pause_space,
+    remove_autotrain_data,
+    save_training_params,
+)
+from autotrain.trainers.image_semantic_segmentation import utils
+from autotrain.trainers.image_semantic_segmentation.params import ImageSemanticSegmentationParams
+
+
+def parse_args():
+    # get training_config.json from the end user
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--training_config", type=str, required=True)
+    return parser.parse_args()
+
+
+@monitor
+def train(config):
+    if isinstance(config, dict):
+        config = ImageSemanticSegmentationParams(**config)
+
+    if torch.backends.mps.is_available() and config.mixed_precision in ["fp16", "bf16"]:
+        logger.warning(f"{config.mixed_precision} mixed precision is not supported on Apple Silicon MPS. Disabling mixed precision.")
+        config.mixed_precision = None
+
+    valid_data = None
+    if config.data_path == f"{config.project_name}/autotrain-data":
+        train_data = load_from_disk(config.data_path)[config.train_split]
+    else:
+        if ":" in config.train_split:
+            dataset_config_name, split = config.train_split.split(":")
+            train_data = load_dataset(
+                config.data_path,
+                name=dataset_config_name,
+                split=split,
+                token=config.token,
+                trust_remote_code=ALLOW_REMOTE_CODE,
+            )
+        else:
+            train_data = load_dataset(
+                config.data_path,
+                split=config.train_split,
+                token=config.token,
+                trust_remote_code=ALLOW_REMOTE_CODE,
+            )
+
+    if config.valid_split is not None:
+        if config.data_path == f"{config.project_name}/autotrain-data":
+            valid_data = load_from_disk(config.data_path)[config.valid_split]
+        else:
+            if ":" in config.valid_split:
+                dataset_config_name, split = config.valid_split.split(":")
+                valid_data = load_dataset(
+                    config.data_path,
+                    name=dataset_config_name,
+                    split=split,
+                    token=config.token,
+                    trust_remote_code=ALLOW_REMOTE_CODE,
+                )
+            else:
+                valid_data = load_dataset(
+                    config.data_path,
+                    split=config.valid_split,
+                    token=config.token,
+                    trust_remote_code=ALLOW_REMOTE_CODE,
+                )
+
+    logger.info(f"Train data: {train_data}")
+    logger.info(f"Valid data: {valid_data}")
+
+    classes_file = os.path.join(config.data_path, "classes.txt")
+    if os.path.exists(classes_file):
+        with open(classes_file, "r") as f:
+            classes = [line.strip() for line in f.readlines() if line.strip()]
+    
+    logger.info(f"Classes: {classes}")
+    label2id = {c: i for i, c in enumerate(classes)}
+    num_classes = len(classes)
+
+    if num_classes < 1:
+        raise ValueError("Invalid number of classes. Must be at least 1.")
+
+    # For binary segmentation (1 class), model needs 2 labels: background (0) + foreground (1)
+    # For multi-class segmentation, model needs as many labels as classes
+    model_num_labels = num_classes + 1 if num_classes == 1 else num_classes
+
+    model_config = AutoConfig.from_pretrained(
+        config.model,
+        num_labels=model_num_labels,
+        trust_remote_code=ALLOW_REMOTE_CODE,
+        token=config.token,
+    )
+    # For binary segmentation, add implicit background class
+    if num_classes == 1:
+        full_label2id = {"background": 0, classes[0]: 1}
+        full_id2label = {0: "background", 1: classes[0]}
+    else:
+        full_label2id = label2id
+        full_id2label = {v: k for k, v in label2id.items()}
+    
+    model_config._num_labels = model_num_labels
+    model_config.label2id = full_label2id
+    model_config.id2label = full_id2label
+
+    try:
+        model = SegformerForSemanticSegmentation.from_pretrained(
+            config.model,
+            config=model_config,
+            trust_remote_code=ALLOW_REMOTE_CODE,
+            token=config.token,
+            ignore_mismatched_sizes=True,
+        )
+    except OSError:
+        model = SegformerForSemanticSegmentation.from_pretrained(
+            config.model,
+            config=model_config,
+            from_tf=True,
+            trust_remote_code=ALLOW_REMOTE_CODE,
+            token=config.token,
+            ignore_mismatched_sizes=True,
+        )
+
+    image_processor = AutoImageProcessor.from_pretrained(
+        config.model,
+        token=config.token,
+        trust_remote_code=ALLOW_REMOTE_CODE,
+    )
+    train_data, valid_data = utils.process_data(train_data, valid_data, image_processor, config)
+
+    if config.logging_steps == -1:
+        if config.valid_split is not None:
+            logging_steps = int(0.2 * len(valid_data) / config.batch_size)
+        else:
+            logging_steps = int(0.2 * len(train_data) / config.batch_size)
+        if logging_steps == 0:
+            logging_steps = 1
+        if logging_steps > 25:
+            logging_steps = 25
+        config.logging_steps = logging_steps
+
+    logger.info(f"Logging steps: {config.logging_steps}")
+
+    training_args_dict = {
+        "output_dir": config.project_name,
+        "per_device_train_batch_size": config.batch_size,
+        "per_device_eval_batch_size": config.batch_size,
+        "gradient_accumulation_steps": config.gradient_accumulation,
+        "learning_rate": config.lr,
+        "num_train_epochs": config.epochs,
+        "eval_strategy": config.eval_strategy if config.valid_split is not None else "no",
+        "logging_steps": config.logging_steps,
+        "save_strategy": config.save_strategy if config.save_strategy else (config.eval_strategy if config.valid_split is not None else "epoch"),
+        "save_total_limit": config.save_total_limit,
+        "load_best_model_at_end": True if config.eval_strategy != "no" and config.valid_split is not None else False,
+        "metric_for_best_model": "accuracy",
+        "greater_is_better": True,
+        "warmup_ratio": config.warmup_ratio,
+        "weight_decay": config.weight_decay,
+        "optim": config.optimizer,
+        "lr_scheduler_type": config.scheduler,
+        "push_to_hub": config.push_to_hub,
+        "report_to": config.log,
+        "seed": config.seed,
+        "remove_unused_columns": False,
+        "dataloader_pin_memory": False,
+    }
+    
+    # Only add hub-related parameters if pushing to hub
+    if config.push_to_hub:
+        training_args_dict["hub_strategy"] = "every_save"
+        training_args_dict["hub_model_id"] = config.hub_model_id
+        training_args_dict["hub_token"] = config.token
+        training_args_dict["hub_private_repo"] = True
+    
+    training_args = TrainingArguments(**training_args_dict)
+
+    callbacks = []
+    callbacks.append(TrainStartCallback())
+    callbacks.append(UploadLogs(config=config))
+    callbacks.append(LossLoggingCallback())
+    if config.early_stopping_patience > 0 and config.valid_split is not None:
+        callbacks.append(EarlyStoppingCallback(early_stopping_patience=config.early_stopping_patience))
+
+    trainer = Trainer(
+        model=model,
+        args=training_args,
+        train_dataset=train_data,
+        eval_dataset=valid_data,
+        tokenizer=image_processor,
+        compute_metrics=utils.compute_metrics,
+        callbacks=callbacks,
+    )
+
+    trainer.remove_callback(PrinterCallback)
+    trainer.train()
+
+    utils.create_model_card(config, trainer, num_classes)
+
+    trainer.save_model()
+    if config.push_to_hub:
+        trainer.push_to_hub()
+
+    if not config.push_to_hub:
+        save_training_params(config)
+
+    remove_autotrain_data(config)
+    pause_space(config)
+
+
+if __name__ == "__main__":
+    _args = parse_args()
+    training_config = json.load(open(_args.training_config))
+    _config = ImageSemanticSegmentationParams(**training_config)
+    train(_config) 
\ No newline at end of file
diff --git a/src/autotrain/trainers/image_semantic_segmentation/dataset.py b/src/autotrain/trainers/image_semantic_segmentation/dataset.py
new file mode 100644
index 0000000000..ad834833ca
--- /dev/null
+++ b/src/autotrain/trainers/image_semantic_segmentation/dataset.py
@@ -0,0 +1,80 @@
+import numpy as np
+import torch
+
+
+class ImageSemanticSegmentationDataset:
+    """
+    A custom dataset class for image semantic segmentation tasks.
+
+    Args:
+        data (list): A list of data samples, where each sample is a dictionary containing image and segmentation mask information.
+        transforms (callable): A function/transform that takes in an image and mask and returns transformed versions.
+        config (object): A configuration object containing the column names for images and segmentation masks.
+
+    Attributes:
+        data (list): The dataset containing image and segmentation mask information.
+        transforms (callable): The transformation function to be applied to the images and masks.
+        config (object): The configuration object with image and target column names.
+
+    Methods:
+        __len__(): Returns the number of samples in the dataset.
+        __getitem__(item): Retrieves the image and mask at the specified index, applies transformations, and returns them as tensors.
+
+    Example:
+        dataset = ImageSemanticSegmentationDataset(data, transforms, config)
+        image, mask = dataset[0]
+    """
+
+    def __init__(self, data, transforms, config):
+        self.data = data
+        self.transforms = transforms
+        self.config = config
+
+    def __len__(self):
+        return len(self.data)
+
+    def __getitem__(self, item):
+        image = self.data[item][self.config.image_column]
+        mask = self.data[item][self.config.target_column]
+
+        # Convert image to RGB numpy array
+        image = np.array(image.convert("RGB"))
+        
+        # Convert mask to numpy array and ensure it's grayscale
+        if hasattr(mask, 'convert'):
+            mask = np.array(mask.convert("L"))
+        else:
+            mask = np.array(mask)
+        
+        # Debug: Print unique values in first few samples
+        if item < 3:
+            unique_vals = np.unique(mask)
+            print(f"Sample {item}: mask unique values = {unique_vals}, shape = {mask.shape}")
+            for val in unique_vals:
+                count = np.sum(mask == val)
+                percentage = (count / mask.size) * 100
+                print(f"  Value {val}: {count} pixels ({percentage:.1f}%)")
+        
+        # Apply albumentations transforms if provided
+        if self.transforms:
+            transformed = self.transforms(image=image, mask=mask)
+            image = transformed["image"]
+            mask = transformed["mask"]
+
+        # Convert image: (H, W, C) -> (C, H, W) and normalize to [0, 1]
+        image = np.transpose(image, (2, 0, 1)).astype(np.float32)
+
+        # Ensure mask is int64 for class indices
+        mask = mask.astype(np.int64)
+        
+        # Apply reduce_labels if configured
+        if hasattr(self.config, 'reduce_labels') and self.config.reduce_labels:
+            # Reduce label IDs by 1 (common for datasets where 0 is background)
+            mask = mask - 1
+            # Set any negative values (original 0s) to 255 (ignore index)
+            mask[mask < 0] = 255
+
+        return {
+            "pixel_values": torch.tensor(image, dtype=torch.float),
+            "labels": torch.tensor(mask, dtype=torch.long),
+        } 
\ No newline at end of file
diff --git a/src/autotrain/trainers/image_semantic_segmentation/params.py b/src/autotrain/trainers/image_semantic_segmentation/params.py
new file mode 100644
index 0000000000..d807183515
--- /dev/null
+++ b/src/autotrain/trainers/image_semantic_segmentation/params.py
@@ -0,0 +1,77 @@
+from typing import Optional
+
+from pydantic import Field
+
+from autotrain.trainers.common import AutoTrainParams
+
+
+class ImageSemanticSegmentationParams(AutoTrainParams):
+    """
+    ImageSemanticSegmentationParams is a configuration class for image semantic segmentation training parameters.
+
+    Attributes:
+        data_path (str): Path to the dataset.
+        model (str): Pre-trained model name or path. Default is "facebook/detr-resnet-50-panoptic".
+        username (Optional[str]): Hugging Face account username.
+        lr (float): Learning rate for the optimizer. Default is 5e-5.
+        epochs (int): Number of epochs for training. Default is 3.
+        batch_size (int): Batch size for training. Default is 8.
+        warmup_ratio (float): Warmup ratio for learning rate scheduler. Default is 0.1.
+        gradient_accumulation (int): Number of gradient accumulation steps. Default is 1.
+        optimizer (str): Optimizer type. Default is "adamw_torch".
+        scheduler (str): Learning rate scheduler type. Default is "linear".
+        weight_decay (float): Weight decay for the optimizer. Default is 0.0.
+        max_grad_norm (float): Maximum gradient norm for clipping. Default is 1.0.
+        seed (int): Random seed for reproducibility. Default is 42.
+        train_split (str): Name of the training data split. Default is "train".
+        valid_split (Optional[str]): Name of the validation data split.
+        logging_steps (int): Number of steps between logging. Default is -1.
+        project_name (str): Name of the project for output directory. Default is "project-name".
+        auto_find_batch_size (bool): Automatically find optimal batch size. Default is False.
+        mixed_precision (Optional[str]): Mixed precision training mode (fp16, bf16, or None).
+        save_total_limit (int): Maximum number of checkpoints to keep. Default is 1.
+        token (Optional[str]): Hugging Face Hub token for authentication.
+        push_to_hub (bool): Whether to push the model to Hugging Face Hub. Default is False.
+        eval_strategy (str): Evaluation strategy during training. Default is "epoch".
+        save_strategy (Optional[str]): Save strategy for checkpoints (epoch, steps, no). Default is None.
+        image_column (str): Column name for images in the dataset. Default is "image".
+        target_column (str): Column name for target segmentation masks in the dataset. Default is "segmentation_mask".
+        log (str): Logging method for experiment tracking. Default is "none".
+        early_stopping_patience (int): Number of epochs with no improvement for early stopping. Default is 5.
+        early_stopping_threshold (float): Threshold for early stopping. Default is 0.01.
+        ignore_mismatched_sizes (bool): Whether to ignore mismatched sizes when loading model. Default is True.
+        reduce_labels (bool): Whether to reduce label ids by 1 for datasets where 0 is background. Default is False.
+        
+    """
+    
+    data_path: str = Field(None, title="Data path")
+    model: str = Field("nvidia/mit-b0", title="Model")
+    username: Optional[str] = Field(None, title="Hugging Face Username")
+    lr: float = Field(5e-5, title="Learning rate")
+    epochs: int = Field(3, title="Number of training epochs")
+    batch_size: int = Field(2, title="Training batch size")
+    warmup_ratio: float = Field(0.1, title="Warmup proportion")
+    gradient_accumulation: int = Field(1, title="Gradient accumulation steps")
+    optimizer: str = Field("adamw_torch", title="Optimizer")
+    scheduler: str = Field("linear", title="Scheduler")
+    weight_decay: float = Field(0.0, title="Weight decay")
+    max_grad_norm: float = Field(1.0, title="Max gradient norm")
+    seed: int = Field(42, title="Seed")
+    train_split: str = Field("train", title="Train split")
+    valid_split: Optional[str] = Field(None, title="Validation split")
+    logging_steps: int = Field(-1, title="Logging steps")
+    project_name: str = Field("project-name", title="Output directory")
+    auto_find_batch_size: bool = Field(False, title="Auto find batch size")
+    mixed_precision: Optional[str] = Field(None, title="fp16, bf16, or None")
+    save_total_limit: int = Field(1, title="Save total limit")
+    token: Optional[str] = Field(None, title="Hub Token")
+    push_to_hub: bool = Field(False, title="Push to hub")
+    eval_strategy: str = Field("epoch", title="Evaluation strategy")
+    save_strategy: Optional[str] = Field(None, title="Save strategy (epoch, steps, no)")
+    image_column: str = Field("image", title="Image column")
+    target_column: str = Field("segmentation_mask", title="Target column")
+    log: str = Field("none", title="Logging using experiment tracking")
+    early_stopping_patience: int = Field(5, title="Early stopping patience")
+    early_stopping_threshold: float = Field(0.01, title="Early stopping threshold")
+    ignore_mismatched_sizes: bool = Field(True, title="Ignore mismatched sizes")
+    reduce_labels: bool = Field(False, title="Reduce label ids by 1") 
\ No newline at end of file
diff --git a/src/autotrain/trainers/image_semantic_segmentation/utils.py b/src/autotrain/trainers/image_semantic_segmentation/utils.py
new file mode 100644
index 0000000000..7dbdc82415
--- /dev/null
+++ b/src/autotrain/trainers/image_semantic_segmentation/utils.py
@@ -0,0 +1,199 @@
+import os
+
+import albumentations as A
+import numpy as np
+from sklearn import metrics
+
+from autotrain.trainers.image_semantic_segmentation.dataset import ImageSemanticSegmentationDataset
+
+
+SEGMENTATION_EVAL_METRICS = (
+    "eval_loss",
+    "eval_accuracy",
+    "eval_mean_iou",
+)
+
+MODEL_CARD = """
+---
+tags:
+- autotrain
+- transformers
+- image-segmentation{base_model}
+widget:
+- src: https://huggingface.co/datasets/mishig/sample_images/resolve/main/tiger.jpg
+  example_title: Tiger
+- src: https://huggingface.co/datasets/mishig/sample_images/resolve/main/teapot.jpg
+  example_title: Teapot
+- src: https://huggingface.co/datasets/mishig/sample_images/resolve/main/palace.jpg
+  example_title: Palace{dataset_tag}
+---
+
+# Model Trained Using AutoTrain
+
+- Problem type: Image Semantic Segmentation
+"""
+
+
+def binary_classification_metrics(y_true, y_pred):
+    return {
+        "accuracy": metrics.accuracy_score(y_true, y_pred),
+        "f1": metrics.f1_score(y_true, y_pred),
+        "precision": metrics.precision_score(y_true, y_pred),
+        "recall": metrics.recall_score(y_true, y_pred),
+        "auc": metrics.roc_auc_score(y_true, y_pred),
+    }
+
+
+def multi_class_classification_metrics(y_true, y_pred):
+    return {
+        "accuracy": metrics.accuracy_score(y_true, y_pred),
+        "f1_macro": metrics.f1_score(y_true, y_pred, average="macro"),
+        "f1_micro": metrics.f1_score(y_true, y_pred, average="micro"),
+        "f1_weighted": metrics.f1_score(y_true, y_pred, average="weighted"),
+        "precision_macro": metrics.precision_score(y_true, y_pred, average="macro"),
+        "precision_micro": metrics.precision_score(y_true, y_pred, average="micro"),
+        "precision_weighted": metrics.precision_score(y_true, y_pred, average="weighted"),
+        "recall_macro": metrics.recall_score(y_true, y_pred, average="macro"),
+        "recall_micro": metrics.recall_score(y_true, y_pred, average="micro"),
+        "recall_weighted": metrics.recall_score(y_true, y_pred, average="weighted"),
+    }
+
+
+def compute_metrics(eval_pred):
+    """Compute metrics for evaluation."""
+    predictions, labels = eval_pred
+    
+    # Get predicted classes by taking argmax along the class dimension
+    predictions = np.argmax(predictions, axis=1)
+    
+    # Handle size mismatch: upsample predictions to match labels
+    if predictions.shape != labels.shape:
+        # Use scipy for upsampling
+        from scipy.ndimage import zoom
+        
+        # Calculate zoom factors for height and width (batch dimension stays the same)
+        zoom_h = labels.shape[1] / predictions.shape[1]
+        zoom_w = labels.shape[2] / predictions.shape[2]
+        
+        # Upsample each prediction in the batch
+        upsampled_predictions = []
+        for i in range(predictions.shape[0]):
+            # Use nearest neighbor interpolation for discrete class labels
+            upsampled_pred = zoom(predictions[i], (zoom_h, zoom_w), order=0)
+            upsampled_predictions.append(upsampled_pred)
+        
+        predictions = np.array(upsampled_predictions)
+    
+    # Flatten the predictions and labels
+    predictions = predictions.flatten()
+    labels = labels.flatten()
+    
+    # Remove ignore index (-100)
+    valid_mask = labels != -100
+    predictions = predictions[valid_mask]
+    labels = labels[valid_mask]
+    
+    # Calculate accuracy
+    if len(predictions) == 0 or len(labels) == 0:
+        return {"accuracy": 0.0}
+    
+    accuracy = metrics.accuracy_score(labels, predictions)
+    
+    return {"accuracy": accuracy}
+
+
+def process_data(train_data, valid_data, image_processor, config):
+    """
+    Processes training and validation data for image semantic segmentation.
+
+    Args:
+        train_data (Dataset): The training dataset.
+        valid_data (Dataset or None): The validation dataset. Can be None if no validation data is provided.
+        image_processor (ImageProcessor): An object containing image processing parameters such as size, mean, and std.
+        config (dict): Configuration dictionary containing additional parameters for dataset processing.
+
+    Returns:
+        tuple: A tuple containing the processed training dataset and the processed validation dataset (or None if no validation data is provided).
+    """
+    if "shortest_edge" in image_processor.size:
+        size = image_processor.size["shortest_edge"]
+    else:
+        size = (image_processor.size["height"], image_processor.size["width"])
+    try:
+        height, width = size
+    except TypeError:
+        height = size
+        width = size
+
+    train_transforms = A.Compose(
+        [
+            A.Resize(height=height, width=width),
+            A.HorizontalFlip(p=0.5),
+            A.Normalize(mean=image_processor.image_mean, std=image_processor.image_std),
+        ],
+        is_check_shapes=False
+    )
+
+    val_transforms = A.Compose(
+        [
+            A.Resize(height=height, width=width),
+            A.Normalize(mean=image_processor.image_mean, std=image_processor.image_std),
+        ],
+        is_check_shapes=False
+    )
+    train_data = ImageSemanticSegmentationDataset(train_data, train_transforms, config)
+    if valid_data is not None:
+        valid_data = ImageSemanticSegmentationDataset(valid_data, val_transforms, config)
+        return train_data, valid_data
+    return train_data, None
+
+
+def create_model_card(config, trainer, num_classes):
+    """
+    Generates a model card for the given configuration and trainer.
+
+    Args:
+        config (object): Configuration object containing various settings.
+        trainer (object): Trainer object used for model training and evaluation.
+        num_classes (int): Number of classes in the segmentation task.
+
+    Returns:
+        str: The generated model card as a string.
+    """
+    if os.path.exists(f"{config.project_name}/README.md"):
+        return
+    
+    model_card = MODEL_CARD
+
+    if config.data_path:
+        model_card = model_card.replace("{dataset_tag}", f"\ndatasets:\n- {config.data_path}")
+    else:
+        model_card = model_card.replace("{dataset_tag}", "")
+
+    if config.model:
+        model_card = model_card.replace("{base_model}", f"\nbase_model: {config.model}")
+    else:
+        model_card = model_card.replace("{base_model}", "")
+
+    eval_results = ""
+    if trainer.state.log_history:
+        eval_results = "## Training Results\n\n"
+        for log in trainer.state.log_history:
+            if "eval_loss" in log:
+                eval_results += f"- Eval Loss: {log['eval_loss']:.4f}\n"
+            if "eval_accuracy" in log:
+                eval_results += f"- Eval Accuracy: {log['eval_accuracy']:.4f}\n"
+            if "train_loss" in log:
+                eval_results += f"- Train Loss: {log['train_loss']:.4f}\n"
+    
+    model_card += f"\n\n{eval_results}"
+    model_card += f"\n\n## Model Details\n\n"
+    model_card += f"- Problem Type: Image Semantic Segmentation\n"
+    model_card += f"- Model Architecture: {config.model}\n"
+    model_card += f"- Number of Classes: {num_classes}\n"
+    model_card += f"- Training Epochs: {config.epochs}\n"
+    model_card += f"- Batch Size: {config.batch_size}\n"
+    model_card += f"- Learning Rate: {config.lr}\n"
+
+    with open(f"{config.project_name}/README.md", "w") as f:
+        f.write(model_card) 
\ No newline at end of file
diff --git a/src/autotrain/utils.py b/src/autotrain/utils.py
index 663f58a289..8055ec4854 100644
--- a/src/autotrain/utils.py
+++ b/src/autotrain/utils.py
@@ -11,6 +11,8 @@
 from autotrain.trainers.generic.params import GenericParams
 from autotrain.trainers.image_classification.params import ImageClassificationParams
 from autotrain.trainers.image_regression.params import ImageRegressionParams
+from autotrain.trainers.image_semantic_segmentation.params import ImageSemanticSegmentationParams
+from autotrain.trainers.image_instance_segmentation.params import ImageInstanceSegmentationParams
 from autotrain.trainers.object_detection.params import ObjectDetectionParams
 from autotrain.trainers.sent_transformers.params import SentenceTransformersParams
 from autotrain.trainers.seq2seq.params import Seq2SeqParams
@@ -75,6 +77,8 @@ def run_training(params, task_id, local=False, wait=False):
         params = AudioDetectionParams(**params)
     elif task_id == 34:
         params = AudioSegmentationParams(**params)
+    elif task_id == 36:
+        params = ImageSemanticSegmentationParams(**params)
     else:
         raise NotImplementedError