gc-os-ai · satvshr · Jul 11, 2025 · Jul 11, 2025 · Jul 11, 2025 · Jul 11, 2025
diff --git a/examples/aptanet_tutorial.ipynb b/examples/aptanet_tutorial.ipynb
diff --git a/pyaptamer/datasets/__init__.py b/pyaptamer/datasets/__init__.py
@@ -6,6 +6,10 @@
 )
 from pyaptamer.datasets._loaders._csv_loader import load_csv_dataset
 from pyaptamer.datasets._loaders._hf_loader import load_hf_dataset
+from pyaptamer.datasets._loaders._li2014 import (
+    load_test_li2014,
+    load_train_li2014,
+)
 from pyaptamer.datasets._loaders._one_gnh import load_1gnh, load_1gnh_structure
 from pyaptamer.datasets._loaders._online_databank import load_from_rcsb
 from pyaptamer.datasets._loaders._pfoa import load_pfoa, load_pfoa_structure
@@ -21,4 +25,6 @@
     "load_1gnh_structure",
     "load_from_rcsb",
     "load_csv_dataset",
+    "load_train_li2014",
+    "load_test_li2014",
 ]
diff --git a/pyaptamer/datasets/_loaders/__init__.py b/pyaptamer/datasets/_loaders/__init__.py
@@ -6,6 +6,10 @@
 )
 from pyaptamer.datasets._loaders._csv_loader import load_csv_dataset
 from pyaptamer.datasets._loaders._hf_loader import load_hf_dataset
+from pyaptamer.datasets._loaders._li2014 import (
+    load_test_li2014,
+    load_train_li2014,
+)
 from pyaptamer.datasets._loaders._one_gnh import load_1gnh_structure
 from pyaptamer.datasets._loaders._pfoa import load_pfoa_structure
 
@@ -19,4 +23,6 @@
     "load_pfoa_structure",
     "load_1gnh",
     "load_1gnh_structure",
+    "load_train_li2014",
+    "load_test_li2014",
 ]
diff --git a/pyaptamer/datasets/_loaders/_li2014.py b/pyaptamer/datasets/_loaders/_li2014.py
@@ -0,0 +1,55 @@
+__author__ = "satvshr"
+__all__ = ["load_train_li2014", "load_test_li2014"]
+import os
+
+import pandas as pd
+
+
+def load_train_li2014():
+    """
+    Load the Li 2014 training dataset.
+
+    Returns
+    -------
+    X : pandas.DataFrame
+        Feature matrix.
+    y : pandas.Series
+        Labels/target.
+    """
+    # Path relative to this file
+    path = os.path.abspath(
+        os.path.join(os.path.dirname(__file__), "..", "data", "train_li2014.csv")
+    )
+
+    df = pd.read_csv(path)
+
+    # Basic assumption: last column is the label
+    X = df.iloc[:, :-1]
+    y = df.iloc[:, -1]
+
+    return X, y
+
+
+def load_test_li2014():
+    """
+    Load the Li 2014 test dataset.
+
+    Returns
+    -------
+    X : pandas.DataFrame
+        Feature matrix.
+    y : pandas.Series
+        Labels/target.
+    """
+    # Path relative to this file
+    path = os.path.abspath(
+        os.path.join(os.path.dirname(__file__), "..", "data", "test_li2014.csv")
+    )
+
+    df = pd.read_csv(path)
+
+    # Basic assumption: last column is the label
+    X = df.iloc[:, :-1]
+    y = df.iloc[:, -1]
+
+    return X, y
diff --git a/pyaptamer/datasets/tests/test_csv_loader.py b/pyaptamer/datasets/tests/test_csv_loader.py
@@ -0,0 +1,22 @@
+__author__ = "satvshr"
+
+import pandas as pd
+
+from pyaptamer.datasets._loaders._csv_loader import load_csv_dataset
+
+DATASET_NAME = "train_li2014"
+TARGET_COL = "label"
+
+
+def test_load_csv_returns_df():
+    """
+    When return_X_y=False the loader should return the full DataFrame containing the
+    target column.
+    """
+    df = load_csv_dataset(DATASET_NAME)
+
+    assert isinstance(df, pd.DataFrame), "Returned object should be a pandas DataFrame"
+    assert TARGET_COL in df.columns, (
+        f"DataFrame must contain the target column '{TARGET_COL}'"
+    )
+    assert df.shape[0] > 0, "DataFrame should not be empty"
diff --git a/pyaptamer/datasets/tests/test_li2014.py b/pyaptamer/datasets/tests/test_li2014.py
@@ -0,0 +1,30 @@
+__author__ = "satvshr"
+
+import pandas as pd
+import pytest
+
+from pyaptamer.datasets._loaders._li2014 import (
+    load_test_li2014,
+    load_train_li2014,
+)
+
+
+@pytest.mark.parametrize(
+    "loader",
+    [load_train_li2014, load_test_li2014],
+)
+def test_loader_li2014(loader):
+    """
+    The loader should return a tuple (X, y) where:
+    - X is a DataFrame
+    - y is a Series
+    - they have matching lengths
+    """
+    X, y = loader()
+
+    assert isinstance(X, pd.DataFrame), "X should be a pandas DataFrame"
+    assert isinstance(y, pd.Series), "y should be a pandas Series"
+
+    assert len(X) == len(y), "X and y must have the same number of rows"
+    assert X.shape[0] > 0, "X should not be empty"
+    assert y.shape[0] > 0, "y should not be empty"
diff --git a/pyaptamer/trafos/base/_base.py b/pyaptamer/trafos/base/_base.py
@@ -62,8 +62,7 @@ def _fit(self, X, y=None):
             Returns self.
         """
         raise ValueError(
-            "abstract method _fit called, "
-            "this should be implemented in the subclass"
+            "abstract method _fit called, this should be implemented in the subclass"
         )
 
     def transform(self, X):

diff --git a/pyaptamer/utils/_aptanet_utils.py b/pyaptamer/utils/_aptanet_utils.py
@@ -4,6 +4,7 @@
 from itertools import product
 
 import numpy as np
+import pandas as pd
 
 from pyaptamer.pseaac import AptaNetPSeAAC
 
@@ -59,20 +60,18 @@ def generate_kmer_vecs(aptamer_sequence, k=4):
 def pairs_to_features(X, k=4):
     """
     Convert a list of (aptamer_sequence, protein_sequence) pairs into feature vectors.
+    Also supports a pandas DataFrame with 'aptamer' and 'protein' columns.
 
     This function generates feature vectors for each (aptamer, protein) pair using:
 
-
     - k-mer representation of the aptamer sequence
     - Pseudo amino acid composition (PSeAAC) representation of the protein sequence
 
-
     Parameters
     ----------
-    X : list of tuple of str
-        A list where each element is a tuple `(aptamer_sequence, protein_sequence)`.
-        `aptamer_sequence` should be a string of nucleotides, and `protein_sequence`
-        should be a string of amino acids.
+    X : list of tuple of str or pandas.DataFrame
+        A list where each element is a tuple `(aptamer_sequence, protein_sequence)`,
+        or a DataFrame containing 'aptamer' and 'protein' columns.
 
     k : int, optional
         The k-mer size used to generate the k-mer vector from the aptamer sequence.
@@ -85,9 +84,14 @@ def pairs_to_features(X, k=4):
         for a given (aptamer, protein) pair.
     """
     pseaac = AptaNetPSeAAC()
-
     feats = []
-    for aptamer_seq, protein_seq in X:
+
+    if isinstance(X, pd.DataFrame):
+        pairs = zip(X["aptamer"], X["protein"], strict=False)
+    else:
+        pairs = X
+
+    for aptamer_seq, protein_seq in pairs:
         kmer = generate_kmer_vecs(aptamer_seq, k=k)
         pseaac_vec = np.asarray(pseaac.transform(protein_seq))
         feats.append(np.concatenate([kmer, pseaac_vec]))