feat(pt_expt): implement se_t and se_t_tebd descriptors. (#5208)

wanghan-iapcm · Han Wang · njzjz · web-flow · commit 156736f0c0db · 2026-02-11T11:48:20.000Z
This PR is considered after #5194 #5204 and #5205  ## Summary by CodeRabbit ## Release Notes * **New Features** * Added experimental PyTorch support for SeT and SeT-TEBD descriptors, enabling model training and serialization/export. * Introduced TypeEmbedNet wrapper for type embedding integration in PyTorch workflows. * **Bug Fixes** * Improved backend compatibility and device-aware tensor allocation across descriptor implementations. * Fixed PyTorch tensor indexing compatibility issues. * **Tests** * Added comprehensive test coverage for new experimental descriptors and consistency validation.  --------- Signed-off-by: Jinzhe Zeng <jinzhe.zeng@ustc.edu.cn> Co-authored-by: Han Wang <wang_han@iapcm.ac.cn> Co-authored-by: Jinzhe Zeng <jinzhe.zeng@ustc.edu.cn>
diff --git a/deepmd/dpmodel/descriptor/descriptor.py b/deepmd/dpmodel/descriptor/descriptor.py
@@ -12,7 +12,7 @@
     NoReturn,
 )
 
-import numpy as np
+import array_api_compat
 
 from deepmd.dpmodel.array_api import (
     Array,
@@ -173,7 +173,18 @@ def extend_descrpt_stat(
         extend_dstd = des_with_stat["dstd"]
     else:
         extend_shape = [len(type_map), *list(des["davg"].shape[1:])]
-        extend_davg = np.zeros(extend_shape, dtype=des["davg"].dtype)
-        extend_dstd = np.ones(extend_shape, dtype=des["dstd"].dtype)
-    des["davg"] = np.concatenate([des["davg"], extend_davg], axis=0)
-    des["dstd"] = np.concatenate([des["dstd"], extend_dstd], axis=0)
+        # Use array_api_compat to infer device and dtype from context
+        xp = array_api_compat.array_namespace(des["davg"])
+        extend_davg = xp.zeros(
+            extend_shape,
+            dtype=des["davg"].dtype,
+            device=array_api_compat.device(des["davg"]),
+        )
+        extend_dstd = xp.ones(
+            extend_shape,
+            dtype=des["dstd"].dtype,
+            device=array_api_compat.device(des["dstd"]),
+        )
+    xp = array_api_compat.array_namespace(des["davg"])
+    des["davg"] = xp.concat([des["davg"], extend_davg], axis=0)
+    des["dstd"] = xp.concat([des["dstd"], extend_dstd], axis=0)
diff --git a/deepmd/dpmodel/descriptor/dpa1.py b/deepmd/dpmodel/descriptor/dpa1.py
@@ -1049,6 +1049,8 @@ def call(
                 idx_j = xp.reshape(nei_type, (-1,))
                 # (nf x nl x nnei) x ng
                 idx = xp.tile(xp.reshape((idx_i + idx_j), (-1, 1)), (1, ng))
+                # Cast to int64 for PyTorch backend (take_along_dim requires Long indices)
+                idx = xp.astype(idx, xp.int64)
                 # (ntypes) * ntypes * nt
                 type_embedding_nei = xp.tile(
                     xp.reshape(type_embedding, (1, ntypes_with_padding, nt)),
diff --git a/deepmd/dpmodel/descriptor/se_t.py b/deepmd/dpmodel/descriptor/se_t.py
@@ -369,7 +369,11 @@ def call(
         sec = self.sel_cumsum
 
         ng = self.neuron[-1]
-        result = xp.zeros([nf * nloc, ng], dtype=get_xp_precision(xp, self.precision))
+        result = xp.zeros(
+            [nf * nloc, ng],
+            dtype=get_xp_precision(xp, self.precision),
+            device=array_api_compat.device(coord_ext),
+        )
         exclude_mask = self.emask.build_type_exclude_mask(nlist, atype_ext)
         # merge nf and nloc axis, so for type_one_side == False,
         # we don't require atype is the same in all frames
diff --git a/deepmd/dpmodel/descriptor/se_t_tebd.py b/deepmd/dpmodel/descriptor/se_t_tebd.py
@@ -769,7 +769,9 @@ def call(
         sw = xp.where(
             nlist_mask[:, :, None],
             xp.reshape(sw, (nf * nloc, nnei, 1)),
-            xp.zeros((nf * nloc, nnei, 1), dtype=sw.dtype),
+            xp.zeros(
+                (nf * nloc, nnei, 1), dtype=sw.dtype, device=array_api_compat.device(sw)
+            ),
         )
 
         # nfnl x nnei x 4
@@ -832,6 +834,8 @@ def call(
 
             # (nf x nl x nt_i x nt_j) x ng
             idx = xp.tile(xp.reshape((idx_i + idx_j), (-1, 1)), (1, ng))
+            # Cast to int64 for PyTorch backend (take_along_dim requires Long indices)
+            idx = xp.astype(idx, xp.int64)
 
             # ntypes * (ntypes) * nt
             type_embedding_i = xp.tile(
diff --git a/deepmd/dpmodel/utils/type_embed.py b/deepmd/dpmodel/utils/type_embed.py
@@ -100,11 +100,21 @@ def call(self) -> Array:
         sample_array = self.embedding_net[0]["w"]
         xp = array_api_compat.array_namespace(sample_array)
         if not self.use_econf_tebd:
-            embed = self.embedding_net(xp.eye(self.ntypes, dtype=sample_array.dtype))
+            embed = self.embedding_net(
+                xp.eye(
+                    self.ntypes,
+                    dtype=sample_array.dtype,
+                    device=array_api_compat.device(sample_array),
+                )
+            )
         else:
             embed = self.embedding_net(self.econf_tebd)
         if self.padding:
-            embed_pad = xp.zeros((1, embed.shape[-1]), dtype=embed.dtype)
+            embed_pad = xp.zeros(
+                (1, embed.shape[-1]),
+                dtype=embed.dtype,
+                device=array_api_compat.device(embed),
+            )
             embed = xp.concat([embed, embed_pad], axis=0)
         return embed
 
@@ -180,32 +190,51 @@ def change_type_map(
                 "'activation_function' must be 'Linear' when performing type changing on resnet structure!"
             )
             first_layer_matrix = self.embedding_net.layers[0].w
-            eye_vector = np.eye(self.ntypes, dtype=PRECISION_DICT[self.precision])
+            # Use array_api_compat to handle both numpy and torch
+            xp = array_api_compat.array_namespace(first_layer_matrix)
+            eye_vector = xp.eye(
+                self.ntypes,
+                dtype=first_layer_matrix.dtype,
+                device=array_api_compat.device(first_layer_matrix),
+            )
             # preprocess for resnet connection
             if self.neuron[0] == self.ntypes:
-                first_layer_matrix += eye_vector
+                first_layer_matrix = first_layer_matrix + eye_vector
             elif self.neuron[0] == self.ntypes * 2:
-                first_layer_matrix += np.concatenate([eye_vector, eye_vector], axis=-1)
+                first_layer_matrix = first_layer_matrix + xp.concat(
+                    [eye_vector, eye_vector], axis=-1
+                )
 
             # randomly initialize params for the unseen types
-            rng = np.random.default_rng()
             if has_new_type:
-                extend_type_params = rng.random(
+                # Create random params with same dtype and device as first_layer_matrix
+                extend_type_params = np.random.default_rng().random(
                     [len(type_map), first_layer_matrix.shape[-1]],
+                    dtype=PRECISION_DICT[self.precision],
+                )
+                extend_type_params = xp.asarray(
+                    extend_type_params,
                     dtype=first_layer_matrix.dtype,
+                    device=array_api_compat.device(first_layer_matrix),
                 )
-                first_layer_matrix = np.concatenate(
+                first_layer_matrix = xp.concat(
                     [first_layer_matrix, extend_type_params], axis=0
                 )
 
             first_layer_matrix = first_layer_matrix[remap_index]
             new_ntypes = len(type_map)
-            eye_vector = np.eye(new_ntypes, dtype=PRECISION_DICT[self.precision])
+            eye_vector = xp.eye(
+                new_ntypes,
+                dtype=first_layer_matrix.dtype,
+                device=array_api_compat.device(first_layer_matrix),
+            )
 
             if self.neuron[0] == new_ntypes:
-                first_layer_matrix -= eye_vector
+                first_layer_matrix = first_layer_matrix - eye_vector
             elif self.neuron[0] == new_ntypes * 2:
-                first_layer_matrix -= np.concatenate([eye_vector, eye_vector], axis=-1)
+                first_layer_matrix = first_layer_matrix - xp.concat(
+                    [eye_vector, eye_vector], axis=-1
+                )
 
             self.embedding_net.layers[0].num_in = new_ntypes
             self.embedding_net.layers[0].w = first_layer_matrix
diff --git a/deepmd/pt_expt/descriptor/__init__.py b/deepmd/pt_expt/descriptor/__init__.py
@@ -1,4 +1,6 @@
 # SPDX-License-Identifier: LGPL-3.0-or-later
+# Import to register converters
+from . import se_t_tebd_block  # noqa: F401
 from .base_descriptor import (
     BaseDescriptor,
 )
@@ -8,9 +10,17 @@
 from .se_r import (
     DescrptSeR,
 )
+from .se_t import (
+    DescrptSeT,
+)
+from .se_t_tebd import (
+    DescrptSeTTebd,
+)
 
 __all__ = [
     "BaseDescriptor",
     "DescrptSeA",
     "DescrptSeR",
+    "DescrptSeT",
+    "DescrptSeTTebd",
 ]
diff --git a/deepmd/pt_expt/descriptor/se_e2_a.py b/deepmd/pt_expt/descriptor/se_e2_a.py
@@ -35,17 +35,14 @@ def forward(
         extended_coord: torch.Tensor,
         extended_atype: torch.Tensor,
         nlist: torch.Tensor,
-        extended_atype_embd: torch.Tensor | None = None,
         mapping: torch.Tensor | None = None,
-        type_embedding: torch.Tensor | None = None,
     ) -> tuple[
         torch.Tensor,
         torch.Tensor | None,
         torch.Tensor | None,
         torch.Tensor | None,
         torch.Tensor | None,
     ]:
-        del extended_atype_embd, type_embedding
         descrpt, rot_mat, g2, h2, sw = self.call(
             extended_coord,
             extended_atype,
diff --git a/deepmd/pt_expt/descriptor/se_r.py b/deepmd/pt_expt/descriptor/se_r.py
@@ -35,17 +35,14 @@ def forward(
         extended_coord: torch.Tensor,
         extended_atype: torch.Tensor,
         nlist: torch.Tensor,
-        extended_atype_embd: torch.Tensor | None = None,
         mapping: torch.Tensor | None = None,
-        type_embedding: torch.Tensor | None = None,
     ) -> tuple[
         torch.Tensor,
         torch.Tensor | None,
         torch.Tensor | None,
         torch.Tensor | None,
         torch.Tensor | None,
     ]:
-        del extended_atype_embd, type_embedding
         descrpt, rot_mat, g2, h2, sw = self.call(
             extended_coord,
             extended_atype,
diff --git a/deepmd/pt_expt/descriptor/se_t.py b/deepmd/pt_expt/descriptor/se_t.py
@@ -0,0 +1,53 @@
+# SPDX-License-Identifier: LGPL-3.0-or-later
+from typing import (
+    Any,
+)
+
+import torch
+
+from deepmd.dpmodel.descriptor.se_t import DescrptSeT as DescrptSeTDP
+from deepmd.pt_expt.common import (
+    dpmodel_setattr,
+)
+from deepmd.pt_expt.descriptor.base_descriptor import (
+    BaseDescriptor,
+)
+
+
+@BaseDescriptor.register("se_e3_expt")
+@BaseDescriptor.register("se_at_expt")
+@BaseDescriptor.register("se_a_3be_expt")
+class DescrptSeT(DescrptSeTDP, torch.nn.Module):
+    def __init__(self, *args: Any, **kwargs: Any) -> None:
+        torch.nn.Module.__init__(self)
+        DescrptSeTDP.__init__(self, *args, **kwargs)
+
+    def __call__(self, *args: Any, **kwargs: Any) -> Any:
+        # Ensure torch.nn.Module.__call__ drives forward() for export/tracing.
+        return torch.nn.Module.__call__(self, *args, **kwargs)
+
+    def __setattr__(self, name: str, value: Any) -> None:
+        handled, value = dpmodel_setattr(self, name, value)
+        if not handled:
+            super().__setattr__(name, value)
+
+    def forward(
+        self,
+        extended_coord: torch.Tensor,
+        extended_atype: torch.Tensor,
+        nlist: torch.Tensor,
+        mapping: torch.Tensor | None = None,
+    ) -> tuple[
+        torch.Tensor,
+        torch.Tensor | None,
+        torch.Tensor | None,
+        torch.Tensor | None,
+        torch.Tensor | None,
+    ]:
+        descrpt, rot_mat, g2, h2, sw = self.call(
+            extended_coord,
+            extended_atype,
+            nlist,
+            mapping=mapping,
+        )
+        return descrpt, rot_mat, g2, h2, sw
diff --git a/deepmd/pt_expt/descriptor/se_t_tebd.py b/deepmd/pt_expt/descriptor/se_t_tebd.py
@@ -0,0 +1,51 @@
+# SPDX-License-Identifier: LGPL-3.0-or-later
+from typing import (
+    Any,
+)
+
+import torch
+
+from deepmd.dpmodel.descriptor.se_t_tebd import DescrptSeTTebd as DescrptSeTTebdDP
+from deepmd.pt_expt.common import (
+    dpmodel_setattr,
+)
+from deepmd.pt_expt.descriptor.base_descriptor import (
+    BaseDescriptor,
+)
+
+
+@BaseDescriptor.register("se_e3_tebd_expt")
+class DescrptSeTTebd(DescrptSeTTebdDP, torch.nn.Module):
+    def __init__(self, *args: Any, **kwargs: Any) -> None:
+        torch.nn.Module.__init__(self)
+        DescrptSeTTebdDP.__init__(self, *args, **kwargs)
+
+    def __call__(self, *args: Any, **kwargs: Any) -> Any:
+        # Ensure torch.nn.Module.__call__ drives forward() for export/tracing.
+        return torch.nn.Module.__call__(self, *args, **kwargs)
+
+    def __setattr__(self, name: str, value: Any) -> None:
+        handled, value = dpmodel_setattr(self, name, value)
+        if not handled:
+            super().__setattr__(name, value)
+
+    def forward(
+        self,
+        extended_coord: torch.Tensor,
+        extended_atype: torch.Tensor,
+        nlist: torch.Tensor,
+        mapping: torch.Tensor | None = None,
+    ) -> tuple[
+        torch.Tensor,
+        torch.Tensor | None,
+        torch.Tensor | None,
+        torch.Tensor | None,
+        torch.Tensor | None,
+    ]:
+        descrpt, rot_mat, g2, h2, sw = self.call(
+            extended_coord,
+            extended_atype,
+            nlist,
+            mapping=mapping,
+        )
+        return descrpt, rot_mat, g2, h2, sw
diff --git a/deepmd/pt_expt/descriptor/se_t_tebd_block.py b/deepmd/pt_expt/descriptor/se_t_tebd_block.py
@@ -0,0 +1,31 @@
+# SPDX-License-Identifier: LGPL-3.0-or-later
+from typing import (
+    Any,
+)
+
+import torch
+
+from deepmd.dpmodel.descriptor.se_t_tebd import (
+    DescrptBlockSeTTebd as DescrptBlockSeTTebdDP,
+)
+from deepmd.pt_expt.common import (
+    dpmodel_setattr,
+    register_dpmodel_mapping,
+)
+
+
+class DescrptBlockSeTTebd(DescrptBlockSeTTebdDP, torch.nn.Module):
+    def __init__(self, *args: Any, **kwargs: Any) -> None:
+        torch.nn.Module.__init__(self)
+        DescrptBlockSeTTebdDP.__init__(self, *args, **kwargs)
+
+    def __setattr__(self, name: str, value: Any) -> None:
+        handled, value = dpmodel_setattr(self, name, value)
+        if not handled:
+            super().__setattr__(name, value)
+
+
+register_dpmodel_mapping(
+    DescrptBlockSeTTebdDP,
+    lambda v: DescrptBlockSeTTebd.deserialize(v.serialize()),
+)
diff --git a/deepmd/pt_expt/utils/__init__.py b/deepmd/pt_expt/utils/__init__.py
@@ -14,6 +14,9 @@
 from .network import (
     NetworkCollection,
 )
+from .type_embed import (
+    TypeEmbedNet,
+)
 
 # Register EnvMat with identity converter - it doesn't need wrapping
 # as it's a stateless utility class
@@ -23,4 +26,5 @@
     "AtomExcludeMask",
     "NetworkCollection",
     "PairExcludeMask",
+    "TypeEmbedNet",
 ]
diff --git a/deepmd/pt_expt/utils/type_embed.py b/deepmd/pt_expt/utils/type_embed.py
diff --git a/source/tests/consistent/descriptor/test_se_t.py b/source/tests/consistent/descriptor/test_se_t.py
diff --git a/source/tests/consistent/descriptor/test_se_t_tebd.py b/source/tests/consistent/descriptor/test_se_t_tebd.py
diff --git a/source/tests/pt_expt/descriptor/test_se_t.py b/source/tests/pt_expt/descriptor/test_se_t.py
diff --git a/source/tests/pt_expt/descriptor/test_se_t_tebd.py b/source/tests/pt_expt/descriptor/test_se_t_tebd.py