[ascend]zmz/Integrate the aclnn framework (DeepLink-org#871)

hellozmz · web-flow · commit c0ffe2c136a4 · 2024-01-23T11:00:25.000+08:00
all aclnn
diff --git a/impl/CMakeLists.txt b/impl/CMakeLists.txt
@@ -69,7 +69,7 @@ elseif (${IMPL_OPT} IN_LIST IMPL_CAMB_TORCH)
 elseif (${IMPL_OPT} IN_LIST IMPL_CAMB)
     add_subdirectory(camb)
 elseif (${IMPL_OPT} IN_LIST IMPL_ASCEND)
-        add_subdirectory(ascend_npu)
+    add_subdirectory(ascend_npu)
 elseif (${IMPL_OPT} IN_LIST IMPL_SUPA)
     add_subdirectory(supa)
 elseif (${IMPL_OPT} IN_LIST IMPL_DROPLET)
diff --git a/impl/ascend/CMakeLists.txt b/impl/ascend/CMakeLists.txt
@@ -9,7 +9,6 @@ else()
   set(ASCEND_DIR /usr/local/Ascend)
 endif()
 
-
 if(EXISTS ${ASCEND_DIR}/ascend-toolkit/latest/)
   message(STATUS "ascend-toolkit exists:" ${ASCEND_DIR}/ascend-toolkit/latest/)
   message(STATUS "ASCEND_DIR:" ${ASCEND_DIR})
@@ -19,7 +18,7 @@ else()
     message(FATAL_ERROR "No ascend-toolkit found.")
 endif()
 
-file(GLOB_RECURSE IMPL_SRC RELATIVE ${CMAKE_CURRENT_SOURCE_DIR} functions/*.cpp functions_mmcv/*.cpp common/*.cpp)
+file(GLOB_RECURSE IMPL_SRC RELATIVE ${CMAKE_CURRENT_SOURCE_DIR} functions/*.cpp functions_mmcv/*.cpp common/*.cpp aclnn/*.cpp)
 list(APPEND IMPL_SRC ascend_tensor.cpp)
 
 # adaptor
@@ -45,7 +44,7 @@ endif()
 
 add_library(${DEVICEIMPL} SHARED ${IMPL_SRC})
 set_target_properties(${DEVICEIMPL} PROPERTIES SUFFIX ".so")
-target_link_libraries(${DEVICEIMPL} ascendcl acl_op_compiler)
+target_link_libraries(${DEVICEIMPL} ascendcl acl_op_compiler nnopbase opapi)
 
 if(USE_ADAPTOR)
     add_dependencies(${DEVICEIMPL} adaptor_code_gen)
diff --git a/impl/ascend/aclnn/aclnn.cpp b/impl/ascend/aclnn/aclnn.cpp
@@ -0,0 +1,207 @@
+/**
+ * @file
+ * @author DeepLink
+ * @copyright  (c) 2023, DeepLink.
+ */
+
+#include "aclnn.hpp"
+
+#include <acl/acl_rt.h>
+
+#include <functional>
+#include <numeric>
+#include <valarray>
+#include <vector>
+
+#include "../common/acloprunner.hpp"
+#include "../common/utils.hpp"
+
+namespace impl {
+namespace ascend {
+
+int createAclTensor1(diopiConstTensorHandle_t input, aclTensor** tensor) {
+    impl::ascend::AscendTensor inAt(input);
+    void* deviceAddr = nullptr;
+
+    // 调用aclCreateTensor接口创建aclTensor
+    *tensor = aclCreateTensor(inAt.getAclMemShape().data(),
+                              inAt.getAclMemShape().size(),
+                              inAt.getAclDataType(),
+                              inAt.stride().data(),
+                              0,
+                              inAt.getAclDataFormat(),
+                              inAt.getAclMemShape().data(),
+                              inAt.getAclMemShape().size(),
+                              const_cast<void*>(inAt.data()));
+    return ACL_SUCCESS;
+}
+
+aclScalar* createAclScalar1(const diopiScalar_t* input) {
+    // 创建alpha aclScalar
+    if (input->stype == diopiDtype_t::diopi_dtype_float64) {
+        auto v = getValue<double>(input);
+        return aclCreateScalar(&v, getAclDataType(input->stype));
+    } else {
+        auto v = getValue<int64_t>(input);
+        return aclCreateScalar(&v, getAclDataType(input->stype));
+    }
+    return nullptr;
+}
+
+void printContiguousTensor(const aclTensor& tensor, const void* tensorPtr) {
+    int64_t* shape = nullptr;
+    uint64_t num = 0;
+    aclGetViewShape(&tensor, &shape, &num);
+    std::vector<int64_t> shapeVec(shape, shape + num);
+    int64_t size = std::accumulate(shapeVec.begin(), shapeVec.end(), 1, std::multiplies<>());
+    std::vector<float> result(size, 0);
+    auto ret = aclrtMemcpy(result.data(), result.size() * sizeof(result[0]), tensorPtr, size * sizeof(float), ACL_MEMCPY_DEVICE_TO_HOST);
+    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("copy result from device to host failed. ERROR: %d\n", ret); return;);
+    for (int64_t i = 0; i < size; i++) {
+        LOG_PRINT("result[%ld] is: %f\n", i, result[i]);
+    }
+}
+
+void printContiguousTensor(const aclTensor& tensor, diopiConstTensorHandle_t diopi) {
+    const void* p = nullptr;
+    diopiGetTensorDataConst(diopi, &p);
+    return printContiguousTensor(tensor, p);
+}
+
+int aclnnAddAdaptor(diopiContextHandle_t ctx, diopiConstTensorHandle_t self1, diopiConstTensorHandle_t other1, const diopiScalar_t* alpha1,
+                    diopiTensorHandle_t out1) {
+    aclrtStream stream;
+    diopiGetStream(ctx, &stream);
+    // 1.构造输入与输出，需要根据API的接口自定义构造
+    aclTensor* self = nullptr;
+    aclTensor* other = nullptr;
+    aclScalar* alpha = nullptr;
+    aclTensor* out = nullptr;
+    // 创建self aclTensor
+    auto ret = createAclTensor1(self1, &self);
+    CHECK_RET(ret == ACL_SUCCESS, return ret);
+    // 创建other aclTensor
+    ret = createAclTensor1(other1, &other);
+    CHECK_RET(ret == ACL_SUCCESS, return ret);
+    // 创建alpha aclScalar
+    alpha = createAclScalar1(alpha1);
+
+    CHECK_RET(alpha != nullptr, return ret);
+    // 创建out aclTensor
+    ret = createAclTensor1(out1, &out);
+    CHECK_RET(ret == ACL_SUCCESS, return ret);
+
+    // 2.调用CANN算子库API
+    uint64_t workspaceSize = 0;
+    aclOpExecutor* executor;
+    // 调用aclnnAdd第一段接口
+    ret = aclnnAddGetWorkspaceSize(self, other, alpha, out, &workspaceSize, &executor);
+    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclnnAddGetWorkspaceSize failed. ERROR: %d\n", ret); return ret);
+    // 根据第一段接口计算出的workspaceSize申请device内存
+    void* workspaceAddr = nullptr;
+    if (workspaceSize > 0) {
+        ret = aclrtMalloc(&workspaceAddr, workspaceSize, ACL_MEM_MALLOC_HUGE_FIRST);
+        CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("allocate workspace failed. ERROR: %d\n", ret); return ret;);
+    }
+    // 调用aclnnAdd第二段接口
+    ret = aclnnAdd(workspaceAddr, workspaceSize, executor, stream);
+    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclnnAdd failed. ERROR: %d\n", ret); return ret);
+    // 3.(固定写法)同步等待任务执行结束
+    ret = aclrtSynchronizeStream(stream);
+    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtSynchronizeStream failed. ERROR: %d\n", ret); return ret);
+
+    if (workspaceSize > 0) {
+        aclrtFree(workspaceAddr);
+    }
+
+    return 0;
+}
+
+int aclnnSinAdaptor(diopiContextHandle_t ctx, diopiConstTensorHandle_t self1, diopiTensorHandle_t out1) {
+    aclrtStream stream;
+    diopiGetStream(ctx, &stream);
+    // 1.构造输入与输出，需要根据API的接口自定义构造
+    aclTensor* self = nullptr;
+    aclTensor* out = nullptr;
+    AscendTensor inAt(self1);
+    if (inAt.numel() == 0) {
+        return 0;
+    }
+    // 创建self aclTensor
+    auto ret = createAclTensor1(self1, &self);
+    CHECK_RET(ret == ACL_SUCCESS, return ret);
+    // 创建out aclTensor
+    ret = createAclTensor1(out1, &out);
+    CHECK_RET(ret == ACL_SUCCESS, return ret);
+
+    // 2.调用CANN算子库API
+    uint64_t workspaceSize = 0;
+    aclOpExecutor* executor;
+    // 调用aclnnSin第一段接口
+    ret = aclnnSinGetWorkspaceSize(self, out, &workspaceSize, &executor);
+    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclnnSinGetWorkspaceSize failed. ERROR: %d\n", ret); return ret);
+    // 根据第一段接口计算出的workspaceSize申请device内存
+    void* workspaceAddr = nullptr;
+    if (workspaceSize > 0) {
+        ret = aclrtMalloc(&workspaceAddr, workspaceSize, ACL_MEM_MALLOC_HUGE_FIRST);
+        CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("allocate workspace failed. ERROR: %d\n", ret); return ret;);
+    }
+    // 调用aclnnSin第二段接口
+    ret = aclnnSin(workspaceAddr, workspaceSize, executor, stream);
+    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclnnSin failed. ERROR: %d\n", ret); return ret);
+    // 3.(固定写法)同步等待任务执行结束
+    ret = aclrtSynchronizeStream(stream);
+    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtSynchronizeStream failed. ERROR: %d\n", ret); return ret);
+
+    if (workspaceSize > 0) {
+        aclrtFree(workspaceAddr);
+    }
+
+    return 0;
+}
+
+int aclnnCosAdaptor(diopiContextHandle_t ctx, diopiConstTensorHandle_t self1, diopiTensorHandle_t out1) {
+    aclrtStream stream;
+    diopiGetStream(ctx, &stream);
+    // 1.构造输入与输出，需要根据API的接口自定义构造
+    aclTensor* self = nullptr;
+    aclTensor* out = nullptr;
+    AscendTensor inAt(self1);
+    if (inAt.numel() == 0) {
+        return 0;
+    }
+    // 创建self aclTensor
+    auto ret = createAclTensor1(self1, &self);
+    CHECK_RET(ret == ACL_SUCCESS, return ret);
+    // 创建out aclTensor
+    ret = createAclTensor1(out1, &out);
+    CHECK_RET(ret == ACL_SUCCESS, return ret);
+
+    // 2.调用CANN算子库API
+    uint64_t workspaceSize = 0;
+    aclOpExecutor* executor;
+    // 调用aclnnCos第一段接口
+    ret = aclnnCosGetWorkspaceSize(self, out, &workspaceSize, &executor);
+    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclnnCosGetWorkspaceSize failed. ERROR: %d\n", ret); return ret);
+    // 根据第一段接口计算出的workspaceSize申请device内存
+    void* workspaceAddr = nullptr;
+    if (workspaceSize > 0) {
+        ret = aclrtMalloc(&workspaceAddr, workspaceSize, ACL_MEM_MALLOC_HUGE_FIRST);
+        CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("allocate workspace failed. ERROR: %d\n", ret); return ret;);
+    }
+    // 调用aclnnCos第二段接口
+    ret = aclnnCos(workspaceAddr, workspaceSize, executor, stream);
+    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclnnCos failed. ERROR: %d\n", ret); return ret);
+    // 3.(固定写法)同步等待任务执行结束
+    ret = aclrtSynchronizeStream(stream);
+    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtSynchronizeStream failed. ERROR: %d\n", ret); return ret);
+
+    if (workspaceSize > 0) {
+        aclrtFree(workspaceAddr);
+    }
+
+    return 0;
+}
+
+}  // namespace ascend
+}  // namespace impl
diff --git a/impl/ascend/aclnn/aclnn.hpp b/impl/ascend/aclnn/aclnn.hpp
@@ -0,0 +1,48 @@
+/**
+ * @file
+ * @author DeepLink
+ * @copyright  (c) 2023, DeepLink.
+ */
+
+#ifndef IMPL_ASCEND_ACLNN_ACLNN_HPP_
+#define IMPL_ASCEND_ACLNN_ACLNN_HPP_
+
+#include <algorithm>
+#include <iostream>
+#include <sstream>
+#include <string>
+#include <vector>
+
+#include "../ascend_tensor.hpp"
+#include "acl/acl.h"
+#include "aclnnop/aclnn_add.h"  // TODO(zmz): add all
+#include "aclnnop/aclnn_cos.h"  // TODO(zmz): add all
+#include "aclnnop/aclnn_sin.h"  // TODO(zmz): add all
+#include "impl_functions.hpp"
+
+namespace impl {
+namespace ascend {
+
+#define CHECK_RET(cond, return_expr) \
+    do {                             \
+        if (!(cond)) {               \
+            return_expr;             \
+        }                            \
+    } while (0)
+
+#define LOG_PRINT(message, ...)         \
+    do {                                \
+        printf(message, ##__VA_ARGS__); \
+    } while (0)
+
+int aclnnAddAdaptor(diopiContextHandle_t ctx, diopiConstTensorHandle_t self, diopiConstTensorHandle_t other, const diopiScalar_t* alpha,
+                    diopiTensorHandle_t out);
+
+int aclnnSinAdaptor(diopiContextHandle_t ctx, diopiConstTensorHandle_t self, diopiTensorHandle_t out);
+
+int aclnnCosAdaptor(diopiContextHandle_t ctx, diopiConstTensorHandle_t self, diopiTensorHandle_t out);
+
+}  // namespace ascend
+}  // namespace impl
+
+#endif  //  IMPL_ASCEND_ACLNN_ACLNN_HPP_
diff --git a/impl/ascend/functions/binary.cpp b/impl/ascend/functions/binary.cpp
@@ -6,6 +6,7 @@
 
 #include <cmath>
 
+#include "../aclnn/aclnn.hpp"
 #include "../common/acloprunner.hpp"
 
 namespace impl {
@@ -32,6 +33,7 @@ bool isScalarOne(const diopiScalar_t* alpha) {
 
 diopiError_t diopiAdd(diopiContextHandle_t ctx, diopiTensorHandle_t out, diopiConstTensorHandle_t input, diopiConstTensorHandle_t other,
                       const diopiScalar_t* alpha) {
+#if 1
     diopiDtype_t outDtype, inputDtype, otherDtype;
     diopiGetTensorDtype(out, &outDtype);
     diopiGetTensorDtype(input, &inputDtype);
@@ -58,6 +60,9 @@ diopiError_t diopiAdd(diopiContextHandle_t ctx, diopiTensorHandle_t out, diopiCo
     }
 
     if (outDtype != highType) diopiCastDtype(ctx, out, outTemp);
+#else
+    auto ret = aclnnAddAdaptor(ctx, input, other, alpha, out);
+#endif
     return diopiSuccess;
 }
 
diff --git a/impl/ascend/functions/cos.cpp b/impl/ascend/functions/cos.cpp
@@ -6,8 +6,8 @@
 
 #include <set>
 
+#include "../aclnn/aclnn.hpp"
 #include "../common/acloprunner.hpp"
-
 namespace impl {
 namespace ascend {
 
@@ -17,6 +17,7 @@ diopiError_t diopiCosInp(diopiContextHandle_t ctx, diopiTensorHandle_t input) {
 }
 
 diopiError_t diopiCos(diopiContextHandle_t ctx, diopiTensorHandle_t out, diopiConstTensorHandle_t input) {
+#if 0
     AscendTensor in = AscendTensor(input);
     if (0 == in.numel()) {
         return diopiSuccess;
@@ -36,6 +37,9 @@ diopiError_t diopiCos(diopiContextHandle_t ctx, diopiTensorHandle_t out, diopiCo
         AclOpRunner<1, 1>("Cos", ctx).addInput(input).addOutput(out).run();
     }
 
+#else
+    aclnnCosAdaptor(ctx, input, out);
+#endif
     return diopiSuccess;
 }
 
diff --git a/impl/ascend/functions/sin.cpp b/impl/ascend/functions/sin.cpp
@@ -6,6 +6,7 @@
 
 #include <set>
 
+#include "../aclnn/aclnn.hpp"
 #include "../common/acloprunner.hpp"
 
 namespace impl {
@@ -17,6 +18,7 @@ diopiError_t diopiSinInp(diopiContextHandle_t ctx, diopiTensorHandle_t input) {
 }
 
 diopiError_t diopiSin(diopiContextHandle_t ctx, diopiTensorHandle_t out, diopiConstTensorHandle_t input) {
+#if 0
     AscendTensor in(input);
     if (0 == in.numel()) {
         return diopiSuccess;
@@ -35,7 +37,9 @@ diopiError_t diopiSin(diopiContextHandle_t ctx, diopiTensorHandle_t out, diopiCo
     } else {
         AclOpRunner<1, 1>("Sin", ctx).addInput(input).addOutput(out).run();
     }
-
+#else
+    aclnnSinAdaptor(ctx, input, out);
+#endif
     return diopiSuccess;
 }
 
diff --git a/impl/ascend_npu/CMakeLists.txt b/impl/ascend_npu/CMakeLists.txt
diff --git a/impl/ascend_npu/torch_npu/csrc/DIOPIAdapter.cpp b/impl/ascend_npu/torch_npu/csrc/DIOPIAdapter.cpp