CudaMatrix Operator logic patch1

2023-10-31 14:35:29 +08:00
parent dd6a22f47d
commit fe0abf8ee6
5 changed files with 125 additions and 3 deletions
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -24,12 +24,17 @@ endif()
 set(MKL_INTERFACE_FULL intel_lp64)
 find_package(MKL CONFIG REQUIRED)
-include_directories(./ ./src /usr/local/include/eigen3 ./thirdparty/include)
+include_directories(
 ./ ./src /usr/local/include/eigen3 ./thirdparty/include)
 file(GLOB_RECURSE  cpp_files ./src/*.cpp)
 file(GLOB_RECURSE  cxx_files ./src/*.cxx)
 add_executable(Aurora ${cpp_files} ${cxx_files} )
 if (Aurora_USE_CUDA)
 file(GLOB_RECURSE  cu_files ./src/*.cu)
 file(GLOB_RECURSE  cuh_files ./src/*.cuh)
 endif(Aurora_USE_CUDA)
 add_executable(Aurora ${cpp_files} ${cxx_files} ${cu_files} ${cuh_files})
 target_compile_options(Aurora PUBLIC $<TARGET_PROPERTY:MKL::MKL,INTERFACE_COMPILE_OPTIONS>)
 target_include_directories(Aurora PUBLIC $<TARGET_PROPERTY:MKL::MKL,INTERFACE_INCLUDE_DIRECTORIES>)
 target_link_libraries(Aurora PUBLIC $<LINK_ONLY:MKL::MKL>)
--- a/src/CudaMatrix.cpp
+++ b/src/CudaMatrix.cpp
@@ -7,6 +7,7 @@
 #include <iostream>
 #include <cstddef>
 #include <cuda_runtime.h>
 #include "CudaMatrixPrivate.cuh"
 using namespace Aurora;
@@ -239,4 +240,14 @@ bool CudaMatrix::setBlockValue(int aDim,int aBeginIndx, int aEndIndex,float valu
    }
    return true;
 }
-#endif // USE_CUDA
+
 CudaMatrix CudaMatrix::operator+(const CudaMatrix &aMatrix) const{
    if (this->getDataSize() != aMatrix.getDataSize()) return CudaMatrix();
    float* data = nullptr;
    unsigned long long size =  getDataSize() * getValueType();
    cudaMalloc((void**)&data, sizeof(float) * size);
    auto out =  CudaMatrix::fromRawData(data, getDimSize(0), getDimSize(1), getDimSize(2), getValueType());
    unaryAdd(this->getData(),aMatrix.getData(),out.getData(),this->getDataSize());
    return out;
 }
 #endif // USE_CUDA
--- a/src/CudaMatrixPrivate.cu
+++ b/src/CudaMatrixPrivate.cu
@@ -0,0 +1,71 @@
 #include <CudaMatrixPrivate.cuh>
 #include <math.h>
 #include <thrust/transform.h>
 #include <thrust/functional.h>
 #include <thrust/execution_policy.h>
 using namespace thrust::placeholders;
 struct PowOperator{
    float exponent;
    PowOperator(float v):exponent(v) {}
    void setExponent(float v){
        exponent = v;
    }
    __host__ __device__
    float operator()(const float& x)  {
        return powf(x, exponent);
    }
 };
 void unaryAdd(float* in1, float* in2, float* out, unsigned long  length)
 {
    thrust::plus<float> op;
    thrust::transform(thrust::device,in1,in1+length,in2,out,op);
 }
 void unaryAdd(float* in1, const float& in2, float* out, unsigned long  length)
 {
    thrust::transform(thrust::device,in1,in1+length,out,in2*_1);
 }
 void unaryMul(float* in1, float* in2, float* out, unsigned long  length)
 {
    thrust::multiplies<float> op;
    thrust::transform(thrust::device,in1,in1+length,in2,out,op);
 }
 void unaryNeg(float* in1, float* out, unsigned long length){
    thrust::negate<float> op;
    thrust::transform(thrust::device,in1,in1+length,out,op);
 }
 void unarySub(float* in1, float* in2, float* out, unsigned long length){
    thrust::minus<float> op;
    thrust::transform(thrust::device,in1,in1+length,in2,out,op);
 }
 void unaryDiv(float* in1, float* in2, float* out, unsigned long length){
    thrust::divides<float> op;
    thrust::transform(thrust::device,in1,in1+length,in2,out,op);
 }
 void unaryPow(float* in1, float N,float* out, unsigned long length){
    if (N == 0.0f)
    {
            thrust::fill(out,out+length,0);
            return;
    }
    if (N == 1.0f)
    {
        thrust::copy(in1,in1+length,out);
        return;
    }
    if (N == 2.0f){
        thrust::square<float> op;
        thrust::transform(thrust::device,in1,in1+length,out,op);
        return;
    }
    thrust::transform(thrust::device,in1,in1+length,out,powf(_1,N));
 }
--- a/src/CudaMatrixPrivate.cuh
+++ b/src/CudaMatrixPrivate.cuh
@@ -0,0 +1,15 @@
 #ifndef __CUDAMATRIX_CUH__
 #define __CUDAMATRIX_CUH__
 void unaryAdd(float* in1, float* in2, float* out, unsigned long length);
 void unaryAdd(float* in1, const float& in2, float* out, unsigned long length);
 void unaryMul(float* in1, float* in2, float* out, unsigned long length);
 void unaryNeg(float* in1, float* out, unsigned long length);
 void unaryPow(float* in1, float N,float* out, unsigned long length);
 void unarySub(float* in1, float* in2, float* out, unsigned long length);
 void unaryDiv(float* in1, float* in2, float* out, unsigned long length);
 #endif // __CUDAMATRIX_H__
--- a/src/main.cxx
+++ b/src/main.cxx
@@ -7,6 +7,7 @@
 #include <complex>
 #include "Matrix.h"
 #include "CudaMatrix.h"
 #include "Function.h"
 #include "Function1D.h"
 #include "Function2D.h"
@@ -15,5 +16,24 @@
 int main()
 {
    auto A = Aurora::zeros(1000,1,1);
    auto B = Aurora::zeros(1000,1,1);
    for (size_t i = 0; i < 1000; i++)
    {
        A[i] = -1;
        B[i] =  i;
    }
    auto C = A+B;
    auto dA = A.toDeviceMatrix();
    auto dB = B.toDeviceMatrix();
    auto dC = (dA+dB).toHostMatrix();
    for (size_t i = 0; i < 1000; i++)
    {
        if (C[i]!=dC[i]){
            printf("error value i:%zu, value1:%f, value2: %f",i,C[i],dC[i]);
            return 9;
        }
    }
    return 0;
 }