mycaffe/html/_cuda_dnn_8cs_source.html

using System;

using System.Collections.Generic;

using System.Linq;

using System.Text;

using System.Collections;

using System.Diagnostics;

using System.Threading;

using System.IO;

using MyCaffe.basecode;

using System.ComponentModel;

using System.Runtime.Remoting.Channels;

using System.Xml.Linq;

using System.Security.Cryptography.X509Certificates;

using static MyCaffe.param.tft.ReshapeTemporalParameter;


namespace MyCaffe.common

{

    public enum DIR

    {

        FWD = 0,

        BWD = 1

    }


    public enum MEAN_ERROR

    {

        MSE = 1,

        MAE = 2

    }


    public enum MATH_FUNCTION

    {

        NOP = 0,


        ACOS = 1,

        ACOSH = 2,

        COS = 3,

        COSH = 4,


        ASIN = 10,

        ASINH = 11,

        SIN = 12,

        SINH = 13,


        ATAN = 20,

        ATANH = 21,

        TAN = 22,

        TANH = 23,


        CEIL = 30,

        FLOOR = 31,

        NEG = 32,

        SIGN = 33,

        SQRT = 34

    }


    public enum OP

    {

        MUL = 1,

        DIV = 2,

        ADD = 3,

        SUB = 4

    }


    public enum DistanceMethod

    {

        HAMMING = 0,

        EUCLIDEAN = 1

    }


    public enum PoolingMethod

    {

        MAX = 0,

        AVE = 1

    }


    public enum DataType

    {

        DOUBLE,

        FLOAT

    }


    public enum DEVINIT

    {

        NONE = 0x0000,


        CUBLAS = 0x0001,


        CURAND = 0x0002,


        SETSEED = 0x0004

    }


    public enum BATCHNORM_MODE

    {

        PER_ACTIVATION = 0,

        SPATIAL = 1,

        SPATIAL_PERSISTENT = 2

    }


    public enum CONV_FWD_ALGO

    {

        NONE = -1,

        IMPLICIT_GEMM = 0,

        IMPLICIT_PRECOMP_GEMM = 1,

        ALGO_GEMM = 2,

        ALGO_DIRECT = 3,

        ALGO_FFT = 4,

        ALGO_FFT_TILING = 5,

        ALGO_WINOGRAD = 6,

        ALGO_WINOGRAD_NONFUSED = 7

    }


    public enum CONV_BWD_FILTER_ALGO

    {

        ALGO_0 = 0,

        ALGO_1 = 1,

        ALGO_FFT = 2,

        ALGO_3 = 3

    }


    public enum CONV_BWD_DATA_ALGO

    {

        ALGO_0 = 0,

        ALGO_1 = 1,

        ALGO_FFT = 2

    }


    public enum POOLING_METHOD

    {

        MAX = 0,

        AVE = 1,

        STO_TRAIN = 2,

        STO_TEST = 3

    }


    public enum RNN_MODE

    {

        RNN_RELU = 0,

        RNN_TANH = 1,

        LSTM = 2,

        GRU = 3

    }


    public enum RNN_BIAS_MODE

    {

        RNN_NO_BIAS = 0,

        RNN_SINGLE_INP_BIAS = 1,

        RNN_DOUBLE_BIAS = 2,

        RNN_SINGLE_REC_BIAS = 3

    }


    public enum RNN_DATALAYOUT

    {

        RNN_SEQ_MAJOR_UNPACKED = 0,

        RNN_SEQ_MAJOR_PACKED = 1,

        RNN_BATCH_MAJOR_UNPACKED = 2

    }


    public enum RNN_DIRECTION

    {

        RNN_UNIDIRECTIONAL,

        RNN_BIDIRECTIONAL

    }


    public enum RNN_FILLER_TYPE

    {

        RNN_CONSTANT_FILLER,

        RNN_XAVIER_FILLER,

        RNN_GAUSSIAN_FILLER

    }


    public enum DEVPROP

    {

        DEVICECOUNT = 1,

        NAME = 2,

        MULTIGPUBOARDGROUPID = 3,

    }


    public enum MEMTEST_TYPE

    {

        MOV_INV_8 = 1

    }


    public enum NCCL_REDUCTION_OP

    {

        SUM = 0,

        PROD = 1,

        MAX = 2,

        MIN = 3

    }


    public enum SSD_MINING_TYPE

    {

        NONE = 0,

        MAX_NEGATIVE = 1,

        HARD_EXAMPLE = 2

    }


    public enum SSD_MATCH_TYPE

    {

        BIPARTITE,

        PER_PREDICTION

    }


    public enum SSD_CODE_TYPE

    {

        CORNER = 1,

        CENTER_SIZE = 2,

        CORNER_SIZE = 3

    }


    public enum SSD_CONF_LOSS_TYPE

    {

        SOFTMAX,

        LOGISTIC

    }


    public enum SSD_LOC_LOSS_TYPE

    {

        L2,

        SMOOTH_L1

    }


    public enum ORIENTATION

    {

        COL = 0,

        ROW = 1

    }


    public enum TRANSPOSE_OPERATION

    {

        ADD = 0,

        MUL = 1,

        DIV = 2

    }


    public enum AGGREGATIONS

    {

        SUM = 0,

        MAX = 1,

        MIN = 2

    }


    public enum SOFTMAX_ALGORITHM

    {

        DEFAULT = 1,

        FAST = 0,

        ACCURATE = 1,

        LOG = 2

    }


    public enum SOFTMAX_MODE

    {

        INSTANCE,

        CHANNEL

    }


#pragma warning disable 1591


    public interface ICudaDevice

    {

        void SetDeviceID(int nDeviceID, DEVINIT flags = DEVINIT.NONE, long? lSeed = null);

        void SetRandomSeed(long lSeed);

        int GetDeviceCount();

        int GetDeviceID();

        void ResetDevice();

        void SynchronizeDevice();

        string GetDeviceName(int nDeviceID);

        string GetDeviceP2PInfo(int nDeviceID);

        string GetRequiredCompute(out int nMinMajor, out int nMinMinor);


    }


    public interface ICudaMemory

    {

        long AllocMemory(long lCount, bool bHalf = false);

        long AllocMemory(List<double> rg);

        long AllocMemory(List<float> rg);

        long AllocMemory(double[] rgSrc, long hStream = 0);

        long AllocMemory(float[] rgSrc, long hStream = 0);

        void FreeMemory(long hMem);

        double[] GetMemoryDouble(long hMem, long lCount = -1);

        float[] GetMemoryFloat(long hMem, long lCount = -1);

        void SetMemory(long hMem, List<double> rg);

        void SetMemory(long hMem, List<float> rg);

        void SetMemory(long hMem, double[] rgSrc, long hStream = 0);

        void SetMemory(long hMem, float[] rgSrc, long hStream = 0);

        void SetMemoryAt(long hMem, double[] rgSrc, int nOffset);

        void SetMemoryAt(long hMem, float[] rgSrc, int nOffset);

        long AllocHostBuffer(long lCount);

        void FreeHostBuffer(long hMem);

        double[] GetHostMemoryDouble(long hMem);

        float[] GetHostMemoryFloat(long hMem);

        long CreateMemoryPointer(long hData, long lOffset, long lCount);

        void FreeMemoryPointer(long hMem);

    }


    public interface ICudaCuDnn

    {

        long CreateStream(bool bNonBlocking = false, int nIndex = -1);

        void FreeStream(long h);

        void SynchronizeStream(long h = 0);

        void SynchronizeThread();


        long CreateCuDNN(long hStream = 0);

        void FreeCuDNN(long h);


        long CreateTensorDesc();

        void FreeTensorDesc(long h);

        void SetTensorNdDesc(long hHandle, int[] rgDim, int[] rgStride, bool bHalf = false);

        void SetTensorDesc(long hHandle, int n, int c, int h, int w, bool bHalf = false);

        void SetTensorDesc(long hHandle, int n, int c, int h, int w, int nStride, int cStride, int hStride, int wStride, bool bHalf = false);

        void AddTensor(long hHandle, long hSrcDesc, long hSrc, int nSrcOffset, long hDstDesc, long hDst, int nDstOffset);


        void DeriveBatchNormDesc(long hFwdScaleBiasMeanVarDesc, long hFwdBottomDesc, long hBwdScaleBiasMeanVarDesc, long hBwdBottomDesc, BATCHNORM_MODE mode);


        long CreateFilterDesc();

        void FreeFilterDesc(long h);

        void SetFilterNdDesc(long hHandle, int[] rgDim, bool bHalf = false);

        void SetFilterDesc(long hHandle, int n, int c, int h, int w, bool bHalf = false);


        long CreateConvolutionDesc();

        void FreeConvolutionDesc(long h);

        void SetConvolutionDesc(long hHandle, int hPad, int wPad, int hStride, int wStride, int hDilation, int wDilation, bool bUseTensorCores, bool bHalf = false);


        long CreatePoolingDesc();

        void FreePoolingDesc(long h);

        void SetPoolingDesc(long hHandle, PoolingMethod method, int h, int w, int hPad, int wPad, int hStride, int wStride);


        long CreateLRNDesc();

        void FreeLRNDesc(long h);

        void SetLRNDesc(long hHandle, uint nSize, double fAlpha, double fBeta, double fK);


        long CreateRnnDataDesc();

        void FreeRnnDataDesc(long h);

        void SetRnnDataDesc(long hRnnDataDesc, RNN_DATALAYOUT layout, int nMaxSeqLen, int nBatchSize, int nVectorSize, bool bBidirectional = false, int[] rgSeqLen = null);


        long CreateRnnDesc();

        void FreeRnnDesc(long h);

        void SetRnnDesc(long hHandle, long hRnnDesc, int nHiddenSize, int nNumLayers, long hDropoutDesc, RNN_MODE mode, bool bUseTensorCores, RNN_DIRECTION direction = RNN_DIRECTION.RNN_UNIDIRECTIONAL);

        int GetRnnParamCount(long hHandle, long hRnnDesc, long hXDesc);

        ulong GetRnnWorkspaceCount(long hHandle, long hRnnDesc, long hXDesc, out ulong nReservedCount);

        void GetRnnLinLayerParams(long hHandle, long hRnnDesc, int nLayer, long hXDesc, long hWtDesc, long hWtData, int nLinLayer, out int nWtCount, out long hWt, out int nBiasCount, out long hBias);

        void RnnForward(long hHandle, long hRnnDesc, long hXDesc, long hXData, long hHxDesc, long hHxData, long hCxDesc, long hCxData, long hWtDesc, long hWtData, long hYDesc, long hYData, long hHyDesc, long hHyData, long hCyDesc, long hCyData, long hWorkspace, ulong nWsCount, long hReserved, ulong hResCount, bool bTraining);

        void RnnBackwardData(long hHandle, long hRnnDesc, long hYDesc, long hYData, long hYDiff, long hHyDesc, long hHyDiff, long hCyDesc, long hCyDiff, long hWtDesc, long hWtData, long hHxDesc, long hHxData, long hCxDesc, long hCxData, long hXDesc, long hXDiff, long hdHxDesc, long hHxDiff, long hdCxDesc, long hCxDiff, long hWorkspace, ulong nWsCount, long hReserved, ulong nResCount);

        void RnnBackwardWeights(long hHandle, long hRnnDesc, long hXDesc, long hXData, long hHxDesc, long hHxData, long hYDesc, long hYData, long hWorkspace, ulong nWsCount, long hWtDesc, long hWtDiff, long hReserved, ulong nResCount);

    }


    public interface ICudaMath

    {

        void set(int nCount, long hHandle, double fVal, int nIdx = -1);

        void set(int nCount, long hHandle, float fVal, int nIdx = -1);

        double[] get_double(int nCount, long hHandle, int nIdx = -1);

        float[] get_float(int nCount, long hHandle, int nIdx = -1);

        void copy(int nCount, long hSrc, long hDst, int nSrcOffset = 0, int nDstOffset = 0, long hAsyncStream = -1, bool? bSrcHalfOverride = null, bool? bDstHalfOverride = null);

        void copy(int nCount, int nNum, int nDim, long hSrc1, long hSrc2, long hDst, long hSimilar, bool bInvert = false);

        void copy_expand(int n, int nNum, int nDim, long hSrc, long hDs);

        void fill(int n, int nDim, long hSrc, int nSrcOff, int nCount, long hDst);

        void sort(int nCount, long hY);


        void channel_compare(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY);

        void channel_fill(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, int nLabelDim, long hLabels, long hY);

        void channel_fillfrom(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY, DIR dir);

        void channel_scale(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hA, long hY);

        void channel_mulv(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hA, long hX, long hC);

        void channel_sum(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY, bool bSumAcrossChannels = true, DIR dir = DIR.FWD, int nChanalesY = -1);

        void channel_mean(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY);

        void channel_copy(int nCount, int nOuterNum, int nChannels, int nBlocks, int nInnerNum, int nOffset, long hX, long hY, DIR dir);

        void channel_copyall(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY);

        void channel_duplicate(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY);

        void channel_percentile(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY, double dfPercentile);

        void channel_op_fwd(OP op, int nCount, int nC, int nN1, int nSD1, int nN2, int nSD2, long hA, long hB, long hY);

        void channel_op_bwd(OP op, int nCount, int nC, int nN1, int nSD1, int nN2, int nSD2, int nCy, int nSDy, long hA, long hB, long hY, long hAd, long hBd, long hYd, long hWork);


        void gemm(bool bTransA, bool bTransB, int m, int n, int k, double fAlpha, long hA, long hB, double fBeta, long hC);

        void gemm(bool bTransA, bool bTransB, int m, int n, int k, float fAlpha, long hA, long hB, float fBeta, long hC);

        void gemv(bool bTransA, int m, int n, double fAlpha, long hA, long hX, double fBeta, long hY);

        void gemv(bool bTransA, int m, int n, float fAlpha, long hA, long hX, float fBeta, long hY);

        void geam(bool bTransA, bool bTransB, int m, int n, double fAlpha, long hA, long hB, double fBeta, long hC);

        void geam(bool bTransA, bool bTransB, int m, int n, float fAlpha, long hA, long hB, float fBeta, long hC);


        void ger(int m, int n, double fAlpha, long hX, long hY, long hA);

        void ger(int m, int n, float fAlpha, long hX, long hY, long hA);

        void axpy(int n, double fAlpha, long hX, long hY);

        void axpy(int n, float fAlpha, long hX, long hY);

        void axpby(int n, double fAlpha, long hX, double fBeta, long hY);

        void axpby(int n, float fAlpha, long hX, float fBeta, long hY);

        void scal(int n, double fAlpha, long hX, int nXOff = 0);

        void scal(int n, float fAlpha, long hX, int nXOff = 0);

        double dot_double(int n, long hX, long hY);

        float dot_float(int n, long hX, long hY);

        double asum_double(int n, long hX, int nXOff = 0);

        float asum_float(int n, long hX, int nXOff = 0);

        void scale(int n, double fAlpha, long hX, long hY);

        void scale(int n, float fAlpha, long hX, long hY);

        void add_scalar(int n, double fAlpha, long hY);

        void add_scalar(int n, float fAlpha, long hY);

        void add(int n, long hA, long hB, long hY);

        void add(int n, long hA, long hB, long hY, double dfAlpha);

        void add(int n, long hA, long hB, long hY, float fAlpha);

        void sub(int n, long hA, long hB, long hY, int nAOff = 0, int nBOff = 0, int nYOff = 0, int nB = 0);

        void mul(int n, long hA, long hB, long hY, int nAOff = 0, int nBOff = 0, int nYOff = 0);

        void mul_scalar(int n, double fAlpha, long hY);

        void mul_scalar(int n, float fAlpha, long hY);

        void div(int n, long hA, long hB, long hY);

        void abs(int n, long hA, long hY);

        void exp(int n, long hA, long hY);

        void log(int n, long hA, long hY);

        void powx(int n, long hA, double fAlpha, long hY, int nAOff = 0, int nYOff = 0);

        void powx(int n, long hA, float fAlpha, long hY, int nAOff = 0, int nYOff = 0);

        void sign(int n, long hX, long hY, int nXOff = 0, int nYOff = 0);

        double min(int n, long hA, out long lPos, int nAOff = 0, long hWork = 0);

        double max(int n, long hA, out long lPos, int nAOff = 0, long hWork = 0);

        double sumsq(int n, long hW, long hA, int nAOff = 0);

        double sumsqdiff(int n, long hW, long hA, long hB, int nAOff = 0, int nBOff = 0);

        void sqrt(int n, long hA, long hY);

        void sqrt_scale(int n, long hA, long hY);


        void mask(int n, int nMaskDim, double fSearch, double fReplace, long hX, long hMask, long hY);

        void mask(int n, int nMaskDim, float fSearch, float fReplace, long hX, long hMask, long hY);

        void mask_batch(int n, int nBatch, int nMaskDim, double fSearch, double fReplace, long hX, long hMask, long hY);

        void mask_batch(int n, int nBatch, int nMaskDim, float fSearch, float fReplace, long hX, long hMask, long hY);


        void im2col(long hDataIm, int nDataImOffset, int nChannels, int nHeight, int nWidth, int nKernelH, int nKernelW, int nPadH, int nPadW, int nStrideH, int nStrideW, int nDilationH, int nDilationW, long hDataCol, int nDataColOffset);

        void im2col_nd(long hDataIm, int nDataImOffset, int nNumSpatialAxes, int nColCount, int nChannelAxis, long hImShape, long hColShape, long hKernelShape, long hPad, long hStride, long hDilation, long hDataCol, int nDataColOffset);

        void col2im(long hDataCol, int nDataColOffset, int nChannels, int nHeight, int nWidth, int nKernelH, int nKernelW, int nPadH, int nPadW, int nStrideH, int nStrideW, int nDilationH, int nDilationW, long hDataIm, int nDataImOffset);

        void col2im_nd(long hDataCol, int nDataColOffset, int nNumSpatialAxes, int nColCount, int nChannelAxis, long hImShape, long hColShape, long hKernelShape, long hPad, long hStride, long hDilation, long hDataIm, int nDataImOffset);

    }


    public interface ICudaRandom

    {

        void rng_setseed(long lSeed);

        void rng_uniform(int n, double fMin, double fMax, long hY);

        void rng_uniform(int n, float fMin, float fMax, long hY);

        void rng_gaussian(int n, double fMu, double fSigma, long hY);

        void rng_gaussian(int n, float fMu, float fSigma, long hY);

        void rng_bernoulli(int n, double fNonZeroProb, long hY);

        void rng_bernoulli(int n, float fNonZeroProb, long hY);

    }


    public interface ICudaDnn : ICudaDevice, ICudaMemory, ICudaCuDnn, ICudaMath, ICudaRandom

    {

    }


#pragma warning restore 1591


    public class CudaDnn<T> : ICudaDnn, IDisposable

    {

        Params m_param = new Params();

        CudaDnnMemoryTracker<T> m_memTracker;

        int m_nDeviceId;

        string m_strPath = "";

        static int s_nIdxSeed = 0;

        static string s_strCudaPath = "";

        CudaControlLib.ICudaKernel m_cuda;

        long m_hKernel = 0;

        DataType m_dt;

        CryptoRandom m_random = new CryptoRandom();

        T m_tOne;

        T m_tZero;

        int m_nIdx;

        long m_nGhostMemoryIndex = 1000;

        Dictionary<long, T[]> m_rgGhostMemory = null;

        bool m_bGhostMemoryEnabled = false;

        bool m_bOwner = true;

        object m_memSync = new object();

        bool m_bEnableRnnExtendedVersion = false;

        static object m_createSync = new object();

        static object m_getconvSync = new object();

        static ulong m_lBaseSize = (ulong)((typeof(T) == typeof(float)) ? sizeof(float) : sizeof(double));


        public enum CUDAQRY

        {

            DEVICE_NAME = 1000,

            DEVICE_P2P_INFO = 1001,

            DEVICE_INFO = 1002

        }


#pragma warning disable 1591


        public enum CUDAFN

        {

            INITIALIZE = -2,

            CLEANUP = -3,

            KERNEL_MEMCOPY = -4,

            KERNEL_ADD = -5,

            KERNEL_COPY_NCCL = -10,


            SETDEVICE = 1,

            SETRANDOMSEED = 2,

            GETDEVICE = 3,

            RESETDEVICE = 4,

            SYNCHRONIZEDEVICE = 5,

            GETDEVICEPROP = 6,

            CHECKMEMORYATTRIB = 7,

            GETDEVICEMEMORY = 8,

            GETREQUIREDCOMPUTE = 9,


            DEVICE_CANACCESSPEER = 10,

            DEVICE_ENABLEPEERACCESS = 11,

            DEVICE_DISABLEPEERACCESS = 12,


            COPY_DEVICE_TO_HOST = 14,

            COPY_HOST_TO_DEVICE = 15,


            CREATE_MEMORYPOINTER = 16,

            FREE_MEMORYPOINTER = 17,


            ALLOCMEM_HALF = 19,

            ALLOCMEM = 20,

            FREEMEM = 21,

            GETMEM = 22,

            SETMEM = 23,

            SETMEMAT = 24,


            ALLOCHOSTBUFFER = 25,

            FREEHOSTBUFFER = 26,

            GETHOSTMEM = 27,

            SETHOSTMEM = 28,

            GETHOSTBUFFERCAPACITY = 29,


            CREATE_STREAM = 30,

            FREE_STREAM = 31,

            SYNCRHONIZE_STREAM = 32,

            SYNCHRONIZE_THREAD = 33,


            CREATE_MEMTEST = 34,

            FREE_MEMTEST = 35,

            RUN_MEMTEST = 36,


            CREATE_IMAGEOP = 37,

            FREE_IMAGEOP = 38,

            DISTORTIMAGE_IMAGEOP = 39,


            CREATE_NCCL = 40,

            FREE_NCCL = 41,

            NCCL_INIT_SINGLEPROCESS = 42,

            NCCL_INIT_MULTIPROCESS = 43,

            NCCL_BROADCAST = 44,

            NCCL_ALLREDUCE = 45,


            SETPIXEL = 46,


            CREATE_CUDNN = 47,

            FREE_CUDNN = 48,


            CREATE_TENSORDESC = 50,

            FREE_TENSORDESC = 51,

            SET_TENSORDESC = 52,

            ADD_TENSOR = 53,

            SET_TENSORNDDESC = 54,


            CREATE_FILTERDESC = 60,

            FREE_FILTERDESC = 61,

            SET_FILTERDESC = 62,

            SET_FILTERNDDESC = 63,


            CREATE_EXTENSION = 67,

            FREE_EXTENSION = 68,

            EXTENSION_RUN = 69,


            CREATE_CONVDESC = 70,

            FREE_CONVDESC = 71,

            SET_CONVDESC = 72,

            GET_CONVINFO = 73,

            FWD_CONV = 74,

            BWD_CONV_BIAS = 75,

            BWD_CONV_FILTER = 76,

            BWD_CONV_DATA = 77,


            CREATE_POOLDESC = 80,

            FREE_POOLDESC = 81,

            SET_POOLDESC = 82,

            FWD_POOL = 83,

            BWD_POOL = 84,


            DERIVE_BNDESC = 86,

            FWD_BN = 87,

            BWD_BN = 88,


            CREATE_LRNDESC = 90,

            FREE_LRNDESC = 91,

            SET_LRNDESC = 92,


            GET_DROPOUT_INFO = 94,

            CREATE_DROPOUTDESC = 95,

            FREE_DROPOUTDESC = 96,

            SET_DROPOUTDESC = 97,

            FWD_DROPOUT = 98,

            BWD_DROPOUT = 99,


            TANH_FWD = 100,

            TANH_BWD = 101,


            ELU_FWD = 102,

            ELU_BWD = 103,


            SIGMOID_FWD = 104,

            SIGMOID_BWD = 105,


            RELU_FWD = 108,

            RELU_BWD = 109,


            SOFTMAX_FWD = 111,

            SOFTMAX_BWD = 112,


            LRN_CC_FWD = 120,

            LRN_CC_BWD = 121,

            LCN_CC_FWD = 122,

            LCN_CC_BWD = 123,


            // DEPRECIATED, use RNN8 instead

            CREATE_RNN_DATA_DESC = 130,

            FREE_RNN_DATA_DESC = 131,

            SET_RNN_DATA_DESC = 132,


            // DEPRECIATED, use RNN8 instead

            CREATE_RNN_DATA_DESCEX = 135,

            FREE_RNN_DATA_DESCEX = 136,

            SET_RNN_DATA_DESCEX = 137,


            // DEPRECIATED, use RNN8 instead

            CREATE_RNN_DESC = 140,

            FREE_RNN_DESC = 141,

            SET_RNN_DESC = 142,

            GET_RNN_PARAMCOUNT = 143,

            GET_RNN_WORKSPACECOUNT = 144,

            GET_RNN_LINLAYERPARAMS = 145,

            FWD_RNN = 146,

            BWD_RNN_DATA = 147,

            BWD_RNN_WTS = 148,


            RNN8_IS_SUPPORTED = 150,

            RNN8_CREATE = 151,

            RNN8_FREE = 152,

            RNN8_SET = 153,

            RNN8_GET_MEMORY_SIZES = 154,

            RNN8_INIT_WEIGHTS = 155,

            RNN8_FWD = 156,

            RNN8_BWD = 157,


            CUDA_SET = 200,

            CUDA_GET = 201,

            CUDA_COPY = 202,

            CUDA_COPY_SIM = 203,

            CUDA_COPY_FILL = 204,

            CUDA_SORT = 205,

            CUDA_COPY_BATCH = 206,

            CUDA_COPY_SEQUENCE = 207,

            CUDA_COPY_EXPAND = 208,

            CUDA_COPY_SEQUENCE2 = 209,


            CUDA_ADD3 = 217,

            CUDA_GEAM = 218,

            CUDA_GEMM2 = 219,

            CUDA_GEMM = 220,

            CUDA_GEMV = 221,

            CUDA_AXPY = 222,

            CUDA_AXPBY = 223,

            CUDA_SCAL = 224,

            CUDA_DOT = 225,

            CUDA_ASUM = 226,

            CUDA_SCALE = 227,

            CUDA_ADD_SCALAR = 228,

            CUDA_ADD = 229,

            CUDA_SUB = 230,

            CUDA_MUL = 231,

            CUDA_MUL_SCALAR = 232,

            CUDA_DIV = 233,

            CUDA_ABS = 234,

            CUDA_EXP = 235,

            CUDA_LOG = 236,

            CUDA_POWX = 237,

            CUDA_SIGN = 238,

            CUDA_SQRT = 239,

            CUDA_RECIPROCOL = 240,

            CUDA_STUDENT = 241,

            CUDA_LOGISTIC1 = 242,

            CUDA_LOGISTIC2 = 243,

            CUDA_ADD2 = 244,

            CUDA_COMPARE_SIGNS = 245,

            CUDA_MAXVAL = 246,

            CUDA_MINVAL = 247,

            CUDA_SUMSQ = 248,

            CUDA_SUMSQDIFF = 249,

            CUDA_WIDTH = 250,

            CUDA_CONTAINS_POINT = 251,

            CUDA_DENAN = 252,

            CUDA_SUB_AND_DOT = 253,

            CUDA_MINMAXVAL = 254,

            CUDA_SUM = 255,

            CUDA_SQRT_SCALE = 256,

            CUDA_GER = 257,

            CUDA_SET_BOUNDS = 259,

            CUDA_MINMAXVEC = 260,

            CUDA_TRANSPOSE = 261,

            CUDA_SCALE_TO_RANGE = 262,

            CUDA_ERF = 263,

            CUDA_MASK = 264,


            CUDA_INTERP2 = 265,

            CUDA_MASK_BATCH = 266,

            CUDA_TRANSPOSE_HW = 267,


            CUDA_MAX = 268,

            CUDA_MIN = 269,


            CUDA_MULBSX = 270,

            CUDA_DIVBSX = 271,


            CUDA_MAX_BWD2 = 272,


            CUDA_IM2COL = 280,

            CUDA_IM2COL_ND = 281,

            CUDA_COL2IM = 282,

            CUDA_COL2IM_ND = 283,


            CUDA_ACCURACY_FWD = 286,


            CUDA_CHANNEL_MEAN = 287,

            CUDA_CHANNEL_MIN = 289,

            CUDA_CHANNEL_MAX = 290,

            CUDA_CHANNEL_SUB = 291,

            CUDA_CHANNEL_SUM = 292,

            CUDA_CHANNEL_DIV = 293,

            CUDA_CHANNEL_DOT = 294,

            CUDA_CHANNEL_MUL = 295,

            CUDA_CHANNEL_COMPARE = 296,

            CUDA_CHANNEL_FILL = 297,

            CUDA_CHANNEL_SCALE = 298,

            CUDA_CHANNEL_MULV = 299,

            CUDA_CHANNEL_COPY = 300,

            CUDA_CHANNEL_FILLFROM = 301,

            CUDA_CHANNEL_COPYALL = 302,

            CUDA_CHANNEL_DUP = 303,

            CUDA_CHANNEL_ADD = 304,

            CUDA_CHANNEL_PERCENTILE = 305,

            CUDA_CHANNEL_OP_FWD = 306,

            CUDA_CHANNEL_OP_BWD = 307,


            CUDA_RNG_SETSEED = 349,

            CUDA_RNG_UNIFORM = 350,

            CUDA_RNG_GAUSSIAN = 351,

            // CUDA_RNG_BERNOULLI = 352,   // Not implemented yet.


            CUDA_BATCHREIDX_FWD = 386,

            CUDA_BATCHREIDX_BWD = 387,


            CUDA_EMBED_FWD = 390,

            CUDA_EMBED_BWD = 391,


            CUDA_CLIP_FWD = 394,

            CUDA_CLIP_BWD = 395,


            CUDA_POOL_FWD = 400,

            CUDA_POOL_BWD = 401,


            CUDA_UNPOOL_FWD = 410,

            CUDA_UNPOOL_BWD = 411,


            CUDA_TANH_FWD = 420,

            CUDA_TANH_BWD = 421,


            CUDA_MISH_FWD = 422,

            CUDA_MISH_BWD = 423,


            CUDA_SIGMOID_FWD = 424,

            CUDA_SIGMOID_BWD = 425,


            CUDA_SWISH_BWD = 427,


            CUDA_RELU_FWD = 428,

            CUDA_RELU_BWD = 429,


            CUDA_ELU_FWD = 430,

            CUDA_ELU_BWD = 431,


            CUDA_DROPOUT_FWD = 432,

            CUDA_DROPOUT_BWD = 433,


            CUDA_BNLL_FWD = 435,

            CUDA_BNLL_BWD = 436,


            CUDA_PRELU_FWD = 438,

            CUDA_PRELU_BWD = 439,

            CUDA_PRELU_BWD_PARAM = 440,


            CUDA_NLLLOSS_FWD = 442,

            CUDA_NLLLOSS_BWD = 443,


            CUDA_SOFTMAXLOSS_FWD = 444,

            CUDA_SOFTMAXLOSS_BWD = 445,


            CUDA_MIN_FWD = 446,

            CUDA_MIN_BWD = 447,


            CUDA_MAX_FWD = 448,

            CUDA_MAX_BWD = 449,


            CUDA_CROP_FWD = 450,

            CUDA_CROP_BWD = 451,


            CUDA_CONCAT_FWD = 452,

            CUDA_CONCAT_BWD = 453,


            CUDA_SLICE_FWD = 455,

            CUDA_SLICE_BWD = 456,


            CUDA_TILE_FWD = 457,

            CUDA_TILE_BWD = 458,


            CUDA_BIAS_FWD = 460,


            CUDA_SCALE_FWD = 461,


            CUDA_THRESHOLD_FWD = 462,


            CUDA_CLL_BWD = 463,


            CUDA_LRN_FILLSCALE = 465,

            CUDA_LRN_COMPUTEOUTPUT = 466,

            CUDA_LRN_COMPUTEDIFF = 467,


            CUDA_SMOOTHL1_FWD = 470,

            CUDA_SMOOTHL1_BWD = 471,


            CUDA_SERF_FWD = 472,

            CUDA_SERF_BWD = 473,


            CUDA_PERMUTE = 474,


            CUDA_GATHER_FWD = 476,

            CUDA_GATHER_BWD = 477,


            CUDA_LSTM_FWD = 480,

            CUDA_LSTM_BWD = 481,


            CUDA_LSTM_UNIT_FWD = 482,

            CUDA_LSTM_UNIT_BWD = 483,


            CUDA_MATH_FWD = 487,

            CUDA_MATH_BWD = 488,


            CUDA_COEFF_SUM_FWD = 490,

            CUDA_COEFF_SUM_BWD = 491,


            CUDA_COEFF_SUB_FWD = 492,

            CUDA_COEFF_SUB_BWD = 493,


            CUDA_MEAN_ERROR_LOSS_BWD = 495,


            CUDA_SIGMOID_CROSS_ENTROPY_FWD = 496,

            CUDA_SIGMOID_CROSS_ENTROPY_BWD = 497,

            CUDA_SOFTMAX_CROSS_ENTROPY_FWD = 498,

            CUDA_SOFTMAX_CROSS_ENTROPY_BWD = 499,


            CUDA_SGD_UPDATE = 500,

            CUDA_NESTEROV_UPDATE = 501,

            CUDA_ADAGRAD_UPDATE = 502,

            CUDA_ADADELTA_UPDATE = 503,

            CUDA_ADAM_UPDATE = 504,

            CUDA_RMSPROP_UPDATE = 505,

            CUDA_ADAMW_UPDATE = 506,


            CUDA_COMBINE_DATA = 550,


            CUDA_GELU_FWD = 600,

            CUDA_GELU_BWD = 601,


            CUDA_SILU_FWD = 605,

            CUDA_SILU_BWD = 606,


            CUDA_SOFTPLUS_FWD = 610,

            CUDA_SOFTPLUS_BWD = 611,


            CUDA_LECUN_FWD = 615,

            CUDA_LECUN_BWD = 616,


            CUDA_MTX_SET_DIAGONAL = 700,

            CUDA_MTX_SET_DIAGONAL2 = 701,

            CUDA_MTX_ADD_VECTOR = 702,

            CUDA_MTX_TRANSPOSE_OPERATION = 703,

            CUDA_MTX_AGGREGATE_COLS = 704,

            CUDA_MTX_AGGREGATE_ROWS = 705,

            CUDA_MTX_TRANSPOSE = 706,

            CUDA_MTX_MEANCENTER_BY_COL = 707,

            CUDA_MTX_MEANCENTER_BY_ROW = 708,

            CUDA_MTX_EUCLIDEAN_DIST = 709,

            CUDA_MTX_DOT = 710,

            CUDA_MTX_MEAN = 711,

            CUDA_MTX_STDEV = 712,

            CUDA_MTX_CORRELATIONS = 714,


            CUDA_CREATE_PCA = 800,

            CUDA_RUN_PCA = 801,

            CUDA_FREE_PCA = 802,


            CUDA_TSNE_UPDATE = 850,

            CUDA_TSNE_UPDATE_GRAD = 851,

            CUDA_TSNE_COMPUTE_EXACT_ERROR = 852,

            CUDA_TSNE_COMPUTE_SQUARED_EUCLIDEAN_DISTANCE = 854,

            CUDA_TSNE_COMPUTE_Q_MATRIX = 855,

            CUDA_TSNE_COMPUTE_EXACT_GRADIENT = 856,

            CUDA_TSNE_SYMMETRIZE_MATRIX = 858,

            CUDA_TSNE_COMPUTE_KNN_BOUNDS = 859,


            CUDA_TSNE_CREATE_GAUSSIAN_PERPLEXITY = 870,

            CUDA_TSNE_FREE_GAUSSIAN_PERPLEXITY = 871,

            CUDA_TSNE_FIND_GAUSSIAN_PERPLEXITY = 872,


            CUDA_TSNE_CREATE = 875,

            CUDA_TSNE_FREE = 876,

            CUDA_TSNE_COMPUTE_GRADIENT1 = 877,

            CUDA_TSNE_COMPUTE_ERROR1 = 878,


            CUDA_GUASSIAN_BLUR = 900,

            CUDA_HAMMING_DIFF = 901,

            CUDA_CALC_BATCH_DIST = 902,

            CUDA_CALC_DFT = 903,


            CUDA_CREATE_SSD = 950,

            CUDA_FREE_SSD = 951,

            CUDA_SETUP_SSD = 952,

            CUDA_SSD_FWD_MULTIBOXLOSS = 955,

            CUDA_SSD_ENCODE_LOCPRED = 958,

            CUDA_SSD_ENCODE_CONFPRED = 959,


            CUDA_CREATE_LAYERNORM = 970,

            CUDA_FREE_LAYERNORM = 971,

            CUDA_LAYERNORM_FWD = 975,

            CUDA_LAYERNORM_BWD = 976,


            CUDA_DEBUG = 1000

        }


#pragma warning restore 1591


        public CudaDnn(int nDeviceID, DEVINIT flags = (DEVINIT.CUBLAS | DEVINIT.CURAND), long? lSeed = null, string strPath = "", bool bResetFirst = false, bool bEnableMemoryTrace = false)

        {

            m_memTracker = new CudaDnnMemoryTracker<T>(bEnableMemoryTrace);

            m_nDeviceId = nDeviceID;

            m_nIdx = get_index();


            if (strPath == null || strPath.Length == 0)

                strPath = s_strCudaPath;


            m_strPath = strPath;

            m_dt = (typeof(T) == typeof(double)) ? DataType.DOUBLE : DataType.FLOAT;


            try

            {

                m_cuda = new CudaControlLib.CudaKernel();

            }

            catch (Exception excpt)

            {

                throw new Exception("The CudaControl is not registered! Make sure that you are using the 'x64' build and if so, run 'regsvr32 CudaControl.dll' from a CMD window with Administrative privileges to register.", excpt);

            }


            try

            {

                if (string.IsNullOrEmpty(strPath))

                    strPath = GetCudaDnnDllPath();


                m_strPath = strPath;


                string strDir = System.IO.Path.GetDirectoryName(strPath);

                string strCurDir = Directory.GetCurrentDirectory();

                Directory.SetCurrentDirectory(strDir);


                m_cuda.Load(strPath);


                Directory.SetCurrentDirectory(strCurDir);

            }

            catch (Exception excpt)

            {

                if (excpt.Message != null && excpt.Message.Length > 0)

                    throw excpt;


                throw new Exception("The CudaDnnDll.x.dll at '" + strPath + "' failed to load.  The error code = 0x" + excpt.HResult.ToString("X"));

            }


            try

            {

                lock (m_createSync)

                {

                    if (m_dt == DataType.DOUBLE)

                    {

                        double[] rg = m_cuda.RunDouble(0, (int)CUDAFN.INITIALIZE, m_param.AsDouble(nDeviceID, (int)flags));

                        m_hKernel = (long)rg[0];

                    }

                    else

                    {

                        float[] rg = m_cuda.RunFloat(0, (int)CUDAFN.INITIALIZE, m_param.AsFloat(nDeviceID, (int)flags));

                        m_hKernel = (long)rg[0];

                    }

                }

            }

            catch (Exception excpt)

            {

                if (excpt.Message != null && excpt.Message.Length > 0)

                    throw excpt;


                throw new Exception("CudaDnn failed to initialize.  You may need to reboot or reset the Cuda GPU #" + nDeviceID.ToString() + ".  The error code = 0x" + excpt.HResult.ToString("X"));

            }


            if (bResetFirst)

            {

                ResetDevice();


                lock (m_createSync)

                {

                    if (m_dt == DataType.DOUBLE)

                    {

                        double[] rg = m_cuda.RunDouble(0, (int)CUDAFN.INITIALIZE, m_param.AsDouble(nDeviceID, (int)flags));

                        m_hKernel = (long)rg[0];

                    }

                    else

                    {

                        float[] rg = m_cuda.RunFloat(0, (int)CUDAFN.INITIALIZE, m_param.AsFloat(nDeviceID, (int)flags));

                        m_hKernel = (long)rg[0];

                    }

                }

            }


            if (lSeed.HasValue)

                SetRandomSeed(lSeed.Value);


            m_tOne = (T)Convert.ChangeType(1.0, typeof(T));

            m_tZero = (T)Convert.ChangeType(0.0, typeof(T));

        }


        public CudaDnn(CudaDnn<T> cuda, bool bEnableGhostMemory)

        {

            m_nDeviceId = cuda.m_nDeviceId;

            m_nIdx = get_index();


            m_strPath = cuda.m_strPath;

            m_dt = cuda.m_dt;

            m_cuda = cuda.m_cuda;

            m_hKernel = cuda.m_hKernel;

            m_tOne = cuda.m_tOne;

            m_tZero = cuda.m_tZero;


            if (bEnableGhostMemory)

            {

                m_rgGhostMemory = new Dictionary<long, T[]>();

                m_bGhostMemoryEnabled = true;

            }


            m_bOwner = false;

        }


        protected virtual void Dispose(bool bDisposing)

        {

            if (m_bOwner && m_hKernel != 0)

            {

                if (m_dt == DataType.DOUBLE)

                    m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CLEANUP, null);

                else

                    m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CLEANUP, null);


                m_hKernel = 0;

                m_cuda = null;

            }

        }


        public void Dispose()

        {

            Dispose(true);

        }


        public static string GetCudaDnnDllPath()

        {

            FileInfo fi = new FileInfo(Process.GetCurrentProcess().MainModule.FileName);


            string strPath = fi.DirectoryName + "\\cuda_12.1\\CudaDnnDll.12.1.dll";


            if (!File.Exists(strPath))

            {

                strPath = fi.DirectoryName + "\\CudaDnnDll.12.1.dll";

                if (!File.Exists(strPath))

                {

                    strPath = fi.DirectoryName + "\\cuda_12.0\\CudaDnnDll.12.0.dll";

                    if (!File.Exists(strPath))

                    {

                        strPath = fi.DirectoryName + "\\CudaDnnDll.12.0.dll";

                        if (!File.Exists(strPath))

                        {

                            if (!File.Exists(strPath))

                            {

                                strPath = fi.DirectoryName + "\\cuda_11.8\\CudaDnnDll.11.8.dll";

                                if (!File.Exists(strPath))

                                {

                                    strPath = fi.DirectoryName + "\\CudaDnnDll.11.8.dll";

                                    if (!File.Exists(strPath))

                                    {

                                        strPath = fi.DirectoryName + "\\cuda_11.7\\CudaDnnDll.11.7.dll";

                                        if (!File.Exists(strPath))

                                        {

                                            strPath = fi.DirectoryName + "\\CudaDnnDll.11.7.dll";

                                            if (!File.Exists(strPath))

                                            {

                                                strPath = fi.DirectoryName + "\\cuda_11.6\\CudaDnnDll.11.6.dll";

                                                if (!File.Exists(strPath))

                                                {

                                                    strPath = fi.DirectoryName + "\\CudaDnnDll.11.6.dll";

                                                    if (!File.Exists(strPath))

                                                    {

                                                        strPath = fi.DirectoryName + "\\cuda_11.5\\CudaDnnDll.11.5.dll";

                                                        if (!File.Exists(strPath))

                                                        {

                                                            strPath = fi.DirectoryName + "\\CudaDnnDll.11.5.dll";

                                                            if (!File.Exists(strPath))

                                                            {

                                                                strPath = fi.DirectoryName + "\\cuda_11.4\\CudaDnnDll.11.4.dll";

                                                                if (!File.Exists(strPath))

                                                                {

                                                                    strPath = fi.DirectoryName + "\\CudaDnnDll.11.4.dll";

                                                                    if (!File.Exists(strPath))

                                                                    {

                                                                        strPath = fi.DirectoryName + "\\cuda_11.3\\CudaDnnDll.11.3.dll";

                                                                        if (!File.Exists(strPath))

                                                                        {

                                                                            strPath = fi.DirectoryName + "\\CudaDnnDll.11.3.dll";

                                                                            if (!File.Exists(strPath))

                                                                            {

                                                                                strPath = fi.DirectoryName + "\\cuda_11.2\\CudaDnnDll.11.2.dll";

                                                                                if (!File.Exists(strPath))

                                                                                {

                                                                                    strPath = fi.DirectoryName + "\\CudaDnnDll.11.2.dll";

                                                                                    if (!File.Exists(strPath))

                                                                                    {

                                                                                        strPath = fi.DirectoryName + "\\cuda_11.1\\CudaDnnDll.11.1.dll";

                                                                                        if (!File.Exists(strPath))

                                                                                        {

                                                                                            strPath = fi.DirectoryName + "\\CudaDnnDll.11.1.dll";

                                                                                            if (!File.Exists(strPath))

                                                                                            {

                                                                                                strPath = fi.DirectoryName + "\\cuda_11.0\\CudaDnnDll.11.0.dll";

                                                                                                if (!File.Exists(strPath))

                                                                                                {

                                                                                                    strPath = fi.DirectoryName + "\\CudaDnnDll.11.0.dll";

                                                                                                    if (!File.Exists(strPath))

                                                                                                    {

                                                                                                        strPath = fi.DirectoryName + "\\cuda_10.2\\CudaDnnDll.10.2.dll";

                                                                                                        if (!File.Exists(strPath))

                                                                                                        {

                                                                                                            strPath = fi.DirectoryName + "\\CudaDnnDll.10.2.dll";

                                                                                                            if (!File.Exists(strPath))

                                                                                                            {

                                                                                                                strPath = fi.DirectoryName + "\\cuda_10.2.3_5\\CudaDnnDll.10.2.dll";

                                                                                                                if (!File.Exists(strPath))

                                                                                                                {

                                                                                                                    strPath = fi.DirectoryName + "\\CudaDnnDll.10.2.3_5.dll";

                                                                                                                    if (!File.Exists(strPath))

                                                                                                                    {

                                                                                                                        strPath = fi.DirectoryName + "\\CudaDnnDll.10.1.dll";

                                                                                                                        if (!File.Exists(strPath))

                                                                                                                        {

                                                                                                                            strPath = fi.DirectoryName + "\\CudaDnnDll.10.0.dll";

                                                                                                                            if (!File.Exists(strPath))

                                                                                                                            {

                                                                                                                                strPath = fi.DirectoryName + "\\CudaDnnDll.9.2.dll";

                                                                                                                                if (!File.Exists(strPath))

                                                                                                                                {

                                                                                                                                    strPath = fi.DirectoryName + "\\CudaDnnDll.9.1.dll";

                                                                                                                                    if (!File.Exists(strPath))

                                                                                                                                    {

                                                                                                                                        if (!File.Exists(strPath))

                                                                                                                                            strPath = fi.DirectoryName + "\\CudaDnnDll.8.dll";

                                                                                                                                    }

                                                                                                                                }

                                                                                                                            }

                                                                                                                        }

                                                                                                                    }

                                                                                                                }

                                                                                                            }

                                                                                                        }

                                                                                                    }

                                                                                                }

                                                                                            }

                                                                                        }

                                                                                    }

                                                                                }

                                                                            }

                                                                        }

                                                                    }

                                                                }

                                                            }

                                                        }

                                                    }

                                                }

                                            }

                                        }

                                    }

                                }

                            }

                        }

                    }

                }

            }


            return strPath;

        }


        public void DisableGhostMemory()

        {

            m_bGhostMemoryEnabled = false;

        }


        public void ResetGhostMemory()

        {

            if (m_rgGhostMemory != null)

                m_bGhostMemoryEnabled = true;

            else

                m_bGhostMemoryEnabled = false;

        }


        public ulong TotalMemoryUsed

        {

            get { return m_memTracker.TotalMemoryUsed; }

        }


        public string TotalMemoryUsedAsText

        {

            get { return m_memTracker.TotalMemoryUsedText; }

        }


        public long KernelHandle

        {

            get { return m_hKernel; }

        }


        public void KernelCopy(int nCount, long hSrc, int nSrcOffset, long hDstKernel, long hDst, int nDstOffset, long hHostBuffer, long hHostKernel = -1, long hStream = -1, long hSrcKernel = -1)

        {

            if (hSrcKernel == -1)

                hSrcKernel = m_hKernel;


            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)hSrcKernel, (int)CUDAFN.KERNEL_MEMCOPY, m_param.AsDouble(nCount, hSrc, nSrcOffset, hDstKernel, hDst, nDstOffset, hHostBuffer, hHostKernel, hStream));

            else

                m_cuda.RunFloat((int)hSrcKernel, (int)CUDAFN.KERNEL_MEMCOPY, m_param.AsFloat(nCount, hSrc, nSrcOffset, hDstKernel, hDst, nDstOffset, hHostBuffer, hHostKernel, hStream));

        }


        public void KernelAdd(int nCount, long hA, long hDstKernel, long hB, long hC)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.KERNEL_ADD, m_param.AsDouble(nCount, hA, hDstKernel, hB, hC));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.KERNEL_ADD, m_param.AsFloat(nCount, hA, hDstKernel, hB, hC));

        }


        public long KernelCopyNccl(long hSrcKernel, long hSrcNccl)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.KERNEL_COPY_NCCL, m_param.AsDouble(hSrcKernel, hSrcNccl));

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.KERNEL_COPY_NCCL, m_param.AsFloat(hSrcKernel, hSrcNccl));

                return (long)rg[0];

            }

        }


        private static int get_index()

        {

            s_nIdxSeed++;

            return s_nIdxSeed;

        }


        public static void SetDefaultCudaPath(string strPath)

        {

            s_strCudaPath = strPath;

        }


        public static ulong basetype_size(bool bUseHalfSize)

        {

            if (bUseHalfSize)

                return 2;


            if (typeof(T) == typeof(float))

                return 4;

            else

                return 8;

        }


        private double convertD(T fVal)

        {

            return (double)Convert.ChangeType(fVal, typeof(double));

        }


        private float convertF(T fVal)

        {

            return (float)Convert.ChangeType(fVal, typeof(float));

        }


        public string Path

        {

            get { return m_strPath; }

        }


        public static string DefaultPath

        {

            get { return s_strCudaPath; }

        }


#pragma warning disable 1591


        public void CombineData(int nCount, long hOriginal, long hUpdated, double dfUpdatedPct, long hServer, double dfServerPct, long hNewData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_COMBINE_DATA, m_param.AsDouble(dfUpdatedPct, dfServerPct), m_param.AsLong(nCount, hOriginal, hUpdated, 0, hServer, 0, hNewData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_COMBINE_DATA, m_param.AsFloat((float)dfUpdatedPct, (float)dfServerPct), m_param.AsLong(nCount, hOriginal, hUpdated, 0, hServer, 0, hNewData));

        }


#pragma warning restore 1591


        //---------------------------------------------------------------------

        //  ICudaDevice Methods

        //---------------------------------------------------------------------

        #region ICudaDevice Methods


        public void SetDeviceID(int nDeviceID = -1, DEVINIT flags = DEVINIT.NONE, long? lSeed = null)

        {

            if (m_cuda == null || m_hKernel <= 0)

                throw new Exception("CudaDnn has already nbeen disposed!");


            if (nDeviceID == -1)

                nDeviceID = m_nDeviceId;

            else

                m_nDeviceId = nDeviceID;


            if (m_dt == DataType.DOUBLE)

            {

                if (lSeed.HasValue)

                    m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.SETDEVICE, m_param.AsDouble(nDeviceID, (int)flags, lSeed.Value));

                else

                    m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.SETDEVICE, m_param.AsDouble(nDeviceID, (int)flags));

            }

            else

            {

                if (lSeed.HasValue)

                    m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.SETDEVICE, m_param.AsFloat(nDeviceID, (int)flags, lSeed.Value));

                else

                    m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.SETDEVICE, m_param.AsFloat(nDeviceID, (int)flags));

            }

        }


        public void SetRandomSeed(long lSeed)

        {

            if (m_cuda == null || m_hKernel <= 0)

                throw new Exception("CudaDnn has already nbeen disposed!");


            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.SETRANDOMSEED, m_param.AsDouble(lSeed));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.SETRANDOMSEED, m_param.AsFloat(lSeed));

        }


        public int OriginalDeviceID

        {

            get { return m_nDeviceId; }

        }


        public int GetDeviceID()

        {

            if (m_cuda == null || m_hKernel <= 0)

                throw new Exception("CudaDnn has already nbeen disposed!");


            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.GETDEVICE, null);

                return (int)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.GETDEVICE, null);

                return (int)rg[0];

            }

        }


        public string GetDeviceName(int nDeviceID)

        {

            if (m_cuda == null || m_hKernel <= 0)

                throw new Exception("CudaDnn has already nbeen disposed!");


            string[] rgstr = m_cuda.QueryString((int)m_hKernel, (int)CUDAQRY.DEVICE_NAME, new int[] { nDeviceID });

            return rgstr[0];

        }


        public string GetDeviceP2PInfo(int nDeviceID)

        {

            if (m_cuda == null || m_hKernel <= 0)

                throw new Exception("CudaDnn has already nbeen disposed!");


            string[] rgstr = m_cuda.QueryString((int)m_hKernel, (int)CUDAQRY.DEVICE_P2P_INFO, new int[] { nDeviceID });

            return rgstr[0];

        }


        public string GetDeviceInfo(int nDeviceID, bool bVerbose = false)

        {

            if (m_cuda == null || m_hKernel <= 0)

                throw new Exception("CudaDnn has already nbeen disposed!");


            string[] rgstr = m_cuda.QueryString((int)m_hKernel, (int)CUDAQRY.DEVICE_INFO, new int[] { nDeviceID, (bVerbose) ? 1 : 0 });

            return rgstr[0];

        }


        public void ResetDevice()

        {

            if (m_cuda == null || m_hKernel <= 0)

                throw new Exception("CudaDnn has already nbeen disposed!");


            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.RESETDEVICE, null);

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.RESETDEVICE, null);

        }


        public void SynchronizeDevice()

        {

            if (m_cuda == null || m_hKernel <= 0)

                throw new Exception("CudaDnn has already nbeen disposed!");


            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.SYNCHRONIZEDEVICE, null);

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.SYNCHRONIZEDEVICE, null);

        }


        public int GetMultiGpuBoardGroupID(int nDeviceID)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.GETDEVICEPROP, m_param.AsDouble(nDeviceID, (int)DEVPROP.MULTIGPUBOARDGROUPID));

                return (int)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.GETDEVICEPROP, m_param.AsFloat(nDeviceID, (int)DEVPROP.MULTIGPUBOARDGROUPID));

                return (int)rg[0];

            }

        }


        public int GetDeviceCount()

        {

            if (m_cuda == null || m_hKernel <= 0)

                return 0;


            try

            {

                if (m_dt == DataType.DOUBLE)

                {

                    double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.GETDEVICEPROP, m_param.AsDouble(0, (int)DEVPROP.DEVICECOUNT));

                    return (int)rg[0];

                }

                else

                {

                    float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.GETDEVICEPROP, m_param.AsFloat(0, (int)DEVPROP.DEVICECOUNT));

                    return (int)rg[0];

                }

            }

            catch (Exception)

            {

                return 0;

            }

        }


        public bool CheckMemoryAttributes(long hSrc, int nSrcDeviceID, long hDst, int nDstDeviceID)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CHECKMEMORYATTRIB, m_param.AsDouble(hSrc, nSrcDeviceID, hDst, nDstDeviceID));

                return (rg[0] == 0) ? false : true;

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CHECKMEMORYATTRIB, m_param.AsFloat(hSrc, nSrcDeviceID, hDst, nDstDeviceID));

                return (rg[0] == 0) ? false : true;

            }

        }


        public double GetDeviceMemory(out double dfFree, out double dfUsed, out bool bCudaCallUsed, int nDeviceID = -1)

        {

            if (nDeviceID == -1)

                nDeviceID = m_nDeviceId;


            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.GETDEVICEMEMORY, m_param.AsDouble(nDeviceID));

                dfFree = rg[1];

                dfUsed = rg[2];

                bCudaCallUsed = (rg[3] == 0) ? false : true;

                return rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.GETDEVICEMEMORY, m_param.AsFloat(nDeviceID));

                dfFree = (double)rg[1];

                dfUsed = (double)rg[2];

                bCudaCallUsed = (rg[3] == 0) ? false : true;

                return (double)rg[0];

            }

        }


        public string GetRequiredCompute(out int nMinMajor, out int nMinMinor)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.GETREQUIREDCOMPUTE, null);

                nMinMajor = (int)rg[0];

                nMinMinor = (int)rg[1];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.GETREQUIREDCOMPUTE, null);

                nMinMajor = (int)rg[0];

                nMinMinor = (int)rg[1];

            }


            return m_strPath;

        }


        public bool DeviceCanAccessPeer(int nSrcDeviceID, int nPeerDeviceID)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.DEVICE_CANACCESSPEER, m_param.AsDouble(nSrcDeviceID, nPeerDeviceID));

                return (rg[0] == 0) ? false : true;

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.DEVICE_CANACCESSPEER, m_param.AsFloat(nSrcDeviceID, nPeerDeviceID));

                return (rg[0] == 0) ? false : true;

            }

        }


        public void DeviceEnablePeerAccess(int nPeerDeviceID)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.DEVICE_ENABLEPEERACCESS, m_param.AsDouble(nPeerDeviceID));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.DEVICE_ENABLEPEERACCESS, m_param.AsFloat(nPeerDeviceID));

        }


        public void DeviceDisablePeerAccess(int nPeerDeviceID)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.DEVICE_DISABLEPEERACCESS, m_param.AsDouble(nPeerDeviceID));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.DEVICE_DISABLEPEERACCESS, m_param.AsFloat(nPeerDeviceID));

        }


        #endregion


        //---------------------------------------------------------------------

        //  ICudaMemory Methods

        //---------------------------------------------------------------------

        #region ICudaMemory Methods


        public long AllocMemory(List<double> rg)

        {

            return AllocMemory(rg.ToArray());

        }


        public long AllocMemory(List<float> rg)

        {

            return AllocMemory(rg.ToArray());

        }


        public long AllocMemory(double[] rgSrc, long hStream = 0)

        {

            return AllocMemory(convert(rgSrc), hStream);

        }


        public long AllocMemory(float[] rgSrc, long hStream = 0)

        {

            return AllocMemory(convert(rgSrc), hStream);

        }


        public long AllocMemory(T[] rgSrc, long hStream = 0, bool bHalfSize = false)

        {

            if (rgSrc == null)

                throw new ArgumentNullException();


            if (rgSrc.Length == 0)

                throw new ArgumentOutOfRangeException();


            try

            {

                if (m_dt == DataType.DOUBLE)

                {

                    if (bHalfSize)

                        throw new Exception("Half sizes are only supported with the 'float' base type.");


                    List<double> rgInput = new List<double>() { rgSrc.Length };

                    List<long> rgInput2 = new List<long>() { rgSrc.Length };


                    if (hStream > 0)

                    {

                        rgInput.Add(hStream);

                        rgInput2.Add(hStream);

                    }


                    rgInput.AddRange(convertD(rgSrc));


                    double[] rg;


                    lock (m_memSync)

                    {

                        if (m_rgGhostMemory == null || !m_bGhostMemoryEnabled)

                        {

                            rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.ALLOCMEM, rgInput.ToArray(), rgInput2.ToArray());

                        }

                        else

                        {

                            m_nGhostMemoryIndex++;

                            m_rgGhostMemory.Add(m_nGhostMemoryIndex, convert(Utility.Clone<double>(rgInput).ToArray()));

                            rg = new double[] { m_nGhostMemoryIndex };

                        }


                        return m_memTracker.AllocMemory(m_hKernel, m_nDeviceId, (long)rg[0], (ulong)rgInput.Count, bHalfSize);

                    }

                }

                else

                {

                    List<float> rgInput = new List<float>() { rgSrc.Length };

                    List<long> rgInput2 = new List<long>() { rgSrc.Length };


                    if (hStream > 0)

                    {

                        rgInput.Add(hStream);

                        rgInput2.Add(hStream);

                    }


                    rgInput.AddRange(convertF(rgSrc));


                    float[] rg;


                    lock (m_memSync)

                    {

                        if (m_rgGhostMemory == null || !m_bGhostMemoryEnabled)

                        {

                            if (bHalfSize)

                                rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.ALLOCMEM_HALF, rgInput.ToArray(), rgInput2.ToArray());

                            else

                                rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.ALLOCMEM, rgInput.ToArray(), rgInput2.ToArray());

                        }

                        else

                        {

                            m_nGhostMemoryIndex++;

                            m_rgGhostMemory.Add(m_nGhostMemoryIndex, convert(Utility.Clone<float>(rgInput).ToArray()));

                            rg = new float[] { m_nGhostMemoryIndex };

                        }


                        return m_memTracker.AllocMemory(m_hKernel, m_nDeviceId, (long)rg[0], (ulong)rgInput.Count, bHalfSize);

                    }

                }

            }

            catch (Exception excpt)

            {

                string strMemory = m_memTracker.TotalMemoryUsedText;

                string strDevice = GetDeviceName(m_nDeviceId);

                throw new Exception("Out of memory!  You are currently using " + strMemory + " of memory on " + strDevice + ".  You may need to use a different GPU that has more memory.", excpt);

            }

        }


        public static ulong BaseSize

        {

            get { return m_lBaseSize; }

        }


        public static ulong ConvertByteSizeToCount(ulong ulSizeInBytes)

        {

            return ulSizeInBytes / m_lBaseSize;

        }


        public long AllocMemory(long lCapacity, bool bHalfSize = false)

        {

            if (lCapacity <= 0)

                throw new ArgumentOutOfRangeException();


            long[] rgIn = new long[] { lCapacity };


            try

            {

                if (m_dt == DataType.DOUBLE)

                {

                    if (bHalfSize)

                        throw new Exception("Half sizes are only supported with the 'float' base type.");


                    double[] rgOut;

                    lock (m_memSync)

                    {

                        if (m_rgGhostMemory == null || !m_bGhostMemoryEnabled)

                        {

                            rgOut = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.ALLOCMEM, null, rgIn);

                        }

                        else

                        {

                            m_nGhostMemoryIndex++;

                            m_rgGhostMemory.Add(m_nGhostMemoryIndex, convert(Utility.Create<double>((int)lCapacity, 0).ToArray()));

                            rgOut = new double[] { m_nGhostMemoryIndex };

                        }


                        return m_memTracker.AllocMemory(m_hKernel, m_nDeviceId, (long)rgOut[0], (ulong)lCapacity, bHalfSize);

                    }

                }

                else

                {

                    float[] rgOut;

                    lock (m_memSync)

                    {

                        if (m_rgGhostMemory == null || !m_bGhostMemoryEnabled)

                        {

                            if (bHalfSize)

                                rgOut = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.ALLOCMEM_HALF, null, rgIn);

                            else

                                rgOut = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.ALLOCMEM, null, rgIn);

                        }

                        else

                        {

                            m_nGhostMemoryIndex++;

                            m_rgGhostMemory.Add(m_nGhostMemoryIndex, convert(Utility.Create<float>((int)lCapacity, 0).ToArray()));

                            rgOut = new float[] { m_nGhostMemoryIndex };

                        }


                        return m_memTracker.AllocMemory(m_hKernel, m_nDeviceId, (long)rgOut[0], (ulong)lCapacity, bHalfSize);

                    }

                }

            }

            catch (Exception excpt)

            {

                string strMemory = m_memTracker.TotalMemoryUsedText;

                string strDevice = GetDeviceName(m_nDeviceId);

                long lMb = (lCapacity * (int)basetype_size(false)) / 1000000;


                throw new Exception("Out of memory!  There is not enough memory to allocate the requested " + lMb.ToString("N0") + " MB of memory.  You are currently using " + strMemory + " of memory on " + strDevice + ".  You may need to use a different GPU that has more memory.", excpt);

            }

        }


        public void FreeMemory(long hMem)

        {

            if (m_cuda == null || m_hKernel <= 0)

            {

                Trace.WriteLine("WARNING: CudaDnn has already been disposed, cannot free memory.");

                return;

            }


            lock (m_memSync)

            {

                if (m_dt == DataType.DOUBLE)

                {

                    m_memTracker.FreeMemory(m_hKernel, m_nDeviceId, hMem);


                    if (m_rgGhostMemory == null || !m_bGhostMemoryEnabled)

                        m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.FREEMEM, null, m_param.AsLong(hMem));

                    else

                        m_rgGhostMemory.Remove(hMem);

                }

                else

                {

                    m_memTracker.FreeMemory(m_hKernel, m_nDeviceId, hMem);


                    if (m_rgGhostMemory == null || !m_bGhostMemoryEnabled)

                        m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.FREEMEM, null, m_param.AsLong(hMem));

                    else

                        m_rgGhostMemory.Remove(hMem);

                }

            }

        }


        public void CopyDeviceToHost(long lCount, long hGpuSrc, long hHostDst)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.COPY_DEVICE_TO_HOST, null, m_param.AsLong(lCount, hGpuSrc, hHostDst));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.COPY_DEVICE_TO_HOST, null, m_param.AsLong(lCount, hGpuSrc, hHostDst));

        }


        public void CopyHostToDevice(long lCount, long hHostSrc, long hGpuDst)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.COPY_HOST_TO_DEVICE, null, m_param.AsLong(lCount, hHostSrc, hGpuDst));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.COPY_HOST_TO_DEVICE, null, m_param.AsLong(lCount, hHostSrc, hGpuDst));

        }


        public long AllocHostBuffer(long lCapacity)

        {

            if (lCapacity == 0)

                throw new ArgumentOutOfRangeException();


            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.ALLOCHOSTBUFFER, null, m_param.AsLong(lCapacity));

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.ALLOCHOSTBUFFER, null, m_param.AsLong(lCapacity));

                return (long)rg[0];

            }

        }


        public void FreeHostBuffer(long hMem)

        {

            if (m_cuda == null || m_hKernel <= 0)

            {

                Trace.WriteLine("WARNING: CudaDnn has already been disposed, cannot free memory.");

                return;

            }


            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.FREEHOSTBUFFER, null, m_param.AsLong(hMem));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.FREEHOSTBUFFER, null, m_param.AsLong(hMem));

        }


        public long GetHostBufferCapacity(long hMem)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.GETHOSTBUFFERCAPACITY, null, m_param.AsLong(hMem));

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.GETHOSTBUFFERCAPACITY, null, m_param.AsLong(hMem));

                return (long)rg[0];

            }

        }


        public double[] GetHostMemoryDouble(long hMem)

        {

            return convertD(GetHostMemory(hMem));

        }


        public float[] GetHostMemoryFloat(long hMem)

        {

            return convertF(GetHostMemory(hMem));

        }


        public T[] GetHostMemory(long hMem)

        {

            if (m_dt == DataType.DOUBLE)

                return convert(m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.GETHOSTMEM, null, m_param.AsLong(hMem)));

            else

                return convert(m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.GETHOSTMEM, null, m_param.AsLong(hMem)));

        }


        public double[] GetMemoryDouble(long hMem, long lCount = -1)

        {

            return convertD(GetMemory(hMem, lCount));

        }


        public float[] GetMemoryFloat(long hMem, long lCount = -1)

        {

            return convertF(GetMemory(hMem, lCount));

        }


        public T[] GetMemory(long hMem, long lCount = -1)

        {

            if (m_dt == DataType.DOUBLE)

            {

                if (m_rgGhostMemory == null)

                {

                    double[] rgr = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.GETMEM, null, m_param.AsLong(hMem, lCount));

                    return convert(rgr);

                }

                else

                {

                    return m_rgGhostMemory[hMem];

                }

            }

            else

            {

                if (m_rgGhostMemory == null)

                {

                    float[] rgr = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.GETMEM, null, m_param.AsLong(hMem, lCount));

                    return convert(rgr);

                }

                else

                {

                    return m_rgGhostMemory[hMem];

                }

            }

        }


        public void SetMemory(long hMem, List<double> rg)

        {

            SetMemory(hMem, rg.ToArray());

        }


        public void SetMemory(long hMem, List<float> rg)

        {

            SetMemory(hMem, rg.ToArray());

        }


        public void SetMemory(long hMem, double[] rgSrc, long hStream = 0)

        {

            SetMemory(hMem, convert(rgSrc), hStream);

        }


        public void SetMemory(long hMem, float[] rgSrc, long hStream = 0)

        {

            SetMemory(hMem, convert(rgSrc), hStream);

        }


        public void SetMemory(long hMem, T[] rgSrc, long hStream = 0, int nCount = -1)

        {

            if (nCount == -1)

                nCount = rgSrc.Length;


            if (rgSrc == null || nCount == 0)

                throw new ArgumentOutOfRangeException("There are no data items to set!");


            if (m_hKernel > 0)

            {

                if (m_rgGhostMemory != null)

                {

                    m_rgGhostMemory[hMem] = Utility.Clone<T>(rgSrc);

                }

                else

                {

                    if (m_dt == DataType.DOUBLE)

                    {

                        int nDataCount = 2;


                        if (hStream > 0)

                            nDataCount++;


                        nDataCount += nCount;


                        double[] rg = new double[nDataCount];


                        rg[0] = hMem;

                        rg[1] = nCount;

                        int nIdx = 2;


                        if (hStream > 0)

                        {

                            rg[nIdx] = hStream;

                            nIdx++;

                        }


                        long[] rgIn = new long[] { hMem, nCount };


                        convertD(rgSrc, rg, nIdx, nCount);

                        m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.SETMEM, rg, rgIn);

                    }

                    else

                    {

                        int nDataCount = 2;


                        if (hStream > 0)

                            nDataCount++;


                        nDataCount += nCount;


                        float[] rg = new float[nDataCount];


                        rg[0] = hMem;

                        rg[1] = nCount;

                        int nIdx = 2;


                        if (hStream > 0)

                        {

                            rg[nIdx] = hStream;

                            nIdx++;

                        }


                        long[] rgIn = new long[] { hMem, nCount };


                        convertF(rgSrc, rg, nIdx, nCount);

                        m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.SETMEM, rg, rgIn);

                    }

                }

            }

        }


        public void SetMemoryAt(long hMem, double[] rgSrc, int nOffset)

        {

            SetMemoryAt(hMem, convert(rgSrc), nOffset);

        }


        public void SetMemoryAt(long hMem, float[] rgSrc, int nOffset)

        {

            SetMemoryAt(hMem, convert(rgSrc), nOffset);

        }


        public void SetMemoryAt(long hMem, T[] rgSrc, int nOffset)

        {

            if (rgSrc == null || rgSrc.Length == 0)

                throw new ArgumentOutOfRangeException("There are no data items to set!");


            if (m_hKernel > 0)

            {

                if (m_rgGhostMemory != null)

                    throw new Exception("Ghost memory does not support SetMemoryAt.");


                if (m_dt == DataType.DOUBLE)

                {

                    int nDataCount = 3 + rgSrc.Length;

                    double[] rg = new double[nDataCount];


                    rg[0] = hMem;

                    rg[1] = rgSrc.Length;

                    rg[2] = nOffset;


                    long[] rgIn = new long[] { hMem, rgSrc.Length, nOffset };


                    convertD(rgSrc, rg, 3);

                    m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.SETMEMAT, rg, rgIn);

                }

                else

                {

                    int nDataCount = 3 + rgSrc.Length;

                    float[] rg = new float[nDataCount];


                    rg[0] = hMem;

                    rg[1] = rgSrc.Length;

                    rg[2] = nOffset;


                    long[] rgIn = new long[] { hMem, rgSrc.Length, nOffset };


                    convertF(rgSrc, rg, 3);

                    m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.SETMEMAT, rg, rgIn);

                }

            }

        }


        public T[] SetPixel(long hMem, int nCount, bool bReturnOriginal, int nOffset, params Tuple<int, T>[] rgPixel)

        {

            if (rgPixel.Length == 0)

                throw new Exception("You must specify at least one pixel!");


            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = new double[5 + rgPixel.Length * 2];


                rg[0] = hMem;

                rg[1] = nCount;

                rg[2] = (bReturnOriginal) ? 1 : 0;

                rg[3] = nOffset;

                rg[4] = rgPixel.Length;

                int nIdx = 5;


                for (int i = 0; i < rgPixel.Length; i++)

                {

                    rg[nIdx] = rgPixel[i].Item1;

                    nIdx++;

                    rg[nIdx] = convertD1(rgPixel[i].Item2);

                    nIdx++;

                }


                rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.SETPIXEL, rg);

                if (rg == null)

                    return null;


                return convert(rg);

            }

            else

            {

                float[] rg = new float[5 + rgPixel.Length * 2];


                rg[0] = hMem;

                rg[1] = nCount;

                rg[2] = (bReturnOriginal) ? 1 : 0;

                rg[3] = nOffset;

                rg[4] = rgPixel.Length;

                int nIdx = 5;


                for (int i = 0; i < rgPixel.Length; i++)

                {

                    rg[nIdx] = rgPixel[i].Item1;

                    nIdx++;

                    rg[nIdx] = convertF1(rgPixel[i].Item2);

                    nIdx++;

                }


                rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.SETPIXEL, rg);

                if (rg == null)

                    return null;


                return convert(rg);

            }

        }


        public void SetHostMemory(long hMem, T[] rgSrc)

        {

            if (m_dt == DataType.DOUBLE)

            {

                int nDataCount = 2 + rgSrc.Length;

                double[] rg = new double[nDataCount];


                rg[0] = hMem;

                rg[1] = rgSrc.Length;


                convertD(rgSrc, rg, 2);

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.SETHOSTMEM, rg, m_param.AsLong(hMem, rgSrc.Length));

            }

            else

            {

                int nDataCount = 2 + rgSrc.Length;

                float[] rg = new float[nDataCount];


                rg[0] = hMem;

                rg[1] = rgSrc.Length;


                convertF(rgSrc, rg, 2);

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.SETHOSTMEM, rg, m_param.AsLong(hMem, rgSrc.Length));

            }

        }


        public long CreateMemoryPointer(long hData, long lOffset, long lCount)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CREATE_MEMORYPOINTER, null, m_param.AsLong(hData, lOffset, lCount));

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CREATE_MEMORYPOINTER, null, m_param.AsLong(hData, lOffset, lCount));

                return (long)rg[0];

            }

        }


        public void FreeMemoryPointer(long hData)

        {

            if (m_cuda == null || m_hKernel <= 0)

            {

                Trace.WriteLine("WARNING: CudaDnn has already been disposed, cannot free memory pointer.");

                return;

            }


            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.FREE_MEMORYPOINTER, null, m_param.AsLong(hData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.FREE_MEMORYPOINTER, null, m_param.AsLong(hData));

        }


        public long CreateMemoryTest(out ulong ulTotalNumBlocks, out double dfMemAllocatedInGB, out ulong ulMemStartAddr, out ulong ulBlockSize, double dfPctToAllocate = 1.0)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CREATE_MEMTEST, m_param.AsDouble(dfPctToAllocate));

                ulTotalNumBlocks = (ulong)rg[1];

                dfMemAllocatedInGB = (double)rg[2];

                ulMemStartAddr = (ulong)rg[3];

                ulBlockSize = (ulong)rg[4];

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CREATE_MEMTEST, m_param.AsFloat((float)dfPctToAllocate));

                ulTotalNumBlocks = (ulong)rg[1];

                dfMemAllocatedInGB = (double)rg[2];

                ulMemStartAddr = (ulong)rg[3];

                ulBlockSize = (ulong)rg[4];

                return (long)rg[0];

            }

        }


        public void FreeMemoryTest(long h)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.FREE_MEMTEST, m_param.AsDouble(h));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.FREE_MEMTEST, m_param.AsFloat(h));

        }


        public T[] RunMemoryTest(long h, MEMTEST_TYPE type, ulong ulBlockStartOffset, ulong ulBlockCount, bool bVerbose, bool bWrite, bool bReadWrite, bool bRead)

        {

            List<ulong> rgErrorAddresses = new List<ulong>();


            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.RUN_MEMTEST, null, m_param.AsLong(h, (long)type, (long)ulBlockStartOffset, (long)ulBlockCount, (bVerbose) ? 1 : 0, (bWrite) ? 1 : 0, (bReadWrite) ? 1 : 0, (bRead) ? 1 : 0));

                return (T[])Convert.ChangeType(rg, typeof(T[]));

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.RUN_MEMTEST, null, m_param.AsLong(h, (long)type, (long)ulBlockStartOffset, (long)ulBlockCount, (bVerbose) ? 1 : 0, (bWrite) ? 1 : 0, (bReadWrite) ? 1 : 0, (bRead) ? 1 : 0));

                return (T[])Convert.ChangeType(rg, typeof(T[]));

            }

        }


        public long CreateImageOp(int nNum, double dfBrightnessProb, double dfBrightnessDelta, double dfContrastProb, double dfContrastLower, double dfContrastUpper, double dfSaturationProb, double dfSaturationLower, double dfSaturationUpper, long lRandomSeed = 0)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CREATE_IMAGEOP, m_param.AsDouble(nNum, dfBrightnessProb, dfBrightnessDelta, dfContrastProb, dfContrastLower, dfContrastUpper, dfSaturationProb, dfSaturationLower, dfSaturationUpper, lRandomSeed));

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CREATE_IMAGEOP, m_param.AsFloat(nNum, (float)dfBrightnessProb, (float)dfBrightnessDelta, (float)dfContrastProb, (float)dfContrastLower, (float)dfContrastUpper, (float)dfSaturationProb, (float)dfSaturationLower, (float)dfSaturationUpper, lRandomSeed));

                return (long)rg[0];

            }

        }


        public void FreeImageOp(long h)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.FREE_IMAGEOP, m_param.AsDouble(h));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.FREE_IMAGEOP, m_param.AsFloat(h));

        }


        public void DistortImage(long h, int nCount, int nNum, int nDim, long hX, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.DISTORTIMAGE_IMAGEOP, null, m_param.AsLong(h, nCount, nNum, nDim, hX, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.DISTORTIMAGE_IMAGEOP, null, m_param.AsLong(h, nCount, nNum, nDim, hX, hY));

        }


        #endregion


        //---------------------------------------------------------------------

        //  ICudaDnn Methods

        //---------------------------------------------------------------------

        #region ICudaDnn Methods


        public long CreateStream(bool bNonBlocking = false, int nIndex = -1)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CREATE_STREAM, m_param.AsDouble((bNonBlocking) ? 1 : 0, nIndex));

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CREATE_STREAM, m_param.AsFloat((bNonBlocking) ? 1 : 0, nIndex));

                return (long)rg[0];

            }

        }


        public void FreeStream(long h)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.FREE_STREAM, m_param.AsDouble(h));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.FREE_STREAM, m_param.AsFloat(h));

        }


        public void SynchronizeStream(long h = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.SYNCRHONIZE_STREAM, m_param.AsDouble(h));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.SYNCRHONIZE_STREAM, m_param.AsFloat(h));

        }


        public void SynchronizeThread()

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.SYNCHRONIZE_THREAD, null);

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.SYNCHRONIZE_THREAD, null);

        }


        public long CreateCuDNN(long hStream = 0)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CREATE_CUDNN, m_param.AsDouble(hStream));

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CREATE_CUDNN, m_param.AsFloat(hStream));

                return (long)rg[0];

            }

        }


        public void FreeCuDNN(long h)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.FREE_CUDNN, m_param.AsDouble(h));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.FREE_CUDNN, m_param.AsFloat(h));

        }


        public long CreateNCCL(int nDeviceId, int nCount, int nRank, Guid guid)

        {

            if (m_dt == DataType.DOUBLE)

            {

                List<double> rgParam = new List<double>() { nDeviceId, nCount, nRank };

                List<double> rgGuid = guidToArrayDouble(guid);


                rgParam.Add(rgGuid.Count);

                rgParam.AddRange(rgGuid);


                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CREATE_NCCL, rgParam.ToArray());

                return (long)rg[0];

            }

            else

            {

                List<float> rgParam = new List<float>() { nDeviceId, nCount, nRank };

                List<float> rgGuid = guidToArrayFloat(guid);


                rgParam.Add(rgGuid.Count);

                rgParam.AddRange(rgGuid);


                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CREATE_NCCL, rgParam.ToArray());

                return (long)rg[0];

            }

        }


        private List<double> guidToArrayDouble(Guid guid)

        {

            List<double> rgdf = new List<double>();

            string str = guid.ToString();

            string[] rgstr = str.Split('-');


            foreach (string str1 in rgstr)

            {

                long val = Convert.ToInt64(str1, 16);

                rgdf.Add(val);

            }


            return rgdf;

        }


        private List<float> guidToArrayFloat(Guid guid)

        {

            List<double> rgDf = guidToArrayDouble(guid);

            List<float> rg = new List<float>();


            foreach (double df in rgDf)

            {

                rg.Add((float)df);

            }


            return rg;

        }


        public void FreeNCCL(long hNccl)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.FREE_NCCL, m_param.AsDouble(hNccl));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.FREE_NCCL, m_param.AsFloat(hNccl));

        }


        public void NcclInitializeSingleProcess(params long[] rghNccl)

        {

            if (m_dt == DataType.DOUBLE)

            {

                List<double> rg = new List<double>() { 0, rghNccl.Length };


                for (int i = 0; i < rghNccl.Length; i++)

                {

                    rg.Add(rghNccl[i]);

                }


                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.NCCL_INIT_SINGLEPROCESS, rg.ToArray());

            }

            else

            {

                List<float> rg = new List<float>() { 0, rghNccl.Length };


                for (int i = 0; i < rghNccl.Length; i++)

                {

                    rg.Add(rghNccl[i]);

                }


                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.NCCL_INIT_SINGLEPROCESS, rg.ToArray());

            }

        }


        public void NcclInitializeMultiProcess(long hNccl)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.NCCL_INIT_MULTIPROCESS, m_param.AsDouble(hNccl));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.NCCL_INIT_MULTIPROCESS, m_param.AsFloat(hNccl));

        }


        public void NcclBroadcast(long hNccl, long hStream, long hX, int nCount)

        {

            Trace.WriteLine("Broadcasting from device ID " + GetDeviceID().ToString());

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.NCCL_BROADCAST, null, m_param.AsLong(hNccl, hStream, hX, nCount));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.NCCL_BROADCAST, null, m_param.AsLong(hNccl, hStream, hX, nCount));

        }


        public void NcclAllReduce(long hNccl, long hStream, long hX, int nCount, NCCL_REDUCTION_OP op, double dfScale = 1.0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.NCCL_ALLREDUCE, m_param.AsDouble(dfScale), m_param.AsLong(hNccl, hStream, hX, nCount, (int)op, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.NCCL_ALLREDUCE, m_param.AsFloat((float)dfScale), m_param.AsLong(hNccl, hStream, hX, nCount, (int)op, 0));

        }


        public long CreateExtension(string strExtensionDllPath)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx((int)m_hKernel, (int)CUDAFN.CREATE_EXTENSION, null, strExtensionDllPath);

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx((int)m_hKernel, (int)CUDAFN.CREATE_EXTENSION, null, strExtensionDllPath);

                return (long)rg[0];

            }

        }


        public void FreeExtension(long hExtension)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.FREE_EXTENSION, m_param.AsDouble(hExtension));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.FREE_EXTENSION, m_param.AsFloat(hExtension));

        }


        public T[] RunExtension(long hExtension, long lfnIdx, T[] rgParam)

        {

            if (m_dt == DataType.DOUBLE)

            {

                List<double> rgdf = new List<double>() { hExtension, lfnIdx };


                if (rgParam != null)

                    rgdf.AddRange(Utility.ConvertVec<T>(rgParam));


                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.EXTENSION_RUN, rgdf.ToArray());

                return Utility.ConvertVec<T>(rg);

            }

            else

            {

                List<float> rgf = new List<float>() { hExtension, lfnIdx };


                if (rgParam != null)

                    rgf.AddRange(Utility.ConvertVecF<T>(rgParam));


                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.EXTENSION_RUN, rgf.ToArray());

                return Utility.ConvertVec<T>(rg);

            }

        }


        public long CreateTensorDesc()

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CREATE_TENSORDESC, null);

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CREATE_TENSORDESC, null);

                return (long)rg[0];

            }

        }


        public void FreeTensorDesc(long h)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.FREE_TENSORDESC, m_param.AsDouble(h));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.FREE_TENSORDESC, m_param.AsFloat(h));

        }


        public void SetTensorNdDesc(long hHandle, int[] rgDim, int[] rgStride, bool bHalf = false)

        {

            if (rgDim.Length != rgStride.Length)

                throw new Exception("The stride and dim arrays must have the same length.");


            if (m_dt == DataType.DOUBLE)

            {

                List<long> rgArg = new List<long>() { hHandle, (bHalf) ? 1 : 0, rgDim.Length };


                for (int i = 0; i < rgDim.Length; i++)

                {

                    rgArg.Add(rgDim[i]);

                }


                for (int i = 0; i < rgStride.Length; i++)

                {

                    rgArg.Add(rgStride[i]);

                }


                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.SET_TENSORNDDESC, null, rgArg.ToArray());

            }

            else

            {

                List<long> rgArg = new List<long>() { hHandle, (bHalf) ? 1 : 0, rgDim.Length };


                for (int i = 0; i < rgDim.Length; i++)

                {

                    rgArg.Add(rgDim[i]);

                }


                for (int i = 0; i < rgStride.Length; i++)

                {

                    rgArg.Add(rgStride[i]);

                }


                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.SET_TENSORNDDESC, null, rgArg.ToArray());

            }

        }


        public void SetTensorDesc(long hHandle, int n, int c, int h, int w, bool bHalf = false)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.SET_TENSORDESC, null, m_param.AsLong(hHandle, (bHalf) ? 1 : 0, n, c, h, w));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.SET_TENSORDESC, null, m_param.AsLong(hHandle, (bHalf) ? 1 : 0, n, c, h, w));

        }


        public void SetTensorDesc(long hHandle, int n, int c, int h, int w, int nStride, int cStride, int hStride, int wStride, bool bHalf = false)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.SET_TENSORDESC, null, m_param.AsLong(hHandle, (bHalf) ? 1 : 0, n, c, h, w, nStride, cStride, hStride, wStride));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.SET_TENSORDESC, null, m_param.AsLong(hHandle, (bHalf) ? 1 : 0, n, c, h, w, nStride, cStride, hStride, wStride));

        }


        public void AddTensor(long hCuDnn, long hSrcDesc, long hSrc, int nSrcOffset, long hDstDesc, long hDst, int nDstOffset)

        {

            AddTensor(hCuDnn, m_tOne, hSrcDesc, hSrc, nSrcOffset, m_tOne, hDstDesc, hDst, nDstOffset);

        }


        public void AddTensor(long hCuDnn, T fAlpha, long hSrcDesc, long hSrc, int nSrcOffset, T fBeta, long hDstDesc, long hDst, int nDstOffset)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.ADD_TENSOR, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, 0, hSrcDesc, hSrc, nSrcOffset, 0, hDstDesc, hDst, nDstOffset));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.ADD_TENSOR, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, 0, hSrcDesc, hSrc, nSrcOffset, 0, hDstDesc, hDst, nDstOffset));

        }


        public long CreateFilterDesc()

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CREATE_FILTERDESC, null);

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CREATE_FILTERDESC, null);

                return (long)rg[0];

            }

        }


        public void FreeFilterDesc(long h)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.FREE_FILTERDESC, m_param.AsDouble(h));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.FREE_FILTERDESC, m_param.AsFloat(h));

        }


        public void SetFilterNdDesc(long hHandle, int[] rgDim, bool bHalf = false)

        {

            if (m_dt == DataType.DOUBLE)

            {

                List<long> rgArg = new List<long>() { hHandle, (bHalf) ? 1 : 0, rgDim.Length };


                for (int i = 0; i < rgDim.Length; i++)

                {

                    rgArg.Add(rgDim[i]);

                }


                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.SET_FILTERNDDESC, null, rgArg.ToArray());

            }

            else

            {

                List<long> rgArg = new List<long>() { hHandle, (bHalf) ? 1 : 0, rgDim.Length };


                for (int i = 0; i < rgDim.Length; i++)

                {

                    rgArg.Add(rgDim[i]);

                }


                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.SET_FILTERNDDESC, null, rgArg.ToArray());

            }

        }


        public void SetFilterDesc(long hHandle, int n, int c, int h, int w, bool bHalf = false)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.SET_FILTERDESC, null, m_param.AsLong(hHandle, (bHalf) ? 1 : 0, n, c, h, w));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.SET_FILTERDESC, null, m_param.AsLong(hHandle, (bHalf) ? 1 : 0, n, c, h, w));

        }


        public long CreateConvolutionDesc()

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CREATE_CONVDESC, null);

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CREATE_CONVDESC, null);

                return (long)rg[0];

            }

        }


        public void FreeConvolutionDesc(long h)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.FREE_CONVDESC, m_param.AsDouble(h));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.FREE_CONVDESC, m_param.AsFloat(h));

        }


        public void SetConvolutionDesc(long hHandle, int hPad, int wPad, int hStride, int wStride, int hDilation, int wDilation, bool bUseTensorCores, bool bHalf = false)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.SET_CONVDESC, null, m_param.AsLong(hHandle, (bHalf) ? 1 : 0, hPad, wPad, hStride, wStride, hDilation, wDilation, (bUseTensorCores) ? 1 : 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.SET_CONVDESC, null, m_param.AsLong(hHandle, (bHalf) ? 1 : 0, hPad, wPad, hStride, wStride, hDilation, wDilation, (bUseTensorCores) ? 1 : 0));

        }


        public void GetConvolutionInfo(long hCuDnn, long hBottomDesc, long hFilterDesc, long hConvDesc, long hTopDesc, ulong lWorkspaceSizeLimitInBytes, bool bUseTensorCores, out CONV_FWD_ALGO algoFwd, out ulong lWsSizeFwd, out CONV_BWD_FILTER_ALGO algoBwdFilter, out ulong lWsSizeBwdFilter, out CONV_BWD_DATA_ALGO algoBwdData, out ulong lWsSizeBwdData, CONV_FWD_ALGO preferredFwdAlgo = CONV_FWD_ALGO.NONE)

        {

            lock (m_getconvSync)

            {

                if (m_dt == DataType.DOUBLE)

                {

                    double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.GET_CONVINFO, null, m_param.AsLong(hCuDnn, hBottomDesc, hFilterDesc, hConvDesc, hTopDesc, (long)lWorkspaceSizeLimitInBytes, (bUseTensorCores) ? 1 : 0, (int)preferredFwdAlgo));

                    algoFwd = (CONV_FWD_ALGO)rg[0];

                    lWsSizeFwd = (ulong)rg[1];

                    algoBwdFilter = (CONV_BWD_FILTER_ALGO)rg[2];

                    lWsSizeBwdFilter = (ulong)rg[3];

                    algoBwdData = (CONV_BWD_DATA_ALGO)rg[4];

                    lWsSizeBwdData = (ulong)rg[5];

                }

                else

                {

                    float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.GET_CONVINFO, null, m_param.AsLong(hCuDnn, hBottomDesc, hFilterDesc, hConvDesc, hTopDesc, (long)lWorkspaceSizeLimitInBytes, (bUseTensorCores) ? 1 : 0, (int)preferredFwdAlgo));

                    algoFwd = (CONV_FWD_ALGO)rg[0];

                    lWsSizeFwd = (ulong)rg[1];

                    algoBwdFilter = (CONV_BWD_FILTER_ALGO)rg[2];

                    lWsSizeBwdFilter = (ulong)rg[3];

                    algoBwdData = (CONV_BWD_DATA_ALGO)rg[4];

                    lWsSizeBwdData = (ulong)rg[5];

                }

            }

        }


        public void ConvolutionForward(long hCuDnn, long hBottomDesc, long hBottomData, int nBottomOffset, long hFilterDesc, long hWeight, int nWeightOffset, long hConvDesc, CONV_FWD_ALGO algoFwd, long hWorkspace, int nWorkspaceOffset, ulong lWorkspaceSize, long hTopDesc, long hTopData, int nTopOffset, bool bSyncStream = true)

        {

            ConvolutionForward(hCuDnn, m_tOne, hBottomDesc, hBottomData, nBottomOffset, hFilterDesc, hWeight, nWeightOffset, hConvDesc, algoFwd, hWeight, nWeightOffset, lWorkspaceSize, m_tZero, hTopDesc, hTopData, nTopOffset, bSyncStream);

        }


        public void ConvolutionForward(long hCuDnn, T fAlpha, long hBottomDesc, long hBottomData, int nBottomOffset, long hFilterDesc, long hWeight, int nWeightOffset, long hConvDesc, CONV_FWD_ALGO algoFwd, long hWorkspace, int nWorkspaceOffset, ulong lWorkspaceSize, T fBeta, long hTopDesc, long hTopData, int nTopOffset, bool bSyncStream = true)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.FWD_CONV, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, 0, hBottomDesc, hBottomData, nBottomOffset, hFilterDesc, hWeight, nWeightOffset, hConvDesc, (long)algoFwd, hWorkspace, nWorkspaceOffset, (long)lWorkspaceSize, 0, hTopDesc, hTopData, nTopOffset, (bSyncStream) ? 1 : 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.FWD_CONV, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, 0, hBottomDesc, hBottomData, nBottomOffset, hFilterDesc, hWeight, nWeightOffset, hConvDesc, (long)algoFwd, hWorkspace, nWorkspaceOffset, (long)lWorkspaceSize, 0, hTopDesc, hTopData, nTopOffset, (bSyncStream) ? 1 : 0));

        }


        public void ConvolutionBackwardBias(long hCuDnn, long hTopDesc, long hTopDiff, int nTopOffset, long hBiasDesc, long hBiasDiff, int nBiasOffset, bool bSyncStream = true)

        {

            ConvolutionBackwardBias(hCuDnn, m_tOne, hTopDesc, hTopDiff, nTopOffset, m_tOne, hBiasDesc, hBiasDiff, nBiasOffset, bSyncStream);

        }


        public void ConvolutionBackwardBias(long hCuDnn, T fAlpha, long hTopDesc, long hTopDiff, int nTopOffset, T fBeta, long hBiasDesc, long hBiasDiff, int nBiasOffset, bool bSyncStream = true)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.BWD_CONV_BIAS, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, 0, hTopDesc, hTopDiff, nTopOffset, 0, hBiasDesc, hBiasDiff, nBiasOffset, (bSyncStream) ? 1 : 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.BWD_CONV_BIAS, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, 0, hTopDesc, hTopDiff, nTopOffset, 0, hBiasDesc, hBiasDiff, nBiasOffset, (bSyncStream) ? 1 : 0));

        }


        public void ConvolutionBackwardFilter(long hCuDnn, long hBottomDesc, long hBottomData, int nBottomOffset, long hTopDesc, long hTopDiff, int nTopOffset, long hConvDesc, CONV_BWD_FILTER_ALGO algoBwd, long hWorkspace, int nWorkspaceOffset, ulong lWorkspaceSize, long hFilterDesc, long hWeightDiff, int nWeightOffset, bool bSyncStream)

        {

            ConvolutionBackwardFilter(hCuDnn, m_tOne, hBottomDesc, hBottomData, nBottomOffset, hTopDesc, hTopDiff, nTopOffset, hConvDesc, algoBwd, hWorkspace, nWorkspaceOffset, lWorkspaceSize, m_tOne, hFilterDesc, hWeightDiff, nWeightOffset, bSyncStream);

        }


        public void ConvolutionBackwardFilter(long hCuDnn, T fAlpha, long hBottomDesc, long hBottomData, int nBottomOffset, long hTopDesc, long hTopDiff, int nTopOffset, long hConvDesc, CONV_BWD_FILTER_ALGO algoBwd, long hWorkspace, int nWorkspaceOffset, ulong lWorkspaceSize, T fBeta, long hFilterDesc, long hWeightDiff, int nWeightOffset, bool bSyncStream = true)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.BWD_CONV_FILTER, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, 0, hBottomDesc, hBottomData, nBottomOffset, hTopDesc, hTopDiff, nTopOffset, hConvDesc, (long)algoBwd, hWorkspace, nWorkspaceOffset, (long)lWorkspaceSize, 0, hFilterDesc, hWeightDiff, nWeightOffset, (bSyncStream) ? 1 : 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.BWD_CONV_FILTER, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, 0, hBottomDesc, hBottomData, nBottomOffset, hTopDesc, hTopDiff, nTopOffset, hConvDesc, (long)algoBwd, hWorkspace, nWorkspaceOffset, (long)lWorkspaceSize, 0, hFilterDesc, hWeightDiff, nWeightOffset, (bSyncStream) ? 1 : 0));

        }


        public void ConvolutionBackwardData(long hCuDnn, long hFilterDesc, long hWeight, int nWeightOffset, long hTopDesc, long hTopDiff, int nTopOffset, long hConvDesc, CONV_BWD_DATA_ALGO algoBwd, long hWorkspace, int nWorkspaceOffset, ulong lWorkspaceSize, long hBottomDesc, long hBottomDiff, int nBottomOffset, bool bSyncStream = true)

        {

            ConvolutionBackwardData(hCuDnn, m_tOne, hFilterDesc, hWeight, nWeightOffset, hTopDesc, hTopDiff, nTopOffset, hConvDesc, algoBwd, hWorkspace, nWorkspaceOffset, lWorkspaceSize, m_tZero, hBottomDesc, hBottomDiff, nBottomOffset, bSyncStream);

        }


        public void ConvolutionBackwardData(long hCuDnn, T fAlpha, long hFilterDesc, long hWeight, int nWeightOffset, long hTopDesc, long hTopDiff, int nTopOffset, long hConvDesc, CONV_BWD_DATA_ALGO algoBwd, long hWorkspace, int nWorkspaceOffset, ulong lWorkspaceSize, T fBeta, long hBottomDesc, long hBottomDiff, int nBottomOffset, bool bSyncStream = true)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.BWD_CONV_DATA, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, 0, hFilterDesc, hWeight, nWeightOffset, hTopDesc, hTopDiff, nTopOffset, hConvDesc, (long)algoBwd, hWorkspace, nWorkspaceOffset, (long)lWorkspaceSize, 0, hBottomDesc, hBottomDiff, nBottomOffset, (bSyncStream) ? 1 : 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.BWD_CONV_DATA, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, 0, hFilterDesc, hWeight, nWeightOffset, hTopDesc, hTopDiff, nTopOffset, hConvDesc, (long)algoBwd, hWorkspace, nWorkspaceOffset, (long)lWorkspaceSize, 0, hBottomDesc, hBottomDiff, nBottomOffset, (bSyncStream) ? 1 : 0));

        }


        public long CreatePoolingDesc()

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CREATE_POOLDESC, null);

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CREATE_POOLDESC, null);

                return (long)rg[0];

            }

        }


        public void FreePoolingDesc(long h)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.FREE_POOLDESC, m_param.AsDouble(h));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.FREE_POOLDESC, m_param.AsFloat(h));

        }


        public void SetPoolingDesc(long hHandle, PoolingMethod method, int h, int w, int hPad, int wPad, int hStride, int wStride)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.SET_POOLDESC, null, m_param.AsLong(hHandle, (int)method, h, w, hPad, wPad, hStride, wStride));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.SET_POOLDESC, null, m_param.AsLong(hHandle, (int)method, h, w, hPad, wPad, hStride, wStride));

        }


        public void PoolingForward(long hCuDnn, long hPoolingDesc, T fAlpha, long hBottomDesc, long hBottomData, T fBeta, long hTopDesc, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.FWD_POOL, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, hPoolingDesc, 0, hBottomDesc, hBottomData, 0, hTopDesc, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.FWD_POOL, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, hPoolingDesc, 0, hBottomDesc, hBottomData, 0, hTopDesc, hTopData));

        }


        public void PoolingBackward(long hCuDnn, long hPoolingDesc, T fAlpha, long hTopDataDesc, long hTopData, long hTopDiffDesc, long hTopDiff, long hBottomDataDesc, long hBottomData, T fBeta, long hBottomDiffDesc, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.BWD_POOL, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, hPoolingDesc, 0, hTopDataDesc, hTopData, hTopDiffDesc, hTopDiff, hBottomDataDesc, hBottomData, 0, hBottomDiffDesc, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.BWD_POOL, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, hPoolingDesc, 0, hTopDataDesc, hTopData, hTopDiffDesc, hTopDiff, hBottomDataDesc, hBottomData, 0, hBottomDiffDesc, hBottomDiff));

        }


        public void DeriveBatchNormDesc(long hFwdScaleBiasMeanVarDesc, long hFwdBottomDesc, long hBwdScaleBiasMeanVarDesc, long hBwdBottomDesc, BATCHNORM_MODE mode)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.DERIVE_BNDESC, null, m_param.AsLong(hFwdScaleBiasMeanVarDesc, hFwdBottomDesc, hBwdScaleBiasMeanVarDesc, hBwdBottomDesc, (int)mode));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.DERIVE_BNDESC, null, m_param.AsLong(hFwdScaleBiasMeanVarDesc, hFwdBottomDesc, hBwdScaleBiasMeanVarDesc, hBwdBottomDesc, (int)mode));

        }


        public void BatchNormForward(long hCuDnn, BATCHNORM_MODE mode, T fAlpha, T fBeta, long hFwdBottomDesc, long hBottomData, long hFwdTopDesc, long hTopData, long hFwdScaleBiasMeanVarDesc, long hScaleData, long hBiasData, double dfFactor, long hGlobalMean, long hGlobalVar, double dfEps, long hSaveMean, long hSaveInvVar, bool bTraining)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.FWD_BN, m_param.AsDouble(convertD(fAlpha), convertD(fBeta), dfFactor, dfEps), m_param.AsLong(hCuDnn, (int)mode, 0, 0, hFwdBottomDesc, hBottomData, hFwdTopDesc, hTopData, hFwdScaleBiasMeanVarDesc, hScaleData, hBiasData, 0, hGlobalMean, hGlobalVar, 0, hSaveMean, hSaveInvVar, (bTraining) ? 1 : 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.FWD_BN, m_param.AsFloat(convertF(fAlpha), convertF(fBeta), (float)dfFactor, (float)dfEps), m_param.AsLong(hCuDnn, (int)mode, 0, 0, hFwdBottomDesc, hBottomData, hFwdTopDesc, hTopData, hFwdScaleBiasMeanVarDesc, hScaleData, hBiasData, 0, hGlobalMean, hGlobalVar, 0, hSaveMean, hSaveInvVar, (bTraining) ? 1 : 0));

        }


        public void BatchNormBackward(long hCuDnn, BATCHNORM_MODE mode, T fAlphaDiff, T fBetaDiff, T fAlphaParamDiff, T fBetaParamDiff, long hBwdBottomDesc, long hBottomData, long hTopDiffDesc, long hTopDiff, long hBottomDiffDesc, long hBottomDiff, long hBwdScaleBiasMeanVarDesc, long hScaleData, long hScaleDiff, long hBiasDiff, double dfEps, long hSaveMean, long hSaveInvVar)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.BWD_BN, m_param.AsDouble(convertD(fAlphaDiff), convertD(fBetaDiff), convertD(fAlphaParamDiff), convertD(fBetaParamDiff), dfEps), m_param.AsLong(hCuDnn, (int)mode, 0, 0, 0, 0, hBwdBottomDesc, hBottomData, hTopDiffDesc, hTopDiff, hBottomDiffDesc, hBottomDiff, hBwdScaleBiasMeanVarDesc, hScaleData, hScaleDiff, hBiasDiff, 0, hSaveMean, hSaveInvVar));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.BWD_BN, m_param.AsFloat(convertF(fAlphaDiff), convertF(fBetaDiff), convertF(fAlphaParamDiff), convertF(fBetaParamDiff), (float)dfEps), m_param.AsLong(hCuDnn, (int)mode, 0, 0, 0, 0, hBwdBottomDesc, hBottomData, hTopDiffDesc, hTopDiff, hBottomDiffDesc, hBottomDiff, hBwdScaleBiasMeanVarDesc, hScaleData, hScaleDiff, hBiasDiff, 0, hSaveMean, hSaveInvVar));

        }


        public long CreateDropoutDesc()

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CREATE_DROPOUTDESC, null);

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CREATE_DROPOUTDESC, null);

                return (long)rg[0];

            }

        }


        public void FreeDropoutDesc(long h)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.FREE_DROPOUTDESC, m_param.AsDouble(h));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.FREE_DROPOUTDESC, m_param.AsFloat(h));

        }


        public void SetDropoutDesc(long hCuDnn, long hDropoutDesc, double dfDropout, long hStates, long lSeed)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.SET_DROPOUTDESC, m_param.AsDouble(dfDropout), m_param.AsLong(hCuDnn, hDropoutDesc, 0, hStates, lSeed));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.SET_DROPOUTDESC, m_param.AsFloat((float)dfDropout), m_param.AsLong(hCuDnn, hDropoutDesc, 0, hStates, lSeed));

        }


        public void GetDropoutInfo(long hCuDnn, long hBottomDesc, out ulong ulStateCount, out ulong ulReservedCount)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.GET_DROPOUT_INFO, null, m_param.AsLong(hCuDnn, hBottomDesc));

                ulStateCount = (ulong)Math.Round(rg[0] / sizeof(double), 0, MidpointRounding.AwayFromZero);

                ulReservedCount = (ulong)Math.Round(rg[1] / sizeof(double), 0, MidpointRounding.AwayFromZero);

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.GET_DROPOUT_INFO, null, m_param.AsLong(hCuDnn, hBottomDesc));

                ulStateCount = (ulong)Math.Round(rg[0] / sizeof(float), 0, MidpointRounding.AwayFromZero);

                ulReservedCount = (ulong)Math.Round(rg[1] / sizeof(float), 0, MidpointRounding.AwayFromZero);

            }

        }


        public void DropoutForward(long hCuDnn, long hDropoutDesc, long hBottomDesc, long hBottomData, long hTopDesc, long hTopData, long hReserved)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.FWD_DROPOUT, null, m_param.AsLong(hCuDnn, hDropoutDesc, hBottomDesc, hBottomData, hTopDesc, hTopData, hReserved));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.FWD_DROPOUT, null, m_param.AsLong(hCuDnn, hDropoutDesc, hBottomDesc, hBottomData, hTopDesc, hTopData, hReserved));

        }


        public void DropoutBackward(long hCuDnn, long hDropoutDesc, long hTopDesc, long hTop, long hBottomDesc, long hBottom, long hReserved)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.BWD_DROPOUT, null, m_param.AsLong(hCuDnn, hDropoutDesc, hTopDesc, hTop, hBottomDesc, hBottom, hReserved));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.BWD_DROPOUT, null, m_param.AsLong(hCuDnn, hDropoutDesc, hTopDesc, hTop, hBottomDesc, hBottom, hReserved));

        }


        public long CreateLRNDesc()

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CREATE_LRNDESC, null);

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CREATE_LRNDESC, null);

                return (long)rg[0];

            }

        }


        public void FreeLRNDesc(long h)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.FREE_LRNDESC, m_param.AsDouble(h));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.FREE_LRNDESC, m_param.AsFloat(h));

        }


        public void SetLRNDesc(long hHandle, uint nSize, double fAlpha, double fBeta, double fK)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.SET_LRNDESC, m_param.AsDouble(fAlpha, fBeta, fK), m_param.AsLong(hHandle, nSize, 0, 0, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.SET_LRNDESC, m_param.AsFloat((float)fAlpha, (float)fBeta, (float)fK), m_param.AsLong(hHandle, nSize, 0, 0, 0));

        }


        public void LRNCrossChannelForward(long hCuDnn, long hNormDesc, T fAlpha, long hBottomDesc, long hBottomData, T fBeta, long hTopDesc, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.LRN_CC_FWD, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, hNormDesc, 0, hBottomDesc, hBottomData, 0, hTopDesc, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.LRN_CC_FWD, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, hNormDesc, 0, hBottomDesc, hBottomData, 0, hTopDesc, hTopData));

        }


        public void LRNCrossChannelBackward(long hCuDnn, long hNormDesc, T fAlpha, long hTopDataDesc, long hTopData, long hTopDiffDesc, long hTopDiff, long hBottomDataDesc, long hBottomData, T fBeta, long hBottomDiffDesc, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.LRN_CC_BWD, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, hNormDesc, 0, hTopDataDesc, hTopData, hTopDiffDesc, hTopDiff, hBottomDataDesc, hBottomData, 0, hBottomDiffDesc, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.LRN_CC_BWD, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, hNormDesc, 0, hTopDataDesc, hTopData, hTopDiffDesc, hTopDiff, hBottomDataDesc, hBottomData, 0, hBottomDiffDesc, hBottomDiff));

        }


        public void DivisiveNormalizationForward(long hCuDnn, long hNormDesc, T fAlpha, long hBottomDataDesc, long hBottomData, long hTemp1, long hTemp2, T fBeta, long hTopDataDesc, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.LCN_CC_FWD, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, hNormDesc, 0, hBottomDataDesc, hBottomData, hTemp1, hTemp2, 0, hTopDataDesc, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.LCN_CC_FWD, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, hNormDesc, 0, hBottomDataDesc, hBottomData, hTemp1, hTemp2, 0, hTopDataDesc, hTopData));

        }


        public void DivisiveNormalizationBackward(long hCuDnn, long hNormDesc, T fAlpha, long hBottomDataDesc, long hBottomData, long hTopDiff, long hTemp1, long hTemp2, T fBeta, long hBottomDiffDesc, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.LCN_CC_BWD, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, hNormDesc, 0, hBottomDataDesc, hBottomData, hTopDiff, hTemp1, hTemp2, 0, hBottomDiffDesc, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.LCN_CC_BWD, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, hNormDesc, 0, hBottomDataDesc, hBottomData, hTopDiff, hTemp1, hTemp2, 0, hBottomDiffDesc, hBottomDiff));

        }


        public void TanhForward(long hCuDnn, T fAlpha, long hBottomDataDesc, long hBottomData, T fBeta, long hTopDataDesc, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.TANH_FWD, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, 0, hBottomDataDesc, hBottomData, 0, hTopDataDesc, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.TANH_FWD, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, 0, hBottomDataDesc, hBottomData, 0, hTopDataDesc, hTopData));

        }


        public void TanhBackward(long hCuDnn, T fAlpha, long hTopDataDesc, long hTopData, long hTopDiffDesc, long hTopDiff, long hBottomDataDesc, long hBottomData, T fBeta, long hBottomDiffDesc, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.TANH_BWD, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, 0, hTopDataDesc, hTopData, hTopDiffDesc, hTopDiff, hBottomDataDesc, hBottomData, 0, hBottomDiffDesc, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.TANH_BWD, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, 0, hTopDataDesc, hTopData, hTopDiffDesc, hTopDiff, hBottomDataDesc, hBottomData, 0, hBottomDiffDesc, hBottomDiff));

        }


        public void EluForward(long hCuDnn, T fAlpha, long hBottomDataDesc, long hBottomData, T fBeta, long hTopDataDesc, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.ELU_FWD, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, 0, hBottomDataDesc, hBottomData, 0, hTopDataDesc, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.ELU_FWD, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, 0, hBottomDataDesc, hBottomData, 0, hTopDataDesc, hTopData));

        }


        public void EluBackward(long hCuDnn, T fAlpha, long hTopDataDesc, long hTopData, long hTopDiffDesc, long hTopDiff, long hBottomDataDesc, long hBottomData, T fBeta, long hBottomDiffDesc, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.ELU_BWD, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, 0, hTopDataDesc, hTopData, hTopDiffDesc, hTopDiff, hBottomDataDesc, hBottomData, 0, hBottomDiffDesc, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.ELU_BWD, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, 0, hTopDataDesc, hTopData, hTopDiffDesc, hTopDiff, hBottomDataDesc, hBottomData, 0, hBottomDiffDesc, hBottomDiff));

        }


        public void SigmoidForward(long hCuDnn, T fAlpha, long hBottomDataDesc, long hBottomData, T fBeta, long hTopDataDesc, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.SIGMOID_FWD, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, 0, hBottomDataDesc, hBottomData, 0, hTopDataDesc, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.SIGMOID_FWD, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, 0, hBottomDataDesc, hBottomData, 0, hTopDataDesc, hTopData));

        }


        public void SigmoidBackward(long hCuDnn, T fAlpha, long hTopDataDesc, long hTopData, long hTopDiffDesc, long hTopDiff, long hBottomDataDesc, long hBottomData, T fBeta, long hBottomDiffDesc, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.SIGMOID_BWD, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, 0, hTopDataDesc, hTopData, hTopDiffDesc, hTopDiff, hBottomDataDesc, hBottomData, 0, hBottomDiffDesc, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.SIGMOID_BWD, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, 0, hTopDataDesc, hTopData, hTopDiffDesc, hTopDiff, hBottomDataDesc, hBottomData, 0, hBottomDiffDesc, hBottomDiff));

        }


        public void ReLUForward(long hCuDnn, T fAlpha, long hBottomDataDesc, long hBottomData, T fBeta, long hTopDataDesc, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.RELU_FWD, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, 0, hBottomDataDesc, hBottomData, 0, hTopDataDesc, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.RELU_FWD, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, 0, hBottomDataDesc, hBottomData, 0, hTopDataDesc, hTopData));

        }


        public void ReLUBackward(long hCuDnn, T fAlpha, long hTopDataDesc, long hTopData, long hTopDiffDesc, long hTopDiff, long hBottomDataDesc, long hBottomData, T fBeta, long hBottomDiffDesc, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.RELU_BWD, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, 0, hTopDataDesc, hTopData, hTopDiffDesc, hTopDiff, hBottomDataDesc, hBottomData, 0, hBottomDiffDesc, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.RELU_BWD, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, 0, hTopDataDesc, hTopData, hTopDiffDesc, hTopDiff, hBottomDataDesc, hBottomData, 0, hBottomDiffDesc, hBottomDiff));

        }


        public void SoftmaxForward(long hCuDnn, SOFTMAX_ALGORITHM alg, SOFTMAX_MODE mode, T fAlpha, long hBottomDataDesc, long hBottomData, T fBeta, long hTopDataDesc, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.SOFTMAX_FWD, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, 0, hBottomDataDesc, hBottomData, 0, hTopDataDesc, hTopData, (int)alg, (int)mode));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.SOFTMAX_FWD, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, 0, hBottomDataDesc, hBottomData, 0, hTopDataDesc, hTopData, (int)alg, (int)mode));

        }


        public void SoftmaxBackward(long hCuDnn, SOFTMAX_ALGORITHM alg, SOFTMAX_MODE mode, T fAlpha, long hTopDataDesc, long hTopData, long hTopDiffDesc, long hTopDiff, T fBeta, long hBottomDiffDesc, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.SOFTMAX_BWD, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(hCuDnn, 0, hTopDataDesc, hTopData, hTopDiffDesc, hTopDiff, 0, hBottomDiffDesc, hBottomDiff, (int)alg, (int)mode));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.SOFTMAX_BWD, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(hCuDnn, 0, hTopDataDesc, hTopData, hTopDiffDesc, hTopDiff, 0, hBottomDiffDesc, hBottomDiff, (int)alg, (int)mode));

        }


        public long CreateRnnDataDesc()

        {

            int nFn = (m_bEnableRnnExtendedVersion) ? (int)CUDAFN.CREATE_RNN_DATA_DESCEX : (int)CUDAFN.CREATE_RNN_DATA_DESC;


            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, nFn, null);

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, nFn, null);

                return (long)rg[0];

            }

        }


        public void FreeRnnDataDesc(long h)

        {

            int nFn = (m_bEnableRnnExtendedVersion) ? (int)CUDAFN.FREE_RNN_DATA_DESCEX : (int)CUDAFN.FREE_RNN_DATA_DESC;


            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, nFn, m_param.AsDouble(h));

            else

                m_cuda.RunFloat((int)m_hKernel, nFn, m_param.AsFloat(h));

        }


        public void SetRnnDataDesc(long hRnnDataDesc, RNN_DATALAYOUT layout, int nMaxSeqLen, int nBatchSize, int nVectorSize, bool bBidirectional = false, int[] rgSeqLen = null)

        {

            if (!m_bEnableRnnExtendedVersion && layout != RNN_DATALAYOUT.RNN_SEQ_MAJOR_UNPACKED)

                throw new Exception("The non-extended functions only support RNN_SEQ_MAJOR ordering.");


            int nFn = (m_bEnableRnnExtendedVersion) ? (int)CUDAFN.SET_RNN_DATA_DESCEX : (int)CUDAFN.SET_RNN_DATA_DESC;


            if (m_dt == DataType.DOUBLE)

            {

                List<long> rgArg = new List<long>() { hRnnDataDesc, (long)layout, nMaxSeqLen, nBatchSize, nVectorSize, (bBidirectional) ? 1 : 0 };


                if (rgSeqLen != null)

                {

                    for (int i = 0; i < rgSeqLen.Length; i++)

                    {

                        rgArg.Add(rgSeqLen[i]);

                    }

                }


                m_cuda.RunDoubleEx2((int)m_hKernel, nFn, null, rgArg.ToArray());

            }

            else

            {

                List<long> rgArg = new List<long>() { hRnnDataDesc, (long)layout, nMaxSeqLen, nBatchSize, nVectorSize, (bBidirectional) ? 1 : 0 };


                if (rgSeqLen != null)

                {

                    for (int i = 0; i < rgSeqLen.Length; i++)

                    {

                        rgArg.Add(rgSeqLen[i]);

                    }

                }


                m_cuda.RunFloatEx2((int)m_hKernel, nFn, null, rgArg.ToArray());

            }

        }


        public long CreateRnnDesc()

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CREATE_RNN_DESC, null);

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CREATE_RNN_DESC, null);

                return (long)rg[0];

            }

        }


        public void FreeRnnDesc(long h)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.FREE_RNN_DESC, m_param.AsDouble(h));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.FREE_RNN_DESC, m_param.AsFloat(h));

        }


        public void SetRnnDesc(long hCuDnn, long hRnnDesc, int nHiddenCount, int nNumLayers, long hDropoutDesc, RNN_MODE mode, bool bUseTensorCores, RNN_DIRECTION direction = RNN_DIRECTION.RNN_UNIDIRECTIONAL)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.SET_RNN_DESC, null, m_param.AsLong(hCuDnn, hRnnDesc, nHiddenCount, nNumLayers, hDropoutDesc, (int)mode, (bUseTensorCores) ? 1 : 0, (long)direction));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.SET_RNN_DESC, null, m_param.AsLong(hCuDnn, hRnnDesc, nHiddenCount, nNumLayers, hDropoutDesc, (int)mode, (bUseTensorCores) ? 1 : 0, (long)direction));

        }


        public int GetRnnParamCount(long hCuDnn, long hRnnDesc, long hXDesc)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.GET_RNN_PARAMCOUNT, null, m_param.AsLong(hCuDnn, hRnnDesc, hXDesc, (m_bEnableRnnExtendedVersion) ? 1 : 0));

                return (int)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.GET_RNN_PARAMCOUNT, null, m_param.AsLong(hCuDnn, hRnnDesc, hXDesc, (m_bEnableRnnExtendedVersion) ? 1 : 0));

                return (int)rg[0];

            }

        }


        public ulong GetRnnWorkspaceCount(long hCuDnn, long hRnnDesc, long hXDesc, out ulong nReservedCount)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.GET_RNN_WORKSPACECOUNT, null, m_param.AsLong(hCuDnn, hRnnDesc, (m_bEnableRnnExtendedVersion) ? 1 : 0, hXDesc));

                nReservedCount = (ulong)rg[1];

                return (ulong)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.GET_RNN_WORKSPACECOUNT, null, m_param.AsLong(hCuDnn, hRnnDesc, (m_bEnableRnnExtendedVersion) ? 1 : 0, hXDesc));

                nReservedCount = (ulong)rg[1];

                return (ulong)rg[0];

            }

        }


        public void GetRnnLinLayerParams(long hCuDnn, long hRnnDesc, int nLayer, long hXDesc, long hWtDesc, long hWtData, int nLinLayer, out int nWtCount, out long hWt, out int nBiasCount, out long hBias)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.GET_RNN_LINLAYERPARAMS, null, m_param.AsLong(hCuDnn, hRnnDesc, nLayer, hXDesc, hWtDesc, hWtData, nLinLayer, (m_bEnableRnnExtendedVersion) ? 1 : 0));

                nWtCount = (int)rg[0];

                hWt = (long)rg[1];

                nBiasCount = (int)rg[2];

                hBias = (long)rg[3];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.GET_RNN_LINLAYERPARAMS, null, m_param.AsLong(hCuDnn, hRnnDesc, nLayer, hXDesc, hWtDesc, hWtData, nLinLayer, (m_bEnableRnnExtendedVersion) ? 1 : 0));

                nWtCount = (int)rg[0];

                hWt = (long)rg[1];

                nBiasCount = (int)rg[2];

                hBias = (long)rg[3];

            }

        }


        public void RnnForward(long hCuDnn, long hRnnDesc, long hXDesc, long hXData, long hHxDesc, long hHxData, long hCxDesc, long hCxData, long hWtDesc, long hWtData, long hYDesc, long hYData, long hHyDesc, long hHyData, long hCyDesc, long hCyData, long hWorkspace, ulong nWsCount, long hReserved, ulong nResCount, bool bTraining)

        {

            if (m_dt == DataType.DOUBLE)

            {

                List<long> rgArg = new List<long>() { hCuDnn, hRnnDesc };


                rgArg.Add(hXDesc);

                rgArg.Add(hXData);


                rgArg.Add(hHxDesc);

                rgArg.Add(hHxData);

                rgArg.Add(hCxDesc);

                rgArg.Add(hCxData);


                rgArg.Add(hWtDesc);

                rgArg.Add(hWtData);


                rgArg.Add(hYDesc);

                rgArg.Add(hYData);


                rgArg.Add(hHyDesc);

                rgArg.Add(hHyData);

                rgArg.Add(hCyDesc);

                rgArg.Add(hCyData);


                rgArg.Add(hWorkspace);

                rgArg.Add((long)nWsCount);

                rgArg.Add(hReserved);

                rgArg.Add((long)nResCount);

                rgArg.Add((bTraining) ? 1 : 0);


                if (m_bEnableRnnExtendedVersion)

                    rgArg.Add(1);


                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.FWD_RNN, null, rgArg.ToArray());

            }

            else

            {

                List<long> rgArg = new List<long>() { hCuDnn, hRnnDesc };


                rgArg.Add(hXDesc);

                rgArg.Add(hXData);


                rgArg.Add(hHxDesc);

                rgArg.Add(hHxData);

                rgArg.Add(hCxDesc);

                rgArg.Add(hCxData);


                rgArg.Add(hWtDesc);

                rgArg.Add(hWtData);


                rgArg.Add(hYDesc);

                rgArg.Add(hYData);


                rgArg.Add(hHyDesc);

                rgArg.Add(hHyData);

                rgArg.Add(hCyDesc);

                rgArg.Add(hCyData);


                rgArg.Add(hWorkspace);

                rgArg.Add((long)nWsCount);

                rgArg.Add(hReserved);

                rgArg.Add((long)nResCount);

                rgArg.Add((bTraining) ? 1 : 0);


                if (m_bEnableRnnExtendedVersion)

                    rgArg.Add(1);


                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.FWD_RNN, null, rgArg.ToArray());

            }

        }


        public void RnnBackwardData(long hCuDnn, long hRnnDesc, long hYDesc, long hYData, long hYDiff, long hHyDesc, long hHyDiff, long hCyDesc, long hCyDiff, long hWtDesc, long hWtData, long hHxDesc, long hHxData, long hCxDesc, long hCxData, long hXDesc, long hXDiff, long hdHxDesc, long hHxDiff, long hdCxDesc, long hCxDiff, long hWorkspace, ulong nWsCount, long hReserved, ulong nResCount)

        {

            if (m_dt == DataType.DOUBLE)

            {

                List<long> rgArg = new List<long>() { hCuDnn, hRnnDesc };


                rgArg.Add(hYDesc);

                rgArg.Add(hYData);

                rgArg.Add(hYDiff);


                rgArg.Add(hHyDesc);

                rgArg.Add(hHyDiff);

                rgArg.Add(hCyDesc);

                rgArg.Add(hCyDiff);


                rgArg.Add(hWtDesc);

                rgArg.Add(hWtData);


                rgArg.Add(hHxDesc);

                rgArg.Add(hHxData);

                rgArg.Add(hCxDesc);

                rgArg.Add(hCxData);


                rgArg.Add(hXDesc);

                rgArg.Add(hXDiff);


                rgArg.Add(hdHxDesc);

                rgArg.Add(hHxDiff);

                rgArg.Add(hdCxDesc);

                rgArg.Add(hCxDiff);


                rgArg.Add(hWorkspace);

                rgArg.Add((long)nWsCount);

                rgArg.Add(hReserved);

                rgArg.Add((long)nResCount);


                if (m_bEnableRnnExtendedVersion)

                    rgArg.Add(1);


                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.BWD_RNN_DATA, null, rgArg.ToArray());

            }

            else

            {

                List<long> rgArg = new List<long>() { hCuDnn, hRnnDesc };


                rgArg.Add(hYDesc);

                rgArg.Add(hYData);

                rgArg.Add(hYDiff);


                rgArg.Add(hHyDesc);

                rgArg.Add(hHyDiff);

                rgArg.Add(hCyDesc);

                rgArg.Add(hCyDiff);


                rgArg.Add(hWtDesc);

                rgArg.Add(hWtData);


                rgArg.Add(hHxDesc);

                rgArg.Add(hHxData);

                rgArg.Add(hCxDesc);

                rgArg.Add(hCxData);


                rgArg.Add(hXDesc);

                rgArg.Add(hXDiff);


                rgArg.Add(hdHxDesc);

                rgArg.Add(hHxDiff);

                rgArg.Add(hdCxDesc);

                rgArg.Add(hCxDiff);


                rgArg.Add(hWorkspace);

                rgArg.Add((long)nWsCount);

                rgArg.Add(hReserved);

                rgArg.Add((long)nResCount);


                if (m_bEnableRnnExtendedVersion)

                    rgArg.Add(1);


                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.BWD_RNN_DATA, null, rgArg.ToArray());

            }

        }


        public void RnnBackwardWeights(long hCuDnn, long hRnnDesc, long hXDesc, long hXData, long hHxDesc, long hHxData, long hYDesc, long hYData, long hWorkspace, ulong nWsCount, long hWtDesc, long hWtDiff, long hReserved, ulong nResCount)

        {

            if (m_dt == DataType.DOUBLE)

            {

                List<long> rgArg = new List<long>() { hCuDnn, hRnnDesc };


                rgArg.Add(hXDesc);

                rgArg.Add(hXData);


                rgArg.Add(hHxDesc);

                rgArg.Add(hHxData);


                rgArg.Add(hYDesc);

                rgArg.Add(hYData);


                rgArg.Add(hWorkspace);

                rgArg.Add((long)nWsCount);


                rgArg.Add(hWtDesc);

                rgArg.Add(hWtDiff);


                rgArg.Add(hReserved);

                rgArg.Add((long)nResCount);


                if (m_bEnableRnnExtendedVersion)

                    rgArg.Add(1);


                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.BWD_RNN_WTS, null, rgArg.ToArray());

            }

            else

            {

                List<long> rgArg = new List<long>() { hCuDnn, hRnnDesc };


                rgArg.Add(hXDesc);

                rgArg.Add(hXData);


                rgArg.Add(hHxDesc);

                rgArg.Add(hHxData);


                rgArg.Add(hYDesc);

                rgArg.Add(hYData);


                rgArg.Add(hWorkspace);

                rgArg.Add((long)nWsCount);


                rgArg.Add(hWtDesc);

                rgArg.Add(hWtDiff);


                rgArg.Add(hReserved);

                rgArg.Add((long)nResCount);


                if (m_bEnableRnnExtendedVersion)

                    rgArg.Add(1);


                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.BWD_RNN_WTS, null, rgArg.ToArray());

            }

        }


        public bool IsRnn8Supported()

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.RNN8_IS_SUPPORTED, null);

                return (rg[0] == 1) ? true : false;

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.RNN8_IS_SUPPORTED, null);

                return (rg[0] == 1) ? true : false;

            }

        }


        public long CreateRnn8()

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.RNN8_CREATE, null);

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.RNN8_CREATE, null);

                return (long)rg[0];

            }

        }


        public void FreeRnn8(long h)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.RNN8_FREE, m_param.AsDouble(h));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.RNN8_FREE, m_param.AsFloat(h));

        }


        public void SetRnn8(long hCuDnn, long hRnn, bool bTraining, RNN_DATALAYOUT layout, RNN_MODE cellMode, RNN_BIAS_MODE biasMode, int nSequenceLen, int nBatchSize, int nInputs, int nHidden, int nOutputs, int nProjection, int nNumLayers, float fDropout, ulong lSeed, bool bBidirectional = false)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.RNN8_SET, m_param.AsDouble((double)fDropout), m_param.AsLong(hCuDnn, hRnn, (bTraining) ? 1 : 0, (int)layout, (int)cellMode, (int)biasMode, nSequenceLen, nBatchSize, nInputs, nHidden, nOutputs, nProjection, nNumLayers, (long)lSeed, (bBidirectional) ? 1 : 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.RNN8_SET, m_param.AsFloat(fDropout), m_param.AsLong(hCuDnn, hRnn, (bTraining) ? 1 : 0, (int)layout, (int)cellMode, (int)biasMode, nSequenceLen, nBatchSize, nInputs, nHidden, nOutputs, nProjection, nNumLayers, (long)lSeed, (bBidirectional) ? 1 : 0));

        }


        public void GetRnn8MemorySizes(long hCuDnn, long hRnn, out ulong szWtCount, out ulong szWorkSize, out ulong szReservedSize)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.RNN8_GET_MEMORY_SIZES, null, m_param.AsLong(hCuDnn, hRnn));

                szWtCount = (ulong)rg[0];

                szWorkSize = (ulong)rg[1];

                szReservedSize = (ulong)rg[2];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.RNN8_GET_MEMORY_SIZES, null, m_param.AsLong(hCuDnn, hRnn));

                szWtCount = (ulong)rg[0];

                szWorkSize = (ulong)rg[1];

                szReservedSize = (ulong)rg[2];

            }

        }


        public void InitializeRnn8Weights(long hCuDnn, long hRnn, long hWt, RNN_FILLER_TYPE wtFt, double fWtVal, double fWtVal2, RNN_FILLER_TYPE biasFt, double fBiasVal, double fBiasVal2)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.RNN8_INIT_WEIGHTS, m_param.AsDouble(fWtVal, fWtVal2, fBiasVal, fBiasVal2), m_param.AsLong(hCuDnn, hRnn, hWt, (int)wtFt, (int)biasFt));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.RNN8_INIT_WEIGHTS, m_param.AsFloat((float)fWtVal, (float)fWtVal2, (float)fBiasVal, (float)fBiasVal2), m_param.AsLong(hCuDnn, hRnn, hWt, (int)wtFt, (int)biasFt));

        }


        public void Rnn8Forward(long hCuDnn, long hRnn, long hX, long hY, long hhX, long hhY, long hcX, long hcY, long hWts, long hWork, long hReserved)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.RNN8_FWD, null, m_param.AsLong(hCuDnn, hRnn, hX, hY, hhX, hhY, hcX, hcY, hWts, hWork, hReserved));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.RNN8_FWD, null, m_param.AsLong(hCuDnn, hRnn, hX, hY, hhX, hhY, hcX, hcY, hWts, hWork, hReserved));

        }


        public void Rnn8Backward(long hCuDnn, long hRnn, long hY, long hdY, long hX, long hdX, long hhX, long hdhY, long hdhX, long hcX, long hdcY, long hdcX, long hWt, long hdWt, long hWork, long hReserved)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.RNN8_BWD, null, m_param.AsLong(hCuDnn, hRnn, hY, hdY, hX, hdX, hhX, hdhY, hdhX, hcX, hdcY, hdcX, hWt, hdWt, hWork, hReserved));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.RNN8_BWD, null, m_param.AsLong(hCuDnn, hRnn, hY, hdY, hX, hdX, hhX, hdhY, hdhX, hcX, hdcY, hdcX, hWt, hdWt, hWork, hReserved));

        }


        public long AllocPCAData(int nM, int nN, int nK, out int nCount)

        {

            nCount = nM * nN;

            return AllocMemory(nCount);

        }


        public long AllocPCAScores(int nM, int nN, int nK, out int nCount)

        {

            nCount = nM * nK;

            return AllocMemory(nCount);

        }


        public long AllocPCALoads(int nM, int nN, int nK, out int nCount)

        {

            nCount = nN * nK;

            return AllocMemory(nCount);

        }


        public long AllocPCAEigenvalues(int nM, int nN, int nK, out int nCount)

        {

            nCount = nK * 1;

            return AllocHostBuffer(nCount);

        }


        public long CreatePCA(int nMaxIterations, int nM, int nN, int nK, long hData, long hScoresResult, long hLoadsResult, long hResiduals = 0, long hEigenvalues = 0)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CREATE_PCA, null, m_param.AsLong(nMaxIterations, nM, nN, nK, hData, hScoresResult, hLoadsResult, hResiduals, hEigenvalues));

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CREATE_PCA, null, m_param.AsLong(nMaxIterations, nM, nN, nK, hData, hScoresResult, hLoadsResult, hResiduals, hEigenvalues));

                return (long)rg[0];

            }

        }


        public bool RunPCA(long hPCA, int nSteps, out int nCurrentK, out int nCurrentIteration)

        {

            bool bDone = false;


            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_RUN_PCA, null, m_param.AsLong(hPCA, nSteps));

                bDone = (rg[0] == 1.0) ? true : false;

                nCurrentIteration = (int)rg[1];

                nCurrentK = (int)rg[2];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_RUN_PCA, null, m_param.AsLong(hPCA, nSteps));

                bDone = (rg[0] == 1.0f) ? true : false;

                nCurrentIteration = (int)rg[1];

                nCurrentK = (int)rg[2];

            }


            return bDone;

        }


        public void FreePCA(long hPCA)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CUDA_FREE_PCA, m_param.AsDouble(hPCA));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CUDA_FREE_PCA, m_param.AsFloat(hPCA));

        }


        public long CreateSSD(int nNumClasses, bool bShareLocation, int nLocClasses, int nBackgroundLabelId, bool bUseDiffcultGt, SSD_MINING_TYPE miningType, SSD_MATCH_TYPE matchType, float fOverlapThreshold, bool bUsePriorForMatching, SSD_CODE_TYPE codeType, bool bEncodeVariantInTgt, bool bBpInside, bool bIgnoreCrossBoundaryBbox, bool bUsePriorForNms, SSD_CONF_LOSS_TYPE confLossType, SSD_LOC_LOSS_TYPE locLossType, float fNegPosRatio, float fNegOverlap, int nSampleSize, bool bMapObjectToAgnostic, bool bNmsParam, float? fNmsThreshold = null, int? nNmsTopK = null, float? fNmsEta = null)

        {

            int nGpuID = GetDeviceID();


            if (m_dt == DataType.DOUBLE)

            {

                List<double> rgArg = new List<double>();


                /* 0 */

                rgArg.Add(nGpuID);

                /* 1 */

                rgArg.Add(nNumClasses);

                /* 2 */

                rgArg.Add((bShareLocation) ? 1 : 0);

                /* 3 */

                rgArg.Add(nLocClasses);

                /* 4 */

                rgArg.Add(nBackgroundLabelId);

                /* 5 */

                rgArg.Add((bUseDiffcultGt) ? 1 : 0);

                /* 6 */

                rgArg.Add((int)miningType);

                /* 7 */

                rgArg.Add((int)matchType);

                /* 8 */

                rgArg.Add(fOverlapThreshold);

                /* 9 */

                rgArg.Add((bUsePriorForMatching) ? 1 : 0);

                /* 10 */

                rgArg.Add((int)codeType);

                /* 11 */

                rgArg.Add((bEncodeVariantInTgt) ? 1 : 0);

                /* 12 */

                rgArg.Add((bBpInside) ? 1 : 0);

                /* 13 */

                rgArg.Add((bIgnoreCrossBoundaryBbox) ? 1 : 0);

                /* 14 */

                rgArg.Add((bUsePriorForNms) ? 1 : 0);

                /* 15 */

                rgArg.Add((int)confLossType);

                /* 16 */

                rgArg.Add((int)locLossType);

                /* 17 */

                rgArg.Add(fNegPosRatio);

                /* 18 */

                rgArg.Add(fNegOverlap);

                /* 19 */

                rgArg.Add(nSampleSize);

                /* 20 */

                rgArg.Add((bMapObjectToAgnostic) ? 1 : 0);

                /* 21 */

                rgArg.Add((bNmsParam) ? 1 : 0);


                if (bNmsParam)

                {

                    if (!fNmsThreshold.HasValue)

                        throw new Exception("An NMS threshold must be specified when the 'bNmsParam' is true.");


                    /* 22 */

                    rgArg.Add(fNmsThreshold.GetValueOrDefault(0));

                    /* 23 */

                    rgArg.Add(nNmsTopK.GetValueOrDefault(-1));

                    /* 24 */

                    rgArg.Add(fNmsEta.GetValueOrDefault(1));

                }


                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CUDA_CREATE_SSD, rgArg.ToArray());

                return (long)rg[0];

            }

            else

            {

                List<float> rgArg = new List<float>();


                /* 0 */

                rgArg.Add(nGpuID);

                /* 1 */

                rgArg.Add(nNumClasses);

                /* 2 */

                rgArg.Add((bShareLocation) ? 1 : 0);

                /* 3 */

                rgArg.Add(nLocClasses);

                /* 4 */

                rgArg.Add(nBackgroundLabelId);

                /* 5 */

                rgArg.Add((bUseDiffcultGt) ? 1 : 0);

                /* 6 */

                rgArg.Add((int)miningType);

                /* 7 */

                rgArg.Add((int)matchType);

                /* 8 */

                rgArg.Add(fOverlapThreshold);

                /* 9 */

                rgArg.Add((bUsePriorForMatching) ? 1 : 0);

                /* 10 */

                rgArg.Add((int)codeType);

                /* 11 */

                rgArg.Add((bEncodeVariantInTgt) ? 1 : 0);

                /* 12 */

                rgArg.Add((bBpInside) ? 1 : 0);

                /* 13 */

                rgArg.Add((bIgnoreCrossBoundaryBbox) ? 1 : 0);

                /* 14 */

                rgArg.Add((bUsePriorForNms) ? 1 : 0);

                /* 15 */

                rgArg.Add((int)confLossType);

                /* 16 */

                rgArg.Add((int)locLossType);

                /* 17 */

                rgArg.Add(fNegPosRatio);

                /* 18 */

                rgArg.Add(fNegOverlap);

                /* 19 */

                rgArg.Add(nSampleSize);

                /* 20 */

                rgArg.Add((bMapObjectToAgnostic) ? 1 : 0);

                /* 21 */

                rgArg.Add((bNmsParam) ? 1 : 0);


                if (bNmsParam)

                {

                    if (!fNmsThreshold.HasValue)

                        throw new Exception("An NMS threshold must be specified when the 'bNmsParam' is true.");


                    /* 22 */

                    rgArg.Add(fNmsThreshold.GetValueOrDefault(0));

                    /* 23 */

                    rgArg.Add(nNmsTopK.GetValueOrDefault(-1));

                    /* 24 */

                    rgArg.Add(fNmsEta.GetValueOrDefault(1));

                }


                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CUDA_CREATE_SSD, rgArg.ToArray());

                return (long)rg[0];

            }

        }


        public void SetupSSD(long hSSD, int nNum, int nNumPriors, int nNumGt)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CUDA_SETUP_SSD, m_param.AsDouble(hSSD, nNum, nNumPriors, nNumGt));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CUDA_SETUP_SSD, m_param.AsFloat(hSSD, nNum, nNumPriors, nNumGt));

        }


        public void FreeSSD(long hSSD)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CUDA_FREE_SSD, m_param.AsDouble(hSSD));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CUDA_FREE_SSD, m_param.AsFloat(hSSD));

        }


        public int SsdMultiBoxLossForward(long hSSD, int nLocDataCount, long hLocGpuData, int nConfDataCount, long hConfGpuData, int nPriorDataCount, long hPriorGpuData, int nGtDataCount, long hGtGpuData, out List<DictionaryMap<List<int>>> rgAllMatchIndices, out List<List<int>> rgrgAllNegIndices, out int nNumNegs)

        {

            int nIdx = 0;

            int nMatchCount = 0;

            rgAllMatchIndices = new List<DictionaryMap<List<int>>>();

            rgrgAllNegIndices = new List<List<int>>();


            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SSD_FWD_MULTIBOXLOSS, null, m_param.AsLong(hSSD, nLocDataCount, hLocGpuData, nConfDataCount, hConfGpuData, nPriorDataCount, hPriorGpuData, nGtDataCount, hGtGpuData));

                nMatchCount = (int)rg[nIdx];

                nIdx++;

                nNumNegs = (int)rg[nIdx];

                nIdx++;


                // Get the match indices.

                int nNumAllMatchIndices = (int)rg[nIdx];

                nIdx++;

                for (int i = 0; i < nNumAllMatchIndices; i++)

                {

                    DictionaryMap<List<int>> map = new DictionaryMap<List<int>>(null);


                    int nMapCount = (int)rg[nIdx];

                    nIdx++;

                    for (int j = 0; j < nMapCount; j++)

                    {

                        int nLabel = (int)rg[nIdx];

                        nIdx++;

                        List<int> rgIdx = new List<int>();


                        int nItemCount = (int)rg[nIdx];

                        nIdx++;

                        for (int k = 0; k < nItemCount; k++)

                        {

                            int nItemIdx = (int)rg[nIdx];

                            nIdx++;

                            rgIdx.Add(nItemIdx);

                        }


                        map[nLabel] = rgIdx;

                    }


                    rgAllMatchIndices.Add(map);

                }


                // Get the neg indices.

                int nNegListCount = (int)rg[nIdx];

                nIdx++;

                for (int i = 0; i < nNegListCount; i++)

                {

                    int nItemCount = (int)rg[nIdx];

                    nIdx++;

                    List<int> rgItems = new List<int>();


                    for (int j = 0; j < nItemCount; j++)

                    {

                        int nItemIdx = (int)rg[nIdx];

                        nIdx++;

                        rgItems.Add(nItemIdx);

                    }


                    rgrgAllNegIndices.Add(rgItems);

                }

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SSD_FWD_MULTIBOXLOSS, null, m_param.AsLong(hSSD, nLocDataCount, hLocGpuData, nConfDataCount, hConfGpuData, nPriorDataCount, hPriorGpuData, nGtDataCount, hGtGpuData));

                nMatchCount = (int)rg[nIdx];

                nIdx++;

                nNumNegs = (int)rg[nIdx];

                nIdx++;


                // Get the match indices.

                int nMapListCount = (int)rg[nIdx];

                nIdx++;

                for (int i = 0; i < nMapListCount; i++)

                {

                    DictionaryMap<List<int>> map = new DictionaryMap<List<int>>(null);


                    int nMapCount = (int)rg[nIdx];

                    nIdx++;

                    for (int j = 0; j < nMapCount; j++)

                    {

                        int nLabel = (int)rg[nIdx];

                        nIdx++;

                        List<int> rgIdx = new List<int>();


                        int nItemCount = (int)rg[nIdx];

                        nIdx++;

                        for (int k = 0; k < nItemCount; k++)

                        {

                            int nItemIdx = (int)rg[nIdx];

                            nIdx++;

                            rgIdx.Add(nItemIdx);

                        }


                        map[nLabel] = rgIdx;

                    }


                    rgAllMatchIndices.Add(map);

                }


                // Get the neg indices.

                int nNegListCount = (int)rg[nIdx];

                nIdx++;

                for (int i = 0; i < nNegListCount; i++)

                {

                    int nItemCount = (int)rg[nIdx];

                    nIdx++;

                    List<int> rgItems = new List<int>();


                    for (int j = 0; j < nItemCount; j++)

                    {

                        int nItemIdx = (int)rg[nIdx];

                        nIdx++;

                        rgItems.Add(nItemIdx);

                    }


                    rgrgAllNegIndices.Add(rgItems);

                }

            }


            return nMatchCount;

        }


        public void SsdEncodeLocPrediction(long hSSD, int nLocPredCount, long hLocPred, int nLocGtCount, long hLocGt)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SSD_ENCODE_LOCPRED, null, m_param.AsLong(hSSD, nLocPredCount, hLocPred, nLocGtCount, hLocGt));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SSD_ENCODE_LOCPRED, null, m_param.AsLong(hSSD, nLocPredCount, hLocPred, nLocGtCount, hLocGt));

        }


        public void SsdEncodeConfPrediction(long hSSD, int nConfPredCount, long hConfPred, int nConfGtCount, long hConfGt)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SSD_ENCODE_CONFPRED, null, m_param.AsLong(hSSD, nConfPredCount, hConfPred, nConfGtCount, hConfGt));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SSD_ENCODE_CONFPRED, null, m_param.AsLong(hSSD, nConfPredCount, hConfPred, nConfGtCount, hConfGt));

        }


        public long CreateLayerNorm(int nGpuID, int nCount, int nOuterNum, int nChannels, int nInnerNum, float fEps = 1e-10f)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CREATE_LAYERNORM, m_param.AsDouble(fEps), m_param.AsLong(nGpuID, nCount, nOuterNum, nChannels, nInnerNum, 0));

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CREATE_LAYERNORM, m_param.AsFloat(fEps), m_param.AsLong(nGpuID, nCount, nOuterNum, nChannels, nInnerNum, 0));

                return (long)rg[0];

            }

        }


        public void FreeLayerNorm(long hLayerNorm)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CUDA_FREE_LAYERNORM, m_param.AsDouble(hLayerNorm));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CUDA_FREE_LAYERNORM, m_param.AsFloat(hLayerNorm));

        }


        public void LayerNormForward(long hLayerNorm, long hXdata, long hYdata)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_LAYERNORM_FWD, null, m_param.AsLong(hLayerNorm, hXdata, hYdata));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_LAYERNORM_FWD, null, m_param.AsLong(hLayerNorm, hXdata, hYdata));

        }


        public void LayerNormBackward(long hLayerNorm, long hYdata, long hYdiff, long hXdiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_LAYERNORM_BWD, null, m_param.AsLong(hLayerNorm, hYdata, hYdiff, hXdiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_LAYERNORM_BWD, null, m_param.AsLong(hLayerNorm, hYdata, hYdiff, hXdiff));

        }


        #endregion


        //---------------------------------------------------------------------

        //  ICudaMath Methods

        //---------------------------------------------------------------------

        #region ICudaMath Methods


        public void set(int nCount, long hHandle, double fVal, int nIdx = -1)

        {

            set(nCount, hHandle, (T)Convert.ChangeType(fVal, typeof(T)), nIdx);

        }


        public void set(int nCount, long hHandle, float fVal, int nIdx = -1)

        {

            set(nCount, hHandle, (T)Convert.ChangeType(fVal, typeof(T)), nIdx);

        }


        public void set(int nCount, long hHandle, T fVal, int nIdx = -1, int nXOff = 0)

        {

            if (m_dt == DataType.DOUBLE)

            {

                if (m_rgGhostMemory == null)

                {

                    m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SET, m_param.AsDouble(convertD(fVal)), m_param.AsLong(nCount, hHandle, 0, nIdx, nXOff));

                }

                else

                {

                    if (nIdx >= 0)

                        m_rgGhostMemory[hHandle][nIdx] = fVal;

                    else

                        Utility.Set<T>(m_rgGhostMemory[hHandle], fVal);

                }

            }

            else

            {

                if (m_rgGhostMemory == null)

                {

                    m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SET, m_param.AsFloat(convertF(fVal)), m_param.AsLong(nCount, hHandle, 0, nIdx, nXOff));

                }

                else

                {

                    if (nIdx >= 0)

                        m_rgGhostMemory[hHandle][nIdx] = fVal;

                    else

                        Utility.Set<T>(m_rgGhostMemory[hHandle], fVal);

                }

            }

        }


        public double[] get_double(int nCount, long hHandle, int nIdx = -1)

        {

            return convertD(get(nCount, hHandle, nIdx));

        }


        public float[] get_float(int nCount, long hHandle, int nIdx = -1)

        {

            return convertF(get(nCount, hHandle, nIdx));

        }


        public T[] get(int nCount, long hHandle, int nIdx = -1)

        {

            if (m_dt == DataType.DOUBLE)

                return convert(m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_GET, null, m_param.AsLong(nCount, hHandle, nIdx)));

            else

                return convert(m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_GET, null, m_param.AsLong(nCount, hHandle, nIdx)));

        }


        public void copy(int nCount, long hSrc, long hDst, int nSrcOffset = 0, int nDstOffset = 0, long hStream = -1, bool? bSrcHalfSizeOverride = null, bool? bDstHalfSizeOverride = null)

        {

            int nSrcHalfSizeOverride = -1;

            int nDstHalfSizeOverride = -1;


            if (bSrcHalfSizeOverride.HasValue)

                nSrcHalfSizeOverride = (bSrcHalfSizeOverride.Value) ? 1 : 0;


            if (bDstHalfSizeOverride.HasValue)

                nDstHalfSizeOverride = (bDstHalfSizeOverride.Value) ? 1 : 0;


            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_COPY, null, m_param.AsLong(nCount, hSrc, hDst, nSrcOffset, nDstOffset, hStream, nSrcHalfSizeOverride, nDstHalfSizeOverride));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_COPY, null, m_param.AsLong(nCount, hSrc, hDst, nSrcOffset, nDstOffset, hStream, nSrcHalfSizeOverride, nDstHalfSizeOverride));

        }


        public void copy(int nCount, int nNum, int nDim, long hSrc1, long hSrc2, long hDst, long hSimilar, bool bInvert = false)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_COPY_SIM, null, m_param.AsLong(nCount, nNum, nDim, hSrc1, hSrc2, hDst, hSimilar, (bInvert) ? 1 : 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_COPY_SIM, null, m_param.AsLong(nCount, nNum, nDim, hSrc1, hSrc2, hDst, hSimilar, (bInvert) ? 1 : 0));

        }


        public void copy_batch(int nCount, int nNum, int nDim, long hSrcData, long hSrcLbl, int nDstCount, long hDstCache, long hWorkDevData, int nLabelStart, int nLabelCount, int nCacheSize, long hCacheHostCursors, long hWorkDataHost)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_COPY_BATCH, null, m_param.AsLong(nCount, nNum, nDim, hSrcData, hSrcLbl, nDstCount, hDstCache, hWorkDevData, nLabelStart, nLabelCount, nCacheSize, hCacheHostCursors, hWorkDataHost));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_COPY_BATCH, null, m_param.AsLong(nCount, nNum, nDim, hSrcData, hSrcLbl, nDstCount, hDstCache, hWorkDevData, nLabelStart, nLabelCount, nCacheSize, hCacheHostCursors, hWorkDataHost));

        }


        public void copy_sequence(int nK, int nNum, int nDim, long hSrcData, long hSrcLbl, int nSrcCacheCount, long hSrcCache, int nLabelStart, int nLabelCount, int nCacheSize, long hCacheHostCursors, bool bOutputLabels, List<long> rghTop, List<int> rgnTopCount, long hWorkDataHost, bool bCombinePositiveAndNegative = false, int nSeed = 0)

        {

            int nTopCount = 2 + nK;


            if (bOutputLabels)

                nTopCount++;


            if (bCombinePositiveAndNegative && nK != 0)

                throw new ArgumentOutOfRangeException("nK", "When using 'bCombinePositiveAndNegative', nK should be 0.");


            if (nK < 0 || nK > 10)

                throw new ArgumentOutOfRangeException("nK", "The 'nK' parameter must be within the range [0,10]!");


            if (rghTop.Count != nTopCount)

                throw new ArgumentOutOfRangeException("rghTop", "The 'rghTop' count must equal '" + nTopCount.ToString() + "' given nK = " + nK.ToString() + " and bOutputLabels = " + bOutputLabels.ToString() + "!");


            if (rgnTopCount.Count != rghTop.Count)

                throw new ArgumentOutOfRangeException("rgnTopCount", "The 'rgnTopCount' count must equal the 'rghTop' count!");


            if (m_dt == DataType.DOUBLE)

            {

                List<long> rgarg = new List<long>() { nK, nNum, nDim, hSrcData, hSrcLbl, nSrcCacheCount, hSrcCache, nLabelStart, nLabelCount, nCacheSize, hCacheHostCursors, (bOutputLabels) ? 1 : 0, hWorkDataHost, (bCombinePositiveAndNegative) ? 1 : 0, nSeed };


                for (int i = 0; i < rghTop.Count; i++)

                {

                    rgarg.Add(rghTop[i]);

                }


                for (int i = 0; i < rgnTopCount.Count; i++)

                {

                    rgarg.Add(rgnTopCount[i]);

                }


                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_COPY_SEQUENCE, null, rgarg.ToArray());

            }

            else

            {

                List<long> rgarg = new List<long>() { nK, nNum, nDim, hSrcData, hSrcLbl, nSrcCacheCount, hSrcCache, nLabelStart, nLabelCount, nCacheSize, hCacheHostCursors, (bOutputLabels) ? 1 : 0, hWorkDataHost, (bCombinePositiveAndNegative) ? 1 : 0, nSeed };


                for (int i = 0; i < rghTop.Count; i++)

                {

                    rgarg.Add(rghTop[i]);

                }


                for (int i = 0; i < rgnTopCount.Count; i++)

                {

                    rgarg.Add(rgnTopCount[i]);

                }


                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_COPY_SEQUENCE, null, rgarg.ToArray());

            }

        }


        public void copy_sequence(int n, long hSrc, int nSrcStep, int nSrcStartIdx, int nCopyCount, int nCopyDim, long hDst, int nDstStep, int nDstStartIdx, int nSrcSpatialDim, int nDstSpatialDim, int nSrcSpatialDimStartIdx = 0, int nDstSpatialDimStartIdx = 0, int nSpatialDimCount = -1)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_COPY_SEQUENCE2, null, m_param.AsLong(n, hSrc, nSrcStep, nSrcStartIdx, nCopyCount, nCopyDim, hDst, nDstStep, nDstStartIdx, nSrcSpatialDim, nDstSpatialDim, nSrcSpatialDimStartIdx, nDstSpatialDimStartIdx, nSpatialDimCount));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_COPY_SEQUENCE2, null, m_param.AsLong(n, hSrc, nSrcStep, nSrcStartIdx, nCopyCount, nCopyDim, hDst, nDstStep, nDstStartIdx, nSrcSpatialDim, nDstSpatialDim, nSrcSpatialDimStartIdx, nDstSpatialDimStartIdx, nSpatialDimCount));

        }


        public void copy_expand(int n, int nNum, int nDim, long hX, long hA)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_COPY_EXPAND, null, m_param.AsLong(n, nNum, nDim, hX, hA));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_COPY_EXPAND, null, m_param.AsLong(n, nNum, nDim, hX, hA));

        }


        public void fill(int n, int nDim, long hSrc, int nSrcOff, int nCount, long hDst)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_COPY_FILL, null, m_param.AsLong(n, nDim, hSrc, nSrcOff, nCount, hDst));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_COPY_FILL, null, m_param.AsLong(n, nDim, hSrc, nSrcOff, nCount, hDst));

        }


        public void sort(int nCount, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SORT, null, m_param.AsLong(nCount, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SORT, null, m_param.AsLong(nCount, hY)); ;

        }


        public void gemm(bool bTransA, bool bTransB, int m, int n, int k, double fAlpha, long hA, long hB, double fBeta, long hC)

        {

            gemm(bTransA, bTransB, m, n, k, (T)Convert.ChangeType(fAlpha, typeof(T)), hA, hB, (T)Convert.ChangeType(fBeta, typeof(T)), hC);

        }


        public void gemm(bool bTransA, bool bTransB, int m, int n, int k, float fAlpha, long hA, long hB, float fBeta, long hC)

        {

            gemm(bTransA, bTransB, m, n, k, (T)Convert.ChangeType(fAlpha, typeof(T)), hA, hB, (T)Convert.ChangeType(fBeta, typeof(T)), hC);

        }


        public void gemm(bool bTransA, bool bTransB, int m, int n, int k, T fAlpha, long hA, long hB, T fBeta, long hC, int nAOffset = 0, int nBOffset = 0, int nCOffset = 0, int nGroups = 1, int nGroupOffsetA = 0, int nGroupOffsetB = 0, int nGroupOffsetC = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_GEMM, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong((bTransA) ? 1 : 0, (bTransB) ? 1 : 0, m, n, k, 0, hA, hB, 0, hC, nAOffset, nBOffset, nCOffset, nGroups, nGroupOffsetA, nGroupOffsetB, nGroupOffsetC));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_GEMM, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong((bTransA) ? 1 : 0, (bTransB) ? 1 : 0, m, n, k, 0, hA, hB, 0, hC, nAOffset, nBOffset, nCOffset, nGroups, nGroupOffsetA, nGroupOffsetB, nGroupOffsetC));

        }


        public void gemm(bool bTransA, bool bTransB, int m, int n, int k, double fAlpha, long hA, long hB, double fBeta, long hC, uint lda, uint ldb, uint ldc)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_GEMM2, m_param.AsDouble(fAlpha, fBeta), m_param.AsLong((bTransA) ? 1 : 0, (bTransB) ? 1 : 0, m, n, k, 0, hA, hB, 0, hC, lda, ldb, ldc));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_GEMM2, m_param.AsFloat((float)fAlpha, (float)fBeta), m_param.AsLong((bTransA) ? 1 : 0, (bTransB) ? 1 : 0, m, n, k, 0, hA, hB, 0, hC, lda, ldb, ldc));

        }


        public void gemm(bool bTransA, bool bTransB, int m, int n, int k, double fAlpha, long hA, long hB, double fBeta, long hC, uint lda, uint ldb, uint ldc, uint stridea, uint strideb, uint stridec, uint batch_count)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_GEMM2, m_param.AsDouble(fAlpha, fBeta), m_param.AsLong((bTransA) ? 1 : 0, (bTransB) ? 1 : 0, m, n, k, 0, hA, hB, 0, hC, lda, ldb, ldc, stridea, strideb, stridec, batch_count));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_GEMM2, m_param.AsFloat((float)fAlpha, (float)fBeta), m_param.AsLong((bTransA) ? 1 : 0, (bTransB) ? 1 : 0, m, n, k, 0, hA, hB, 0, hC, lda, ldb, ldc, stridea, strideb, stridec, batch_count));

        }


        public void geam(bool bTransA, bool bTransB, int m, int n, double fAlpha, long hA, long hB, double fBeta, long hC)

        {

            geam(bTransA, bTransB, m, n, (T)Convert.ChangeType(fAlpha, typeof(T)), hA, hB, (T)Convert.ChangeType(fBeta, typeof(T)), hC);

        }


        public void geam(bool bTransA, bool bTransB, int m, int n, float fAlpha, long hA, long hB, float fBeta, long hC)

        {

            geam(bTransA, bTransB, m, n, (T)Convert.ChangeType(fAlpha, typeof(T)), hA, hB, (T)Convert.ChangeType(fBeta, typeof(T)), hC);

        }


        public void geam(bool bTransA, bool bTransB, int m, int n, T fAlpha, long hA, long hB, T fBeta, long hC, int nAOffset = 0, int nBOffset = 0, int nCOffset = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_GEAM, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong((bTransA) ? 1 : 0, (bTransB) ? 1 : 0, m, n, 0, hA, hB, 0, hC, nAOffset, nBOffset, nCOffset));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_GEAM, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong((bTransA) ? 1 : 0, (bTransB) ? 1 : 0, m, n, 0, hA, hB, 0, hC, nAOffset, nBOffset, nCOffset));

        }


        public void gemv(bool bTransA, int m, int n, double fAlpha, long hA, long hX, double fBeta, long hY)

        {

            gemv(bTransA, m, n, (T)Convert.ChangeType(fAlpha, typeof(T)), hA, hX, (T)Convert.ChangeType(fBeta, typeof(T)), hY);

        }


        public void gemv(bool bTransA, int m, int n, float fAlpha, long hA, long hX, float fBeta, long hY)

        {

            gemv(bTransA, m, n, (T)Convert.ChangeType(fAlpha, typeof(T)), hA, hX, (T)Convert.ChangeType(fBeta, typeof(T)), hY);

        }


        public void gemv(bool bTransA, int m, int n, T fAlpha, long hA, long hX, T fBeta, long hY, int nAOffset = 0, int nXOffset = 0, int nYOffset = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_GEMV, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong((bTransA) ? 1 : 0, m, n, 0, hA, hX, 0, hY, nAOffset, nXOffset, nYOffset));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_GEMV, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong((bTransA) ? 1 : 0, m, n, 0, hA, hX, 0, hY, nAOffset, nXOffset, nYOffset));

        }


        public void ger(int m, int n, double fAlpha, long hX, long hY, long hA)

        {

            ger(m, n, (T)Convert.ChangeType(fAlpha, typeof(T)), hX, hY, hA);

        }


        public void ger(int m, int n, float fAlpha, long hX, long hY, long hA)

        {

            ger(m, n, (T)Convert.ChangeType(fAlpha, typeof(T)), hX, hY, hA);

        }


        public void ger(int m, int n, T fAlpha, long hX, long hY, long hA)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_GER, m_param.AsDouble(convertD(fAlpha)), m_param.AsLong(m, n, 0, hX, hY, hA));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_GER, m_param.AsFloat(convertF(fAlpha)), m_param.AsLong(m, n, 0, hX, hY, hA));

        }


        public void axpy(int n, double fAlpha, long hX, long hY)

        {

            axpy(n, (T)Convert.ChangeType(fAlpha, typeof(T)), hX, hY);

        }


        public void axpy(int n, float fAlpha, long hX, long hY)

        {

            axpy(n, (T)Convert.ChangeType(fAlpha, typeof(T)), hX, hY);

        }


        public void axpy(int n, T fAlpha, long hX, long hY, int nXOff = 0, int nYOff = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_AXPY, m_param.AsDouble(convertD(fAlpha)), m_param.AsLong(n, 0, hX, hY, nXOff, nYOff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_AXPY, m_param.AsFloat(convertF(fAlpha)), m_param.AsLong(n, 0, hX, hY, nXOff, nYOff));

        }


        public void axpby(int n, double fAlpha, long hX, double fBeta, long hY)

        {

            axpby(n, (T)Convert.ChangeType(fAlpha, typeof(T)), hX, (T)Convert.ChangeType(fBeta, typeof(T)), hY);

        }


        public void axpby(int n, float fAlpha, long hX, float fBeta, long hY)

        {

            axpby(n, (T)Convert.ChangeType(fAlpha, typeof(T)), hX, (T)Convert.ChangeType(fBeta, typeof(T)), hY);

        }


        public void axpby(int n, T fAlpha, long hX, T fBeta, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_AXPBY, m_param.AsDouble(convertD(fAlpha), convertD(fBeta)), m_param.AsLong(n, 0, hX, 0, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_AXPBY, m_param.AsFloat(convertF(fAlpha), convertF(fBeta)), m_param.AsLong(n, 0, hX, 0, hY));

        }


        public void mulbsx(int n, long hA, int nAOff, long hX, int nXOff, int nC, int nSpatialDim, bool bTranspose, long hB, int nBOff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MULBSX, null, m_param.AsLong(n, hA, nAOff, hX, nXOff, nC, nSpatialDim, (bTranspose) ? 1 : 0, hB, nBOff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MULBSX, null, m_param.AsLong(n, hA, nAOff, hX, nXOff, nC, nSpatialDim, (bTranspose) ? 1 : 0, hB, nBOff));

        }


        public void divbsx(int n, long hA, int nAOff, long hX, int nXOff, int nC, int nSpatialDim, bool bTranspose, long hB, int nBOff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_DIVBSX, null, m_param.AsLong(n, hA, nAOff, hX, nXOff, nC, nSpatialDim, (bTranspose) ? 1 : 0, hB, nBOff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_DIVBSX, null, m_param.AsLong(n, hA, nAOff, hX, nXOff, nC, nSpatialDim, (bTranspose) ? 1 : 0, hB, nBOff));

        }


        public void matmul(uint nOuterCount, int m, int n, int k, long hA, long hB, long hC, double dfScale = 1.0, bool bTransA = false, bool bTransB = false)

        {

            uint ldb = (uint)n;

            uint lda = (uint)k;

            uint ldc = (uint)n;

            uint strideb = (uint)(k * n);

            uint stridea = (uint)(m * k);

            uint stridec = (uint)(m * n);


            gemm(bTransB, bTransA, n, m, k, dfScale, hB, hA, 0.0, hC, ldb, lda, ldc, strideb, stridea, stridec, nOuterCount);

        }


        public void transposeHW(int n, int c, int h, int w, long hSrc, long hDst)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TRANSPOSE_HW, null, m_param.AsLong(n, c, h, w, hSrc, hDst));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TRANSPOSE_HW, null, m_param.AsLong(n, c, h, w, hSrc, hDst));

        }


        public void set_bounds(int n, double dfMin, double dfMax, long hX)

        {

            if (m_dt == DataType.DOUBLE)

            {

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SET_BOUNDS, m_param.AsDouble(dfMin, dfMax), m_param.AsLong(n, 0, 0, hX));

            }

            else

            {

                float fMin = -float.MaxValue;

                float fMax = float.MaxValue;


                if (dfMin > -float.MaxValue && dfMin < float.MaxValue)

                    fMin = (float)dfMin;

                else if (dfMin > float.MaxValue)

                    fMin = float.MaxValue;


                if (dfMax > -float.MaxValue && dfMax < float.MaxValue)

                    fMax = (float)dfMax;

                else if (dfMin < -float.MaxValue)

                    fMax = -float.MaxValue;


                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SET_BOUNDS, m_param.AsFloat(fMin, fMax), m_param.AsLong(n, 0, 0, hX));

            }

        }


        public void scal(int n, double fAlpha, long hX, int nXOff = 0)

        {

            scal(n, (T)Convert.ChangeType(fAlpha, typeof(T)), hX, nXOff);

        }


        public void scal(int n, float fAlpha, long hX, int nXOff = 0)

        {

            scal(n, (T)Convert.ChangeType(fAlpha, typeof(T)), hX, nXOff);

        }


        public void scal(int n, T fAlpha, long hX, int nXOff = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SCAL, m_param.AsDouble(convertD(fAlpha)), m_param.AsLong(n, 0, hX, nXOff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SCAL, m_param.AsFloat(convertF(fAlpha)), m_param.AsLong(n, 0, hX, nXOff));

        }


        public double dot_double(int n, long hX, long hY)

        {

            return (double)Convert.ChangeType(dot(n, hX, hY), typeof(double));

        }


        public float dot_float(int n, long hX, long hY)

        {

            return (float)Convert.ChangeType(dot(n, hX, hY), typeof(float));

        }


        public T dot(int n, long hX, long hY, int nXOff = 0, int nYOff = 0)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_DOT, null, m_param.AsLong(n, hX, hY, nXOff, nYOff));

                return (T)Convert.ChangeType(rg[0], typeof(T));

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_DOT, null, m_param.AsLong(n, hX, hY, nXOff, nYOff));

                return (T)Convert.ChangeType(rg[0], typeof(T));

            }

        }


        public double asum_double(int n, long hX, int nXOff = 0)

        {

            return (double)Convert.ChangeType(asum(n, hX, nXOff), typeof(double));

        }


        public float asum_float(int n, long hX, int nXOff = 0)

        {

            return (float)Convert.ChangeType(asum(n, hX, nXOff), typeof(float));

        }


        public T asum(int n, long hX, int nXOff = 0)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_ASUM, null, m_param.AsLong(n, hX, nXOff));

                return (T)Convert.ChangeType(rg[0], typeof(T));

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_ASUM, null, m_param.AsLong(n, hX, nXOff));

                return (T)Convert.ChangeType(rg[0], typeof(T));

            }

        }


        public void scale(int n, double fAlpha, long hX, long hY)

        {

            scale(n, (T)Convert.ChangeType(fAlpha, typeof(T)), hX, hY);

        }


        public void scale(int n, float fAlpha, long hX, long hY)

        {

            scale(n, (T)Convert.ChangeType(fAlpha, typeof(T)), hX, hY);

        }


        public void scale(int n, T fAlpha, long hX, long hY, int nXOff = 0, int nYOff = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SCALE, m_param.AsDouble(convertD(fAlpha)), m_param.AsLong(n, 0, hX, hY, nXOff, nYOff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SCALE, m_param.AsFloat(convertF(fAlpha)), m_param.AsLong(n, 0, hX, hY, nXOff, nYOff));

        }


        public void scale_to_range(int n, long hX, long hY, double fMin, double fMax)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SCALE_TO_RANGE, m_param.AsDouble(fMin, fMax), m_param.AsLong(n, hX, hY, 0, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SCALE_TO_RANGE, m_param.AsFloat((float)fMin, (float)fMax), m_param.AsLong(n, hX, hY, 0, 0));

        }


        public double erf(double dfVal)

        {

            return convertD(erf(convertD1(dfVal)));

        }


        public float erf(float fVal)

        {

            return convertF(erf(convertF1(fVal)));

        }


        public T erf(T fVal)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CUDA_ERF, m_param.AsDouble(convertD(fVal)));

                return convert(rg)[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CUDA_ERF, m_param.AsFloat(convertF(fVal)));

                return convert(rg)[0];

            }

        }


        public void mask(int n, int nMaskDim, T fSearch, T fReplace, long hX, long hMask, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MASK, m_param.AsDouble(convertD(fSearch), convertD(fReplace)), m_param.AsLong(n, nMaskDim, 0, 0, hX, hMask, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MASK, m_param.AsFloat(convertF(fSearch), convertF(fReplace)), m_param.AsLong(n, nMaskDim, 0, 0, hX, hMask, hY));

        }


        public void mask(int n, int nMaskDim, double fSearch, double fReplace, long hX, long hMask, long hY)

        {

            mask(n, nMaskDim, (T)Convert.ChangeType(fSearch, typeof(T)), (T)Convert.ChangeType(fReplace, typeof(T)), hX, hMask, hY);

        }


        public void mask(int n, int nMaskDim, float fSearch, float fReplace, long hX, long hMask, long hY)

        {

            mask(n, nMaskDim, (T)Convert.ChangeType(fSearch, typeof(T)), (T)Convert.ChangeType(fReplace, typeof(T)), hX, hMask, hY);

        }


        public void mask_batch(int n, int nBatch, int nMaskDim, T fSearch, T fReplace, long hX, long hMask, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MASK_BATCH, m_param.AsDouble(convertD(fSearch), convertD(fReplace)), m_param.AsLong(n, nBatch, nMaskDim, 0, 0, hX, hMask, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MASK_BATCH, m_param.AsFloat(convertF(fSearch), convertF(fReplace)), m_param.AsLong(n, nBatch, nMaskDim, 0, 0, hX, hMask, hY));

        }


        public void mask_batch(int n, int nBatch, int nMaskDim, double fSearch, double fReplace, long hX, long hMask, long hY)

        {

            mask_batch(n, nBatch, nMaskDim, (T)Convert.ChangeType(fSearch, typeof(T)), (T)Convert.ChangeType(fReplace, typeof(T)), hX, hMask, hY);

        }


        public void mask_batch(int n, int nBatch, int nMaskDim, float fSearch, float fReplace, long hX, long hMask, long hY)

        {

            mask_batch(n, nBatch, nMaskDim, (T)Convert.ChangeType(fSearch, typeof(T)), (T)Convert.ChangeType(fReplace, typeof(T)), hX, hMask, hY);

        }


        public void interp2(int nChannels, long hData1, int nX1, int nY1, int nHeight1, int nWidth1, int nHeight1A, int nWidth1A, long hData2, int nX2, int nY2, int nHeight2, int nWidth2, int nHeight2A, int nWidth2A, bool bBwd = false)

        {

            if (!(nX1 >= 0 && nY1 >= 0 && nHeight1 > 0 && nWidth1 > 0 && nX2 >= 0 && nY2 >= 0 && nHeight2 > 0 && nWidth2 > 0))

                throw new ArgumentOutOfRangeException("interp2: Invalid arguments found.");


            if (!(nWidth1A >= nWidth1 + nX1 && nHeight1A >= nHeight1 + nY1 && nWidth2A >= nWidth2 + nX2 && nHeight2A >= nHeight2 + nY2))

                throw new ArgumentOutOfRangeException("interp2: Invalid arguments found.");


            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_INTERP2, null, m_param.AsLong(nChannels, hData1, nX1, nY1, nHeight1, nWidth1, nHeight1A, nWidth1A, hData2, nX2, nY2, nHeight2, nWidth2, nHeight2A, nWidth2A, (bBwd) ? 1 : 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_INTERP2, null, m_param.AsLong(nChannels, hData1, nX1, nY1, nHeight1, nWidth1, nHeight1A, nWidth1A, hData2, nX2, nY2, nHeight2, nWidth2, nHeight2A, nWidth2A, (bBwd) ? 1 : 0));

        }


        public void add_scalar(int n, double fAlpha, long hY)

        {

            add_scalar(n, (T)Convert.ChangeType(fAlpha, typeof(T)), hY);

        }


        public void add_scalar(int n, float fAlpha, long hY)

        {

            add_scalar(n, (T)Convert.ChangeType(fAlpha, typeof(T)), hY);

        }


        public void add_scalar(int n, T fAlpha, long hY, int nYOff = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADD_SCALAR, m_param.AsDouble(convertD(fAlpha)), m_param.AsLong(n, 0, hY, nYOff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADD_SCALAR, m_param.AsFloat(convertF(fAlpha)), m_param.AsLong(n, 0, hY, nYOff));

        }


        public void add(int n, long hA, long hB, long hC, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADD3, null, m_param.AsLong(n, hA, hB, hC, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADD3, null, m_param.AsLong(n, hA, hB, hC, hY));

        }


        public void add(int n, long hA, long hB, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADD, null, m_param.AsLong(n, hA, hB, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADD, null, m_param.AsLong(n, hA, hB, hY));

        }


        public void add(int n, long hA, long hB, long hY, double dfAlpha)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADD, m_param.AsDouble(dfAlpha), m_param.AsLong(n, hA, hB, hY, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADD, m_param.AsFloat((float)dfAlpha), m_param.AsLong(n, hA, hB, hY, 0));

        }


        public void add(int n, long hA, long hB, long hY, float fAlpha)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADD, m_param.AsDouble(fAlpha), m_param.AsLong(n, hA, hB, hY, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADD, m_param.AsFloat(fAlpha), m_param.AsLong(n, hA, hB, hY, 0));

        }


        public void add(int n, long hA, long hB, long hY, double dfAlphaA, double dfAlphaB, int nAOff = 0, int nBOff = 0, int nYOff = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADD2, m_param.AsDouble(dfAlphaA, dfAlphaB), m_param.AsLong(n, hA, hB, hY, 0, 0, nAOff, nBOff, nYOff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADD2, m_param.AsFloat((float)dfAlphaA, (float)dfAlphaB), m_param.AsLong(n, hA, hB, hY, 0, 0, nAOff, nBOff, nYOff));

        }


        public void sub(int n, long hA, long hB, long hY, int nAOff = 0, int nBOff = 0, int nYOff = 0, int nB = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SUB, null, m_param.AsLong(n, hA, hB, hY, nAOff, nBOff, nYOff, nB));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SUB, null, m_param.AsLong(n, hA, hB, hY, nAOff, nBOff, nYOff, nB));

        }


        public void mul(int n, long hA, long hB, long hY, int nAOff = 0, int nBOff = 0, int nYOff = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MUL, null, m_param.AsLong(n, hA, hB, hY, nAOff, nBOff, nYOff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MUL, null, m_param.AsLong(n, hA, hB, hY, nAOff, nBOff, nYOff));

        }


        public void sub_and_dot(int n, int nN, int nInnerNum, long hA, long hB, long hY, int nAOff, int nBOff, int nYOff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SUB_AND_DOT, null, m_param.AsLong(n, nN, nInnerNum, hA, hB, hY, nAOff, nBOff, nYOff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SUB_AND_DOT, null, m_param.AsLong(n, nN, nInnerNum, hA, hB, hY, nAOff, nBOff, nYOff));

        }


        public void mul_scalar(int n, double fAlpha, long hY)

        {

            mul_scalar(n, (T)Convert.ChangeType(fAlpha, typeof(T)), hY);

        }


        public void mul_scalar(int n, float fAlpha, long hY)

        {

            mul_scalar(n, (T)Convert.ChangeType(fAlpha, typeof(T)), hY);

        }


        public void mul_scalar(int n, T fAlpha, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MUL_SCALAR, m_param.AsDouble(convertD(fAlpha)), m_param.AsLong(n, 0, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MUL_SCALAR, m_param.AsFloat(convertF(fAlpha)), m_param.AsLong(n, 0, hY));

        }


        public void div(int n, long hA, long hB, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_DIV, null, m_param.AsLong(n, hA, hB, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_DIV, null, m_param.AsLong(n, hA, hB, hY));

        }


        public void abs(int n, long hA, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_ABS, null, m_param.AsLong(n, hA, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_ABS, null, m_param.AsLong(n, hA, hY));

        }


        public void exp(int n, long hA, long hY)

        {

            exp(n, hA, hY, 0, 0, 1.0);

        }


        public void exp(int n, long hA, long hY, int nAOff, int nYOff, double dfBeta)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_EXP, m_param.AsDouble(dfBeta), m_param.AsLong(n, hA, hY, nAOff, nYOff, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_EXP, m_param.AsFloat((float)dfBeta), m_param.AsLong(n, hA, hY, nAOff, nYOff, 0));

        }


        public void log(int n, long hA, long hY)

        {

            log(n, hA, hY, 1.0, 0.0);

        }


        public void log(int n, long hA, long hY, double dfBeta, double dfAlpha = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_LOG, m_param.AsDouble(dfBeta, dfAlpha), m_param.AsLong(n, hA, hY, 0, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_LOG, m_param.AsFloat((float)dfBeta, (float)dfAlpha), m_param.AsLong(n, hA, hY, 0, 0));

        }


        public void powx(int n, long hA, double fAlpha, long hY, int nAOff = 0, int nYOff = 0)

        {

            powx(n, hA, (T)Convert.ChangeType(fAlpha, typeof(T)), hY, nAOff, nYOff);

        }


        public void powx(int n, long hA, float fAlpha, long hY, int nAOff = 0, int nYOff = 0)

        {

            powx(n, hA, (T)Convert.ChangeType(fAlpha, typeof(T)), hY, nAOff, nYOff);

        }


        public void powx(int n, long hA, T fAlpha, long hY, int nAOff = 0, int nYOff = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_POWX, m_param.AsDouble(convertD(fAlpha)), m_param.AsLong(n, hA, 0, hY, nAOff, nYOff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_POWX, m_param.AsFloat(convertF(fAlpha)), m_param.AsLong(n, hA, 0, hY, nAOff, nYOff));

        }


        public void sign(int n, long hX, long hY, int nXOff = 0, int nYOff = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SIGN, null, m_param.AsLong(n, hX, hY, nXOff, nYOff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SIGN, null, m_param.AsLong(n, hX, hY, nXOff, nYOff));

        }


#pragma warning disable 1591


        public void student(int n, long hX, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_STUDENT, null, m_param.AsLong(n, hX, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_STUDENT, null, m_param.AsLong(n, hX, hY));

        }


        public void logistic1(int n, long hX, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_LOGISTIC1, null, m_param.AsLong(n, hX, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_LOGISTIC1, null, m_param.AsLong(n, hX, hY));

        }


        public void logistic2(int n, long hX, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_LOGISTIC2, null, m_param.AsLong(n, hX, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_LOGISTIC2, null, m_param.AsLong(n, hX, hY));

        }


        public void reciprocol(int n, long hX, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_RECIPROCOL, null, m_param.AsLong(n, hX, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_RECIPROCOL, null, m_param.AsLong(n, hX, hY));

        }


#pragma warning restore 1591


        public void sqrt(int n, long hX, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SQRT, null, m_param.AsLong(n, hX, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SQRT, null, m_param.AsLong(n, hX, hY));

        }


        public void sqrt_scale(int nCount, long hX, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SQRT_SCALE, null, m_param.AsLong(nCount, hX, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SQRT_SCALE, null, m_param.AsLong(nCount, hX, hY));

        }


        public void compare_signs(int n, long hA, long hB, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_COMPARE_SIGNS, null, m_param.AsLong(n, hA, hB, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_COMPARE_SIGNS, null, m_param.AsLong(n, hA, hB, hY));

        }


        public void max(int n, long hA, long hB, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MAX, null, m_param.AsLong(n, hA, hB, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MAX, null, m_param.AsLong(n, hA, hB, hY));

        }


        public void max_bwd(int n, long hAdata, long hBdata, long hYdiff, long hAdiff, long hBdiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MAX_BWD2, null, m_param.AsLong(n, hAdata, hBdata, hYdiff, hAdiff, hBdiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MAX_BWD2, null, m_param.AsLong(n, hAdata, hBdata, hYdiff, hAdiff, hBdiff));

        }


        public void min(int n, long hA, long hB, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MIN, null, m_param.AsLong(n, hA, hB, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MIN, null, m_param.AsLong(n, hA, hB, hY));

        }


        public double max(int n, long hA, out long lPos, int nAOff = 0, long hWork = 0)

        {

            if (hWork != 0)

            {

                if (m_dt == DataType.DOUBLE)

                {

                    double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MAXVAL, null, m_param.AsLong(n, hA, nAOff, hWork));

                    lPos = (long)rg[1];

                    return rg[0];

                }

                else

                {

                    float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MAXVAL, null, m_param.AsLong(n, hA, nAOff, hWork));

                    lPos = (long)rg[1];

                    return rg[0];

                }

            }

            else

            {

                if (m_dt == DataType.DOUBLE)

                {

                    double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MAXVAL, null, m_param.AsLong(n, hA, nAOff));

                    lPos = (long)rg[1];

                    return rg[0];

                }

                else

                {

                    float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MAXVAL, null, m_param.AsLong(n, hA, nAOff));

                    lPos = (long)rg[1];

                    return rg[0];

                }

            }

        }


        public double min(int n, long hA, out long lPos, int nAOff = 0, long hWork = 0)

        {

            if (hWork != 0)

            {

                if (m_dt == DataType.DOUBLE)

                {

                    double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MINVAL, null, m_param.AsLong(n, hA, nAOff, hWork));

                    lPos = (long)rg[1];

                    return rg[0];

                }

                else

                {

                    float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MINVAL, null, m_param.AsLong(n, hA, nAOff, hWork));

                    lPos = (long)rg[1];

                    return rg[0];

                }

            }

            else

            {

                if (m_dt == DataType.DOUBLE)

                {

                    double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MINVAL, null, m_param.AsLong(n, hA, nAOff));

                    lPos = (long)rg[1];

                    return rg[0];

                }

                else

                {

                    float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MINVAL, null, m_param.AsLong(n, hA, nAOff));

                    lPos = (long)rg[1];

                    return rg[0];

                }

            }

        }


        public Tuple<double, double, double, double> minmax(int n, long hA, long hWork1, long hWork2, bool bDetectNans = false, int nAOff = 0)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MINMAXVAL, null, m_param.AsLong(n, hA, hWork1, hWork2, (bDetectNans) ? 1 : 0, nAOff));

                return new Tuple<double, double, double, double>(rg[0], rg[1], rg[2], rg[3]);

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MINMAXVAL, null, m_param.AsLong(n, hA, hWork1, hWork2, (bDetectNans) ? 1 : 0, nAOff));

                return new Tuple<double, double, double, double>(rg[0], rg[1], rg[2], rg[3]);

            }

        }


        public void minmax(int n, long hA, long hWork1, long hWork2, int nK, long hMin, long hMax, bool bNonZeroOnly)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MINMAXVEC, null, m_param.AsLong(n, hA, hWork1, hWork2, nK, hMin, hMax, (bNonZeroOnly) ? 1 : 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MINMAXVEC, null, m_param.AsLong(n, hA, hWork1, hWork2, nK, hMin, hMax, (bNonZeroOnly) ? 1 : 0));

        }


        public void transpose(int n, long hX, long hY, long hXCounts, long hYCounts, long hMapping, int nNumAxes, long hBuffer)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TRANSPOSE, null, m_param.AsLong(n, hX, hY, hXCounts, hYCounts, hMapping, nNumAxes, hBuffer));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TRANSPOSE, null, m_param.AsLong(n, hX, hY, hXCounts, hYCounts, hMapping, nNumAxes, hBuffer));

        }


        public double sumsq(int n, long hW, long hA, int nAOff = 0)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SUMSQ, null, m_param.AsLong(n, hW, hA, nAOff));

                return rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SUMSQ, null, m_param.AsLong(n, hW, hA, nAOff));

                return rg[0];

            }

        }


        public double sumsqdiff(int n, long hW, long hA, long hB, int nAOff = 0, int nBOff = 0)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SUMSQDIFF, null, m_param.AsLong(n, hW, hA, hB, nAOff, nBOff));

                return rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SUMSQDIFF, null, m_param.AsLong(n, hW, hA, hB, nAOff, nBOff));

                return rg[0];

            }

        }


        public void width(int n, long hMean, long hMin, long hMax, double dfAlpha, long hWidth)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_WIDTH, m_param.AsDouble(dfAlpha), m_param.AsLong(n, hMean, hMin, hMax, 0, hWidth));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_WIDTH, m_param.AsFloat((float)dfAlpha), m_param.AsLong(n, hMean, hMin, hMax, 0, hWidth));

        }


        public bool contains_point(int n, long hMean, long hWidth, long hX, long hWork, int nXOff = 0)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CONTAINS_POINT, null, m_param.AsLong(n, hMean, hWidth, hX, hWork, nXOff));

                return (rg[0] == 0) ? false : true;

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CONTAINS_POINT, null, m_param.AsLong(n, hMean, hWidth, hX, hWork, nXOff));

                return (rg[0] == 0) ? false : true;

            }

        }


        public void denan(int n, long hX, double dfReplacement)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_DENAN, m_param.AsDouble(dfReplacement), m_param.AsLong(n, hX, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_DENAN, m_param.AsFloat((float)dfReplacement), m_param.AsLong(n, hX, 0));

        }


        public void im2col(long hDataIm, int nDataImOffset, int nChannels, int nHeight, int nWidth, int nKernelH, int nKernelW, int nPadH, int nPadW, int nStrideH, int nStrideW, int nDilationH, int nDilationW, long hDataCol, int nDataColOffset)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_IM2COL, null, m_param.AsLong(hDataIm, nDataImOffset, nChannels, nHeight, nWidth, nKernelH, nKernelW, nPadH, nPadW, nStrideH, nStrideW, nDilationH, nDilationW, hDataCol, nDataColOffset));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_IM2COL, null, m_param.AsLong(hDataIm, nDataImOffset, nChannels, nHeight, nWidth, nKernelH, nKernelW, nPadH, nPadW, nStrideH, nStrideW, nDilationH, nDilationW, hDataCol, nDataColOffset));

        }


        public void im2col_nd(long hDataIm, int nDataImOffset, int nNumSpatialAxes, int nImCount, int nChannelAxis, long hImShape, long hColShape, long hKernelShape, long hPad, long hStride, long hDilation, long hDataCol, int nDataColOffset)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_IM2COL_ND, null, m_param.AsLong(hDataIm, nDataImOffset, nNumSpatialAxes, nImCount, nChannelAxis, hImShape, hColShape, hKernelShape, hPad, hStride, hDilation, hDataCol, nDataColOffset));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_IM2COL_ND, null, m_param.AsLong(hDataIm, nDataImOffset, nNumSpatialAxes, nImCount, nChannelAxis, hImShape, hColShape, hKernelShape, hPad, hStride, hDilation, hDataCol, nDataColOffset));

        }


        public void col2im(long hDataCol, int nDataColOffset, int nChannels, int nHeight, int nWidth, int nKernelH, int nKernelW, int nPadH, int nPadW, int nStrideH, int nStrideW, int nDilationH, int nDilationW, long hDataIm, int nDataImOffset)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_COL2IM, null, m_param.AsLong(hDataCol, nDataColOffset, nChannels, nHeight, nWidth, nKernelH, nKernelW, nPadH, nPadW, nStrideH, nStrideW, nDilationH, nDilationW, hDataIm, nDataImOffset));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_COL2IM, null, m_param.AsLong(hDataCol, nDataColOffset, nChannels, nHeight, nWidth, nKernelH, nKernelW, nPadH, nPadW, nStrideH, nStrideW, nDilationH, nDilationW, hDataIm, nDataImOffset));

        }


        public void col2im_nd(long hDataCol, int nDataColOffset, int nNumSpatialAxes, int nColCount, int nChannelAxis, long hImShape, long hColShape, long hKernelShape, long hPad, long hStride, long hDilation, long hDataIm, int nDataImOffset)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_COL2IM_ND, null, m_param.AsLong(hDataCol, nDataColOffset, nNumSpatialAxes, nColCount, nChannelAxis, hImShape, hColShape, hKernelShape, hPad, hStride, hDilation, hDataIm, nDataImOffset));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_COL2IM_ND, null, m_param.AsLong(hDataCol, nDataColOffset, nNumSpatialAxes, nColCount, nChannelAxis, hImShape, hColShape, hKernelShape, hPad, hStride, hDilation, hDataIm, nDataImOffset));

        }


        public void channel_min(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY, bool bReturnIdx = false)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_MIN, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY, (bReturnIdx) ? 1 : 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_MIN, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY, (bReturnIdx) ? 1 : 0));

        }


        public void channel_max(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY, bool bReturnIdx = false)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_MAX, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY, (bReturnIdx) ? 1 : 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_MAX, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY, (bReturnIdx) ? 1 : 0));

        }


        public void channel_mean(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_MEAN, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_MEAN, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY));

        }


        public void channel_compare(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_COMPARE, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_COMPARE, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY));

        }


        public void channel_fillfrom(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY, DIR dir)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_FILLFROM, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY, (int)dir));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_FILLFROM, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY, (int)dir));

        }


        public void channel_fill(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, int nLabelDim, long hLabels, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_FILL, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, nLabelDim, hLabels, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_FILL, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, nLabelDim, hLabels, hY));

        }


        public void channel_sub(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hA, long hX, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_SUB, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY, hA));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_SUB, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY, hA));

        }


        public void channel_sub(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_SUB, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_SUB, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY));

        }


        public void channel_sum(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY, bool bSumAcrossChannels = true, DIR dir = DIR.FWD, int nChannelsY = -1)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_SUM, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY, (bSumAcrossChannels) ? 1 : 0, (int)dir, nChannelsY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_SUM, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY, (bSumAcrossChannels) ? 1 : 0, (int)dir, nChannelsY));

        }


        public void channel_div(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY, int nMethod = 1)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_DIV, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY, nMethod));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_DIV, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY, nMethod));

        }


        public void channel_mul(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY, int nMethod = 1)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_MUL, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY, nMethod));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_MUL, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY, nMethod));

        }


        public void channel_mulv(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hA, long hX, long hC)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_MULV, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hA, hX, hC));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_MULV, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hA, hX, hC));

        }


        public void channel_scale(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hA, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_SCALE, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hA, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_SCALE, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hA, hY));

        }


        public void channel_dot(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hA, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_DOT, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hA, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_DOT, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hA, hY));

        }


        public void channel_duplicate(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_DUP, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_DUP, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY));

        }


        public void channel_percentile(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY, double dfPercentile)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_PERCENTILE, m_param.AsDouble(dfPercentile), m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_PERCENTILE, m_param.AsFloat((float)dfPercentile), m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY));

        }


        public void channel_op_fwd(OP op, int nCount, int nC, int nN1, int nSD1, int nN2, int nSD2, long hA, long hB, long hY)

        {

            int nCount1 = Math.Max(nN1, nN2) * nC * Math.Max(nSD1, nSD2);

            if (nCount1 != nCount)

                throw new Exception("The nCount must equal max(nN1, nN2) x nC x max(nSD1, nSD2).");


            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int) m_hKernel, (int) CUDAFN.CUDA_CHANNEL_OP_FWD, null, m_param.AsLong((int)op, nCount, nC, nN1, nSD1, nN2, nSD2, hA, hB, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_OP_FWD, null, m_param.AsLong((int)op, nCount, nC, nN1, nSD1, nN2, nSD2, hA, hB, hY));

        }


        public void channel_op_bwd(OP op, int nCount, int nC, int nN1, int nSD1, int nN2, int nSD2, int nCy,int nSDy, long hA, long hB, long hY, long hAd, long hBd, long hYd, long hWork)

        {

            int nCount1 = Math.Max(nN1, nN2) * nC * Math.Max(nSD1, nSD2);

            if (nCount1 != nCount)

                throw new Exception("The nCount must equal max(nN1, nN2) x nC x max(nSD1, nSD2).");


            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_OP_BWD, null, m_param.AsLong((int)op, nCount, nC, nN1, nSD1, nN2, nSD2, nCy, nSDy, hA, hB, hY, hAd, hBd, hYd, hWork));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_OP_BWD, null, m_param.AsLong((int)op, nCount, nC, nN1, nSD1, nN2, nSD2, nCy, nSDy, hA, hB, hY, hAd, hBd, hYd, hWork));

        }


        public void channel_add(int nCount, int nOuterNum, int nChannels, int nBlocks, int nInnerNum, int nOffset, long hX, long hY, DIR dir)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_ADD, null, m_param.AsLong(nCount, nOuterNum, nChannels, nBlocks, nInnerNum, nOffset, hX, hY, (int)dir));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_ADD, null, m_param.AsLong(nCount, nOuterNum, nChannels, nBlocks, nInnerNum, nOffset, hX, hY, (int)dir));

        }


        public void channel_copy(int nCount, int nOuterNum, int nChannels, int nBlocks, int nInnerNum, int nOffset, long hX, long hY, DIR dir)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_COPY, null, m_param.AsLong(nCount, nOuterNum, nChannels, nBlocks, nInnerNum, nOffset, hX, hY, (int)dir));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_COPY, null, m_param.AsLong(nCount, nOuterNum, nChannels, nBlocks, nInnerNum, nOffset, hX, hY, (int)dir));

        }


        public void channel_copyall(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_COPYALL, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CHANNEL_COPYALL, null, m_param.AsLong(nCount, nOuterNum, nChannels, nInnerNum, hX, hY));

        }


        public void sum(int nCount, int nOuterNum, int nInnerNum, long hX, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SUM, null, m_param.AsLong(nCount, nOuterNum, nInnerNum, hX, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SUM, null, m_param.AsLong(nCount, nOuterNum, nInnerNum, hX, hY));

        }


        public void rng_setseed(long lSeed)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CUDA_RNG_SETSEED, m_param.AsDouble(lSeed));

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CUDA_RNG_SETSEED, m_param.AsFloat(lSeed));

        }


        public void rng_uniform(int n, double fMin, double fMax, long hY)

        {

            rng_uniform(n, (T)Convert.ChangeType(fMin, typeof(T)), (T)Convert.ChangeType(fMax, typeof(T)), hY);

        }


        public void rng_uniform(int n, float fMin, float fMax, long hY)

        {

            rng_uniform(n, (T)Convert.ChangeType(fMin, typeof(T)), (T)Convert.ChangeType(fMax, typeof(T)), hY);

        }


        public void rng_uniform(int n, T fMin, T fMax, long hY)

        {

            if (m_dt == DataType.DOUBLE)

            {

                if (m_rgGhostMemory == null || !m_bGhostMemoryEnabled)

                    m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_RNG_UNIFORM, m_param.AsDouble(convertD(fMin), convertD(fMax)), m_param.AsLong(n, 0, 0, hY));

            }

            else

            {

                if (m_rgGhostMemory == null || !m_bGhostMemoryEnabled)

                    m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_RNG_UNIFORM, m_param.AsFloat(convertF(fMin), convertF(fMax)), m_param.AsLong(n, 0, 0, hY));

            }

        }


        public void rng_gaussian(int n, double fMu, double fSigma, long hY)

        {

            rng_gaussian(n, (T)Convert.ChangeType(fMu, typeof(T)), (T)Convert.ChangeType(fSigma, typeof(T)), hY);

        }


        public void rng_gaussian(int n, float fMu, float fSigma, long hY)

        {

            rng_gaussian(n, (T)Convert.ChangeType(fMu, typeof(T)), (T)Convert.ChangeType(fSigma, typeof(T)), hY);

        }


        public void rng_gaussian(int n, T fMu, T fSigma, long hY)

        {

            if (m_dt == DataType.DOUBLE)

            {

                if (m_rgGhostMemory == null || !m_bGhostMemoryEnabled)

                    m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_RNG_GAUSSIAN, m_param.AsDouble(convertD(fMu), convertD(fSigma)), m_param.AsLong(n, 0, 0, hY));

            }

            else

            {

                if (m_rgGhostMemory == null || !m_bGhostMemoryEnabled)

                    m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_RNG_GAUSSIAN, m_param.AsFloat(convertF(fMu), convertF(fSigma)), m_param.AsLong(n, 0, 0, hY));

            }

        }


        public void rng_bernoulli(int n, double fNonZeroProb, long hY)

        {

            rng_bernoulli(n, (T)Convert.ChangeType(fNonZeroProb, typeof(T)), hY);

        }


        public void rng_bernoulli(int n, float fNonZeroProb, long hY)

        {

            rng_bernoulli(n, (T)Convert.ChangeType(fNonZeroProb, typeof(T)), hY);

        }


        public void rng_bernoulli(int n, T fNonZeroProb, long hY)

        {

            //if (m_dt == DataType.DOUBLE)

            //    m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CUDA_RNG_BERNOULLI, new double[] { n, (double)Convert.ChangeType(fNonZeroProb, typeof(double)), hY });

            //else

            //    m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CUDA_RNG_BERNOULLI, new float[] { n, (float)Convert.ChangeType(fNonZeroProb, typeof(float)), hY });


            T[] rg = GetMemory(hY);

            fill_random(fNonZeroProb, rg);

            SetMemory(hY, rg);

        }


#pragma warning disable 1591


        public void fill_random(T fNonZeroProb, T[] rg)

        {

            double dfNonZeroProb = Utility.ConvertVal<T>(fNonZeroProb);


            for (int i = 0; i < rg.Length; i++)

            {

                double dfRand = m_random.NextDouble();

                rg[i] = (dfRand <= dfNonZeroProb) ? m_tOne : m_tZero;

            }

        }


#pragma warning restore 1591


        public void accuracy_fwd(int nCount, int nOuterNum, int nInnerNum, long hBottomData, long hBottomLabel, long hAccData, long hAccTotals, int? nIgnoreLabel, bool bLastElementOnly, int nBatch)

        {

            if (m_dt == DataType.DOUBLE)

            {

                List<long> rgArg = new List<long>() { nCount, nOuterNum, nInnerNum, hBottomData, hBottomLabel, hAccData, hAccTotals, (bLastElementOnly) ? 1 : 0, nBatch };

                if (nIgnoreLabel.HasValue)

                    rgArg.Add(nIgnoreLabel.Value);

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_ACCURACY_FWD, null, rgArg.ToArray());

            }

            else

            {

                List<long> rgArg = new List<long>() { nCount, nOuterNum, nInnerNum, hBottomData, hBottomLabel, hAccData, hAccTotals, (bLastElementOnly) ? 1 : 0, nBatch };

                if (nIgnoreLabel.HasValue)

                    rgArg.Add(nIgnoreLabel.Value);

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_ACCURACY_FWD, null, rgArg.ToArray());

            }

        }


        public void batchreidx_fwd(int nCount, int nInnerDim, long hBottomData, long hPermutData, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_BATCHREIDX_FWD, null, m_param.AsLong(nCount, nInnerDim, hBottomData, hPermutData, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_BATCHREIDX_FWD, null, m_param.AsLong(nCount, nInnerDim, hBottomData, hPermutData, hTopData));

        }


        public void batchreidx_bwd(int nCount, int nInnerDim, long hTopDiff, long hTopIdx, long hBegins, long hCounts, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_BATCHREIDX_BWD, null, m_param.AsLong(nCount, nInnerDim, hTopDiff, hTopIdx, hBegins, hCounts, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_BATCHREIDX_BWD, null, m_param.AsLong(nCount, nInnerDim, hTopDiff, hTopIdx, hBegins, hCounts, hBottomDiff));

        }


        public void embed_fwd(int nCount, long hBottomData, long hWeight, int nM, int nN, int nK, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_EMBED_FWD, null, m_param.AsLong(nCount, hBottomData, hWeight, nM, nN, nK, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_EMBED_FWD, null, m_param.AsLong(nCount, hBottomData, hWeight, nM, nN, nK, hTopData));

        }


        public void embed_bwd(int nCount, long hBottomData, long hTopDiff, int nM, int nN, int nK, long hWeightDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_EMBED_BWD, null, m_param.AsLong(nCount, hBottomData, hTopDiff, nM, nN, nK, hWeightDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_EMBED_BWD, null, m_param.AsLong(nCount, hBottomData, hTopDiff, nM, nN, nK, hWeightDiff));

        }


        public void pooling_fwd(POOLING_METHOD method, int nCount, long hBottomData, int num, int nChannels, int nHeight, int nWidth, int nPooledHeight, int nPooledWidth, int nKernelH, int nKernelW, int nStrideH, int nStrideW, int nPadH, int nPadW, long hTopData, long hMask, long hTopMask)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_POOL_FWD, null, m_param.AsLong((int)method, nCount, hBottomData, num, nChannels, nHeight, nWidth, nPooledHeight, nPooledWidth, nKernelH, nKernelW, nStrideH, nStrideW, nPadH, nPadW, hTopData, hMask, hTopMask));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_POOL_FWD, null, m_param.AsLong((int)method, nCount, hBottomData, num, nChannels, nHeight, nWidth, nPooledHeight, nPooledWidth, nKernelH, nKernelW, nStrideH, nStrideW, nPadH, nPadW, hTopData, hMask, hTopMask));

        }


        public void pooling_bwd(POOLING_METHOD method, int nCount, long hTopDiff, int num, int nChannels, int nHeight, int nWidth, int nPooledHeight, int nPooledWidth, int nKernelH, int nKernelW, int nStrideH, int nStrideW, int nPadH, int nPadW, long hBottomDiff, long hMask, long hTopMask)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_POOL_BWD, null, m_param.AsLong((int)method, nCount, hTopDiff, num, nChannels, nHeight, nWidth, nPooledHeight, nPooledWidth, nKernelH, nKernelW, nStrideH, nStrideW, nPadH, nPadW, hBottomDiff, hMask, hTopMask));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_POOL_BWD, null, m_param.AsLong((int)method, nCount, hTopDiff, num, nChannels, nHeight, nWidth, nPooledHeight, nPooledWidth, nKernelH, nKernelW, nStrideH, nStrideW, nPadH, nPadW, hBottomDiff, hMask, hTopMask));

        }


        public void unpooling_fwd(POOLING_METHOD method, int nCount, long hBottomData, int num, int nChannels, int nHeight, int nWidth, int nPooledHeight, int nPooledWidth, int nKernelH, int nKernelW, int nStrideH, int nStrideW, int nPadH, int nPadW, long hTopData, long hMask)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_UNPOOL_FWD, null, m_param.AsLong((int)method, nCount, hBottomData, num, nChannels, nHeight, nWidth, nPooledHeight, nPooledWidth, nKernelH, nKernelW, nStrideH, nStrideW, nPadH, nPadW, hTopData, hMask));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_UNPOOL_FWD, null, m_param.AsLong((int)method, nCount, hBottomData, num, nChannels, nHeight, nWidth, nPooledHeight, nPooledWidth, nKernelH, nKernelW, nStrideH, nStrideW, nPadH, nPadW, hTopData, hMask));

        }


        public void unpooling_bwd(POOLING_METHOD method, int nCount, long hTopDiff, int num, int nChannels, int nHeight, int nWidth, int nPooledHeight, int nPooledWidth, int nKernelH, int nKernelW, int nStrideH, int nStrideW, int nPadH, int nPadW, long hBottomDiff, long hMask)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_UNPOOL_BWD, null, m_param.AsLong((int)method, nCount, hTopDiff, num, nChannels, nHeight, nWidth, nPooledHeight, nPooledWidth, nKernelH, nKernelW, nStrideH, nStrideW, nPadH, nPadW, hBottomDiff, hMask));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_UNPOOL_BWD, null, m_param.AsLong((int)method, nCount, hTopDiff, num, nChannels, nHeight, nWidth, nPooledHeight, nPooledWidth, nKernelH, nKernelW, nStrideH, nStrideW, nPadH, nPadW, hBottomDiff, hMask));

        }


        public void clip_fwd(int nCount, long hBottomData, long hTopData, T fMin, T fMax)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CLIP_FWD, m_param.AsDouble(convertD1(fMin), convertD1(fMax)), m_param.AsLong(nCount, hBottomData, hTopData, 0, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CLIP_FWD, m_param.AsFloat(convertF1(fMin), convertF1(fMax)), m_param.AsLong(nCount, hBottomData, hTopData, 0, 0));

        }


        public void clip_bwd(int nCount, long hTopDiff, long hBottomData, long hBottomDiff, T fMin, T fMax)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CLIP_BWD, m_param.AsDouble(convertD1(fMin), convertD1(fMax)), m_param.AsLong(nCount, hTopDiff, hBottomData, hBottomDiff, 0, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CLIP_BWD, m_param.AsFloat(convertF1(fMin), convertF1(fMax)), m_param.AsLong(nCount, hTopDiff, hBottomData, hBottomDiff, 0, 0));

        }


        public void math_fwd(int nCount, long hBottomData, long hTopData, MATH_FUNCTION function)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MATH_FWD, null, m_param.AsLong(nCount, hBottomData, hTopData, (int)function));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MATH_FWD, null, m_param.AsLong(nCount, hBottomData, hTopData, (int)function));

        }


        public void math_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff, long hBottomData, MATH_FUNCTION function)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MATH_BWD, null, m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff, hBottomData, (int)function));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MATH_BWD, null, m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff, hBottomData, (int)function));

        }


        public void mean_error_loss_bwd(int nCount, long hPredicted, long hTarget, long hBottomDiff, MEAN_ERROR merr)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MEAN_ERROR_LOSS_BWD, null, m_param.AsLong(nCount, hPredicted, hTarget, hBottomDiff, (int)merr));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MEAN_ERROR_LOSS_BWD, null, m_param.AsLong(nCount, hPredicted, hTarget, hBottomDiff, (int)merr));

        }


        public void mish_fwd(int nCount, long hBottomData, long hTopData, double dfThreshold)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MISH_FWD, m_param.AsDouble(dfThreshold), m_param.AsLong(nCount, hBottomData, hTopData, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MISH_FWD, m_param.AsFloat((float)dfThreshold), m_param.AsLong(nCount, hBottomData, hTopData, 0));

        }


        public void mish_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff, long hBottomData, double dfThreshold, int nMethod = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MISH_BWD, m_param.AsDouble(dfThreshold), m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff, hBottomData, 0, nMethod));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MISH_BWD, m_param.AsFloat((float)dfThreshold), m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff, hBottomData, 0, nMethod));

        }


        public void gelu_fwd(int nCount, long hBottomData, long hTopData, bool bEnableBertVersion)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_GELU_FWD, null, m_param.AsLong(nCount, hBottomData, hTopData, (bEnableBertVersion) ? 1 : 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_GELU_FWD, null, m_param.AsLong(nCount, hBottomData, hTopData, (bEnableBertVersion) ? 1 : 0));

        }


        public void gelu_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff, long hBottomData, bool bEnableBertVersion)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_GELU_BWD, null, m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff, hBottomData, (bEnableBertVersion) ? 1 : 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_GELU_BWD, null, m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff, hBottomData, (bEnableBertVersion) ? 1 : 0));

        }


        public void silu_fwd(int nCount, long hBottomData, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SILU_FWD, null, m_param.AsLong(nCount, hBottomData, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SILU_FWD, null, m_param.AsLong(nCount, hBottomData, hTopData));

        }


        public void silu_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff, long hBottomData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SILU_BWD, null, m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff, hBottomData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SILU_BWD, null, m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff, hBottomData));

        }


        public void softplus_fwd(int nCount, long hBottomData, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SOFTPLUS_FWD, null, m_param.AsLong(nCount, hBottomData, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SOFTPLUS_FWD, null, m_param.AsLong(nCount, hBottomData, hTopData));

        }


        public void softplus_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff, long hBottomData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SOFTPLUS_BWD, null, m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff, hBottomData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SOFTPLUS_BWD, null, m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff, hBottomData));

        }


        public void lecun_fwd(int nCount, long hBottomData, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_LECUN_FWD, null, m_param.AsLong(nCount, hBottomData, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_LECUN_FWD, null, m_param.AsLong(nCount, hBottomData, hTopData));

        }


        public void lecun_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff, long hBottomData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_LECUN_BWD, null, m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff, hBottomData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_LECUN_BWD, null, m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff, hBottomData));

        }


        public void serf_fwd(int nCount, long hBottomData, long hTopData, double dfThreshold)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SERF_FWD, m_param.AsDouble(dfThreshold), m_param.AsLong(nCount, hBottomData, hTopData, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SERF_FWD, m_param.AsFloat((float)dfThreshold), m_param.AsLong(nCount, hBottomData, hTopData, 0));

        }


        public void serf_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff, long hBottomData, double dfThreshold)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SERF_BWD, m_param.AsDouble(dfThreshold), m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff, hBottomData, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SERF_BWD, m_param.AsFloat((float)dfThreshold), m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff, hBottomData, 0));

        }


        public void tanh_fwd(int nCount, long hBottomData, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TANH_FWD, null, m_param.AsLong(nCount, hBottomData, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TANH_FWD, null, m_param.AsLong(nCount, hBottomData, hTopData));

        }


        public void tanh_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TANH_BWD, null, m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TANH_BWD, null, m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff));

        }


        public void sigmoid_fwd(int nCount, long hBottomData, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SIGMOID_FWD, null, m_param.AsLong(nCount, hBottomData, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SIGMOID_FWD, null, m_param.AsLong(nCount, hBottomData, hTopData));

        }


        public void sigmoid_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SIGMOID_BWD, null, m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SIGMOID_BWD, null, m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff));

        }


        public void swish_bwd(int nCount, long hTopDiff, long hTopData, long hSigmoidOutputData, long hBottomDiff, double dfBeta)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SWISH_BWD, m_param.AsDouble(dfBeta), m_param.AsLong(nCount, hTopDiff, hTopData, hSigmoidOutputData, hBottomDiff, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SWISH_BWD, m_param.AsFloat((float)dfBeta), m_param.AsLong(nCount, hTopDiff, hTopData, hSigmoidOutputData, hBottomDiff, 0));

        }


        public void relu_fwd(int nCount, long hBottomData, long hTopData, T fNegativeSlope)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_RELU_FWD, m_param.AsDouble(convertD(fNegativeSlope)), m_param.AsLong(nCount, hBottomData, hTopData, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_RELU_FWD, m_param.AsFloat(convertF(fNegativeSlope)), m_param.AsLong(nCount, hBottomData, hTopData, 0));

        }


        public void relu_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff, T fNegativeSlope)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_RELU_BWD, m_param.AsDouble(convertD(fNegativeSlope)), m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_RELU_BWD, m_param.AsFloat(convertF(fNegativeSlope)), m_param.AsLong(nCount, hTopDiff, hTopData, hBottomDiff, 0));

        }


        public void elu_fwd(int nCount, long hBottomData, long hTopData, double dfAlpha)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_ELU_FWD, m_param.AsDouble(dfAlpha), m_param.AsLong(nCount, hBottomData, hTopData, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_ELU_FWD, m_param.AsFloat((float)dfAlpha), m_param.AsLong(nCount, hBottomData, hTopData, 0));

        }


        public void elu_bwd(int nCount, long hTopDiff, long hTopData, long hBottomData, long hBottomDiff, double dfAlpha)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_ELU_BWD, m_param.AsDouble(dfAlpha), m_param.AsLong(nCount, hTopDiff, hTopData, hBottomData, hBottomDiff, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_ELU_BWD, m_param.AsFloat((float)dfAlpha), m_param.AsLong(nCount, hTopDiff, hTopData, hBottomData, hBottomDiff, 0));

        }


        public void dropout_fwd(int nCount, long hBottomData, long hMask, uint uiThreshold, T fScale, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_DROPOUT_FWD, m_param.AsDouble(convertD(fScale)), m_param.AsLong(nCount, hBottomData, hMask, uiThreshold, 0, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_DROPOUT_FWD, m_param.AsFloat(convertF(fScale)), m_param.AsLong(nCount, hBottomData, hMask, uiThreshold, 0, hTopData));

        }


        public void dropout_bwd(int nCount, long hTopDiff, long hMask, uint uiThreshold, T fScale, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_DROPOUT_BWD, m_param.AsDouble(convertD(fScale)), m_param.AsLong(nCount, hTopDiff, hMask, uiThreshold, 0, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_DROPOUT_BWD, m_param.AsFloat(convertF(fScale)), m_param.AsLong(nCount, hTopDiff, hMask, uiThreshold, 0, hBottomDiff));

        }


        public void bnll_fwd(int nCount, long hBottomData, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_BNLL_FWD, null, m_param.AsLong(nCount, hBottomData, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_BNLL_FWD, null, m_param.AsLong(nCount, hBottomData, hTopData));

        }


        public void bnll_bwd(int nCount, long hTopDiff, long hBottomData, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_BNLL_BWD, null, m_param.AsLong(nCount, hTopDiff, hBottomData, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_BNLL_BWD, null, m_param.AsLong(nCount, hTopDiff, hBottomData, hBottomDiff));

        }


        public void prelu_fwd(int nCount, int nChannels, int nDim, long hBottomData, long hTopData, long hSlopeData, int nDivFactor)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_PRELU_FWD, null, m_param.AsLong(nCount, nChannels, nDim, hBottomData, hTopData, hSlopeData, nDivFactor));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_PRELU_FWD, null, m_param.AsLong(nCount, nChannels, nDim, hBottomData, hTopData, hSlopeData, nDivFactor));

        }


        public void prelu_bwd_param(int nCDim, int nNum, int nTopOffset, long hTopDiff, long hBottomData, long hBackBuffDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_PRELU_BWD_PARAM, null, m_param.AsLong(nCDim, nNum, nTopOffset, hTopDiff, hBottomData, hBackBuffDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_PRELU_BWD_PARAM, null, m_param.AsLong(nCDim, nNum, nTopOffset, hTopDiff, hBottomData, hBackBuffDiff));

        }


        public void prelu_bwd(int nCount, int nChannels, int nDim, long hTopDiff, long hBottomData, long hBottomDiff, long hSlopeData, int nDivFactor)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_PRELU_BWD, null, m_param.AsLong(nCount, nChannels, nDim, hTopDiff, hBottomData, hBottomDiff, hSlopeData, nDivFactor));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_PRELU_BWD, null, m_param.AsLong(nCount, nChannels, nDim, hTopDiff, hBottomData, hBottomDiff, hSlopeData, nDivFactor));

        }


        public void softmaxloss_fwd(int nCount, long hProbData, long hLabel, long hLossData, int nOuterNum, int nDim, int nInnerNum, long hCounts, int? nIgnoreLabel)

        {

            if (m_dt == DataType.DOUBLE)

            {

                List<long> rg = new List<long>() { nCount, hProbData, hLabel, hLossData, nOuterNum, nDim, nInnerNum, hCounts };


                if (nIgnoreLabel.HasValue)

                    rg.Add(nIgnoreLabel.Value);


                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SOFTMAXLOSS_FWD, null, rg.ToArray());

            }

            else

            {

                List<long> rg = new List<long>() { nCount, hProbData, hLabel, hLossData, nOuterNum, nDim, nInnerNum, hCounts };


                if (nIgnoreLabel.HasValue)

                    rg.Add(nIgnoreLabel.Value);


                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SOFTMAXLOSS_FWD, null, rg.ToArray());

            }

        }


        public void softmaxloss_bwd(int nCount, long hTopData, long hLabel, long hBottomDiff, int nOuterNum, int nDim, int nInnerNum, long hCounts, int? nIgnoreLabel)

        {

            if (m_dt == DataType.DOUBLE)

            {

                List<long> rg = new List<long>() { nCount, hTopData, hLabel, hBottomDiff, nOuterNum, nDim, nInnerNum, hCounts };


                if (nIgnoreLabel.HasValue)

                    rg.Add(nIgnoreLabel.Value);


                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SOFTMAXLOSS_BWD, null, rg.ToArray());

            }

            else

            {

                List<long> rg = new List<long>() { nCount, hTopData, hLabel, hBottomDiff, nOuterNum, nDim, nInnerNum, hCounts };


                if (nIgnoreLabel.HasValue)

                    rg.Add(nIgnoreLabel.Value);


                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SOFTMAXLOSS_BWD, null, rg.ToArray());

            }

        }


        public void nllloss_fwd(int nCount, long hProbData, long hLabel, long hLossData, int nOuterNum, int nDim, int nInnerNum, long hCounts, int? nIgnoreLabel)

        {

            if (m_dt == DataType.DOUBLE)

            {

                List<long> rg = new List<long>() { nCount, hProbData, hLabel, hLossData, nOuterNum, nDim, nInnerNum, hCounts };


                if (nIgnoreLabel.HasValue)

                    rg.Add(nIgnoreLabel.Value);


                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_NLLLOSS_FWD, null, rg.ToArray());

            }

            else

            {

                List<long> rg = new List<long>() { nCount, hProbData, hLabel, hLossData, nOuterNum, nDim, nInnerNum, hCounts };


                if (nIgnoreLabel.HasValue)

                    rg.Add(nIgnoreLabel.Value);


                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_NLLLOSS_FWD, null, rg.ToArray());

            }

        }


        public void nllloss_bwd(int nCount, long hTopData, long hLabel, long hBottomDiff, int nOuterNum, int nDim, int nInnerNum, long hCounts, int? nIgnoreLabel)

        {

            if (m_dt == DataType.DOUBLE)

            {

                List<long> rg = new List<long>() { nCount, hTopData, hLabel, hBottomDiff, nOuterNum, nDim, nInnerNum, hCounts };


                if (nIgnoreLabel.HasValue)

                    rg.Add(nIgnoreLabel.Value);


                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_NLLLOSS_BWD, null, rg.ToArray());

            }

            else

            {

                List<long> rg = new List<long>() { nCount, hTopData, hLabel, hBottomDiff, nOuterNum, nDim, nInnerNum, hCounts };


                if (nIgnoreLabel.HasValue)

                    rg.Add(nIgnoreLabel.Value);


                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_NLLLOSS_BWD, null, rg.ToArray());

            }

        }


        public void max_fwd(int nCount, long hBottomDataA, long hBottomDataB, int nIdx, long hTopData, long hMask)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MAX_FWD, null, m_param.AsLong(nCount, hBottomDataA, hBottomDataB, nIdx, hTopData, hMask));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MAX_FWD, null, m_param.AsLong(nCount, hBottomDataA, hBottomDataB, nIdx, hTopData, hMask));

        }


        public void max_bwd(int nCount, long hTopDiff, int nIdx, long hMask, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MAX_BWD, null, m_param.AsLong(nCount, hTopDiff, nIdx, hMask, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MAX_BWD, null, m_param.AsLong(nCount, hTopDiff, nIdx, hMask, hBottomDiff));

        }


        public void min_fwd(int nCount, long hBottomDataA, long hBottomDataB, int nIdx, long hTopData, long hMask)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MIN_FWD, null, m_param.AsLong(nCount, hBottomDataA, hBottomDataB, nIdx, hTopData, hMask));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MIN_FWD, null, m_param.AsLong(nCount, hBottomDataA, hBottomDataB, nIdx, hTopData, hMask));

        }


        public void min_bwd(int nCount, long hTopDiff, int nIdx, long hMask, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MIN_BWD, null, m_param.AsLong(nCount, hTopDiff, nIdx, hMask, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MIN_BWD, null, m_param.AsLong(nCount, hTopDiff, nIdx, hMask, hBottomDiff));

        }


        public void crop_fwd(int nCount, int nNumAxes, long hSrcStrides, long hDstStrides, long hOffsets, long hBottomData, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CROP_FWD, null, m_param.AsLong(nCount, nNumAxes, hSrcStrides, hDstStrides, hOffsets, hBottomData, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CROP_FWD, null, m_param.AsLong(nCount, nNumAxes, hSrcStrides, hDstStrides, hOffsets, hBottomData, hTopData));

        }


        public void crop_bwd(int nCount, int nNumAxes, long hSrcStrides, long hDstStrides, long hOffsets, long hBottomDiff, long hTopDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CROP_BWD, null, m_param.AsLong(nCount, nNumAxes, hSrcStrides, hDstStrides, hOffsets, hBottomDiff, hTopDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CROP_BWD, null, m_param.AsLong(nCount, nNumAxes, hSrcStrides, hDstStrides, hOffsets, hBottomDiff, hTopDiff));

        }


        public void concat_fwd(int nCount, long hBottomData, int nNumConcats, int nConcatInputSize, int nTopConcatAxis, int nBottomConcatAxis, int nOffsetConcatAxis, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CONCAT_FWD, null, m_param.AsLong(nCount, hBottomData, nNumConcats, nConcatInputSize, nTopConcatAxis, nBottomConcatAxis, nOffsetConcatAxis, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CONCAT_FWD, null, m_param.AsLong(nCount, hBottomData, nNumConcats, nConcatInputSize, nTopConcatAxis, nBottomConcatAxis, nOffsetConcatAxis, hTopData));

        }


        public void concat_bwd(int nCount, long hTopDiff, int nNumConcats, int nConcatInputSize, int nTopConcatAxis, int nBottomConcatAxis, int nOffsetConcatAxis, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CONCAT_BWD, null, m_param.AsLong(nCount, hTopDiff, nNumConcats, nConcatInputSize, nTopConcatAxis, nBottomConcatAxis, nOffsetConcatAxis, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CONCAT_BWD, null, m_param.AsLong(nCount, hTopDiff, nNumConcats, nConcatInputSize, nTopConcatAxis, nBottomConcatAxis, nOffsetConcatAxis, hBottomDiff));

        }


        public void slice_fwd(int nCount, long hBottomData, int nNumSlices, int nSliceSize, int nBottomSliceAxis, int nTopSliceAxis, int nOffsetSliceAxis, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SLICE_FWD, null, m_param.AsLong(nCount, hBottomData, nNumSlices, nSliceSize, nBottomSliceAxis, nTopSliceAxis, nOffsetSliceAxis, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SLICE_FWD, null, m_param.AsLong(nCount, hBottomData, nNumSlices, nSliceSize, nBottomSliceAxis, nTopSliceAxis, nOffsetSliceAxis, hTopData));

        }


        public void slice_bwd(int nCount, long hTopDiff, int nNumSlices, int nSliceSize, int nBottomSliceAxis, int nTopSliceAxis, int nOffsetSliceAxis, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SLICE_BWD, null, m_param.AsLong(nCount, hTopDiff, nNumSlices, nSliceSize, nBottomSliceAxis, nTopSliceAxis, nOffsetSliceAxis, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SLICE_BWD, null, m_param.AsLong(nCount, hTopDiff, nNumSlices, nSliceSize, nBottomSliceAxis, nTopSliceAxis, nOffsetSliceAxis, hBottomDiff));

        }


        public void tile_fwd(int nCount, long hBottomData, int nInnerDim, int nTiles, int nBottomTileAxis, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TILE_FWD, null, m_param.AsLong(nCount, hBottomData, nInnerDim, nTiles, nBottomTileAxis, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TILE_FWD, null, m_param.AsLong(nCount, hBottomData, nInnerDim, nTiles, nBottomTileAxis, hTopData));

        }


        public void tile_bwd(int nCount, long hTopDiff, int nTileSize, int nTiles, int nBottomTileAxis, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TILE_BWD, null, m_param.AsLong(nCount, hTopDiff, nTileSize, nTiles, nBottomTileAxis, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TILE_BWD, null, m_param.AsLong(nCount, hTopDiff, nTileSize, nTiles, nBottomTileAxis, hBottomDiff));

        }


        public void bias_fwd(int nCount, long hBottomData, long hBiasData, int nBiasDim, int nInnerDim, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_BIAS_FWD, null, m_param.AsLong(nCount, hBottomData, hBiasData, nBiasDim, nInnerDim, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_BIAS_FWD, null, m_param.AsLong(nCount, hBottomData, hBiasData, nBiasDim, nInnerDim, hTopData));

        }


        public void scale_fwd(int nCount, long hX, long hScaleData, int nScaleDim, int nInnerDim, long hY, long hBiasData = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SCALE_FWD, null, m_param.AsLong(nCount, hX, hScaleData, nScaleDim, nInnerDim, hY, hBiasData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SCALE_FWD, null, m_param.AsLong(nCount, hX, hScaleData, nScaleDim, nInnerDim, hY, hBiasData));

        }


        public void threshold_fwd(int nCount, double dfThreshold, long hX, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_THRESHOLD_FWD, m_param.AsDouble(dfThreshold), m_param.AsLong(nCount, 0, hX, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_THRESHOLD_FWD, m_param.AsFloat((float)dfThreshold), m_param.AsLong(nCount, 0, hX, hY));

        }


        public void cll_bwd(int nCount, int nChannels, double dfMargin, bool bLegacyVersion, double dfAlpha, long hY, long hDiff, long hDistSq, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CLL_BWD, m_param.AsDouble(dfMargin, dfAlpha), m_param.AsLong(nCount, nChannels, 0, (bLegacyVersion) ? 1 : 0, 0, hY, hDiff, hDistSq, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CLL_BWD, m_param.AsFloat((float)dfMargin, (float)dfAlpha), m_param.AsLong(nCount, nChannels, 0, (bLegacyVersion) ? 1 : 0, 0, hY, hDiff, hDistSq, hBottomDiff));

        }


        public void smoothl1_fwd(int nCount, long hX, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SMOOTHL1_FWD, null, m_param.AsLong(nCount, hX, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SMOOTHL1_FWD, null, m_param.AsLong( nCount, hX, hY));

        }


        public void smoothl1_bwd(int nCount, long hX, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SMOOTHL1_BWD, null, m_param.AsLong(nCount, hX, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SMOOTHL1_BWD, null, m_param.AsLong( nCount, hX, hY));

        }


        public void permute(int nCount, long hBottom, bool bFwd, long hPermuteOrder, long hOldSteps, long hNewSteps, int nNumAxes, long hTop)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_PERMUTE, null, m_param.AsLong(nCount, hBottom, (bFwd) ? 1 : 0, hPermuteOrder, hOldSteps, hNewSteps, nNumAxes, hTop));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_PERMUTE, null, m_param.AsLong( nCount, hBottom, (bFwd) ? 1 : 0, hPermuteOrder, hOldSteps, hNewSteps, nNumAxes, hTop));

        }


        public void gather_fwd(int nCount, long hBottom, long hTop, int nAxis, int nDim, int nDimAtAxis, int nM, int nN, long hIdx)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_GATHER_FWD, null, m_param.AsLong(nCount, hBottom, hTop, nAxis, nDim, nDimAtAxis, nM, nN, hIdx));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_GATHER_FWD, null, m_param.AsLong( nCount, hBottom, hTop, nAxis, nDim, nDimAtAxis, nM, nN, hIdx));

        }


        public void gather_bwd(int nCount, long hTop, long hBottom, int nAxis, int nDim, int nDimAtAxis, int nM, int nN, long hIdx)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_GATHER_BWD, null, m_param.AsLong(nCount, hTop, hBottom, nAxis, nDim, nDimAtAxis, nM, nN, hIdx));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_GATHER_BWD, null, m_param.AsLong( nCount, hTop, hBottom, nAxis, nDim, nDimAtAxis, nM, nN, hIdx));

        }


        public void lrn_fillscale(int nCount, long hBottomData, int nNum, int nChannels, int nHeight, int nWidth, int nSize, T fAlphaOverSize, T fK, long hScaleData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_LRN_FILLSCALE, m_param.AsDouble(convertD(fAlphaOverSize), convertD(fK)), m_param.AsLong(nCount, hBottomData, nNum, nChannels, nHeight, nWidth, nSize, 0, 0, hScaleData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_LRN_FILLSCALE, m_param.AsFloat(convertF(fAlphaOverSize), convertF(fK)), m_param.AsLong(nCount, hBottomData, nNum, nChannels, nHeight, nWidth, nSize, 0, 0, hScaleData));

        }


        public void lrn_computeoutput(int nCount, long hBottomData, long hScaleData, T fNegativeBeta, long hTopData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_LRN_COMPUTEOUTPUT, m_param.AsDouble(convertD(fNegativeBeta)), m_param.AsLong(nCount, hBottomData, hScaleData, 0, hTopData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_LRN_COMPUTEOUTPUT, m_param.AsFloat(convertF(fNegativeBeta)), m_param.AsLong(nCount, hBottomData, hScaleData, 0, hTopData));

        }


        public void lrn_computediff(int nCount, long hBottomData, long hTopData, long hScaleData, long hTopDiff, int nNum, int nChannels, int nHeight, int nWidth, int nSize, T fNegativeBeta, T fCacheRatio, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_LRN_COMPUTEDIFF, m_param.AsDouble(convertD(fNegativeBeta), convertD(fCacheRatio)), m_param.AsLong(nCount, hBottomData, hTopData, hScaleData, hTopDiff, nNum, nChannels, nHeight, nWidth, nSize, 0, 0, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_LRN_COMPUTEDIFF, m_param.AsFloat(convertF(fNegativeBeta), convertF(fCacheRatio)), m_param.AsLong(nCount, hBottomData, hTopData, hScaleData, hTopDiff, nNum, nChannels, nHeight, nWidth, nSize, 0, 0, hBottomDiff));

        }


        public void sgd_update(int nCount, long hNetParamsDiff, long hHistoryData, T fMomentum, T fLocalRate)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SGD_UPDATE, m_param.AsDouble(convertD(fMomentum), convertD(fLocalRate)), m_param.AsLong(nCount, hNetParamsDiff, hHistoryData, 0, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SGD_UPDATE, m_param.AsFloat(convertF(fMomentum), convertF(fLocalRate)), m_param.AsLong(nCount, hNetParamsDiff, hHistoryData, 0, 0));

        }


        public void nesterov_update(int nCount, long hNetParamsDiff, long hHistoryData, T fMomentum, T fLocalRate)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_NESTEROV_UPDATE, m_param.AsDouble(convertD(fMomentum), convertD(fLocalRate)), m_param.AsLong(nCount, hNetParamsDiff, hHistoryData, 0, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_NESTEROV_UPDATE, m_param.AsFloat(convertF(fMomentum), convertF(fLocalRate)), m_param.AsLong(nCount, hNetParamsDiff, hHistoryData, 0, 0));

        }


        public void adagrad_update(int nCount, long hNetParamsDiff, long hHistoryData, T fDelta, T fLocalRate)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADAGRAD_UPDATE, m_param.AsDouble(convertD(fDelta), convertD(fLocalRate)), m_param.AsLong(nCount, hNetParamsDiff, hHistoryData, 0, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADAGRAD_UPDATE, m_param.AsFloat(convertF(fDelta), convertF(fLocalRate)), m_param.AsLong(nCount, hNetParamsDiff, hHistoryData, 0, 0));

        }


        public void adadelta_update(int nCount, long hNetParamsDiff, long hHistoryData1, long hHistoryData2, T fMomentum, T fDelta, T fLocalRate)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADADELTA_UPDATE, m_param.AsDouble(convertD(fMomentum), convertD(fDelta), convertD(fLocalRate)), m_param.AsLong(nCount, hNetParamsDiff, hHistoryData1, hHistoryData2, 0, 0, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADADELTA_UPDATE, m_param.AsFloat(convertF(fMomentum), convertF(fDelta), convertF(fLocalRate)), m_param.AsLong(nCount, hNetParamsDiff, hHistoryData1, hHistoryData2, 0, 0, 0));

        }


        public void adam_update(int nCount, long hNetParamsDiff, long hValM, long hValV, T fBeta1, T fBeta2, T fEpsHat, T fLearningRate, T fCorrection)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADAM_UPDATE, m_param.AsDouble(convertD(fBeta1), convertD(fBeta2), convertD(fEpsHat), convertD(fLearningRate), convertD(fCorrection)), m_param.AsLong(nCount, hNetParamsDiff, hValM, hValV, 0, 0, 0, 0, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADAM_UPDATE, m_param.AsFloat(convertF(fBeta1), convertF(fBeta2), convertF(fEpsHat), convertF(fLearningRate), convertF(fCorrection)), m_param.AsLong(nCount, hNetParamsDiff, hValM, hValV, 0, 0, 0, 0, 0));

        }


        public void adamw_update(int nCount, long hNetParamsDiff, long hValM, long hValV, T fBeta1, T fBeta2, T fEpsHat, T fLearningRate, T fDecayRate, long hNetParamsData, int nStep)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADAMW_UPDATE, m_param.AsDouble(convertD(fBeta1), convertD(fBeta2), convertD(fEpsHat), convertD(fLearningRate), convertD(fDecayRate)), m_param.AsLong(nCount, hNetParamsDiff, hValM, hValV, 0, 0, 0, 0, 0, hNetParamsData, nStep));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_ADAMW_UPDATE, m_param.AsFloat(convertF(fBeta1), convertF(fBeta2), convertF(fEpsHat), convertF(fLearningRate), convertF(fDecayRate)), m_param.AsLong(nCount, hNetParamsDiff, hValM, hValV, 0, 0, 0, 0, 0, hNetParamsData, nStep));

        }


        public void rmsprop_update(int nCount, long hNetParamsDiff, long hHistoryData, T fRmsDecay, T fDelta, T fLocalRate)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_RMSPROP_UPDATE, m_param.AsDouble(convertD(fRmsDecay), convertD(fDelta), convertD(fLocalRate)), m_param.AsLong(nCount, hNetParamsDiff, hHistoryData, 0, 0, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_RMSPROP_UPDATE, m_param.AsFloat(convertF(fRmsDecay), convertF(fDelta), convertF(fLocalRate)), m_param.AsLong(nCount, hNetParamsDiff, hHistoryData, 0, 0, 0));

        }


        public void lstm_fwd(int t, int nN, int nH, int nI, long hWeight_h, long hWeight_i, long hClipData, int nClipOffset, long hTopData, int nTopOffset, long hCellData, int nCellOffset, long hPreGateData, int nPreGateOffset, long hGateData, int nGateOffset, long hHT1Data, int nHT1Offset, long hCT1Data, int nCT1Offset, long hHtoGateData, long hContext = 0, long hWeight_c = 0, long hCtoGetData = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_LSTM_FWD, null, m_param.AsLong(t, nN, nH, nI, hWeight_h, hWeight_i, hClipData, nClipOffset, hTopData, nTopOffset, hCellData, nCellOffset, hPreGateData, nPreGateOffset, hGateData, nGateOffset, hHT1Data, nHT1Offset, hCT1Data, nCT1Offset, hHtoGateData, hContext, hWeight_c, hCtoGetData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_LSTM_FWD, null, m_param.AsLong( t, nN, nH, nI, hWeight_h, hWeight_i, hClipData, nClipOffset, hTopData, nTopOffset, hCellData, nCellOffset, hPreGateData, nPreGateOffset, hGateData, nGateOffset, hHT1Data, nHT1Offset, hCT1Data, nCT1Offset, hHtoGateData, hContext, hWeight_c, hCtoGetData));

        }


        public void lstm_bwd(int t, int nN, int nH, int nI, double dfClippingThreshold, long hWeight_h, long hClipData, int nClipOffset, long hTopDiff, int nTopOffset, long hCellData, long hCellDiff, int nCellOffset, long hPreGateDiff, int nPreGateOffset, long hGateData, long hGateDiff, int nGateOffset, long hCT1Data, int nCT1Offset, long hDHT1Diff, int nDHT1Offset, long hDCT1Diff, int nDCT1Offset, long hHtoHData, long hContextDiff = 0, long hWeight_c = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_LSTM_BWD, m_param.AsDouble(dfClippingThreshold), m_param.AsLong(t, nN, nH, nI, 0, hWeight_h, hClipData, nClipOffset, hTopDiff, nTopOffset, hCellData, hCellDiff, nCellOffset, hPreGateDiff, nPreGateOffset, hGateData, hGateDiff, nGateOffset, hCT1Data, nCT1Offset, hDHT1Diff, nDHT1Offset, hDCT1Diff, nDCT1Offset, hHtoHData, hContextDiff, hWeight_c));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_LSTM_BWD, m_param.AsFloat((float)dfClippingThreshold), m_param.AsLong( t, nN, nH, nI, 0, hWeight_h, hClipData, nClipOffset, hTopDiff, nTopOffset, hCellData, hCellDiff, nCellOffset, hPreGateDiff, nPreGateOffset, hGateData, hGateDiff, nGateOffset, hCT1Data, nCT1Offset, hDHT1Diff, nDHT1Offset, hDCT1Diff, nDCT1Offset, hHtoHData, hContextDiff, hWeight_c));

        }


        public void lstm_unit_fwd(int nCount, int nHiddenDim, int nXCount, long hX, long hX_acts, long hC_prev, long hCont, long hC, long hH)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_LSTM_UNIT_FWD, null, m_param.AsLong(nCount, nHiddenDim, nXCount, hX, hX_acts, hC_prev, hCont, hC, hH));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_LSTM_UNIT_FWD, null, m_param.AsLong( nCount, nHiddenDim, nXCount, hX, hX_acts, hC_prev, hCont, hC, hH));

        }


        public void lstm_unit_bwd(int nCount, int nHiddenDim, int nXCount, long hC_prev, long hX_acts, long hC, long hH, long hCont, long hC_diff, long hH_diff, long hC_prev_diff, long hX_acts_diff, long hX_diff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_LSTM_UNIT_BWD, null, m_param.AsLong(nCount, nHiddenDim, nXCount, hC_prev, hX_acts, hC, hH, hCont, hC_diff, hH_diff, hC_prev_diff, hX_acts_diff, hX_diff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_LSTM_UNIT_BWD, null, m_param.AsLong(nCount, nHiddenDim, nXCount, hC_prev, hX_acts, hC, hH, hCont, hC_diff, hH_diff, hC_prev_diff, hX_acts_diff, hX_diff));

        }


        public void coeff_sum_fwd(int nCount, int nDim, int nNumOffset, double dfCoeff, long hCoeffData, long hBottom, long hTop)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_COEFF_SUM_FWD, m_param.AsDouble(dfCoeff), m_param.AsLong(nCount, nDim, nNumOffset, 0, hCoeffData, hBottom, hTop));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_COEFF_SUM_FWD, m_param.AsFloat((float)dfCoeff), m_param.AsLong(nCount, nDim, nNumOffset, 0, hCoeffData, hBottom, hTop));

        }


        public void coeff_sum_bwd(int nCount, int nDim, int nNumOffset, double dfCoeff, long hCoeffData, long hTopDiff, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_COEFF_SUM_BWD, m_param.AsDouble(dfCoeff), m_param.AsLong(nCount, nDim, nNumOffset, 0, hCoeffData, hTopDiff, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_COEFF_SUM_BWD, m_param.AsFloat((float)dfCoeff), m_param.AsLong(nCount, nDim, nNumOffset, 0, hCoeffData, hTopDiff, hBottomDiff));

        }


        public void coeff_sub_fwd(int nCount, int nDim, int nNumOffset, double dfCoeff, long hCoeffData, long hBottom, long hTop)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_COEFF_SUB_FWD, m_param.AsDouble(dfCoeff), m_param.AsLong(nCount, nDim, nNumOffset, 0, hCoeffData, hBottom, hTop));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_COEFF_SUB_FWD, m_param.AsFloat((float)dfCoeff), m_param.AsLong(nCount, nDim, nNumOffset, 0, hCoeffData, hBottom, hTop));

        }


        public void coeff_sub_bwd(int nCount, int nDim, int nNumOffset, double dfCoeff, long hCoeffData, long hTopDiff, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_COEFF_SUB_BWD, m_param.AsDouble(dfCoeff), m_param.AsLong(nCount, nDim, nNumOffset, 0, hCoeffData, hTopDiff, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_COEFF_SUB_BWD, m_param.AsFloat((float)dfCoeff), m_param.AsLong(nCount, nDim, nNumOffset, 0, hCoeffData, hTopDiff, hBottomDiff));

        }


        public void sigmoid_cross_entropy_fwd(int nCount, long hInput, long hTarget, long hLoss, bool bHasIgnoreLabel, int nIgnoreLabel, long hCountData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SIGMOID_CROSS_ENTROPY_FWD, null, m_param.AsLong(nCount, hInput, hTarget, hLoss, (bHasIgnoreLabel) ? 1 : 0, nIgnoreLabel, hCountData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SIGMOID_CROSS_ENTROPY_FWD, null, m_param.AsLong(nCount, hInput, hTarget, hLoss, (bHasIgnoreLabel) ? 1 : 0, nIgnoreLabel, hCountData));

        }


        public void sigmoid_cross_entropy_bwd(int nCount, int nIgnoreLabel, long hTarget, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SIGMOID_CROSS_ENTROPY_BWD, null, m_param.AsLong(nCount, nIgnoreLabel, hTarget, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SIGMOID_CROSS_ENTROPY_BWD, null, m_param.AsLong(nCount, nIgnoreLabel, hTarget, hBottomDiff));

        }


        public void softmax_cross_entropy_fwd(int nCount, long hProbData, long hLabel, long hLossDiff, long hLossData, int nOuterNum, int nDim, int nInnerNum, long hCounts, int? nIgnoreLabel)

        {

            if (m_dt == DataType.DOUBLE)

            {

                List<long> rg = new List<long>() { nCount, hProbData, hLabel, hLossDiff, hLossData, nOuterNum, nDim, nInnerNum, hCounts };


                if (nIgnoreLabel.HasValue)

                    rg.Add(nIgnoreLabel.Value);


                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SOFTMAX_CROSS_ENTROPY_FWD, null, rg.ToArray());

            }

            else

            {

                List<long> rg = new List<long>() { nCount, hProbData, hLabel, hLossDiff, hLossData, nOuterNum, nDim, nInnerNum, hCounts };


                if (nIgnoreLabel.HasValue)

                    rg.Add(nIgnoreLabel.Value);


                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SOFTMAX_CROSS_ENTROPY_FWD, null, rg.ToArray());

            }

        }


        public void softmax_cross_entropy_bwd(int nCount, int nIgnoreLabel, long hTarget, long hBottomDiff)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_SOFTMAX_CROSS_ENTROPY_BWD, null, m_param.AsLong(nCount, nIgnoreLabel, hTarget, hBottomDiff));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_SOFTMAX_CROSS_ENTROPY_BWD, null, m_param.AsLong(nCount, nIgnoreLabel, hTarget, hBottomDiff));

        }


#pragma warning disable 1591


        public void debug()

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDouble((int)m_hKernel, (int)CUDAFN.CUDA_DEBUG, null);

            else

                m_cuda.RunFloat((int)m_hKernel, (int)CUDAFN.CUDA_DEBUG, null);

        }


        public void matrix_set_diagonal(int nCount, int nRows, double dfVal, long hData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_SET_DIAGONAL, m_param.AsDouble(dfVal), m_param.AsLong(nCount, nRows, 0, hData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_SET_DIAGONAL, m_param.AsFloat((float)dfVal), m_param.AsLong(nCount, nRows, 0, hData));

        }


        public void matrix_set_diagonal(int nCount, int nRows, long hDiagonal, double dfScaleA, double dfScaleB, long hData)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_SET_DIAGONAL2, m_param.AsDouble(dfScaleA, dfScaleB), m_param.AsLong(nCount, nRows, hDiagonal, 0, 0, hData));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_SET_DIAGONAL2, m_param.AsFloat((float)dfScaleA, (float)dfScaleB), m_param.AsLong(nCount, nRows, hDiagonal, 0, 0, hData));

        }


        public void matrix_add_vector(ORIENTATION orientation, int nWidth, int nHeight, double dfScale, long hA, long hB, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_ADD_VECTOR, m_param.AsDouble(dfScale), m_param.AsLong((int)orientation, nWidth, nHeight, 0, hA, hB, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_ADD_VECTOR, m_param.AsFloat((float)dfScale), m_param.AsLong((int)orientation, nWidth, nHeight, 0, hA, hB, hY));

        }


        public void matrix_transpose_operation(TRANSPOSE_OPERATION op, int nWidth, int nHeight, long hA, long hB, long hY, double dfScaleA = 1.0, double dfScaleB = 1.0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_TRANSPOSE_OPERATION, m_param.AsDouble(dfScaleA, dfScaleB), m_param.AsLong((int)op, nWidth, nHeight, hA, hB, hY, 0, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_TRANSPOSE_OPERATION, m_param.AsFloat((float)dfScaleA, (float)dfScaleB), m_param.AsLong((int)op, nWidth, nHeight, hA, hB, hY, 0, 0));

        }


        public void matrix_transpose_add(int nWidth, int nHeight, double dfScaleA, double dfScaleB, long hA, long hB, long hY)

        {

            matrix_transpose_operation(TRANSPOSE_OPERATION.ADD, nWidth, nHeight, hA, hB, hY, dfScaleA, dfScaleB);

        }


        public void matrix_transpose_mul(int nWidth, int nHeight, long hA, long hB, long hY)

        {

            matrix_transpose_operation(TRANSPOSE_OPERATION.MUL, nWidth, nHeight, hA, hB, hY);

        }


        public void matrix_transpose_div(int nWidth, int nHeight, long hA, long hB, long hY)

        {

            matrix_transpose_operation(TRANSPOSE_OPERATION.DIV, nWidth, nHeight, hA, hB, hY);

        }


        public void matrix_aggregate_cols(AGGREGATIONS op, int nWidth, int nHeight, long hA, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_AGGREGATE_COLS, null, m_param.AsLong((int)op, nWidth, nHeight, hA, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_AGGREGATE_COLS, null, m_param.AsLong((int)op, nWidth, nHeight, hA, hY));

        }


        public void matrix_aggregate_rows(AGGREGATIONS op, int nWidth, int nHeight, long hA, long hOnes, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_AGGREGATE_ROWS, null, m_param.AsLong((int)op, nWidth, nHeight, hA, hOnes, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_AGGREGATE_ROWS, null, m_param.AsLong((int)op, nWidth, nHeight, hA, hOnes, hY));

        }


        public void matrix_transpose(int nWidth, int nHeight, long hA, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_TRANSPOSE, null, m_param.AsLong(nWidth, nHeight, hA, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_TRANSPOSE, null, m_param.AsLong(nWidth, nHeight, hA, hY));

        }


        public void matrix_meancenter_by_column(int nWidth, int nHeight, long hA, long hB, long hY, bool bNormalize = false)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_MEANCENTER_BY_COL, null, m_param.AsLong(nWidth, nHeight, hA, hB, hY, (bNormalize) ? 1 : 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_MEANCENTER_BY_COL, null, m_param.AsLong(nWidth, nHeight, hA, hB, hY, (bNormalize) ? 1 : 0));

        }


        public void matrix_euclidean_distance(long hX, long hY, long hOut, int n, int d, int nStart, int nEnd)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_EUCLIDEAN_DIST, null, m_param.AsLong(hX, hY, hOut, n, d, nStart, nEnd));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_EUCLIDEAN_DIST, null, m_param.AsLong(hX, hY, hOut, n, d, nStart, nEnd));

        }


        public void matrix_dot(int m, int n, int k, long hA, long hB, long hC)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_DOT, null, m_param.AsLong(m, n, k, hA, hB, hC));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_DOT, null, m_param.AsLong(m, n, k, hA, hB, hC));

        }


        public void matrix_mean_rows(int nWidth, int nHeight, long hA, long hOnes, double dfAlpha, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_MEAN, m_param.AsDouble(dfAlpha), m_param.AsLong(nWidth, nHeight, hA, hOnes, 0, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_MEAN, m_param.AsFloat((float)dfAlpha), m_param.AsLong(nWidth, nHeight, hA, hOnes, 0, hY));

        }


        public void matrix_stdev_rows(int nWidth, int nHeight, long hA, long hOnes, long hMean, long hWork, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_STDEV, null, m_param.AsLong(nWidth, nHeight, hA, hOnes, hMean, hWork, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_STDEV, null, m_param.AsLong(nWidth, nHeight, hA, hOnes, hMean, hWork, hY));

        }


        public void matrix_correlations(int nWidth, int nHeight, long hA, long hOnes, long hMean, long hStdev, long hWork, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_CORRELATIONS, null, m_param.AsLong(nWidth, nHeight, hA, hOnes, hMean, hStdev, hWork, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_MTX_CORRELATIONS, null, m_param.AsLong(nWidth, nHeight, hA, hOnes, hMean, hStdev, hWork, hY));

        }


#pragma warning restore 1591


        #endregion


        #region T-SNE Methods


#pragma warning disable 1591


        public void tsne_update(int n, double dfMomentum, double dfLearningRate, long hdY, long huY, long hGains, long hY, double fGainFactor1 = 0.2, double fGainFactor2 = 0.8)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_UPDATE, m_param.AsDouble(dfMomentum, dfLearningRate, fGainFactor1, fGainFactor2), m_param.AsLong(n, 0, 0, hdY, huY, hGains, hY, 0, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_UPDATE, m_param.AsFloat((float)dfMomentum, (float)dfLearningRate, (float)fGainFactor1, (float)fGainFactor2), m_param.AsLong(n, 0, 0, hdY, huY, hGains, hY, 0, 0));

        }


        public void tsne_update_grad(int n, long hPosF, long hNegF, double dfSumQ, long hdC)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_UPDATE_GRAD, m_param.AsDouble(dfSumQ), m_param.AsLong(n, hPosF, hNegF, 0, hdC));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_UPDATE_GRAD, m_param.AsFloat((float)dfSumQ), m_param.AsLong(n, hPosF, hNegF, 0, hdC));

        }


        public void tsne_compute_exact_error(int n, long hP, long hQ, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_COMPUTE_EXACT_ERROR, null, m_param.AsLong(n, hP, hQ, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_COMPUTE_EXACT_ERROR, null, m_param.AsLong(n, hP, hQ, hY));

        }


        public void tsne_compute_squared_euclidean_distance(int n, int d, long hWork, long hX, long hDD_on_host)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_COMPUTE_SQUARED_EUCLIDEAN_DISTANCE, null, m_param.AsLong(n, d, hWork, hX, hDD_on_host));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_COMPUTE_SQUARED_EUCLIDEAN_DISTANCE, null, m_param.AsLong(n, d, hWork, hX, hDD_on_host));

        }


        public double tsne_compute_q_matrix(int n, long hDD_on_host, long hQ, bool bQisHostMem)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_COMPUTE_Q_MATRIX, null, m_param.AsLong(n, hDD_on_host, hQ, (bQisHostMem) ? 1 : 0));

                return rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_COMPUTE_Q_MATRIX, null, m_param.AsLong(n, hDD_on_host, hQ, (bQisHostMem) ? 1 : 0));

                return rg[0];

            }

        }


        public void tsne_compute_exact_gradient(int n, int d, long hY, long hP, long hQ, bool bQonHost, long hdC, double dfSumQ)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_COMPUTE_EXACT_GRADIENT, m_param.AsDouble(dfSumQ), m_param.AsLong(n, d, hY, hP, hQ, (bQonHost) ? 1 : 0, hdC, 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_COMPUTE_EXACT_GRADIENT, m_param.AsFloat((float)dfSumQ), m_param.AsLong(n, d, hY, hP, hQ, (bQonHost) ? 1 : 0, hdC, 0));

        }


        public long tsne_symmetrize_matrix(int n, long hRowP, long hColP, long hValP)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_SYMMETRIZE_MATRIX, null, m_param.AsLong(n, hRowP, hColP, hValP));

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_SYMMETRIZE_MATRIX, null, m_param.AsLong(n, hRowP, hColP, hValP));

                return (long)rg[0];

            }

        }


        public void tsne_compute_knn_bounds(int n, long hData, double dfCirclePct, out double dfMinX, out double dfMinY, out double dfMaxX, out double dfMaxY)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_COMPUTE_KNN_BOUNDS, m_param.AsDouble(dfCirclePct), m_param.AsLong(n, hData, 0));

                dfMinX = rg[0];

                dfMinY = rg[1];

                dfMaxX = rg[2];

                dfMaxY = rg[3];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_COMPUTE_KNN_BOUNDS, m_param.AsFloat((float)dfCirclePct), m_param.AsLong(n, hData, 0));

                dfMinX = rg[0];

                dfMinY = rg[1];

                dfMaxX = rg[2];

                dfMaxY = rg[3];

            }

        }


        public long CreateTsneGaussianPerplexity(int n, int d, int k, long hX, long hCurP, long hValP, long hRowPonHost, long hColPonHost, double fPerplexity)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_CREATE_GAUSSIAN_PERPLEXITY, m_param.AsDouble(fPerplexity), m_param.AsLong(n, d, k, hX, hCurP, hValP, hRowPonHost, hColPonHost, 0));

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_CREATE_GAUSSIAN_PERPLEXITY, m_param.AsFloat((float)fPerplexity), m_param.AsLong(n, d, k, hX, hCurP, hValP, hRowPonHost, hColPonHost, 0));

                return (long)rg[0];

            }

        }


        public bool FindTsneGaussianPerplexity(long hTsnePerplexity, out int nCurrentIteration, out int nMaxIteration)

        {

            bool bDone = false;


            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_FIND_GAUSSIAN_PERPLEXITY, null, m_param.AsLong(hTsnePerplexity));

                bDone = (rg[0] == 1.0) ? true : false;

                nCurrentIteration = (int)rg[1];

                nMaxIteration = (int)rg[2];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_FIND_GAUSSIAN_PERPLEXITY, null, m_param.AsLong(hTsnePerplexity));

                bDone = (rg[0] == 1.0) ? true : false;

                nCurrentIteration = (int)rg[1];

                nMaxIteration = (int)rg[2];

            }


            return bDone;

        }


        public void FreeTsneGaussianPerplexity(long hTsnePerplexity)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_FREE_GAUSSIAN_PERPLEXITY, null, m_param.AsLong(hTsnePerplexity));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_FREE_GAUSSIAN_PERPLEXITY, null, m_param.AsLong(hTsnePerplexity));

        }


        public long CreateTsne(int n, int d, long hY, long hValP, long hRowP, long hColP, long hdC, double fTheta)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_CREATE, m_param.AsDouble(fTheta), m_param.AsLong(n, d, hY, hValP, hRowP, hColP, hdC, 0));

                return (long)rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_CREATE, m_param.AsFloat((float)fTheta), m_param.AsLong(n, d, hY, hValP, hRowP, hColP, hdC, 0));

                return (long)rg[0];

            }

        }


        public void ComputeTsneGradient(long hTsne, bool bValPUpdated)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_COMPUTE_GRADIENT1, null, m_param.AsLong(hTsne, (bValPUpdated) ? 1 : 0));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_COMPUTE_GRADIENT1, null, m_param.AsLong(hTsne, (bValPUpdated) ? 1 : 0));

        }


        public double EvaluateTsneError(long hTsne)

        {

            if (m_dt == DataType.DOUBLE)

            {

                double[] rg = m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_COMPUTE_ERROR1, null, m_param.AsLong(hTsne));

                return rg[0];

            }

            else

            {

                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_COMPUTE_ERROR1, null, m_param.AsLong(hTsne));

                return rg[0];

            }

        }


        public void FreeTsne(long hTsne)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_FREE, null, m_param.AsLong(hTsne));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_TSNE_FREE, null, m_param.AsLong(hTsne));

        }


#pragma warning restore 1591


        #endregion


        #region Image Processing And Misc


        public void gaussian_blur(int n, int nChannels, int nHeight, int nWidth, double dfSigma, long hX, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_GUASSIAN_BLUR, m_param.AsDouble(dfSigma), m_param.AsLong(n, nChannels, nHeight, nWidth, 0, hX, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_GUASSIAN_BLUR, m_param.AsFloat((float)dfSigma), m_param.AsLong(n, nChannels, nHeight, nWidth, 0, hX, hY));

        }


        public double hamming_distance(int n, double dfThreshold, long hA, long hB, long hY, int nOffA = 0, int nOffB = 0, int nOffY = 0)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_HAMMING_DIFF, m_param.AsDouble(dfThreshold), m_param.AsLong(n, 0, hA, hB, hY, nOffA, nOffB, nOffY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_HAMMING_DIFF, m_param.AsFloat((float)dfThreshold), m_param.AsLong(n, 0, hA, hB, hY, nOffA, nOffB, nOffY));


            return asum_double(n, hY);

        }


        public void calc_dft_coefficients(int n, long hX, int m, long hY)

        {

            if (m_dt == DataType.DOUBLE)

                m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CALC_DFT, null, m_param.AsLong(n, hX, m, hY));

            else

                m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CALC_DFT, null, m_param.AsLong(n, hX, m, hY));

        }


        public double[] calculate_batch_distances(DistanceMethod distMethod, double dfThreshold, int nItemDim, long hSrc, long hTargets, long hWork, int[,] rgOffsets)

        {

            if (m_dt == DataType.DOUBLE)

            {

                List<long> rgArg = new List<long> { (int)distMethod, 0, nItemDim, hSrc, hTargets, hWork };

                int nDim0 = rgOffsets.GetLength(0);

                int nDim1 = rgOffsets.GetLength(1);


                rgArg.Add(nDim0);

                rgArg.Add(nDim1);


                for (int i = 0; i < nDim0; i++)

                {

                    for (int j = 0; j < nDim1; j++)

                    {

                        rgArg.Add(rgOffsets[i, j]);

                    }

                }


                return m_cuda.RunDoubleEx2((int)m_hKernel, (int)CUDAFN.CUDA_CALC_BATCH_DIST, m_param.AsDouble(dfThreshold), rgArg.ToArray());

            }

            else

            {

                List<long> rgArg = new List<long> { (int)distMethod, 0, nItemDim, hSrc, hTargets, hWork };

                int nDim0 = rgOffsets.GetLength(0);

                int nDim1 = rgOffsets.GetLength(1);


                rgArg.Add(nDim0);

                rgArg.Add(nDim1);


                for (int i = 0; i < nDim0; i++)

                {

                    for (int j = 0; j < nDim1; j++)

                    {

                        rgArg.Add(rgOffsets[i, j]);

                    }

                }


                float[] rg = m_cuda.RunFloatEx2((int)m_hKernel, (int)CUDAFN.CUDA_CALC_BATCH_DIST, m_param.AsFloat((float)dfThreshold), rgArg.ToArray());

                double[] rgD = new double[rg.Length];


                for (int i = 0; i < rg.Length; i++)

                {

                    rgD[i] = rg[i];

                }


                return rgD;

            }

        }


        #endregion


        //---------------------------------------------------------------------

        //  Conversion Methods

        //---------------------------------------------------------------------

        #region Convertion Methods


        private T[] convert(double[] rg)

        {

            if (rg == null)

                return null;


            if (typeof(T) == typeof(double))

                return (T[])Convert.ChangeType(rg, typeof(T[]));


            T[] rgt = new T[rg.Length];

            Array.Copy(Array.ConvertAll(rg, p => Convert.ToSingle(p)), rgt, rg.Length);


            return rgt;

        }


        private T[] convert(float[] rg)

        {

            if (rg == null)

                return null;


            if (typeof(T) == typeof(float))

                return (T[])Convert.ChangeType(rg, typeof(T[]));


            T[] rgt = new T[rg.Length];

            Array.Copy(rg, rgt, rg.Length);


            return rgt;

        }


        private float convertF1(T f)

        {

            return (float)Convert.ChangeType(f, typeof(float));

        }


        private T convertF1(float f)

        {

            return (T)Convert.ChangeType(f, typeof(T));

        }


        private float[] convertF(T[] rg, int nCount = -1)

        {

            if (rg == null)

                return null;


            if (nCount == -1)

                nCount = rg.Length;


            if (typeof(T) == typeof(float))

                return (float[])Convert.ChangeType(rg, typeof(float[]));


            float[] rgf = new float[rg.Length];

            Array.Copy(Array.ConvertAll(rg, p => Convert.ToSingle(p)), rgf, rg.Length);


            return rgf;

        }


        private float[] convertF(T[] rg, float[] rgDst, int nOffset = 0, int nCount = -1)

        {

            if (rg == null)

                return null;


            if (nCount == -1)

                nCount = rg.Length;


            if (typeof(T) == typeof(float))

            {

                float[] rgConv = (float[])Convert.ChangeType(rg, typeof(float[]));

                Array.Copy(rgConv, 0, rgDst, nOffset, nCount);

            }

            else

            {

                Array.Copy(rg, 0, rgDst, nOffset, nCount);

            }


            return rgDst;

        }


        private double convertD1(T df)

        {

            return (double)Convert.ChangeType(df, typeof(double));

        }


        private T convertD1(double df)

        {

            return (T)Convert.ChangeType(df, typeof(T));

        }


        private double[] convertD(T[] rg, int nCount = -1)

        {

            if (rg == null)

                return null;


            if (nCount == -1)

                nCount = rg.Length;


            if (typeof(T) == typeof(double))

                return (double[])Convert.ChangeType(rg, typeof(double[]));


            double[] rgdf = new double[rg.Length];

            Array.Copy(rg, rgdf, rg.Length);


            return rgdf;

        }


        private double[] convertD(T[] rg, double[] rgDst, int nOffset = 0, int nCount = -1)

        {

            if (rg == null)

                return null;


            if (nCount == -1)

                nCount = rg.Length;


            if (typeof(T) == typeof(double))

            {

                double[] rgConv = (double[])Convert.ChangeType(rg, typeof(double[]));

                Array.Copy(rgConv, 0, rgDst, nOffset, nCount);

            }

            else

            {

                Array.Copy(rg, 0, rgDst, nOffset, nCount);

            }


            return rgDst;

        }


        #endregion


        #region Debugging Methods


        public void ReportMemory(Log log, string strLocation)

        {

            double dfFree;

            double dfUsed;

            bool bCudaCallUsed;

            int nGpuID = GetDeviceID();

            double dfMem = GetDeviceMemory(out dfFree, out dfUsed, out bCudaCallUsed);

            log.WriteLine(strLocation + " Memory (GPU " + nGpuID.ToString() + "): " + dfMem.ToString("N2") + " GB total; " + dfFree.ToString("N2") + " GB free; " + dfUsed.ToString("N2") + " GB used.", true);

        }


        #endregion

    }


#pragma warning disable 1591


    class Params

    {

        public Params()

        {

        }


        public long[] AsLong(params long[] rg)

        {

            return rg;

        }


        public double[] AsDouble(params double[] rg)

        {

            return rg;

        }


        public float[] AsFloat(params float[] rg)

        {

            return rg;

        }

    }


#pragma warning restore 1591

}

MyCaffe.basecode.CryptoRandom
The CryptoRandom is a random number generator that can use either the standard .Net Random objec or t...
Definition: CryptoRandom.cs:14

MyCaffe.basecode.CryptoRandom.NextDouble
double NextDouble()
Returns a random double within the range .
Definition: CryptoRandom.cs:83

MyCaffe.basecode.Log
The Log class provides general output in text form.
Definition: Log.cs:13

MyCaffe.basecode.Log.WriteLine
void WriteLine(string str, bool bOverrideEnabled=false, bool bHeader=false, bool bError=false, bool bDisable=false)
Write a line of output.
Definition: Log.cs:80

MyCaffe.basecode.Utility
The Utility class provides general utility funtions.
Definition: Utility.cs:35

MyCaffe.basecode.Utility.Create
static List< int > Create(int nCount, int nStart, int nInc)
Create a new List and fill it with values starting with start and incrementing by inc.
Definition: Utility.cs:721

MyCaffe.basecode.Utility.ConvertVec
static double[] ConvertVec(float[] rgf)
Convert an array of float to an array of generics.
Definition: Utility.cs:550

MyCaffe.common.CudaDnn
The CudaDnn object is the main interface to the Low-Level Cuda C++ DLL.
Definition: CudaDnn.cs:969

MyCaffe.common.CudaDnn.channel_compare
void channel_compare(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY)
Compares the values of the channels from X and places the result in Y where 1 is set if the values ar...
Definition: CudaDnn.cs:8133

MyCaffe.common.CudaDnn.relu_fwd
void relu_fwd(int nCount, long hBottomData, long hTopData, T fNegativeSlope)
Performs a Rectifier Linear Unit (ReLU) forward pass in Cuda.
Definition: CudaDnn.cs:9383

MyCaffe.common.CudaDnn.CreateTensorDesc
long CreateTensorDesc()
Create a new instance of a tensor descriptor for use with NVIDIA's cuDnn.
Definition: CudaDnn.cs:3518

MyCaffe.common.CudaDnn.CreateConvolutionDesc
long CreateConvolutionDesc()
Create a new instance of a convolution descriptor for use with NVIDIA's cuDnn.
Definition: CudaDnn.cs:3747

MyCaffe.common.CudaDnn.coeff_sub_bwd
void coeff_sub_bwd(int nCount, int nDim, int nNumOffset, double dfCoeff, long hCoeffData, long hTopDiff, long hBottomDiff)
Performs a coefficient sub backward pass in Cuda.
Definition: CudaDnn.cs:10537

MyCaffe.common.CudaDnn.CudaDnn
CudaDnn(int nDeviceID, DEVINIT flags=(DEVINIT.CUBLAS|DEVINIT.CURAND), long? lSeed=null, string strPath="", bool bResetFirst=false, bool bEnableMemoryTrace=false)
The CudaDnn constructor.
Definition: CudaDnn.cs:1488

MyCaffe.common.CudaDnn.GetMemory
T[] GetMemory(long hMem, long lCount=-1)
Retrieves the GPU memory as an array of type 'T'
Definition: CudaDnn.cs:2700

MyCaffe.common.CudaDnn.SetTensorDesc
void SetTensorDesc(long hHandle, int n, int c, int h, int w, int nStride, int cStride, int hStride, int wStride, bool bHalf=false)
Sets the values of a tensor descriptor.
Definition: CudaDnn.cs:3620

MyCaffe.common.CudaDnn.SynchronizeStream
void SynchronizeStream(long h=0)
Synchronize a stream on the current GPU, waiting for its operations to complete.
Definition: CudaDnn.cs:3239

MyCaffe.common.CudaDnn.log
void log(int n, long hA, long hY, double dfBeta, double dfAlpha=0)
Calculates the log value of (A * beta) + alpha, and places the result in Y.
Definition: CudaDnn.cs:7504

MyCaffe.common.CudaDnn.channel_mul
void channel_mul(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY, int nMethod=1)
Multiplies the values of the channels from X and places the result in Y.
Definition: CudaDnn.cs:8272

MyCaffe.common.CudaDnn.GetDeviceID
int GetDeviceID()
Returns the current device id set within Cuda.
Definition: CudaDnn.cs:2013

MyCaffe.common.CudaDnn.SetRnnDesc
void SetRnnDesc(long hCuDnn, long hRnnDesc, int nHiddenCount, int nNumLayers, long hDropoutDesc, RNN_MODE mode, bool bUseTensorCores, RNN_DIRECTION direction=RNN_DIRECTION.RNN_UNIDIRECTIONAL)
Sets the RNN Descriptor values.
Definition: CudaDnn.cs:4770

MyCaffe.common.CudaDnn.SetHostMemory
void SetHostMemory(long hMem, T[] rgSrc)
Copies an array of type 'T' into a block of already allocated host memory.
Definition: CudaDnn.cs:2995

MyCaffe.common.CudaDnn.channel_op_fwd
void channel_op_fwd(OP op, int nCount, int nC, int nN1, int nSD1, int nN2, int nSD2, long hA, long hB, long hY)
Performs a channel operation forward on the data.
Definition: CudaDnn.cs:8382

MyCaffe.common.CudaDnn.DeviceDisablePeerAccess
void DeviceDisablePeerAccess(int nPeerDeviceID)
Disables peer-to-peer access between the current device used by the CudaDnn instance and a peer devic...
Definition: CudaDnn.cs:2270

MyCaffe.common.CudaDnn.CopyHostToDevice
void CopyHostToDevice(long lCount, long hHostSrc, long hGpuDst)
Copy from Host memory to GPU memory.
Definition: CudaDnn.cs:2568

MyCaffe.common.CudaDnn.ResetDevice
void ResetDevice()
Reset the current device.
Definition: CudaDnn.cs:2079

MyCaffe.common.CudaDnn.sort
void sort(int nCount, long hY)
Sort the data in the GPU memory specified.
Definition: CudaDnn.cs:6212

MyCaffe.common.CudaDnn.erf
float erf(float fVal)
Calculates the erf() function.
Definition: CudaDnn.cs:6996

MyCaffe.common.CudaDnn.math_fwd
void math_fwd(int nCount, long hBottomData, long hTopData, MATH_FUNCTION function)
Performs a Math function forward pass in Cuda.
Definition: CudaDnn.cs:8949

MyCaffe.common.CudaDnn.CreateRnnDesc
long CreateRnnDesc()
Create the RNN Descriptor.
Definition: CudaDnn.cs:4733

MyCaffe.common.CudaDnn.clip_bwd
void clip_bwd(int nCount, long hTopDiff, long hBottomData, long hBottomDiff, T fMin, T fMax)
Performs a Clip backward pass in Cuda.
Definition: CudaDnn.cs:8931

MyCaffe.common.CudaDnn.adadelta_update
void adadelta_update(int nCount, long hNetParamsDiff, long hHistoryData1, long hHistoryData2, T fMomentum, T fDelta, T fLocalRate)
Perform the AdaDelta update
Definition: CudaDnn.cs:10264

MyCaffe.common.CudaDnn.gemv
void gemv(bool bTransA, int m, int n, double fAlpha, long hA, long hX, double fBeta, long hY)
Perform a matrix-vector multiplication operation: y = alpha transA (A) x + beta y (where x and y are ...
Definition: CudaDnn.cs:6431

MyCaffe.common.CudaDnn.copy_batch
void copy_batch(int nCount, int nNum, int nDim, long hSrcData, long hSrcLbl, int nDstCount, long hDstCache, long hWorkDevData, int nLabelStart, int nLabelCount, int nCacheSize, long hCacheHostCursors, long hWorkDataHost)
Copy a batch of labeled items into a cache organized by label where older data is removed and replace...
Definition: CudaDnn.cs:6062

MyCaffe.common.CudaDnn.crop_bwd
void crop_bwd(int nCount, int nNumAxes, long hSrcStrides, long hDstStrides, long hOffsets, long hBottomDiff, long hTopDiff)
Performs the crop backward operation.
Definition: CudaDnn.cs:9830

MyCaffe.common.CudaDnn.matmul
void matmul(uint nOuterCount, int m, int n, int k, long hA, long hB, long hC, double dfScale=1.0, bool bTransA=false, bool bTransB=false)
Perform matmul operation hC = matmul(hA, hB), where hA, hB and hC are all in row-major format.
Definition: CudaDnn.cs:6695

MyCaffe.common.CudaDnn.IsRnn8Supported
bool IsRnn8Supported()
Returns whether or not RNN8 is supported.
Definition: CudaDnn.cs:5142

MyCaffe.common.CudaDnn.dropout_bwd
void dropout_bwd(int nCount, long hTopDiff, long hMask, uint uiThreshold, T fScale, long hBottomDiff)
Performs a dropout backward pass in Cuda.
Definition: CudaDnn.cs:9484

MyCaffe.common.CudaDnn.col2im_nd
void col2im_nd(long hDataCol, int nDataColOffset, int nNumSpatialAxes, int nColCount, int nChannelAxis, long hImShape, long hColShape, long hKernelShape, long hPad, long hStride, long hDilation, long hDataIm, int nDataImOffset)
Rearranges the columns into image blocks.
Definition: CudaDnn.cs:8063

MyCaffe.common.CudaDnn.rng_uniform
void rng_uniform(int n, double fMin, double fMax, long hY)
Fill Y with random numbers using a uniform random distribution.
Definition: CudaDnn.cs:8524

MyCaffe.common.CudaDnn.ResetGhostMemory
void ResetGhostMemory()
Resets the ghost memory by enabling it if this instance was configured to use ghost memory.
Definition: CudaDnn.cs:1783

MyCaffe.common.CudaDnn.channel_op_bwd
void channel_op_bwd(OP op, int nCount, int nC, int nN1, int nSD1, int nN2, int nSD2, int nCy, int nSDy, long hA, long hB, long hY, long hAd, long hBd, long hYd, long hWork)
Performs a channel operation backward on the data.
Definition: CudaDnn.cs:8413

MyCaffe.common.CudaDnn.mul_scalar
void mul_scalar(int n, float fAlpha, long hY)
Mutlipy each element of Y by a scalar.
Definition: CudaDnn.cs:7388

MyCaffe.common.CudaDnn.sumsq
double sumsq(int n, long hW, long hA, int nAOff=0)
Calculates the sum of squares of A.
Definition: CudaDnn.cs:7878

MyCaffe.common.CudaDnn.copy
void copy(int nCount, long hSrc, long hDst, int nSrcOffset=0, int nDstOffset=0, long hStream=-1, bool? bSrcHalfSizeOverride=null, bool? bDstHalfSizeOverride=null)
Copy data from one block of GPU memory to another.
Definition: CudaDnn.cs:6007

MyCaffe.common.CudaDnn.add_scalar
void add_scalar(int n, T fAlpha, long hY, int nYOff=0)
Adds a scalar value to each element of Y.
Definition: CudaDnn.cs:7190

MyCaffe.common.CudaDnn.slice_fwd
void slice_fwd(int nCount, long hBottomData, int nNumSlices, int nSliceSize, int nBottomSliceAxis, int nTopSliceAxis, int nOffsetSliceAxis, long hTopData)
Performs a slice forward pass in Cuda.
Definition: CudaDnn.cs:9888

MyCaffe.common.CudaDnn.channel_sub
void channel_sub(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hA, long hX, long hY)
Subtracts the values across the channels of X from A and places the result in Y.
Definition: CudaDnn.cs:8197

MyCaffe.common.CudaDnn.mish_bwd
void mish_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff, long hBottomData, double dfThreshold, int nMethod=0)
Performs a Mish backward pass in Cuda.
Definition: CudaDnn.cs:9035

MyCaffe.common.CudaDnn.cll_bwd
void cll_bwd(int nCount, int nChannels, double dfMargin, bool bLegacyVersion, double dfAlpha, long hY, long hDiff, long hDistSq, long hBottomDiff)
Performs a contrastive loss layer backward pass in Cuda.
Definition: CudaDnn.cs:10025

MyCaffe.common.CudaDnn.powx
void powx(int n, long hA, double fAlpha, long hY, int nAOff=0, int nYOff=0)
Calculates the A raised to the power alpha and places the result in Y.
Definition: CudaDnn.cs:7524

MyCaffe.common.CudaDnn.mul_scalar
void mul_scalar(int n, double fAlpha, long hY)
Mutlipy each element of Y by a scalar.
Definition: CudaDnn.cs:7374

MyCaffe.common.CudaDnn.exp
void exp(int n, long hA, long hY, int nAOff, int nYOff, double dfBeta)
Calculates the exponent value of A * beta and places the result in Y.
Definition: CudaDnn.cs:7471

MyCaffe.common.CudaDnn.CreateDropoutDesc
long CreateDropoutDesc()
Create a new instance of a dropout descriptor for use with NVIDIA's cuDnn.
Definition: CudaDnn.cs:4203

MyCaffe.common.CudaDnn.nllloss_bwd
void nllloss_bwd(int nCount, long hTopData, long hLabel, long hBottomDiff, int nOuterNum, int nDim, int nInnerNum, long hCounts, int? nIgnoreLabel)
Performs NLL Loss backward pass in Cuda.
Definition: CudaDnn.cs:9707

MyCaffe.common.CudaDnn.ConvertByteSizeToCount
static ulong ConvertByteSizeToCount(ulong ulSizeInBytes)
Converts the byte size into the number of items in the base data type of float or double.
Definition: CudaDnn.cs:2438

MyCaffe.common.CudaDnn.FreeNCCL
void FreeNCCL(long hNccl)
Free an instance of NCCL.
Definition: CudaDnn.cs:3355

MyCaffe.common.CudaDnn.FreeLayerNorm
void FreeLayerNorm(long hLayerNorm)
Free the instance of LayerNorm GPU support.
Definition: CudaDnn.cs:5846

MyCaffe.common.CudaDnn.ger
void ger(int m, int n, float fAlpha, long hX, long hY, long hA)
Perform a vector-vector multiplication operation: A = x * (fAlpha * y) (where x and y are vectors and...
Definition: CudaDnn.cs:6509

MyCaffe.common.CudaDnn.add
void add(int n, long hA, long hB, long hY, float fAlpha)
Adds A to (B times scalar) and places the result in Y.
Definition: CudaDnn.cs:7265

MyCaffe.common.CudaDnn.relu_bwd
void relu_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff, T fNegativeSlope)
Performs a Rectifier Linear Unit (ReLU) backward pass in Cuda.
Definition: CudaDnn.cs:9404

MyCaffe.common.CudaDnn.adamw_update
void adamw_update(int nCount, long hNetParamsDiff, long hValM, long hValV, T fBeta1, T fBeta2, T fEpsHat, T fLearningRate, T fDecayRate, long hNetParamsData, int nStep)
Perform the AdamW update
Definition: CudaDnn.cs:10313

MyCaffe.common.CudaDnn.lstm_unit_bwd
void lstm_unit_bwd(int nCount, int nHiddenDim, int nXCount, long hC_prev, long hX_acts, long hC, long hH, long hCont, long hC_diff, long hH_diff, long hC_prev_diff, long hX_acts_diff, long hX_diff)
Peforms the simple LSTM backward pass in Cuda for a given LSTM unit.
Definition: CudaDnn.cs:10463

MyCaffe.common.CudaDnn.scale
void scale(int n, float fAlpha, long hX, long hY)
Scales the values in X and places them in Y.
Definition: CudaDnn.cs:6940

MyCaffe.common.CudaDnn.LRNCrossChannelBackward
void LRNCrossChannelBackward(long hCuDnn, long hNormDesc, T fAlpha, long hTopDataDesc, long hTopData, long hTopDiffDesc, long hTopDiff, long hBottomDataDesc, long hBottomData, T fBeta, long hBottomDiffDesc, long hBottomDiff)
Perform LRN cross channel backward pass.
Definition: CudaDnn.cs:4384

MyCaffe.common.CudaDnn.Dispose
void Dispose()
Disposes this instance freeing up all of its host and GPU memory.
Definition: CudaDnn.cs:1629

MyCaffe.common.CudaDnn.GetRequiredCompute
string GetRequiredCompute(out int nMinMajor, out int nMinMinor)
The GetRequiredCompute function returns the Major and Minor compute values required by the current Cu...
Definition: CudaDnn.cs:2216

MyCaffe.common.CudaDnn.AddTensor
void AddTensor(long hCuDnn, T fAlpha, long hSrcDesc, long hSrc, int nSrcOffset, T fBeta, long hDstDesc, long hDst, int nDstOffset)
Add two tensors together.
Definition: CudaDnn.cs:3655

MyCaffe.common.CudaDnn.width
void width(int n, long hMean, long hMin, long hMax, double dfAlpha, long hWidth)
Calculates the width values.
Definition: CudaDnn.cs:7925

MyCaffe.common.CudaDnn.scal
void scal(int n, double fAlpha, long hX, int nXOff=0)
Scales the data in X by a scaling factor.
Definition: CudaDnn.cs:6767

MyCaffe.common.CudaDnn.max
void max(int n, long hA, long hB, long hY)
Calculates the max of A and B and places the result in Y. This max is only computed on a per item bas...
Definition: CudaDnn.cs:7669

MyCaffe.common.CudaDnn.ReLUBackward
void ReLUBackward(long hCuDnn, T fAlpha, long hTopDataDesc, long hTopData, long hTopDiffDesc, long hTopDiff, long hBottomDataDesc, long hBottomData, T fBeta, long hBottomDiffDesc, long hBottomDiff)
Perform a ReLU backward pass.
Definition: CudaDnn.cs:4598

MyCaffe.common.CudaDnn.channel_add
void channel_add(int nCount, int nOuterNum, int nChannels, int nBlocks, int nInnerNum, int nOffset, long hX, long hY, DIR dir)
Add data along channels similar to numpy split function but where the data is added instead of copied...
Definition: CudaDnn.cs:8437

MyCaffe.common.CudaDnn.CreateRnnDataDesc
long CreateRnnDataDesc()
Create the RNN Data Descriptor.
Definition: CudaDnn.cs:4652

MyCaffe.common.CudaDnn.FreePCA
void FreePCA(long hPCA)
Free the PCA instance associated with handle.
Definition: CudaDnn.cs:5446

MyCaffe.common.CudaDnn.FreeMemory
void FreeMemory(long hMem)
Free previously allocated GPU memory.
Definition: CudaDnn.cs:2517

MyCaffe.common.CudaDnn.calculate_batch_distances
double[] calculate_batch_distances(DistanceMethod distMethod, double dfThreshold, int nItemDim, long hSrc, long hTargets, long hWork, int[,] rgOffsets)
The calculate_batch_distances method calculates a set of distances based on the DistanceMethod specif...
Definition: CudaDnn.cs:11046

MyCaffe.common.CudaDnn.SetPoolingDesc
void SetPoolingDesc(long hHandle, PoolingMethod method, int h, int w, int hPad, int wPad, int hStride, int wStride)
Set the values of a pooling descriptor.
Definition: CudaDnn.cs:4074

MyCaffe.common.CudaDnn.PoolingForward
void PoolingForward(long hCuDnn, long hPoolingDesc, T fAlpha, long hBottomDesc, long hBottomData, T fBeta, long hTopDesc, long hTopData)
Perform a pooling forward pass.
Definition: CudaDnn.cs:4093

MyCaffe.common.CudaDnn.gather_fwd
void gather_fwd(int nCount, long hBottom, long hTop, int nAxis, int nDim, int nDimAtAxis, int nM, int nN, long hIdx)
Performs a gather forward pass where data at specifies indexes along a given axis are copied to the o...
Definition: CudaDnn.cs:10102

MyCaffe.common.CudaDnn.rng_setseed
void rng_setseed(long lSeed)
Sets the random number generator seed used by random number operations.
Definition: CudaDnn.cs:8506

MyCaffe.common.CudaDnn.tile_bwd
void tile_bwd(int nCount, long hTopDiff, int nTileSize, int nTiles, int nBottomTileAxis, long hBottomDiff)
Performs a tile backward pass in Cuda.
Definition: CudaDnn.cs:9941

MyCaffe.common.CudaDnn.dot_double
double dot_double(int n, long hX, long hY)
Computes the dot product of X and Y.
Definition: CudaDnn.cs:6815

MyCaffe.common.CudaDnn.rng_gaussian
void rng_gaussian(int n, double fMu, double fSigma, long hY)
Fill Y with random numbers using a gaussian random distribution.
Definition: CudaDnn.cs:8578

MyCaffe.common.CudaDnn.add_scalar
void add_scalar(int n, double fAlpha, long hY)
Adds a scalar value to each element of Y.
Definition: CudaDnn.cs:7161

MyCaffe.common.CudaDnn.unpooling_fwd
void unpooling_fwd(POOLING_METHOD method, int nCount, long hBottomData, int num, int nChannels, int nHeight, int nWidth, int nPooledHeight, int nPooledWidth, int nKernelH, int nKernelW, int nStrideH, int nStrideW, int nPadH, int nPadW, long hTopData, long hMask)
Performs the forward pass for unpooling using Cuda
Definition: CudaDnn.cs:8867

MyCaffe.common.CudaDnn.matrix_meancenter_by_column
void matrix_meancenter_by_column(int nWidth, int nHeight, long hA, long hB, long hY, bool bNormalize=false)
Mean center the data by columns, where each column is summed and then subtracted from each column val...
Definition: CudaDnn.cs:10725

MyCaffe.common.CudaDnn.adagrad_update
void adagrad_update(int nCount, long hNetParamsDiff, long hHistoryData, T fDelta, T fLocalRate)
Perform the AdaGrad update
Definition: CudaDnn.cs:10243

MyCaffe.common.CudaDnn.SynchronizeDevice
void SynchronizeDevice()
Synchronize the operations on the current device.
Definition: CudaDnn.cs:2093

MyCaffe.common.CudaDnn.sigmoid_cross_entropy_bwd
void sigmoid_cross_entropy_bwd(int nCount, int nIgnoreLabel, long hTarget, long hBottomDiff)
Performs a sigmoid cross entropy backward pass in Cuda when an ignore label is specified.
Definition: CudaDnn.cs:10571

MyCaffe.common.CudaDnn.smoothl1_bwd
void smoothl1_bwd(int nCount, long hX, long hY)
Performs the backward operation for the SmoothL1 loss.
Definition: CudaDnn.cs:10063

MyCaffe.common.CudaDnn.scale_to_range
void scale_to_range(int n, long hX, long hY, double fMin, double fMax)
Scales the values in X and places the result in Y (can also run inline where X = Y).
Definition: CudaDnn.cs:6973

MyCaffe.common.CudaDnn.ConvolutionBackwardFilter
void ConvolutionBackwardFilter(long hCuDnn, T fAlpha, long hBottomDesc, long hBottomData, int nBottomOffset, long hTopDesc, long hTopDiff, int nTopOffset, long hConvDesc, CONV_BWD_FILTER_ALGO algoBwd, long hWorkspace, int nWorkspaceOffset, ulong lWorkspaceSize, T fBeta, long hFilterDesc, long hWeightDiff, int nWeightOffset, bool bSyncStream=true)
Perform a convolution backward pass on the filter.
Definition: CudaDnn.cs:3972

MyCaffe.common.CudaDnn.SigmoidForward
void SigmoidForward(long hCuDnn, T fAlpha, long hBottomDataDesc, long hBottomData, T fBeta, long hTopDataDesc, long hTopData)
Perform a Sigmoid forward pass.
Definition: CudaDnn.cs:4531

MyCaffe.common.CudaDnn.SsdMultiBoxLossForward
int SsdMultiBoxLossForward(long hSSD, int nLocDataCount, long hLocGpuData, int nConfDataCount, long hConfGpuData, int nPriorDataCount, long hPriorGpuData, int nGtDataCount, long hGtGpuData, out List< DictionaryMap< List< int > > > rgAllMatchIndices, out List< List< int > > rgrgAllNegIndices, out int nNumNegs)
Performs the SSD MultiBoxLoss forward operation.
Definition: CudaDnn.cs:5661

MyCaffe.common.CudaDnn.TanhBackward
void TanhBackward(long hCuDnn, T fAlpha, long hTopDataDesc, long hTopData, long hTopDiffDesc, long hTopDiff, long hBottomDataDesc, long hBottomData, T fBeta, long hBottomDiffDesc, long hBottomDiff)
Perform a Tanh backward pass.
Definition: CudaDnn.cs:4473

MyCaffe.common.CudaDnn.pooling_bwd
void pooling_bwd(POOLING_METHOD method, int nCount, long hTopDiff, int num, int nChannels, int nHeight, int nWidth, int nPooledHeight, int nPooledWidth, int nKernelH, int nKernelW, int nStrideH, int nStrideW, int nPadH, int nPadW, long hBottomDiff, long hMask, long hTopMask)
Performs the backward pass for pooling using Cuda
Definition: CudaDnn.cs:8839

MyCaffe.common.CudaDnn.gemm
void gemm(bool bTransA, bool bTransB, int m, int n, int k, T fAlpha, long hA, long hB, T fBeta, long hC, int nAOffset=0, int nBOffset=0, int nCOffset=0, int nGroups=1, int nGroupOffsetA=0, int nGroupOffsetB=0, int nGroupOffsetC=0)
Perform a matrix-matrix multiplication operation: C = alpha transB (B) transA (A) + beta C
Definition: CudaDnn.cs:6285

MyCaffe.common.CudaDnn.permute
void permute(int nCount, long hBottom, bool bFwd, long hPermuteOrder, long hOldSteps, long hNewSteps, int nNumAxes, long hTop)
Performs data permutation on the input and reorders the data which is placed in the output.
Definition: CudaDnn.cs:10082

MyCaffe.common.CudaDnn.bnll_fwd
void bnll_fwd(int nCount, long hBottomData, long hTopData)
Performs a binomial normal log liklihod (BNLL) forward pass in Cuda.
Definition: CudaDnn.cs:9501

MyCaffe.common.CudaDnn.silu_bwd
void silu_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff, long hBottomData)
Performs the Sigmoid-weighted Linear Unit (SiLU) activation backward pass in Cuda.
Definition: CudaDnn.cs:9140

MyCaffe.common.CudaDnn.channel_min
void channel_min(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY, bool bReturnIdx=false)
Calculates the minimum value within each channel of X and places the result in Y.
Definition: CudaDnn.cs:8081

MyCaffe.common.CudaDnn.geam
void geam(bool bTransA, bool bTransB, int m, int n, float fAlpha, long hA, long hB, float fBeta, long hC)
Perform a matrix-matrix addition/transposition operation: C = alpha transA (A) + beta transB (B)
Definition: CudaDnn.cs:6386

MyCaffe.common.CudaDnn.nllloss_fwd
void nllloss_fwd(int nCount, long hProbData, long hLabel, long hLossData, int nOuterNum, int nDim, int nInnerNum, long hCounts, int? nIgnoreLabel)
Performs NLL Loss forward pass in Cuda.
Definition: CudaDnn.cs:9673

MyCaffe.common.CudaDnn.NcclBroadcast
void NcclBroadcast(long hNccl, long hStream, long hX, int nCount)
Broadcasts a block of GPU data to all NCCL instances.
Definition: CudaDnn.cs:3421

MyCaffe.common.CudaDnn.FreeCuDNN
void FreeCuDNN(long h)
Free an instance of cuDnn.
Definition: CudaDnn.cs:3281

MyCaffe.common.CudaDnn.DeviceCanAccessPeer
bool DeviceCanAccessPeer(int nSrcDeviceID, int nPeerDeviceID)
Query whether or not two devices can access each other via peer-to-peer memory copies.
Definition: CudaDnn.cs:2240

MyCaffe.common.CudaDnn.CreateMemoryPointer
long CreateMemoryPointer(long hData, long lOffset, long lCount)
Creates a memory pointer into an already existing block of GPU memory.
Definition: CudaDnn.cs:3028

MyCaffe.common.CudaDnn.lstm_bwd
void lstm_bwd(int t, int nN, int nH, int nI, double dfClippingThreshold, long hWeight_h, long hClipData, int nClipOffset, long hTopDiff, int nTopOffset, long hCellData, long hCellDiff, int nCellOffset, long hPreGateDiff, int nPreGateOffset, long hGateData, long hGateDiff, int nGateOffset, long hCT1Data, int nCT1Offset, long hDHT1Diff, int nDHT1Offset, long hDCT1Diff, int nDCT1Offset, long hHtoHData, long hContextDiff=0, long hWeight_c=0)
Peforms the simple LSTM backward pass in Cuda.
Definition: CudaDnn.cs:10413

MyCaffe.common.CudaDnn.denan
void denan(int n, long hX, double dfReplacement)
Replaces all NAN values witin X with a replacement value.
Definition: CudaDnn.cs:7963

MyCaffe.common.CudaDnn.mask_batch
void mask_batch(int n, int nBatch, int nMaskDim, float fSearch, float fReplace, long hX, long hMask, long hY)
Mask the mask the batch of data in the source with the mask by replacing all values 'fSearch' found i...
Definition: CudaDnn.cs:7114

MyCaffe.common.CudaDnn.rng_uniform
void rng_uniform(int n, float fMin, float fMax, long hY)
Fill Y with random numbers using a uniform random distribution.
Definition: CudaDnn.cs:8539

MyCaffe.common.CudaDnn.nesterov_update
void nesterov_update(int nCount, long hNetParamsDiff, long hHistoryData, T fMomentum, T fLocalRate)
Perform the Nesterov update
Definition: CudaDnn.cs:10223

MyCaffe.common.CudaDnn.ConvolutionBackwardData
void ConvolutionBackwardData(long hCuDnn, T fAlpha, long hFilterDesc, long hWeight, int nWeightOffset, long hTopDesc, long hTopDiff, int nTopOffset, long hConvDesc, CONV_BWD_DATA_ALGO algoBwd, long hWorkspace, int nWorkspaceOffset, ulong lWorkspaceSize, T fBeta, long hBottomDesc, long hBottomDiff, int nBottomOffset, bool bSyncStream=true)
Perform a convolution backward pass on the data.
Definition: CudaDnn.cs:4025

MyCaffe.common.CudaDnn.ger
void ger(int m, int n, T fAlpha, long hX, long hY, long hA)
Perform a vector-vector multiplication operation: A = x * (fAlpha * y) (where x and y are vectors and...
Definition: CudaDnn.cs:6526

MyCaffe.common.CudaDnn.coeff_sum_bwd
void coeff_sum_bwd(int nCount, int nDim, int nNumOffset, double dfCoeff, long hCoeffData, long hTopDiff, long hBottomDiff)
Performs a coefficient sum backward pass in Cuda.
Definition: CudaDnn.cs:10500

MyCaffe.common.CudaDnn.channel_fill
void channel_fill(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, int nLabelDim, long hLabels, long hY)
Fills each channel with the channel item of Y with the data of X matching the label index specified b...
Definition: CudaDnn.cs:8179

MyCaffe.common.CudaDnn.SetMemory
void SetMemory(long hMem, List< double > rg)
Copies a list of doubles into a block of already allocated GPU memory.
Definition: CudaDnn.cs:2734

MyCaffe.common.CudaDnn.FreePoolingDesc
void FreePoolingDesc(long h)
Free a pooling descriptor instance.
Definition: CudaDnn.cs:4055

MyCaffe.common.CudaDnn.embed_bwd
void embed_bwd(int nCount, long hBottomData, long hTopDiff, int nM, int nN, int nK, long hWeightDiff)
Performs the backward pass for embed
Definition: CudaDnn.cs:8781

MyCaffe.common.CudaDnn.mask
void mask(int n, int nMaskDim, double fSearch, double fReplace, long hX, long hMask, long hY)
Mask the mask the data in the source with the mask by replacing all values 'fSearch' found in the mas...
Definition: CudaDnn.cs:7048

MyCaffe.common.CudaDnn.threshold_fwd
void threshold_fwd(int nCount, double dfThreshold, long hX, long hY)
Performs a threshold pass in Cuda.
Definition: CudaDnn.cs:10001

MyCaffe.common.CudaDnn.channel_mean
void channel_mean(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY)
Calculates the mean value of each channel of X and places the result in Y.
Definition: CudaDnn.cs:8116

MyCaffe.common.CudaDnn.GetCudaDnnDllPath
static string GetCudaDnnDllPath()
Returns the path to the CudaDnnDll module to use for low level CUDA processing.
Definition: CudaDnn.cs:1638

MyCaffe.common.CudaDnn.AllocMemory
long AllocMemory(List< float > rg)
Allocate a block of GPU memory and copy a list of floats to it.
Definition: CudaDnn.cs:2302

MyCaffe.common.CudaDnn.CreateSSD
long CreateSSD(int nNumClasses, bool bShareLocation, int nLocClasses, int nBackgroundLabelId, bool bUseDiffcultGt, SSD_MINING_TYPE miningType, SSD_MATCH_TYPE matchType, float fOverlapThreshold, bool bUsePriorForMatching, SSD_CODE_TYPE codeType, bool bEncodeVariantInTgt, bool bBpInside, bool bIgnoreCrossBoundaryBbox, bool bUsePriorForNms, SSD_CONF_LOSS_TYPE confLossType, SSD_LOC_LOSS_TYPE locLossType, float fNegPosRatio, float fNegOverlap, int nSampleSize, bool bMapObjectToAgnostic, bool bNmsParam, float? fNmsThreshold=null, int? nNmsTopK=null, float? fNmsEta=null)
Create an instance of the SSD GPU support.
Definition: CudaDnn.cs:5482

MyCaffe.common.CudaDnn.embed_fwd
void embed_fwd(int nCount, long hBottomData, long hWeight, int nM, int nN, int nK, long hTopData)
Performs the forward pass for embed
Definition: CudaDnn.cs:8763

MyCaffe.common.CudaDnn.AllocMemory
long AllocMemory(List< double > rg)
Allocate a block of GPU memory and copy a list of doubles to it.
Definition: CudaDnn.cs:2291

MyCaffe.common.CudaDnn.copy_expand
void copy_expand(int n, int nNum, int nDim, long hX, long hA)
Expand a vector of length 'nNum' into a matrix of size 'nNum' x 'nDim' by copying each value of the v...
Definition: CudaDnn.cs:6182

MyCaffe.common.CudaDnn.FreeConvolutionDesc
void FreeConvolutionDesc(long h)
Free a convolution descriptor instance.
Definition: CudaDnn.cs:3765

MyCaffe.common.CudaDnn.SoftmaxBackward
void SoftmaxBackward(long hCuDnn, SOFTMAX_ALGORITHM alg, SOFTMAX_MODE mode, T fAlpha, long hTopDataDesc, long hTopData, long hTopDiffDesc, long hTopDiff, T fBeta, long hBottomDiffDesc, long hBottomDiff)
Perform a Softmax backward pass.
Definition: CudaDnn.cs:4640

MyCaffe.common.CudaDnn.mask_batch
void mask_batch(int n, int nBatch, int nMaskDim, T fSearch, T fReplace, long hX, long hMask, long hY)
Mask the mask the batch of data in the source with the mask by replacing all values 'fSearch' found i...
Definition: CudaDnn.cs:7079

MyCaffe.common.CudaDnn.get_double
double[] get_double(int nCount, long hHandle, int nIdx=-1)
Queries the GPU memory by copying it into an array of
Definition: CudaDnn.cs:5961

MyCaffe.common.CudaDnn.SetMemory
void SetMemory(long hMem, List< float > rg)
Copies a list of float into a block of already allocated GPU memory.
Definition: CudaDnn.cs:2745

MyCaffe.common.CudaDnn.mul_scalar
void mul_scalar(int n, T fAlpha, long hY)
Mutlipy each element of Y by a scalar.
Definition: CudaDnn.cs:7402

MyCaffe.common.CudaDnn.RunPCA
bool RunPCA(long hPCA, int nSteps, out int nCurrentK, out int nCurrentIteration)
Runs a number of steps of the iterative PCA algorithm.
Definition: CudaDnn.cs:5417

MyCaffe.common.CudaDnn.hamming_distance
double hamming_distance(int n, double dfThreshold, long hA, long hB, long hY, int nOffA=0, int nOffB=0, int nOffY=0)
The hamming_distance calculates the Hamming Distance between X and Y both of length n.
Definition: CudaDnn.cs:11005

MyCaffe.common.CudaDnn.min_bwd
void min_bwd(int nCount, long hTopDiff, int nIdx, long hMask, long hBottomDiff)
Performs a min backward pass in Cuda.
Definition: CudaDnn.cs:9794

MyCaffe.common.CudaDnn.sub
void sub(int n, long hA, long hB, long hY, int nAOff=0, int nBOff=0, int nYOff=0, int nB=0)
Subtracts B from A and places the result in Y.
Definition: CudaDnn.cs:7312

MyCaffe.common.CudaDnn.elu_bwd
void elu_bwd(int nCount, long hTopDiff, long hTopData, long hBottomData, long hBottomDiff, double dfAlpha)
Performs a Exponential Linear Unit (ELU) backward pass in Cuda.
Definition: CudaDnn.cs:9444

MyCaffe.common.CudaDnn.scale
void scale(int n, T fAlpha, long hX, long hY, int nXOff=0, int nYOff=0)
Scales the values in X and places them in Y.
Definition: CudaDnn.cs:6957

MyCaffe.common.CudaDnn.SetMemoryAt
void SetMemoryAt(long hMem, double[] rgSrc, int nOffset)
Copies an array of double into a block of already allocated GPU memory starting at a specific offset.
Definition: CudaDnn.cs:2860

MyCaffe.common.CudaDnn.slice_bwd
void slice_bwd(int nCount, long hTopDiff, int nNumSlices, int nSliceSize, int nBottomSliceAxis, int nTopSliceAxis, int nOffsetSliceAxis, long hBottomDiff)
Performs a slice backward pass in Cuda.
Definition: CudaDnn.cs:9907

MyCaffe.common.CudaDnn.Rnn8Backward
void Rnn8Backward(long hCuDnn, long hRnn, long hY, long hdY, long hX, long hdX, long hhX, long hdhY, long hdhX, long hcX, long hdcY, long hdcX, long hWt, long hdWt, long hWork, long hReserved)
Calculate the backward pass through the RNN8 for both data and weights.
Definition: CudaDnn.cs:5300

MyCaffe.common.CudaDnn.SetupSSD
void SetupSSD(long hSSD, int nNum, int nNumPriors, int nNumGt)
Setup the SSD GPU support.
Definition: CudaDnn.cs:5625

MyCaffe.common.CudaDnn.SetMemory
void SetMemory(long hMem, float[] rgSrc, long hStream=0)
Copies an array of float into a block of already allocated GPU memory.
Definition: CudaDnn.cs:2769

MyCaffe.common.CudaDnn.FreeRnnDataDesc
void FreeRnnDataDesc(long h)
Free an existing RNN Data descriptor.
Definition: CudaDnn.cs:4672

MyCaffe.common.CudaDnn.SetDeviceID
void SetDeviceID(int nDeviceID=-1, DEVINIT flags=DEVINIT.NONE, long? lSeed=null)
Set the device ID used by the current instance of CudaDnn.
Definition: CudaDnn.cs:1960

MyCaffe.common.CudaDnn.DeviceEnablePeerAccess
void DeviceEnablePeerAccess(int nPeerDeviceID)
Enables peer-to-peer access between the current device used by the CudaDnn instance and a peer device...
Definition: CudaDnn.cs:2258

MyCaffe.common.CudaDnn.AllocPCAScores
long AllocPCAScores(int nM, int nN, int nK, out int nCount)
Allocates the GPU memory for the PCA scores.
Definition: CudaDnn.cs:5336

MyCaffe.common.CudaDnn.FreeStream
void FreeStream(long h)
Free a stream.
Definition: CudaDnn.cs:3227

MyCaffe.common.CudaDnn.add
void add(int n, long hA, long hB, long hY)
Adds A to B and places the result in Y.
Definition: CudaDnn.cs:7227

MyCaffe.common.CudaDnn.tanh_fwd
void tanh_fwd(int nCount, long hBottomData, long hTopData)
Performs a TanH forward pass in Cuda.
Definition: CudaDnn.cs:9286

MyCaffe.common.CudaDnn.channel_dot
void channel_dot(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hA, long hY)
Calculates the dot product the the values within each channel of X and places the result in Y.
Definition: CudaDnn.cs:8326

MyCaffe.common.CudaDnn.DivisiveNormalizationForward
void DivisiveNormalizationForward(long hCuDnn, long hNormDesc, T fAlpha, long hBottomDataDesc, long hBottomData, long hTemp1, long hTemp2, T fBeta, long hTopDataDesc, long hTopData)
Performs a Devisive Normalization forward pass.
Definition: CudaDnn.cs:4408

MyCaffe.common.CudaDnn.elu_fwd
void elu_fwd(int nCount, long hBottomData, long hTopData, double dfAlpha)
Performs a Exponential Linear Unit (ELU) forward pass in Cuda.
Definition: CudaDnn.cs:9424

MyCaffe.common.CudaDnn.AllocMemory
long AllocMemory(float[] rgSrc, long hStream=0)
Allocate a block of GPU memory and copy an array of float to it, optionally using a stream for the co...
Definition: CudaDnn.cs:2326

MyCaffe.common.CudaDnn.bias_fwd
void bias_fwd(int nCount, long hBottomData, long hBiasData, int nBiasDim, int nInnerDim, long hTopData)
Performs a bias forward pass in Cuda.
Definition: CudaDnn.cs:9958

MyCaffe.common.CudaDnn.smoothl1_fwd
void smoothl1_fwd(int nCount, long hX, long hY)
Performs the forward operation for the SmoothL1 loss.
Definition: CudaDnn.cs:10044

MyCaffe.common.CudaDnn.rng_gaussian
void rng_gaussian(int n, T fMu, T fSigma, long hY)
Fill Y with random numbers using a gaussian random distribution.
Definition: CudaDnn.cs:8608

MyCaffe.common.CudaDnn.fill
void fill(int n, int nDim, long hSrc, int nSrcOff, int nCount, long hDst)
Fill data from the source data 'n' times in the destination.
Definition: CudaDnn.cs:6199

MyCaffe.common.CudaDnn.rng_bernoulli
void rng_bernoulli(int n, T fNonZeroProb, long hY)
Fill Y with random numbers using a bernoulli random distribution.
Definition: CudaDnn.cs:8659

MyCaffe.common.CudaDnn.softmax_cross_entropy_bwd
void softmax_cross_entropy_bwd(int nCount, int nIgnoreLabel, long hTarget, long hBottomDiff)
Performs a softmax cross entropy backward pass in Cuda when an ignore label is specified.
Definition: CudaDnn.cs:10624

MyCaffe.common.CudaDnn.Rnn8Forward
void Rnn8Forward(long hCuDnn, long hRnn, long hX, long hY, long hhX, long hhY, long hcX, long hcY, long hWts, long hWork, long hReserved)
Calculate the forward pass through the RNN8.
Definition: CudaDnn.cs:5273

MyCaffe.common.CudaDnn.lstm_fwd
void lstm_fwd(int t, int nN, int nH, int nI, long hWeight_h, long hWeight_i, long hClipData, int nClipOffset, long hTopData, int nTopOffset, long hCellData, int nCellOffset, long hPreGateData, int nPreGateOffset, long hGateData, int nGateOffset, long hHT1Data, int nHT1Offset, long hCT1Data, int nCT1Offset, long hHtoGateData, long hContext=0, long hWeight_c=0, long hCtoGetData=0)
Peforms the simple LSTM foward pass in Cuda.
Definition: CudaDnn.cs:10372

MyCaffe.common.CudaDnn.SetPixel
T[] SetPixel(long hMem, int nCount, bool bReturnOriginal, int nOffset, params Tuple< int, T >[] rgPixel)
Set a pixel value where each pixel is defined a set index, value tuple.
Definition: CudaDnn.cs:2933

MyCaffe.common.CudaDnn.CreateCuDNN
long CreateCuDNN(long hStream=0)
Create a new instance of NVIDIA's cuDnn.
Definition: CudaDnn.cs:3263

MyCaffe.common.CudaDnn.rng_gaussian
void rng_gaussian(int n, float fMu, float fSigma, long hY)
Fill Y with random numbers using a gaussian random distribution.
Definition: CudaDnn.cs:8593

MyCaffe.common.CudaDnn.lecun_bwd
void lecun_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff, long hBottomData)
Performs the LeCun's Tanh function backward
Definition: CudaDnn.cs:9225

MyCaffe.common.CudaDnn.add
void add(int n, long hA, long hB, long hC, long hY)
Adds A, B and C and places the result in Y.
Definition: CudaDnn.cs:7209

MyCaffe.common.CudaDnn.col2im
void col2im(long hDataCol, int nDataColOffset, int nChannels, int nHeight, int nWidth, int nKernelH, int nKernelW, int nPadH, int nPadW, int nStrideH, int nStrideW, int nDilationH, int nDilationW, long hDataIm, int nDataImOffset)
Rearranges the columns into image blocks.
Definition: CudaDnn.cs:8039

MyCaffe.common.CudaDnn.axpby
void axpby(int n, double fAlpha, long hX, double fBeta, long hY)
Scale the vector x and then multiply the vector X by a scalar and add the result to the vector Y.
Definition: CudaDnn.cs:6595

MyCaffe.common.CudaDnn.CreateFilterDesc
long CreateFilterDesc()
Create a new instance of a filter descriptor for use with NVIDIA's cuDnn.
Definition: CudaDnn.cs:3668

MyCaffe.common.CudaDnn.KernelCopy
void KernelCopy(int nCount, long hSrc, int nSrcOffset, long hDstKernel, long hDst, int nDstOffset, long hHostBuffer, long hHostKernel=-1, long hStream=-1, long hSrcKernel=-1)
Copy memory from the look-up tables in one kernel to another.
Definition: CudaDnn.cs:1829

MyCaffe.common.CudaDnn.sign
void sign(int n, long hX, long hY, int nXOff=0, int nYOff=0)
Computes the sign of each element of X and places the result in Y.
Definition: CudaDnn.cs:7574

MyCaffe.common.CudaDnn.FreeMemoryTest
void FreeMemoryTest(long h)
Free a memory test, freeing up all GPU memory used.
Definition: CudaDnn.cs:3095

MyCaffe.common.CudaDnn.axpby
void axpby(int n, T fAlpha, long hX, T fBeta, long hY)
Scale the vector x by Alpha and scale vector y by Beta and then add both together.
Definition: CudaDnn.cs:6629

MyCaffe.common.CudaDnn.get_float
float[] get_float(int nCount, long hHandle, int nIdx=-1)
Queries the GPU memory by copying it into an array of
Definition: CudaDnn.cs:5973

MyCaffe.common.CudaDnn.ConvolutionForward
void ConvolutionForward(long hCuDnn, T fAlpha, long hBottomDesc, long hBottomData, int nBottomOffset, long hFilterDesc, long hWeight, int nWeightOffset, long hConvDesc, CONV_FWD_ALGO algoFwd, long hWorkspace, int nWorkspaceOffset, ulong lWorkspaceSize, T fBeta, long hTopDesc, long hTopData, int nTopOffset, bool bSyncStream=true)
Perform a convolution forward pass.
Definition: CudaDnn.cs:3882

MyCaffe.common.CudaDnn.lecun_fwd
void lecun_fwd(int nCount, long hBottomData, long hTopData)
Performs the LeCun's Tanh function forward
Definition: CudaDnn.cs:9203

MyCaffe.common.CudaDnn.div
void div(int n, long hA, long hB, long hY)
Divides each element of A by each element of B and places the result in Y.
Definition: CudaDnn.cs:7420

MyCaffe.common.CudaDnn.RnnForward
void RnnForward(long hCuDnn, long hRnnDesc, long hXDesc, long hXData, long hHxDesc, long hHxData, long hCxDesc, long hCxData, long hWtDesc, long hWtData, long hYDesc, long hYData, long hHyDesc, long hHyData, long hCyDesc, long hCyData, long hWorkspace, ulong nWsCount, long hReserved, ulong nResCount, bool bTraining)
Run the RNN through a forward pass.
Definition: CudaDnn.cs:4881

MyCaffe.common.CudaDnn.channel_copyall
void channel_copyall(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY)
Copy all data from X (shape 1,c,sd) to each num in Y (shape n,c,sd).
Definition: CudaDnn.cs:8474

MyCaffe.common.CudaDnn.gemm
void gemm(bool bTransA, bool bTransB, int m, int n, int k, double fAlpha, long hA, long hB, double fBeta, long hC, uint lda, uint ldb, uint ldc, uint stridea, uint strideb, uint stridec, uint batch_count)
Perform a matrix-matrix multiplication operation: C = alpha transB (B) transA (A) + beta C
Definition: CudaDnn.cs:6343

MyCaffe.common.CudaDnn.basetype_size
static ulong basetype_size(bool bUseHalfSize)
Returns the base type size in bytes.
Definition: CudaDnn.cs:1899

MyCaffe.common.CudaDnn.log
void log(int n, long hA, long hY)
Calculates the log value of A and places the result in Y.
Definition: CudaDnn.cs:7488

MyCaffe.common.CudaDnn.channel_fillfrom
void channel_fillfrom(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY, DIR dir)
Fills each channel with the the values stored in Src data where the X data continains nOuterNum x nCh...
Definition: CudaDnn.cs:8152

MyCaffe.common.CudaDnn.GetRnn8MemorySizes
void GetRnn8MemorySizes(long hCuDnn, long hRnn, out ulong szWtCount, out ulong szWorkSize, out ulong szReservedSize)
Returns the memory sizes required for the RNN8.
Definition: CudaDnn.cs:5221

MyCaffe.common.CudaDnn.CreateNCCL
long CreateNCCL(int nDeviceId, int nCount, int nRank, Guid guid)
Create an instance of NVIDIA's NCCL 'Nickel'
Definition: CudaDnn.cs:3297

MyCaffe.common.CudaDnn.silu_fwd
void silu_fwd(int nCount, long hBottomData, long hTopData)
Performs the Sigmoid-weighted Linear Unit (SiLU) activation forward pass in Cuda.
Definition: CudaDnn.cs:9118

MyCaffe.common.CudaDnn.axpy
void axpy(int n, double fAlpha, long hX, long hY)
Multiply the vector X by a scalar and add the result to the vector Y.
Definition: CudaDnn.cs:6544

MyCaffe.common.CudaDnn.adam_update
void adam_update(int nCount, long hNetParamsDiff, long hValM, long hValV, T fBeta1, T fBeta2, T fEpsHat, T fLearningRate, T fCorrection)
Perform the Adam update
Definition: CudaDnn.cs:10287

MyCaffe.common.CudaDnn.sum
void sum(int nCount, int nOuterNum, int nInnerNum, long hX, long hY)
Calculates the sum of inner values of X and places the result in Y.
Definition: CudaDnn.cs:8491

MyCaffe.common.CudaDnn.SsdEncodeConfPrediction
void SsdEncodeConfPrediction(long hSSD, int nConfPredCount, long hConfPred, int nConfGtCount, long hConfGt)
Encodes the SSD data into the confidence prediction and confidence ground truths.
Definition: CudaDnn.cs:5810

MyCaffe.common.CudaDnn.rng_bernoulli
void rng_bernoulli(int n, float fNonZeroProb, long hY)
Fill Y with random numbers using a bernoulli random distribution.
Definition: CudaDnn.cs:8645

MyCaffe.common.CudaDnn.transposeHW
void transposeHW(int n, int c, int h, int w, long hSrc, long hDst)
Transpose a n*c number of matrices along the height and width dimensions. All matrices are in row-maj...
Definition: CudaDnn.cs:6716

MyCaffe.common.CudaDnn.prelu_fwd
void prelu_fwd(int nCount, int nChannels, int nDim, long hBottomData, long hTopData, long hSlopeData, int nDivFactor)
Performs Parameterized Rectifier Linear Unit (ReLU) forward pass in Cuda.
Definition: CudaDnn.cs:9540

MyCaffe.common.CudaDnn.ConvolutionBackwardFilter
void ConvolutionBackwardFilter(long hCuDnn, long hBottomDesc, long hBottomData, int nBottomOffset, long hTopDesc, long hTopDiff, int nTopOffset, long hConvDesc, CONV_BWD_FILTER_ALGO algoBwd, long hWorkspace, int nWorkspaceOffset, ulong lWorkspaceSize, long hFilterDesc, long hWeightDiff, int nWeightOffset, bool bSyncStream)
Perform a convolution backward pass on the filter.
Definition: CudaDnn.cs:3946

MyCaffe.common.CudaDnn.CreateLRNDesc
long CreateLRNDesc()
Create a new instance of a LRN descriptor for use with NVIDIA's cuDnn.
Definition: CudaDnn.cs:4308

MyCaffe.common.CudaDnn.ReportMemory
void ReportMemory(Log log, string strLocation)
Report the memory use on the current GPU managed by the CudaDnn object.
Definition: CudaDnn.cs:11236

MyCaffe.common.CudaDnn.mean_error_loss_bwd
void mean_error_loss_bwd(int nCount, long hPredicted, long hTarget, long hBottomDiff, MEAN_ERROR merr)
Performs a Mean Error Loss backward pass in Cuda.
Definition: CudaDnn.cs:8991

MyCaffe.common.CudaDnn.RnnBackwardWeights
void RnnBackwardWeights(long hCuDnn, long hRnnDesc, long hXDesc, long hXData, long hHxDesc, long hHxData, long hYDesc, long hYData, long hWorkspace, ulong nWsCount, long hWtDesc, long hWtDiff, long hReserved, ulong nResCount)
Run the RNN backward pass on the weights.
Definition: CudaDnn.cs:5080

MyCaffe.common.CudaDnn.channel_max
void channel_max(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY, bool bReturnIdx=false)
Calculates the maximum value within each channel of X and places the result in Y.
Definition: CudaDnn.cs:8099

MyCaffe.common.CudaDnn.scal
void scal(int n, float fAlpha, long hX, int nXOff=0)
Scales the data in X by a scaling factor.
Definition: CudaDnn.cs:6782

MyCaffe.common.CudaDnn.serf_fwd
void serf_fwd(int nCount, long hBottomData, long hTopData, double dfThreshold)
Performs a Serf forward pass in Cuda.
Definition: CudaDnn.cs:9245

MyCaffe.common.CudaDnn.concat_bwd
void concat_bwd(int nCount, long hTopDiff, int nNumConcats, int nConcatInputSize, int nTopConcatAxis, int nBottomConcatAxis, int nOffsetConcatAxis, long hBottomDiff)
Performs a concat backward pass in Cuda.
Definition: CudaDnn.cs:9869

MyCaffe.common.CudaDnn.sigmoid_fwd
void sigmoid_fwd(int nCount, long hBottomData, long hTopData)
Performs a Sigmoid forward pass in Cuda.
Definition: CudaDnn.cs:9323

MyCaffe.common.CudaDnn.GetMultiGpuBoardGroupID
int GetMultiGpuBoardGroupID(int nDeviceID)
Query the mutli-gpu board group id for a device.
Definition: CudaDnn.cs:2109

MyCaffe.common.CudaDnn.contains_point
bool contains_point(int n, long hMean, long hWidth, long hX, long hWork, int nXOff=0)
Returns true if the point is contained within the bounds.
Definition: CudaDnn.cs:7943

MyCaffe.common.CudaDnn.CreateRnn8
long CreateRnn8()
Create the RNN8.
Definition: CudaDnn.cs:5160

MyCaffe.common.CudaDnn.lrn_computediff
void lrn_computediff(int nCount, long hBottomData, long hTopData, long hScaleData, long hTopDiff, int nNum, int nChannels, int nHeight, int nWidth, int nSize, T fNegativeBeta, T fCacheRatio, long hBottomDiff)
Computes the diff used to calculate the LRN cross channel backward pass in Cuda.
Definition: CudaDnn.cs:10184

MyCaffe.common.CudaDnn.SigmoidBackward
void SigmoidBackward(long hCuDnn, T fAlpha, long hTopDataDesc, long hTopData, long hTopDiffDesc, long hTopDiff, long hBottomDataDesc, long hBottomData, T fBeta, long hBottomDiffDesc, long hBottomDiff)
Perform a Sigmoid backward pass.
Definition: CudaDnn.cs:4553

MyCaffe.common.CudaDnn.CreatePCA
long CreatePCA(int nMaxIterations, int nM, int nN, int nK, long hData, long hScoresResult, long hLoadsResult, long hResiduals=0, long hEigenvalues=0)
Creates a new PCA instance and returns the handle to it.
Definition: CudaDnn.cs:5392

MyCaffe.common.CudaDnn.rmsprop_update
void rmsprop_update(int nCount, long hNetParamsDiff, long hHistoryData, T fRmsDecay, T fDelta, T fLocalRate)
Perform the RMSProp update
Definition: CudaDnn.cs:10334

MyCaffe.common.CudaDnn.SetMemory
void SetMemory(long hMem, T[] rgSrc, long hStream=0, int nCount=-1)
Copies an array of type 'T' into a block of already allocated GPU memory.
Definition: CudaDnn.cs:2781

MyCaffe.common.CudaDnn.FreeFilterDesc
void FreeFilterDesc(long h)
Free a filter descriptor instance.
Definition: CudaDnn.cs:3686

MyCaffe.common.CudaDnn.EluBackward
void EluBackward(long hCuDnn, T fAlpha, long hTopDataDesc, long hTopData, long hTopDiffDesc, long hTopDiff, long hBottomDataDesc, long hBottomData, T fBeta, long hBottomDiffDesc, long hBottomDiff)
Perform a Elu backward pass.
Definition: CudaDnn.cs:4513

MyCaffe.common.CudaDnn.im2col
void im2col(long hDataIm, int nDataImOffset, int nChannels, int nHeight, int nWidth, int nKernelH, int nKernelW, int nPadH, int nPadW, int nStrideH, int nStrideW, int nDilationH, int nDilationW, long hDataCol, int nDataColOffset)
Rearranges image blocks into columns.
Definition: CudaDnn.cs:7989

MyCaffe.common.CudaDnn.gemm
void gemm(bool bTransA, bool bTransB, int m, int n, int k, double fAlpha, long hA, long hB, double fBeta, long hC)
Perform a matrix-matrix multiplication operation: C = alpha transB (B) transA (A) + beta C
Definition: CudaDnn.cs:6236

MyCaffe.common.CudaDnn.SetConvolutionDesc
void SetConvolutionDesc(long hHandle, int hPad, int wPad, int hStride, int wStride, int hDilation, int wDilation, bool bUseTensorCores, bool bHalf=false)
Set the values of a convolution descriptor.
Definition: CudaDnn.cs:3785

MyCaffe.common.CudaDnn.tile_fwd
void tile_fwd(int nCount, long hBottomData, int nInnerDim, int nTiles, int nBottomTileAxis, long hTopData)
Performs a tile forward pass in Cuda.
Definition: CudaDnn.cs:9924

MyCaffe.common.CudaDnn.FreeSSD
void FreeSSD(long hSSD)
Free the instance of SSD GPU support.
Definition: CudaDnn.cs:5637

MyCaffe.common.CudaDnn.SetFilterNdDesc
void SetFilterNdDesc(long hHandle, int[] rgDim, bool bHalf=false)
Sets the values of a filter descriptor.
Definition: CudaDnn.cs:3700

MyCaffe.common.CudaDnn.ConvolutionBackwardBias
void ConvolutionBackwardBias(long hCuDnn, T fAlpha, long hTopDesc, long hTopDiff, int nTopOffset, T fBeta, long hBiasDesc, long hBiasDiff, int nBiasOffset, bool bSyncStream=true)
Perform a convolution backward pass on the bias.
Definition: CudaDnn.cs:3919

MyCaffe.common.CudaDnn.CreatePoolingDesc
long CreatePoolingDesc()
Create a new instance of a pooling descriptor for use with NVIDIA's cuDnn.
Definition: CudaDnn.cs:4037

MyCaffe.common.CudaDnn.scale
void scale(int n, double fAlpha, long hX, long hY)
Scales the values in X and places them in Y.
Definition: CudaDnn.cs:6925

MyCaffe.common.CudaDnn.FreeRnn8
void FreeRnn8(long h)
Free an existing RNN8.
Definition: CudaDnn.cs:5178

MyCaffe.common.CudaDnn.minmax
Tuple< double, double, double, double > minmax(int n, long hA, long hWork1, long hWork2, bool bDetectNans=false, int nAOff=0)
Finds the minimum and maximum values within A.
Definition: CudaDnn.cs:7818

MyCaffe.common.CudaDnn.mask_batch
void mask_batch(int n, int nBatch, int nMaskDim, double fSearch, double fReplace, long hX, long hMask, long hY)
Mask the mask the batch of data in the source with the mask by replacing all values 'fSearch' found i...
Definition: CudaDnn.cs:7098

MyCaffe.common.CudaDnn.AllocMemory
long AllocMemory(long lCapacity, bool bHalfSize=false)
Allocate a block of GPU memory with a specified capacity.
Definition: CudaDnn.cs:2449

MyCaffe.common.CudaDnn.AllocMemory
long AllocMemory(T[] rgSrc, long hStream=0, bool bHalfSize=false)
Allocate a block of GPU memory and copy an array of type 'T' to it, optionally using a stream for the...
Definition: CudaDnn.cs:2338

MyCaffe.common.CudaDnn.lrn_fillscale
void lrn_fillscale(int nCount, long hBottomData, int nNum, int nChannels, int nHeight, int nWidth, int nSize, T fAlphaOverSize, T fK, long hScaleData)
Performs the fill scale operation used to calculate the LRN cross channel forward pass in Cuda.
Definition: CudaDnn.cs:10143

MyCaffe.common.CudaDnn.LRNCrossChannelForward
void LRNCrossChannelForward(long hCuDnn, long hNormDesc, T fAlpha, long hBottomDesc, long hBottomData, T fBeta, long hTopDesc, long hTopData)
Perform LRN cross channel forward pass.
Definition: CudaDnn.cs:4361

MyCaffe.common.CudaDnn.GetHostMemoryFloat
float[] GetHostMemoryFloat(long hMem)
Retrieves the host memory as an array of floats.
Definition: CudaDnn.cs:2652

MyCaffe.common.CudaDnn.transpose
void transpose(int n, long hX, long hY, long hXCounts, long hYCounts, long hMapping, int nNumAxes, long hBuffer)
Perform a transpose on X producing Y, similar to the numpy.transpose operation.
Definition: CudaDnn.cs:7862

MyCaffe.common.CudaDnn.GetRnnParamCount
int GetRnnParamCount(long hCuDnn, long hRnnDesc, long hXDesc)
Returns the RNN parameter count.
Definition: CudaDnn.cs:4785

MyCaffe.common.CudaDnn.gaussian_blur
void gaussian_blur(int n, int nChannels, int nHeight, int nWidth, double dfSigma, long hX, long hY)
The gaussian_blur runs a Gaussian blurring operation over each channel of the data using the sigma.
Definition: CudaDnn.cs:10980

MyCaffe.common.CudaDnn.gelu_bwd
void gelu_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff, long hBottomData, bool bEnableBertVersion)
Performs a GELU backward pass in Cuda.
Definition: CudaDnn.cs:9098

MyCaffe.common.CudaDnn.max_bwd
void max_bwd(int nCount, long hTopDiff, int nIdx, long hMask, long hBottomDiff)
Performs a max backward pass in Cuda.
Definition: CudaDnn.cs:9758

MyCaffe.common.CudaDnn.max
double max(int n, long hA, out long lPos, int nAOff=0, long hWork=0)
Finds the maximum value of A.
Definition: CudaDnn.cs:7724

MyCaffe.common.CudaDnn.GetDeviceMemory
double GetDeviceMemory(out double dfFree, out double dfUsed, out bool bCudaCallUsed, int nDeviceID=-1)
Queries the amount of total, free and used memory on a given GPU.
Definition: CudaDnn.cs:2182

MyCaffe.common.CudaDnn.PoolingBackward
void PoolingBackward(long hCuDnn, long hPoolingDesc, T fAlpha, long hTopDataDesc, long hTopData, long hTopDiffDesc, long hTopDiff, long hBottomDataDesc, long hBottomData, T fBeta, long hBottomDiffDesc, long hBottomDiff)
Perform a pooling backward pass.
Definition: CudaDnn.cs:4116

MyCaffe.common.CudaDnn.SsdEncodeLocPrediction
void SsdEncodeLocPrediction(long hSSD, int nLocPredCount, long hLocPred, int nLocGtCount, long hLocGt)
Encodes the SSD data into the location prediction and location ground truths.
Definition: CudaDnn.cs:5794

MyCaffe.common.CudaDnn.exp
void exp(int n, long hA, long hY)
Calculates the exponent value of A and places the result in Y.
Definition: CudaDnn.cs:7454

MyCaffe.common.CudaDnn.GetDeviceInfo
string GetDeviceInfo(int nDeviceID, bool bVerbose=false)
Query the device information of a device.
Definition: CudaDnn.cs:2064

MyCaffe.common.CudaDnn.BatchNormBackward
void BatchNormBackward(long hCuDnn, BATCHNORM_MODE mode, T fAlphaDiff, T fBetaDiff, T fAlphaParamDiff, T fBetaParamDiff, long hBwdBottomDesc, long hBottomData, long hTopDiffDesc, long hTopDiff, long hBottomDiffDesc, long hBottomDiff, long hBwdScaleBiasMeanVarDesc, long hScaleData, long hScaleDiff, long hBiasDiff, double dfEps, long hSaveMean, long hSaveInvVar)
Run the batch norm backward pass.
Definition: CudaDnn.cs:4191

MyCaffe.common.CudaDnn.sqrt_scale
void sqrt_scale(int nCount, long hX, long hY)
Scale the data by the sqrt of the data. y = sqrt(abs(x)) * sign(x)
Definition: CudaDnn.cs:7638

MyCaffe.common.CudaDnn.channel_mulv
void channel_mulv(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hA, long hX, long hC)
Multiplies the values in vector X by each channel in matrix A and places the result in matrix C.
Definition: CudaDnn.cs:8290

MyCaffe.common.CudaDnn.softplus_bwd
void softplus_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff, long hBottomData)
Performs the Softplus function backward, a smooth approximation of the ReLU function
Definition: CudaDnn.cs:9183

MyCaffe.common.CudaDnn.SetFilterDesc
void SetFilterDesc(long hHandle, int n, int c, int h, int w, bool bHalf=false)
Sets the values of a filter descriptor.
Definition: CudaDnn.cs:3735

MyCaffe.common.CudaDnn.channel_sum
void channel_sum(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY, bool bSumAcrossChannels=true, DIR dir=DIR.FWD, int nChannelsY=-1)
Calculates the sum the the values either across or within each channel (depending on bSumAcrossChanne...
Definition: CudaDnn.cs:8236

MyCaffe.common.CudaDnn.lrn_computeoutput
void lrn_computeoutput(int nCount, long hBottomData, long hScaleData, T fNegativeBeta, long hTopData)
Computes the output used to calculate the LRN cross channel forward pass in Cuda.
Definition: CudaDnn.cs:10159

MyCaffe.common.CudaDnn.AllocHostBuffer
long AllocHostBuffer(long lCapacity)
Allocate a block of host memory with a specified capacity.
Definition: CudaDnn.cs:2581

MyCaffe.common.CudaDnn.channel_copy
void channel_copy(int nCount, int nOuterNum, int nChannels, int nBlocks, int nInnerNum, int nOffset, long hX, long hY, DIR dir)
Copy data along channels similar to numpy split function.
Definition: CudaDnn.cs:8457

MyCaffe.common.CudaDnn.dot_float
float dot_float(int n, long hX, long hY)
Computes the dot product of X and Y.
Definition: CudaDnn.cs:6830

MyCaffe.common.CudaDnn.add
void add(int n, long hA, long hB, long hY, double dfAlphaA, double dfAlphaB, int nAOff=0, int nBOff=0, int nYOff=0)
Adds A to (B times scalar) and places the result in Y.
Definition: CudaDnn.cs:7288

MyCaffe.common.CudaDnn.batchreidx_fwd
void batchreidx_fwd(int nCount, int nInnerDim, long hBottomData, long hPermutData, long hTopData)
Performs the forward pass for batch re-index
Definition: CudaDnn.cs:8727

MyCaffe.common.CudaDnn.mul
void mul(int n, long hA, long hB, long hY, int nAOff=0, int nBOff=0, int nYOff=0)
Multiplies each element of A with each element of B and places the result in Y.
Definition: CudaDnn.cs:7334

MyCaffe.common.CudaDnn.channel_duplicate
void channel_duplicate(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY)
Duplicates each channel 'nInnerNum' of times in the destination.
Definition: CudaDnn.cs:8343

MyCaffe.common.CudaDnn.GetHostBufferCapacity
long GetHostBufferCapacity(long hMem)
Returns the host memory capacity.
Definition: CudaDnn.cs:2621

MyCaffe.common.CudaDnn.im2col_nd
void im2col_nd(long hDataIm, int nDataImOffset, int nNumSpatialAxes, int nImCount, int nChannelAxis, long hImShape, long hColShape, long hKernelShape, long hPad, long hStride, long hDilation, long hDataCol, int nDataColOffset)
Rearranges image blocks into columns.
Definition: CudaDnn.cs:8013

MyCaffe.common.CudaDnn.GetRnnLinLayerParams
void GetRnnLinLayerParams(long hCuDnn, long hRnnDesc, int nLayer, long hXDesc, long hWtDesc, long hWtData, int nLinLayer, out int nWtCount, out long hWt, out int nBiasCount, out long hBias)
Returns the linear layer parameters (weights).
Definition: CudaDnn.cs:4837

MyCaffe.common.CudaDnn.BatchNormForward
void BatchNormForward(long hCuDnn, BATCHNORM_MODE mode, T fAlpha, T fBeta, long hFwdBottomDesc, long hBottomData, long hFwdTopDesc, long hTopData, long hFwdScaleBiasMeanVarDesc, long hScaleData, long hBiasData, double dfFactor, long hGlobalMean, long hGlobalVar, double dfEps, long hSaveMean, long hSaveInvVar, bool bTraining)
Run the batch norm forward pass.
Definition: CudaDnn.cs:4161

MyCaffe.common.CudaDnn.unpooling_bwd
void unpooling_bwd(POOLING_METHOD method, int nCount, long hTopDiff, int num, int nChannels, int nHeight, int nWidth, int nPooledHeight, int nPooledWidth, int nKernelH, int nKernelW, int nStrideH, int nStrideW, int nPadH, int nPadW, long hBottomDiff, long hMask)
Performs the backward pass for unpooling using Cuda
Definition: CudaDnn.cs:8895

MyCaffe.common.CudaDnn.gelu_fwd
void gelu_fwd(int nCount, long hBottomData, long hTopData, bool bEnableBertVersion)
Performs a GELU forward pass in Cuda.
Definition: CudaDnn.cs:9064

MyCaffe.common.CudaDnn.FreeDropoutDesc
void FreeDropoutDesc(long h)
Free a dropout descriptor instance.
Definition: CudaDnn.cs:4221

MyCaffe.common.CudaDnn.FreeExtension
void FreeExtension(long hExtension)
Free an instance of an Extension.
Definition: CudaDnn.cs:3474

MyCaffe.common.CudaDnn.GetConvolutionInfo
void GetConvolutionInfo(long hCuDnn, long hBottomDesc, long hFilterDesc, long hConvDesc, long hTopDesc, ulong lWorkspaceSizeLimitInBytes, bool bUseTensorCores, out CONV_FWD_ALGO algoFwd, out ulong lWsSizeFwd, out CONV_BWD_FILTER_ALGO algoBwdFilter, out ulong lWsSizeBwdFilter, out CONV_BWD_DATA_ALGO algoBwdData, out ulong lWsSizeBwdData, CONV_FWD_ALGO preferredFwdAlgo=CONV_FWD_ALGO.NONE)
Queryies the algorithms and workspace sizes used for a given convolution descriptor.
Definition: CudaDnn.cs:3810

MyCaffe.common.CudaDnn.CreateLayerNorm
long CreateLayerNorm(int nGpuID, int nCount, int nOuterNum, int nChannels, int nInnerNum, float fEps=1e-10f)
Create the Cuda version of LayerNorm
Definition: CudaDnn.cs:5828

MyCaffe.common.CudaDnn.SoftmaxForward
void SoftmaxForward(long hCuDnn, SOFTMAX_ALGORITHM alg, SOFTMAX_MODE mode, T fAlpha, long hBottomDataDesc, long hBottomData, T fBeta, long hTopDataDesc, long hTopData)
Perform a Softmax forward pass.
Definition: CudaDnn.cs:4618

MyCaffe.common.CudaDnn.debug
void debug()
The debug function is uses only during debugging the debug version of the low-level DLL.
Definition: CudaDnn.cs:10637

MyCaffe.common.CudaDnn.SetTensorNdDesc
void SetTensorNdDesc(long hHandle, int[] rgDim, int[] rgStride, bool bHalf=false)
Sets the values of a tensor descriptor.
Definition: CudaDnn.cs:3551

MyCaffe.common.CudaDnn.gemm
void gemm(bool bTransA, bool bTransB, int m, int n, int k, float fAlpha, long hA, long hB, float fBeta, long hC)
Perform a matrix-matrix multiplication operation: C = alpha transB (B) transA (A) + beta C
Definition: CudaDnn.cs:6257

MyCaffe.common.CudaDnn.channel_div
void channel_div(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY, int nMethod=1)
Divides the values of the channels from X and places the result in Y.
Definition: CudaDnn.cs:8254

MyCaffe.common.CudaDnn.KernelCopyNccl
long KernelCopyNccl(long hSrcKernel, long hSrcNccl)
Copies an Nccl handle from one kernel to the current kernel of the current CudaDnn instance.
Definition: CudaDnn.cs:1866

MyCaffe.common.CudaDnn.calc_dft_coefficients
void calc_dft_coefficients(int n, long hX, int m, long hY)
Calculates the discrete Fourier Transform (DFT) coefficients across the frequencies 1....
Definition: CudaDnn.cs:11027

MyCaffe.common.CudaDnn.softmax_cross_entropy_fwd
void softmax_cross_entropy_fwd(int nCount, long hProbData, long hLabel, long hLossDiff, long hLossData, int nOuterNum, int nDim, int nInnerNum, long hCounts, int? nIgnoreLabel)
Performs a softmax cross entropy forward pass in Cuda.
Definition: CudaDnn.cs:10595

MyCaffe.common.CudaDnn.softmaxloss_bwd
void softmaxloss_bwd(int nCount, long hTopData, long hLabel, long hBottomDiff, int nOuterNum, int nDim, int nInnerNum, long hCounts, int? nIgnoreLabel)
Performs Softmax Loss backward pass in Cuda.
Definition: CudaDnn.cs:9639

MyCaffe.common.CudaDnn.SetMemoryAt
void SetMemoryAt(long hMem, float[] rgSrc, int nOffset)
Copies an array of float into a block of already allocated GPU memory starting at a specific offset.
Definition: CudaDnn.cs:2872

MyCaffe.common.CudaDnn.min_fwd
void min_fwd(int nCount, long hBottomDataA, long hBottomDataB, int nIdx, long hTopData, long hMask)
Performs a min forward pass in Cuda.
Definition: CudaDnn.cs:9778

MyCaffe.common.CudaDnn.AllocMemory
long AllocMemory(double[] rgSrc, long hStream=0)
Allocate a block of GPU memory and copy an array of doubles to it, optionally using a stream for the ...
Definition: CudaDnn.cs:2314

MyCaffe.common.CudaDnn.GetMemoryDouble
double[] GetMemoryDouble(long hMem, long lCount=-1)
Retrieves the GPU memory as an array of doubles.
Definition: CudaDnn.cs:2677

MyCaffe.common.CudaDnn.pooling_fwd
void pooling_fwd(POOLING_METHOD method, int nCount, long hBottomData, int num, int nChannels, int nHeight, int nWidth, int nPooledHeight, int nPooledWidth, int nKernelH, int nKernelW, int nStrideH, int nStrideW, int nPadH, int nPadW, long hTopData, long hMask, long hTopMask)
Performs the forward pass for pooling using Cuda
Definition: CudaDnn.cs:8810

MyCaffe.common.CudaDnn.sumsqdiff
double sumsqdiff(int n, long hW, long hA, long hB, int nAOff=0, int nBOff=0)
Calculates the sum of squares of differences between A and B
Definition: CudaDnn.cs:7902

MyCaffe.common.CudaDnn.SynchronizeThread
void SynchronizeThread()
Synchronize all kernel threads on the current GPU.
Definition: CudaDnn.cs:3250

MyCaffe.common.CudaDnn.SetRnn8
void SetRnn8(long hCuDnn, long hRnn, bool bTraining, RNN_DATALAYOUT layout, RNN_MODE cellMode, RNN_BIAS_MODE biasMode, int nSequenceLen, int nBatchSize, int nInputs, int nHidden, int nOutputs, int nProjection, int nNumLayers, float fDropout, ulong lSeed, bool bBidirectional=false)
Set the RNN8 parameters.
Definition: CudaDnn.cs:5205

MyCaffe.common.CudaDnn.add_scalar
void add_scalar(int n, float fAlpha, long hY)
Adds a scalar value to each element of Y.
Definition: CudaDnn.cs:7175

MyCaffe.common.CudaDnn.sigmoid_bwd
void sigmoid_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff)
Performs a Sigmoid backward pass in Cuda.
Definition: CudaDnn.cs:9341

MyCaffe.common.CudaDnn.prelu_bwd_param
void prelu_bwd_param(int nCDim, int nNum, int nTopOffset, long hTopDiff, long hBottomData, long hBackBuffDiff)
Performs Parameterized Rectifier Linear Unit (ReLU) backward param pass in Cuda.
Definition: CudaDnn.cs:9562

MyCaffe.common.CudaDnn.FreeRnnDesc
void FreeRnnDesc(long h)
Free an existing RNN descriptor.
Definition: CudaDnn.cs:4751

MyCaffe.common.CudaDnn.mish_fwd
void mish_fwd(int nCount, long hBottomData, long hTopData, double dfThreshold)
Performs a Mish forward pass in Cuda.
Definition: CudaDnn.cs:9011

MyCaffe.common.CudaDnn.channel_percentile
void channel_percentile(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY, double dfPercentile)
Calculates the percentile along axis = 0.
Definition: CudaDnn.cs:8361

MyCaffe.common.CudaDnn.divbsx
void divbsx(int n, long hA, int nAOff, long hX, int nXOff, int nC, int nSpatialDim, bool bTranspose, long hB, int nBOff)
Divide a matrix by a vector.
Definition: CudaDnn.cs:6671

MyCaffe.common.CudaDnn.FreeLRNDesc
void FreeLRNDesc(long h)
Free a LRN descriptor instance.
Definition: CudaDnn.cs:4326

MyCaffe.common.CudaDnn.FreeHostBuffer
void FreeHostBuffer(long hMem)
Free previously allocated host memory.
Definition: CudaDnn.cs:2602

MyCaffe.common.CudaDnn.sigmoid_cross_entropy_fwd
void sigmoid_cross_entropy_fwd(int nCount, long hInput, long hTarget, long hLoss, bool bHasIgnoreLabel, int nIgnoreLabel, long hCountData)
Performs a sigmoid cross entropy forward pass in Cuda.
Definition: CudaDnn.cs:10556

MyCaffe.common.CudaDnn.softmaxloss_fwd
void softmaxloss_fwd(int nCount, long hProbData, long hLabel, long hLossData, int nOuterNum, int nDim, int nInnerNum, long hCounts, int? nIgnoreLabel)
Performs Softmax Loss forward pass in Cuda.
Definition: CudaDnn.cs:9605

MyCaffe.common.CudaDnn.rng_uniform
void rng_uniform(int n, T fMin, T fMax, long hY)
Fill Y with random numbers using a uniform random distribution.
Definition: CudaDnn.cs:8554

MyCaffe.common.CudaDnn.CudaDnn
CudaDnn(CudaDnn< T > cuda, bool bEnableGhostMemory)
Alternate CudaDnn constructor.
Definition: CudaDnn.cs:1587

MyCaffe.common.CudaDnn.EluForward
void EluForward(long hCuDnn, T fAlpha, long hBottomDataDesc, long hBottomData, T fBeta, long hTopDataDesc, long hTopData)
Perform a Elu forward pass.
Definition: CudaDnn.cs:4491

MyCaffe.common.CudaDnn.DropoutForward
void DropoutForward(long hCuDnn, long hDropoutDesc, long hBottomDesc, long hBottomData, long hTopDesc, long hTopData, long hReserved)
Performs a dropout forward pass.
Definition: CudaDnn.cs:4278

MyCaffe.common.CudaDnn.CopyDeviceToHost
void CopyDeviceToHost(long lCount, long hGpuSrc, long hHostDst)
Copy from GPU memory to Host memory.
Definition: CudaDnn.cs:2554

MyCaffe.common.CudaDnn.sqrt
void sqrt(int n, long hX, long hY)
Computes the square root of each element of X and places the result in Y.
Definition: CudaDnn.cs:7624

MyCaffe.common.CudaDnn.clip_fwd
void clip_fwd(int nCount, long hBottomData, long hTopData, T fMin, T fMax)
Performs a Clip forward pass in Cuda.
Definition: CudaDnn.cs:8914

MyCaffe.common.CudaDnn.DisableGhostMemory
void DisableGhostMemory()
Disables the ghost memory, if enabled.
Definition: CudaDnn.cs:1775

MyCaffe.common.CudaDnn.AllocPCAData
long AllocPCAData(int nM, int nN, int nK, out int nCount)
Allocates the GPU memory for the PCA Data.
Definition: CudaDnn.cs:5319

MyCaffe.common.CudaDnn.asum_double
double asum_double(int n, long hX, int nXOff=0)
Computes the sum of absolute values in X.
Definition: CudaDnn.cs:6871

MyCaffe.common.CudaDnn.asum
T asum(int n, long hX, int nXOff=0)
Computes the sum of absolute values in X.
Definition: CudaDnn.cs:6901

MyCaffe.common.CudaDnn.erf
T erf(T fVal)
Calculates the erf() function.
Definition: CudaDnn.cs:7006

MyCaffe.common.CudaDnn.add
void add(int n, long hA, long hB, long hY, double dfAlpha)
Adds A to (B times scalar) and places the result in Y.
Definition: CudaDnn.cs:7246

MyCaffe.common.CudaDnn.lstm_unit_fwd
void lstm_unit_fwd(int nCount, int nHiddenDim, int nXCount, long hX, long hX_acts, long hC_prev, long hCont, long hC, long hH)
Peforms the simple LSTM foward pass in Cuda for a given LSTM unit.
Definition: CudaDnn.cs:10436

MyCaffe.common.CudaDnn.powx
void powx(int n, long hA, T fAlpha, long hY, int nAOff=0, int nYOff=0)
Calculates the A raised to the power alpha and places the result in Y.
Definition: CudaDnn.cs:7558

MyCaffe.common.CudaDnn.powx
void powx(int n, long hA, float fAlpha, long hY, int nAOff=0, int nYOff=0)
Calculates the A raised to the power alpha and places the result in Y.
Definition: CudaDnn.cs:7541

MyCaffe.common.CudaDnn.DivisiveNormalizationBackward
void DivisiveNormalizationBackward(long hCuDnn, long hNormDesc, T fAlpha, long hBottomDataDesc, long hBottomData, long hTopDiff, long hTemp1, long hTemp2, T fBeta, long hBottomDiffDesc, long hBottomDiff)
Performs a Devisive Normalization backward pass.
Definition: CudaDnn.cs:4433

MyCaffe.common.CudaDnn.geam
void geam(bool bTransA, bool bTransB, int m, int n, double fAlpha, long hA, long hB, double fBeta, long hC)
Perform a matrix-matrix addition/transposition operation: C = alpha transA (A) + beta transB (B)
Definition: CudaDnn.cs:6366

MyCaffe.common.CudaDnn.gemv
void gemv(bool bTransA, int m, int n, float fAlpha, long hA, long hX, float fBeta, long hY)
Perform a matrix-vector multiplication operation: y = alpha transA (A) x + beta y (where x and y are ...
Definition: CudaDnn.cs:6450

MyCaffe.common.CudaDnn.GetDropoutInfo
void GetDropoutInfo(long hCuDnn, long hBottomDesc, out ulong ulStateCount, out ulong ulReservedCount)
Query the dropout state and reserved counts.
Definition: CudaDnn.cs:4252

MyCaffe.common.CudaDnn.SetMemory
void SetMemory(long hMem, double[] rgSrc, long hStream=0)
Copies an array of double into a block of already allocated GPU memory.
Definition: CudaDnn.cs:2757

MyCaffe.common.CudaDnn.CreateImageOp
long CreateImageOp(int nNum, double dfBrightnessProb, double dfBrightnessDelta, double dfContrastProb, double dfContrastLower, double dfContrastUpper, double dfSaturationProb, double dfSaturationLower, double dfSaturationUpper, long lRandomSeed=0)
Create a new ImageOp used to perform image operations on the GPU.
Definition: CudaDnn.cs:3153

MyCaffe.common.CudaDnn.GetDeviceCount
int GetDeviceCount()
Query the number of devices (gpu's) installed.
Definition: CudaDnn.cs:2127

MyCaffe.common.CudaDnn.SetRandomSeed
void SetRandomSeed(long lSeed)
Set the random number generator seed.
Definition: CudaDnn.cs:1990

MyCaffe.common.CudaDnn.GetDeviceP2PInfo
string GetDeviceP2PInfo(int nDeviceID)
Query the peer-to-peer information of a device.
Definition: CudaDnn.cs:2049

MyCaffe.common.CudaDnn.channel_sub
void channel_sub(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hY)
Subtracts the values across the channels from X and places the result in Y.
Definition: CudaDnn.cs:8214

MyCaffe.common.CudaDnn.ConvolutionForward
void ConvolutionForward(long hCuDnn, long hBottomDesc, long hBottomData, int nBottomOffset, long hFilterDesc, long hWeight, int nWeightOffset, long hConvDesc, CONV_FWD_ALGO algoFwd, long hWorkspace, int nWorkspaceOffset, ulong lWorkspaceSize, long hTopDesc, long hTopData, int nTopOffset, bool bSyncStream=true)
Perform a convolution forward pass.
Definition: CudaDnn.cs:3856

MyCaffe.common.CudaDnn.ger
void ger(int m, int n, double fAlpha, long hX, long hY, long hA)
Perform a vector-vector multiplication operation: A = x * (fAlpha * y) (where x and y are vectors and...
Definition: CudaDnn.cs:6492

MyCaffe.common.CudaDnn.DistortImage
void DistortImage(long h, int nCount, int nNum, int nDim, long hX, long hY)
Distort an image using the ImageOp handle provided.
Definition: CudaDnn.cs:3188

MyCaffe.common.CudaDnn.geam
void geam(bool bTransA, bool bTransB, int m, int n, T fAlpha, long hA, long hB, T fBeta, long hC, int nAOffset=0, int nBOffset=0, int nCOffset=0)
Perform a matrix-matrix multiplication operation: C = alpha transB (B) transA (A) + beta C
Definition: CudaDnn.cs:6409

MyCaffe.common.CudaDnn.scal
void scal(int n, T fAlpha, long hX, int nXOff=0)
Scales the data in X by a scaling factor.
Definition: CudaDnn.cs:6797

MyCaffe.common.CudaDnn.rng_bernoulli
void rng_bernoulli(int n, double fNonZeroProb, long hY)
Fill Y with random numbers using a bernoulli random distribution.
Definition: CudaDnn.cs:8631

MyCaffe.common.CudaDnn.AllocPCAEigenvalues
long AllocPCAEigenvalues(int nM, int nN, int nK, out int nCount)
Allocates the GPU memory for the PCA eigenvalues.
Definition: CudaDnn.cs:5370

MyCaffe.common.CudaDnn.max_bwd
void max_bwd(int n, long hAdata, long hBdata, long hYdiff, long hAdiff, long hBdiff)
Propagates the Y diff back to the max of A or B and places the result in A if its data has the max,...
Definition: CudaDnn.cs:7686

MyCaffe.common.CudaDnn.accuracy_fwd
void accuracy_fwd(int nCount, int nOuterNum, int nInnerNum, long hBottomData, long hBottomLabel, long hAccData, long hAccTotals, int? nIgnoreLabel, bool bLastElementOnly, int nBatch)
Performs the forward pass for the accuracy layer
Definition: CudaDnn.cs:8700

MyCaffe.common.CudaDnn.GetDeviceName
string GetDeviceName(int nDeviceID)
Query the name of a device.
Definition: CudaDnn.cs:2035

MyCaffe.common.CudaDnn.interp2
void interp2(int nChannels, long hData1, int nX1, int nY1, int nHeight1, int nWidth1, int nHeight1A, int nWidth1A, long hData2, int nX2, int nY2, int nHeight2, int nWidth2, int nHeight2A, int nWidth2A, bool bBwd=false)
Interpolates between two sizes within the spatial dimensions.
Definition: CudaDnn.cs:7138

MyCaffe.common.CudaDnn.swish_bwd
void swish_bwd(int nCount, long hTopDiff, long hTopData, long hSigmoidOutputData, long hBottomDiff, double dfBeta)
Performs a Swish backward pass in Cuda.
Definition: CudaDnn.cs:9361

MyCaffe.common.CudaDnn.SetDefaultCudaPath
static void SetDefaultCudaPath(string strPath)
Used to optionally set the default path to the Low-Level Cuda Dnn DLL file.
Definition: CudaDnn.cs:1890

MyCaffe.common.CudaDnn.max_fwd
void max_fwd(int nCount, long hBottomDataA, long hBottomDataB, int nIdx, long hTopData, long hMask)
Performs a max forward pass in Cuda.
Definition: CudaDnn.cs:9742

MyCaffe.common.CudaDnn.dropout_fwd
void dropout_fwd(int nCount, long hBottomData, long hMask, uint uiThreshold, T fScale, long hTopData)
Performs a dropout forward pass in Cuda.
Definition: CudaDnn.cs:9464

MyCaffe.common.CudaDnn.min
double min(int n, long hA, out long lPos, int nAOff=0, long hWork=0)
Finds the minimum value of A.
Definition: CudaDnn.cs:7772

MyCaffe.common.CudaDnn.bnll_bwd
void bnll_bwd(int nCount, long hTopDiff, long hBottomData, long hBottomDiff)
Performs a binomial normal log liklihod (BNLL) backward pass in Cuda.
Definition: CudaDnn.cs:9516

MyCaffe.common.CudaDnn.GetHostMemory
T[] GetHostMemory(long hMem)
Retrieves the host memory as an array of type 'T'
Definition: CudaDnn.cs:2662

MyCaffe.common.CudaDnn.RunMemoryTest
T[] RunMemoryTest(long h, MEMTEST_TYPE type, ulong ulBlockStartOffset, ulong ulBlockCount, bool bVerbose, bool bWrite, bool bReadWrite, bool bRead)
The RunMemoryTest method runs the memory test from the block start offset through the block count on ...
Definition: CudaDnn.cs:3123

MyCaffe.common.CudaDnn.AddTensor
void AddTensor(long hCuDnn, long hSrcDesc, long hSrc, int nSrcOffset, long hDstDesc, long hDst, int nDstOffset)
Add two tensors together.
Definition: CudaDnn.cs:3638

MyCaffe.common.CudaDnn.coeff_sub_fwd
void coeff_sub_fwd(int nCount, int nDim, int nNumOffset, double dfCoeff, long hCoeffData, long hBottom, long hTop)
Performs a coefficient sub foward pass in Cuda.
Definition: CudaDnn.cs:10518

MyCaffe.common.CudaDnn.sub_and_dot
void sub_and_dot(int n, int nN, int nInnerNum, long hA, long hB, long hY, int nAOff, int nBOff, int nYOff)
Subtracts every nInnterNum element of B from A and performs a dot product on the result.
Definition: CudaDnn.cs:7357

MyCaffe.common.CudaDnn.NcclInitializeMultiProcess
void NcclInitializeMultiProcess(long hNccl)
Initializes a set of NCCL instances for use in different processes.
Definition: CudaDnn.cs:3403

MyCaffe.common.CudaDnn.RunExtension
T[] RunExtension(long hExtension, long lfnIdx, T[] rgParam)
Run a function on the extension specified.
Definition: CudaDnn.cs:3489

MyCaffe.common.CudaDnn.gather_bwd
void gather_bwd(int nCount, long hTop, long hBottom, int nAxis, int nDim, int nDimAtAxis, int nM, int nN, long hIdx)
Performs a gather backward pass where data at specifies indexes along a given axis are copied to the ...
Definition: CudaDnn.cs:10122

MyCaffe.common.CudaDnn.gemv
void gemv(bool bTransA, int m, int n, T fAlpha, long hA, long hX, T fBeta, long hY, int nAOffset=0, int nXOffset=0, int nYOffset=0)
Perform a matrix-vector multiplication operation: y = alpha transA (A) x + beta y (where x and y are ...
Definition: CudaDnn.cs:6472

MyCaffe.common.CudaDnn.prelu_bwd
void prelu_bwd(int nCount, int nChannels, int nDim, long hTopDiff, long hBottomData, long hBottomDiff, long hSlopeData, int nDivFactor)
Performs Parameterized Rectifier Linear Unit (ReLU) backward pass in Cuda.
Definition: CudaDnn.cs:9585

MyCaffe.common.CudaDnn.KernelAdd
void KernelAdd(int nCount, long hA, long hDstKernel, long hB, long hC)
Add memory from one kernel to memory residing on another kernel.
Definition: CudaDnn.cs:1848

MyCaffe.common.CudaDnn.axpby
void axpby(int n, float fAlpha, long hX, float fBeta, long hY)
Scale the vector x and then multiply the vector X by a scalar and add the result to the vector Y.
Definition: CudaDnn.cs:6611

MyCaffe.common.CudaDnn.SetTensorDesc
void SetTensorDesc(long hHandle, int n, int c, int h, int w, bool bHalf=false)
Sets the values of a tensor descriptor.
Definition: CudaDnn.cs:3599

MyCaffe.common.CudaDnn.SetMemoryAt
void SetMemoryAt(long hMem, T[] rgSrc, int nOffset)
Copies an array of type 'T' into a block of already allocated GPU memory starting at a specific offse...
Definition: CudaDnn.cs:2883

MyCaffe.common.CudaDnn.InitializeRnn8Weights
void InitializeRnn8Weights(long hCuDnn, long hRnn, long hWt, RNN_FILLER_TYPE wtFt, double fWtVal, double fWtVal2, RNN_FILLER_TYPE biasFt, double fBiasVal, double fBiasVal2)
Initialize the RNN8 weights
Definition: CudaDnn.cs:5251

MyCaffe.common.CudaDnn.LayerNormBackward
void LayerNormBackward(long hLayerNorm, long hYdata, long hYdiff, long hXdiff)
Run the LayerNorm backward pass.
Definition: CudaDnn.cs:5875

MyCaffe.common.CudaDnn.axpy
void axpy(int n, float fAlpha, long hX, long hY)
Multiply the vector X by a scalar and add the result to the vector Y.
Definition: CudaDnn.cs:6559

MyCaffe.common.CudaDnn.DeriveBatchNormDesc
void DeriveBatchNormDesc(long hFwdScaleBiasMeanVarDesc, long hFwdBottomDesc, long hBwdScaleBiasMeanVarDesc, long hBwdBottomDesc, BATCHNORM_MODE mode)
Derive the batch norm descriptors for both the forward and backward passes.
Definition: CudaDnn.cs:4132

MyCaffe.common.CudaDnn.sgd_update
void sgd_update(int nCount, long hNetParamsDiff, long hHistoryData, T fMomentum, T fLocalRate)
Perform the Stochastic Gradient Descent (SGD) update
Definition: CudaDnn.cs:10203

MyCaffe.common.CudaDnn.minmax
void minmax(int n, long hA, long hWork1, long hWork2, int nK, long hMin, long hMax, bool bNonZeroOnly)
Finds up to 'nK' minimum and maximum values within A.
Definition: CudaDnn.cs:7843

MyCaffe.common.CudaDnn.LayerNormForward
void LayerNormForward(long hLayerNorm, long hXdata, long hYdata)
Run the LayerNorm forward pass.
Definition: CudaDnn.cs:5860

MyCaffe.common.CudaDnn.erf
double erf(double dfVal)
Calculates the erf() function.
Definition: CudaDnn.cs:6986

MyCaffe.common.CudaDnn.CheckMemoryAttributes
bool CheckMemoryAttributes(long hSrc, int nSrcDeviceID, long hDst, int nDstDeviceID)
Check the memory attributes of two memory blocks on different devices to see if they are compatible f...
Definition: CudaDnn.cs:2160

MyCaffe.common.CudaDnn.FreeImageOp
void FreeImageOp(long h)
Free an image op, freeing up all GPU memory used.
Definition: CudaDnn.cs:3171

MyCaffe.common.CudaDnn.copy_sequence
void copy_sequence(int nK, int nNum, int nDim, long hSrcData, long hSrcLbl, int nSrcCacheCount, long hSrcCache, int nLabelStart, int nLabelCount, int nCacheSize, long hCacheHostCursors, bool bOutputLabels, List< long > rghTop, List< int > rgnTopCount, long hWorkDataHost, bool bCombinePositiveAndNegative=false, int nSeed=0)
Copy a sequence of cached items, organized by label, into an anchor, positive (if nK > 0),...
Definition: CudaDnn.cs:6095

MyCaffe.common.CudaDnn.math_bwd
void math_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff, long hBottomData, MATH_FUNCTION function)
Performs a Math function backward pass in Cuda.
Definition: CudaDnn.cs:8966

MyCaffe.common.CudaDnn.ConvolutionBackwardData
void ConvolutionBackwardData(long hCuDnn, long hFilterDesc, long hWeight, int nWeightOffset, long hTopDesc, long hTopDiff, int nTopOffset, long hConvDesc, CONV_BWD_DATA_ALGO algoBwd, long hWorkspace, int nWorkspaceOffset, ulong lWorkspaceSize, long hBottomDesc, long hBottomDiff, int nBottomOffset, bool bSyncStream=true)
Perform a convolution backward pass on the data.
Definition: CudaDnn.cs:3999

MyCaffe.common.CudaDnn.mask
void mask(int n, int nMaskDim, float fSearch, float fReplace, long hX, long hMask, long hY)
Mask the mask the data in the source with the mask by replacing all values 'fSearch' found in the mas...
Definition: CudaDnn.cs:7063

MyCaffe.common.CudaDnn.axpy
void axpy(int n, T fAlpha, long hX, long hY, int nXOff=0, int nYOff=0)
Multiply the vector X by a scalar and add the result to the vector Y.
Definition: CudaDnn.cs:6576

MyCaffe.common.CudaDnn.TanhForward
void TanhForward(long hCuDnn, T fAlpha, long hBottomDataDesc, long hBottomData, T fBeta, long hTopDataDesc, long hTopData)
Perform a Tanh forward pass.
Definition: CudaDnn.cs:4451

MyCaffe.common.CudaDnn.FreeTensorDesc
void FreeTensorDesc(long h)
Free a tensor descriptor instance.
Definition: CudaDnn.cs:3536

MyCaffe.common.CudaDnn.mulbsx
void mulbsx(int n, long hA, int nAOff, long hX, int nXOff, int nC, int nSpatialDim, bool bTranspose, long hB, int nBOff)
Multiply a matrix with a vector.
Definition: CudaDnn.cs:6650

MyCaffe.common.CudaDnn.scale_fwd
void scale_fwd(int nCount, long hX, long hScaleData, int nScaleDim, int nInnerDim, long hY, long hBiasData=0)
Performs a scale forward pass in Cuda.
Definition: CudaDnn.cs:9983

MyCaffe.common.CudaDnn.CreateStream
long CreateStream(bool bNonBlocking=false, int nIndex=-1)
Create a new stream on the current GPU.
Definition: CudaDnn.cs:3209

MyCaffe.common.CudaDnn.tanh_bwd
void tanh_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff)
Performs a TanH backward pass in Cuda.
Definition: CudaDnn.cs:9304

MyCaffe.common.CudaDnn.ReLUForward
void ReLUForward(long hCuDnn, T fAlpha, long hBottomDataDesc, long hBottomData, T fBeta, long hTopDataDesc, long hTopData)
Perform a ReLU forward pass.
Definition: CudaDnn.cs:4576

MyCaffe.common.CudaDnn.GetRnnWorkspaceCount
ulong GetRnnWorkspaceCount(long hCuDnn, long hRnnDesc, long hXDesc, out ulong nReservedCount)
Returns the workspace and reserved counts.
Definition: CudaDnn.cs:4807

MyCaffe.common.CudaDnn.CreateExtension
long CreateExtension(string strExtensionDllPath)
Create an instance of an Extension DLL.
Definition: CudaDnn.cs:3456

MyCaffe.common.CudaDnn.serf_bwd
void serf_bwd(int nCount, long hTopDiff, long hTopData, long hBottomDiff, long hBottomData, double dfThreshold)
Performs a Serf backward pass in Cuda.
Definition: CudaDnn.cs:9267

MyCaffe.common.CudaDnn.concat_fwd
void concat_fwd(int nCount, long hBottomData, int nNumConcats, int nConcatInputSize, int nTopConcatAxis, int nBottomConcatAxis, int nOffsetConcatAxis, long hTopData)
Performs a concat forward pass in Cuda.
Definition: CudaDnn.cs:9849

MyCaffe.common.CudaDnn.crop_fwd
void crop_fwd(int nCount, int nNumAxes, long hSrcStrides, long hDstStrides, long hOffsets, long hBottomData, long hTopData)
Performs the crop forward operation.
Definition: CudaDnn.cs:9812

MyCaffe.common.CudaDnn.softplus_fwd
void softplus_fwd(int nCount, long hBottomData, long hTopData)
Performs the Softplus function forward, a smooth approximation of the ReLU function
Definition: CudaDnn.cs:9161

MyCaffe.common.CudaDnn.RnnBackwardData
void RnnBackwardData(long hCuDnn, long hRnnDesc, long hYDesc, long hYData, long hYDiff, long hHyDesc, long hHyDiff, long hCyDesc, long hCyDiff, long hWtDesc, long hWtData, long hHxDesc, long hHxData, long hCxDesc, long hCxData, long hXDesc, long hXDiff, long hdHxDesc, long hHxDiff, long hdCxDesc, long hCxDiff, long hWorkspace, ulong nWsCount, long hReserved, ulong nResCount)
Run the RNN backward pass through the data.
Definition: CudaDnn.cs:4981

MyCaffe.common.CudaDnn.copy
void copy(int nCount, int nNum, int nDim, long hSrc1, long hSrc2, long hDst, long hSimilar, bool bInvert=false)
Copy similar items of length 'nDim' from hSrc1 (where hSimilar(i) = 1) and dissimilar items of length...
Definition: CudaDnn.cs:6035

MyCaffe.common.CudaDnn.DropoutBackward
void DropoutBackward(long hCuDnn, long hDropoutDesc, long hTopDesc, long hTop, long hBottomDesc, long hBottom, long hReserved)
Performs a dropout backward pass.
Definition: CudaDnn.cs:4296

MyCaffe.common.CudaDnn.NcclAllReduce
void NcclAllReduce(long hNccl, long hStream, long hX, int nCount, NCCL_REDUCTION_OP op, double dfScale=1.0)
Performs a reduction on all NCCL instances as specified by the reduction operation.
Definition: CudaDnn.cs:3442

MyCaffe.common.CudaDnn.FreeMemoryPointer
void FreeMemoryPointer(long hData)
Frees a memory pointer.
Definition: CudaDnn.cs:3046

MyCaffe.common.CudaDnn.SetRnnDataDesc
void SetRnnDataDesc(long hRnnDataDesc, RNN_DATALAYOUT layout, int nMaxSeqLen, int nBatchSize, int nVectorSize, bool bBidirectional=false, int[] rgSeqLen=null)
Sets the RNN Data Descriptor values.
Definition: CudaDnn.cs:4692

MyCaffe.common.CudaDnn.asum_float
float asum_float(int n, long hX, int nXOff=0)
Computes the sum of absolute values in X.
Definition: CudaDnn.cs:6886

MyCaffe.common.CudaDnn.min
void min(int n, long hA, long hB, long hY)
Calculates the min of A and B and places the result in Y. This min is only computed on a per item bas...
Definition: CudaDnn.cs:7702

MyCaffe.common.CudaDnn.CreateMemoryTest
long CreateMemoryTest(out ulong ulTotalNumBlocks, out double dfMemAllocatedInGB, out ulong ulMemStartAddr, out ulong ulBlockSize, double dfPctToAllocate=1.0)
Creates a new memory test on the current GPU.
Definition: CudaDnn.cs:3069

MyCaffe.common.CudaDnn.channel_scale
void channel_scale(int nCount, int nOuterNum, int nChannels, int nInnerNum, long hX, long hA, long hY)
Multiplies the values of the channels from X with the scalar values in B and places the result in Y.
Definition: CudaDnn.cs:8308

MyCaffe.common.CudaDnn.mask
void mask(int n, int nMaskDim, T fSearch, T fReplace, long hX, long hMask, long hY)
Mask the mask the data in the source with the mask by replacing all values 'fSearch' found in the mas...
Definition: CudaDnn.cs:7030

MyCaffe.common.CudaDnn.SetLRNDesc
void SetLRNDesc(long hHandle, uint nSize, double fAlpha, double fBeta, double fK)
Set the LRN descriptor values.
Definition: CudaDnn.cs:4342

MyCaffe.common.CudaDnn.batchreidx_bwd
void batchreidx_bwd(int nCount, int nInnerDim, long hTopDiff, long hTopIdx, long hBegins, long hCounts, long hBottomDiff)
Performs the backward pass for batch re-index
Definition: CudaDnn.cs:8745

MyCaffe.common.CudaDnn.set_bounds
void set_bounds(int n, double dfMin, double dfMax, long hX)
Set the bounds of all items within the data to a set range of values.
Definition: CudaDnn.cs:6732

MyCaffe.common.CudaDnn.GetMemoryFloat
float[] GetMemoryFloat(long hMem, long lCount=-1)
Retrieves the GPU memory as an array of float.
Definition: CudaDnn.cs:2689

MyCaffe.common.CudaDnn.SetDropoutDesc
void SetDropoutDesc(long hCuDnn, long hDropoutDesc, double dfDropout, long hStates, long lSeed)
Set the dropout descriptor values.
Definition: CudaDnn.cs:4237

MyCaffe.common.CudaDnn.Dispose
virtual void Dispose(bool bDisposing)
Disposes this instance freeing up all of its host and GPU memory.
Definition: CudaDnn.cs:1612

MyCaffe.common.CudaDnn.gemm
void gemm(bool bTransA, bool bTransB, int m, int n, int k, double fAlpha, long hA, long hB, double fBeta, long hC, uint lda, uint ldb, uint ldc)
Perform a matrix-matrix multiplication operation: C = alpha transB (B) transA (A) + beta C
Definition: CudaDnn.cs:6312

MyCaffe.common.CudaDnn.NcclInitializeSingleProcess
void NcclInitializeSingleProcess(params long[] rghNccl)
Initializes a set of NCCL instances for use in a single process.
Definition: CudaDnn.cs:3370

MyCaffe.common.CudaDnn.abs
void abs(int n, long hA, long hY)
Calculates the absolute value of A and places the result in Y.
Definition: CudaDnn.cs:7437

MyCaffe.common.CudaDnn.GetHostMemoryDouble
double[] GetHostMemoryDouble(long hMem)
Retrieves the host memory as an array of doubles.
Definition: CudaDnn.cs:2641

MyCaffe.common.CudaDnn.compare_signs
void compare_signs(int n, long hA, long hB, long hY)
Compares the signs of each value in A and B and places the result in Y.
Definition: CudaDnn.cs:7653

MyCaffe.common.CudaDnn.AllocPCALoads
long AllocPCALoads(int nM, int nN, int nK, out int nCount)
Allocates the GPU memory for the PCA loads.
Definition: CudaDnn.cs:5353

MyCaffe.common.CudaDnn.dot
T dot(int n, long hX, long hY, int nXOff=0, int nYOff=0)
Computes the dot product of X and Y.
Definition: CudaDnn.cs:6847

MyCaffe.common.CudaDnn.coeff_sum_fwd
void coeff_sum_fwd(int nCount, int nDim, int nNumOffset, double dfCoeff, long hCoeffData, long hBottom, long hTop)
Performs a coefficient sum foward pass in Cuda.
Definition: CudaDnn.cs:10481

MyCaffe.common.CudaDnn.ConvolutionBackwardBias
void ConvolutionBackwardBias(long hCuDnn, long hTopDesc, long hTopDiff, int nTopOffset, long hBiasDesc, long hBiasDiff, int nBiasOffset, bool bSyncStream=true)
Perform a convolution backward pass on the bias.
Definition: CudaDnn.cs:3901

MyCaffe.common.CudaDnn.copy_sequence
void copy_sequence(int n, long hSrc, int nSrcStep, int nSrcStartIdx, int nCopyCount, int nCopyDim, long hDst, int nDstStep, int nDstStartIdx, int nSrcSpatialDim, int nDstSpatialDim, int nSrcSpatialDimStartIdx=0, int nDstSpatialDimStartIdx=0, int nSpatialDimCount=-1)
Copy a sequence from a source to a destination and allow for skip steps.
Definition: CudaDnn.cs:6165

MyCaffe.common.CudaDnnMemoryTracker
The CudaDnnMemoryTracker is used for diagnostics in that it helps estimate the amount of memory that ...
Definition: CudaDnnMemoryTracker.cs:15

MyCaffe.common.CudaDnnMemoryTracker.FreeMemory
void FreeMemory(long hKernel, int nDeviceID, long hMemory)
Simulate a memory free.
Definition: CudaDnnMemoryTracker.cs:62

MyCaffe.common.CudaDnnMemoryTracker.TotalMemoryUsedText
string TotalMemoryUsedText
Returns a text string describing the total amount of memory used (in bytes).
Definition: CudaDnnMemoryTracker.cs:124

MyCaffe.common.CudaDnnMemoryTracker.TotalMemoryUsed
ulong TotalMemoryUsed
Returns the total amount of memory used (in bytes).
Definition: CudaDnnMemoryTracker.cs:113

MyCaffe.common.CudaDnnMemoryTracker.AllocMemory
long AllocMemory(long hKernel, int nDeviceID, long hMemory, ulong lSize, bool bHalf)
Simulate a memory allocation.
Definition: CudaDnnMemoryTracker.cs:37

MyCaffe.common.Params
The Params contains the base parameters used in multi-GPU training.
Definition: Parallel.cs:19

MyCaffe.param.tft.ReshapeTemporalParameter
Specifies the parameters for the ReshapeTemporalLayer.
Definition: ReshapeTemporalParameter.cs:24

MyCaffe.basecode
The MyCaffe.basecode contains all generic types used throughout MyCaffe.
Definition: Annotation.cs:12

MyCaffe.basecode.TRAINING_CATEGORY.NONE
@ NONE
No training category specified.

MyCaffe.basecode.DATA_TYPE.DEFAULT
@ DEFAULT
Specifies to use the default data type of the gym used.

MyCaffe.common
The MyCaffe.common namespace contains common MyCaffe classes.
Definition: BatchInput.cs:8

MyCaffe.common.OP
OP
Defines the operations performed by the channel_op function.
Definition: CudaDnn.cs:135

MyCaffe.common.OP.SUB
@ SUB
Specifies to perform a subtraction operation.

MyCaffe.common.OP.DIV
@ DIV
Specifies to perform a division operation.

MyCaffe.common.OP.MUL
@ MUL
Specifies to perform a multiplication operation.

MyCaffe.common.OP.ADD
@ ADD
Specifies to perform an addition operation.

MyCaffe.common.AGGREGATIONS
AGGREGATIONS
Specifies different aggregation operations.
Definition: CudaDnn.cs:682

MyCaffe.common.MEMTEST_TYPE
MEMTEST_TYPE
Specifies the memory test to perform.
Definition: CudaDnn.cs:499

MyCaffe.common.MEMTEST_TYPE.MOV_INV_8
@ MOV_INV_8
Specifies the mov-inv-8 test.

MyCaffe.common.DEVINIT
DEVINIT
Specifies the initialization flags used when initializing CUDA.
Definition: CudaDnn.cs:207

MyCaffe.common.DEVINIT.CURAND
@ CURAND
Initialize cuRand. This should be initialized for cuRand is used for most of the random operations.

MyCaffe.common.DEVINIT.SETSEED
@ SETSEED
Set the cuRand random number generator seed - typically only used when testing to ensure that random ...

MyCaffe.common.DEVINIT.CUBLAS
@ CUBLAS
Initialize cuBlas. This should be initialized for cuBlas is used for many of the math operations.

MyCaffe.common.SSD_CONF_LOSS_TYPE
SSD_CONF_LOSS_TYPE
Defines the confidence loss types used during SSD cuda training.
Definition: CudaDnn.cs:608

MyCaffe.common.SSD_CONF_LOSS_TYPE.SOFTMAX
@ SOFTMAX
Specifies to use softmax.

MyCaffe.common.SSD_CONF_LOSS_TYPE.LOGISTIC
@ LOGISTIC
Specifies to use logistic.

MyCaffe.common.CONV_BWD_FILTER_ALGO
CONV_BWD_FILTER_ALGO
Specifies the cuDnn convolution backward filter algorithm to use.
Definition: CudaDnn.cs:305

MyCaffe.common.CONV_BWD_FILTER_ALGO.ALGO_3
@ ALGO_3
Specifies to use algorithm 0 with a workspace - which is non-deterministic.

MyCaffe.common.CONV_BWD_FILTER_ALGO.ALGO_1
@ ALGO_1
Specifies to use algorithm 1.

MyCaffe.common.CONV_BWD_FILTER_ALGO.ALGO_0
@ ALGO_0
Specifies to use algorithm 0 - which is non-deterministic.

MyCaffe.common.RNN_DATALAYOUT
RNN_DATALAYOUT
Specifies the RNN data layout of the data input.
Definition: CudaDnn.cs:424

MyCaffe.common.RNN_DATALAYOUT.RNN_BATCH_MAJOR_UNPACKED
@ RNN_BATCH_MAJOR_UNPACKED
Specifies ordering with batch major ordering, padded, outer stride from one batch to the next.

MyCaffe.common.RNN_DATALAYOUT.RNN_SEQ_MAJOR_PACKED
@ RNN_SEQ_MAJOR_PACKED
Specifies ordering with sequence major ordering, and sequence length sorted and packed.

MyCaffe.common.RNN_DATALAYOUT.RNN_SEQ_MAJOR_UNPACKED
@ RNN_SEQ_MAJOR_UNPACKED
Specifies ordering with sequence major ordering, and padded outer stride from one time-step to the ne...

MyCaffe.common.DistanceMethod
DistanceMethod
Specifies the distance method used when calculating batch distances.
Definition: CudaDnn.cs:159

MyCaffe.common.DistanceMethod.HAMMING
@ HAMMING
Specifies to calculate the hamming distance.

MyCaffe.common.DistanceMethod.EUCLIDEAN
@ EUCLIDEAN
Specifies to calculate the euclidean distance.

MyCaffe.common.MEAN_ERROR
MEAN_ERROR
Defines the type of Mean Error to use.
Definition: CudaDnn.cs:37

MyCaffe.common.MEAN_ERROR.MSE
@ MSE
Mean Squared Error (MSE)  where  is the predicted value.

MyCaffe.common.MEAN_ERROR.MAE
@ MAE

MyCaffe.common.SSD_MATCH_TYPE
SSD_MATCH_TYPE
Defines the matching method used during SSD cuda training.
Definition: CudaDnn.cs:566

MyCaffe.common.SSD_MATCH_TYPE.BIPARTITE
@ BIPARTITE
Specifies to use Bi-Partite.

MyCaffe.common.SSD_MATCH_TYPE.PER_PREDICTION
@ PER_PREDICTION
Specifies to use per-prediction matching.

MyCaffe.common.MATH_FUNCTION
MATH_FUNCTION
Defines the mathematical function to run.
Definition: CudaDnn.cs:52

MyCaffe.common.MATH_FUNCTION.TANH
@ TANH
Specifies to run the tanh function.

MyCaffe.common.MATH_FUNCTION.ASINH
@ ASINH
Specifies to run the asinh function.

MyCaffe.common.MATH_FUNCTION.NOP
@ NOP
Specifies to run a no operation.

MyCaffe.common.MATH_FUNCTION.ACOS
@ ACOS
Specifies to run the acos function.

MyCaffe.common.MATH_FUNCTION.SQRT
@ SQRT
Specifies to run the sqrt function.

MyCaffe.common.MATH_FUNCTION.ACOSH
@ ACOSH
Specifies to run the acosh function.

MyCaffe.common.MATH_FUNCTION.FLOOR
@ FLOOR
Specifies to run the floor function.

MyCaffe.common.MATH_FUNCTION.SIN
@ SIN
Specifies to run the sin function.

MyCaffe.common.MATH_FUNCTION.CEIL
@ CEIL
Specifies to run the ceil function.

MyCaffe.common.MATH_FUNCTION.NEG
@ NEG
Specifies to flip the sign of the inputs.

MyCaffe.common.MATH_FUNCTION.SIGN
@ SIGN
Specifies to run the sign function.

MyCaffe.common.MATH_FUNCTION.TAN
@ TAN
Specifies to run the tan function.

MyCaffe.common.MATH_FUNCTION.ATANH
@ ATANH
Specifies to run the atanh function.

MyCaffe.common.MATH_FUNCTION.ASIN
@ ASIN
Specifies to run the asin function.

MyCaffe.common.MATH_FUNCTION.SINH
@ SINH
Specifies to run the sinh function.

MyCaffe.common.MATH_FUNCTION.ATAN
@ ATAN
Specifies to run the atan function.

MyCaffe.common.MATH_FUNCTION.COSH
@ COSH
Specifies to run the cosh function.

MyCaffe.common.MATH_FUNCTION.COS
@ COS
Specifies to run the cos function.

MyCaffe.common.PoolingMethod
PoolingMethod
Specifies the pooling method used by the cuDnn function SetPoolingDesc.
Definition: CudaDnn.cs:177

MyCaffe.common.PoolingMethod.MAX
@ MAX
Specifies to use

MyCaffe.common.PoolingMethod.AVE
@ AVE
Specifies to use

MyCaffe.common.DataType
DataType
Specifies the base datatype corresponding the the template type 'T'. Currently, only
Definition: CudaDnn.cs:192

MyCaffe.common.DataType.FLOAT
@ FLOAT
Specifies the single type.

MyCaffe.common.DataType.DOUBLE
@ DOUBLE
Specifies the double type.

MyCaffe.common.DIR
DIR
Defines the direction of data flow.
Definition: CudaDnn.cs:22

MyCaffe.common.DIR.FWD
@ FWD
Specifies data is moving forward.

MyCaffe.common.DIR.BWD
@ BWD
Specifies data is moving backward.

MyCaffe.common.NCCL_REDUCTION_OP
NCCL_REDUCTION_OP
Specifies the reduction operation to use with 'Nickel' NCCL.
Definition: CudaDnn.cs:513

MyCaffe.common.NCCL_REDUCTION_OP.SUM
@ SUM
Sum the values.

MyCaffe.common.NCCL_REDUCTION_OP.PROD
@ PROD
Multiply the values.

MyCaffe.common.NCCL_REDUCTION_OP.MIN
@ MIN
Return the minimum value.

MyCaffe.common.SSD_CODE_TYPE
SSD_CODE_TYPE
Defines the encode/decode type used during SSD cuda training.
Definition: CudaDnn.cs:585

MyCaffe.common.SSD_CODE_TYPE.CENTER_SIZE
@ CENTER_SIZE
Encode the center size.

MyCaffe.common.SSD_CODE_TYPE.CORNER
@ CORNER
Encode the corner.

MyCaffe.common.SSD_CODE_TYPE.CORNER_SIZE
@ CORNER_SIZE
Encode the corner size.

MyCaffe.common.CONV_FWD_ALGO
CONV_FWD_ALGO
Specifies the cuDnn convolution forward algorithm to use.
Definition: CudaDnn.cs:259

MyCaffe.common.CONV_FWD_ALGO.ALGO_FFT_TILING
@ ALGO_FFT_TILING
Specifies to use the fft tiling algorithm.

MyCaffe.common.CONV_FWD_ALGO.ALGO_FFT
@ ALGO_FFT
Specifies to use the fft algorithm.

MyCaffe.common.CONV_FWD_ALGO.ALGO_GEMM
@ ALGO_GEMM
Specifies to use the gemm algorithm.

MyCaffe.common.CONV_FWD_ALGO.IMPLICIT_PRECOMP_GEMM
@ IMPLICIT_PRECOMP_GEMM
Specifies to use the implicit pre-computation gemm algorithm.

MyCaffe.common.CONV_FWD_ALGO.ALGO_DIRECT
@ ALGO_DIRECT
Specifies to use the direct algorithm.

MyCaffe.common.CONV_FWD_ALGO.ALGO_WINOGRAD_NONFUSED
@ ALGO_WINOGRAD_NONFUSED
Specifies to use the non-fused winograd algorithm.

MyCaffe.common.CONV_FWD_ALGO.IMPLICIT_GEMM
@ IMPLICIT_GEMM
Specifies to use the implicit gemm algorithm.

MyCaffe.common.CONV_FWD_ALGO.ALGO_WINOGRAD
@ ALGO_WINOGRAD
Specifies to use the winograd algorithm.

MyCaffe.common.RNN_MODE
RNN_MODE
Specifies the RNN mode to use with the Recurrent Layer when using the cuDNN engine.
Definition: CudaDnn.cs:376

MyCaffe.common.RNN_MODE.RNN_TANH
@ RNN_TANH
Specifies to use a single TanH gate Recurrent Learning unit.

MyCaffe.common.RNN_MODE.GRU
@ GRU
Specifies to use the GRU RNN where  and

MyCaffe.common.RNN_MODE.RNN_RELU
@ RNN_RELU
Specifies to use a single RelU gate Recurrent Learning unit.

MyCaffe.common.RNN_MODE.LSTM
@ LSTM
Specifies to use a 4 gate LSTM Recurrent Learning unit.

MyCaffe.common.BATCHNORM_MODE
BATCHNORM_MODE
Specifies the cuDnn batch norm mode to use.
Definition: CudaDnn.cs:237

MyCaffe.common.BATCHNORM_MODE.PER_ACTIVATION
@ PER_ACTIVATION
Specifies to use the per-activation batch normalization mode.

MyCaffe.common.BATCHNORM_MODE.SPATIAL
@ SPATIAL
Specifies to use the spatial batch normalization mode.

MyCaffe.common.BATCHNORM_MODE.SPATIAL_PERSISTENT
@ SPATIAL_PERSISTENT
Specifies to use the spatial persistent batch normalization mode.

MyCaffe.common.ORIENTATION
ORIENTATION
Specifies the orientation of a matrix.
Definition: CudaDnn.cs:645

MyCaffe.common.ORIENTATION.ROW
@ ROW
Specifies to add the vector to each row.

MyCaffe.common.ORIENTATION.COL
@ COL
Specifies to add the vector to each column.

MyCaffe.common.RNN_BIAS_MODE
RNN_BIAS_MODE
Specifies the RNN bias mode to use with the Recurrent Layer when using the cuDNN engine.
Definition: CudaDnn.cs:401

MyCaffe.common.RNN_BIAS_MODE.RNN_DOUBLE_BIAS
@ RNN_DOUBLE_BIAS
Specifies to use two bias in the input Gemm and recurrent Gemm of the rnn cell (default).

MyCaffe.common.RNN_BIAS_MODE.RNN_NO_BIAS
@ RNN_NO_BIAS
Specifies to use no bias in the RNN cells.

MyCaffe.common.RNN_BIAS_MODE.RNN_SINGLE_INP_BIAS
@ RNN_SINGLE_INP_BIAS
Specifies to use one bias in the input Gemm of the rnn cell.

MyCaffe.common.RNN_BIAS_MODE.RNN_SINGLE_REC_BIAS
@ RNN_SINGLE_REC_BIAS
Specifies to use one recurrent bias in the recurrent Gemm of the rnn cell.

MyCaffe.common.SSD_LOC_LOSS_TYPE
SSD_LOC_LOSS_TYPE
Defines the location loss types used during SSD cuda training.
Definition: CudaDnn.cs:627

MyCaffe.common.SSD_LOC_LOSS_TYPE.SMOOTH_L1
@ SMOOTH_L1
Specifies to use smooth L1 loss.

MyCaffe.common.SSD_LOC_LOSS_TYPE.L2
@ L2
Specifies to use L2 loss.

MyCaffe.common.DEVPROP
DEVPROP
Specifies certain device properties to query from Cuda.
Definition: CudaDnn.cs:477

MyCaffe.common.DEVPROP.MULTIGPUBOARDGROUPID
@ MULTIGPUBOARDGROUPID
Query a GPU board group ID.

MyCaffe.common.DEVPROP.DEVICECOUNT
@ DEVICECOUNT
Query the number of devices (gpu's) installed.

MyCaffe.common.DEVPROP.NAME
@ NAME
Query the name of a given GPU.

MyCaffe.common.RNN_DIRECTION
RNN_DIRECTION
Specifies the RNN directional used.
Definition: CudaDnn.cs:443

MyCaffe.common.RNN_DIRECTION.RNN_UNIDIRECTIONAL
@ RNN_UNIDIRECTIONAL
Specifies a single direction RNN (default)

MyCaffe.common.RNN_DIRECTION.RNN_BIDIRECTIONAL
@ RNN_BIDIRECTIONAL
Specifies a bi-direction RNN where the output is concatinated at each layer.

MyCaffe.common.TRANSPOSE_OPERATION
TRANSPOSE_OPERATION
Specifies the type of operation to perform along with a matrix transposition.
Definition: CudaDnn.cs:663

MyCaffe.common.SOFTMAX_MODE
SOFTMAX_MODE
Specifies the SOFTMAX mode to use.
Definition: CudaDnn.cs:724

MyCaffe.common.SOFTMAX_MODE.INSTANCE
@ INSTANCE
Specifies to run the softmax separately for each N, across CHW dimensions.

MyCaffe.common.SOFTMAX_MODE.CHANNEL
@ CHANNEL
Specifies to run the softmax separately for each N*C, across HW dimensions.

MyCaffe.common.SSD_MINING_TYPE
SSD_MINING_TYPE
Defines the mining type used during SSD cuda training.
Definition: CudaDnn.cs:540

MyCaffe.common.SSD_MINING_TYPE.MAX_NEGATIVE
@ MAX_NEGATIVE
Select negatives based on the score.

MyCaffe.common.SSD_MINING_TYPE.HARD_EXAMPLE
@ HARD_EXAMPLE
Select hard examples based on Shrivastava et. al. method.

MyCaffe.common.SOFTMAX_ALGORITHM
SOFTMAX_ALGORITHM
Specifies the SOFTMAX algorithm to use.
Definition: CudaDnn.cs:701

MyCaffe.common.SOFTMAX_ALGORITHM.ACCURATE
@ ACCURATE
Specifies to use the accurate algorithm.

MyCaffe.common.SOFTMAX_ALGORITHM.LOG
@ LOG
Specifies to use the log algorithm.

MyCaffe.common.SOFTMAX_ALGORITHM.FAST
@ FAST
Specifies to use the fast algorithm.

MyCaffe.common.POOLING_METHOD
POOLING_METHOD
Specifies the pooling method to use when using the Caffe pooling (instead of the pooling from NVIDIA'...
Definition: CudaDnn.cs:353

MyCaffe.common.POOLING_METHOD.STO_TRAIN
@ STO_TRAIN
Select the stochastic value in the kernel - used during a training pass.

MyCaffe.common.POOLING_METHOD.STO_TEST
@ STO_TEST
Select the stochastic value in the kernel - used during a testing pass.

MyCaffe.common.RNN_FILLER_TYPE
RNN_FILLER_TYPE
Defines the filler types used to fill the RNN8 weights.
Definition: CudaDnn.cs:458

MyCaffe.common.RNN_FILLER_TYPE.RNN_GAUSSIAN_FILLER
@ RNN_GAUSSIAN_FILLER
Specifies to fill with a gaussian distribution.

MyCaffe.common.RNN_FILLER_TYPE.RNN_XAVIER_FILLER
@ RNN_XAVIER_FILLER
Specifies to fill with a uniform distribution.

MyCaffe.common.RNN_FILLER_TYPE.RNN_CONSTANT_FILLER
@ RNN_CONSTANT_FILLER
Specifies to fill with a constant value.

MyCaffe.common.CONV_BWD_DATA_ALGO
CONV_BWD_DATA_ALGO
Specifies the cuDnn convolution backward data algorithm to use.
Definition: CudaDnn.cs:331

MyCaffe.param.tft
Definition: CategoricalTransformationParameter.cs:9

MyCaffe.param
The MyCaffe.param namespace contains parameters used to create models.
Definition: AttentionParameter.cs:9

MyCaffe
The MyCaffe namespace contains the main body of MyCaffe code that closesly tracks the C++ Caffe open-...
Definition: Annotation.cs:12

System.ComponentModel
Definition: Component.cs:11

System
Definition: Component.cs:11