• 2024-02-01dremio vectorized Parquet Reader v2 支持
    dremio从24.3开始支持parquetv2writer同时性能提升还是很明显的对于读官方在TPC-DS测试中,最低有22%左右的,最高97%,平均77%左右写入同样也是TPC-DS中,存储降低24%左右,写入提升1.5%左右,如果开启了c3读性能提升6.4%开启ui配置(全局)可以通过supportkeysql配置(全
  • 2023-11-14神经网络入门篇:详解向量化实现的解释(Justification for vectorized implementation)
    向量化实现的解释先对几个样本计算一下前向传播,看看有什么规律:公式1.16:\(z^{[1](1)}=W^{[1]}x^{(1)}+b^{[1]}\)\(z^{[1](2)}=W^{[1]}x^{(2)}+b^{[1]}\)\(z^{[1](3)}=W^{[1]}x^{(3)}+b^{[1]}\)这里,为了描述的简便,先忽略掉\(b^{[1]}\)后面将会看到利用Python的
  • 2023-10-25cuda vectorized实现矩阵转置
    使用了共享内存和向量化传输,目前为止效果最好的一个实现__global__voidtransposeSmemVec(float*input,float*output,constintX,constintY){__shared__floatsmem[32*4*32];unsignedintix=4*(blockDim.x*blockIdx.x+threadIdx.x);