parallel-processing

2024-08-06为什么 xgboost.QuantileDMatrix 使用自定义数据迭代器对数据进行四次传递？
我正在尝试使用自定义数据迭代器，如下所示此处，因为我的数据集太大。只是为了测试它是如何工作的，我正在使用示例的子集并运行以下代码。X是我的数据的numpy数组。我的迭代器如下所示classIterForQDMatrix(xgb.core.DataIter):def__init__(self,d
2024-07-25在 Azure 上部署代码时使用 Python 的多处理模块是否有意义？
我们的团队在Azure机器学习(AML)上部署了一个Python脚本来处理存储在Azure存储帐户上的文件。我们的管道由一个ForEach活动组成，该活动调用每个或列出的文件的Python脚本。从Azure数据工厂(ADF)运行它会触发多个单独的管道同时运行
2024-07-23并行 GPU 中的 Pytorch 推理
我有一个经过训练的模型和4个GPU。我有一个数据集，我想将其分割为4个（并在每个GPU上使用相同的批量大小进行处理），并且基本上将我从每个GPU获得的结果相加。一般来说，我对并行处理很陌生，我对torch.multiprocessing等的谷歌搜索没有帮助。我的问题的一个最小示例如下：我
2024-07-22并行化 numpy.sort
我需要对长度为1e8-1e9的uint64数组进行排序，这是我当前项目中的性能瓶颈之一。我最近刚刚更新了numpyv2.0版本，其中排序算法得到了显着优化。在我的硬件上测试它，它比numpyv1.26版本快大约5倍。但目前numpy的排序算法即使使用SIMD，也无法利用多核CPU。我尝试将其并行
2024-07-21如何在 8 个 GPU 上并行化 Transformer 模型进行机器翻译？
我正在尝试使用变压器模型以几乎与原始文章相同的方式执行机器翻译。虽然该模型运行得相当好，但它需要更多的计算资源。为了解决这个问题，我在一台具有8个GPU处理器的计算机上运行了该模型，但我缺乏这方面的经验。我尝试对并行化进行必要的调整：transformer=nn.DataParallel