Autor der Publikation

CUDA Kernel Based Collective Reduction Operations on Large-scale GPU Clusters.

, , , , und . CCGrid, Seite 726-735. IEEE Computer Society, (2016)

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Um zwischen Personen mit demselben Namen zu unterscheiden, wird der akademische Grad und der Titel einer wichtigen Publikation angezeigt. Zudem lassen sich über den Button neben dem Namen einige der Person bereits zugeordnete Publikationen anzeigen.

 

Weitere Publikationen von Autoren mit dem selben Namen

Optimized large-message broadcast for deep learning workloads: MPI, MPI+NCCL, or NCCL2?, , , , und . Parallel Computing, (2019)CUDA Kernel Based Collective Reduction Operations on Large-scale GPU Clusters., , , , und . CCGrid, Seite 726-735. IEEE Computer Society, (2016)Scalable Distributed DNN Training using TensorFlow and CUDA-Aware MPI: Characterization, Designs, and Performance Evaluation., , , , und . CoRR, (2018)HyPar-Flow: Exploiting MPI and Keras for Scalable Hybrid-Parallel DNN Training using TensorFlow., , , , und . CoRR, (2019)Towards Efficient Support for Parallel I/O in Java HPC., , , und . PDCAT, Seite 137-143. IEEE, (2012)Scalable Distributed DNN Training using TensorFlow and CUDA-Aware MPI: Characterization, Designs, and Performance Evaluation., , , , und . CCGRID, Seite 498-507. IEEE, (2019)CUDA M3: Designing Efficient CUDA Managed Memory-Aware MPI by Exploiting GDR and IPC., , , und . HiPC, Seite 52-61. IEEE Computer Society, (2016)Exploiting GPUDirect RDMA in Designing High Performance OpenSHMEM for NVIDIA GPU Clusters., , , , , und . CLUSTER, Seite 78-87. IEEE Computer Society, (2015)Optimized Broadcast for Deep Learning Workloads on Dense-GPU InfiniBand Clusters: MPI or NCCL?, , , und . EuroMPI, Seite 2:1-2:9. ACM, (2018)High performance distributed deep learning: a beginner's guide., , und . PPoPP, Seite 452-454. ACM, (2019)