Autor der Publikation

CUDA Kernel Based Collective Reduction Operations on Large-scale GPU Clusters.

, , , , und . CCGrid, Seite 726-735. IEEE Computer Society, (2016)

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Um zwischen Personen mit demselben Namen zu unterscheiden, wird der akademische Grad und der Titel einer wichtigen Publikation angezeigt. Zudem lassen sich über den Button neben dem Namen einige der Person bereits zugeordnete Publikationen anzeigen.

 

Weitere Publikationen von Autoren mit dem selben Namen

Exploiting GPUDirect RDMA in Designing High Performance OpenSHMEM for NVIDIA GPU Clusters., , , , , und . CLUSTER, Seite 78-87. IEEE Computer Society, (2015)Exploiting Maximal Overlap for Non-Contiguous Data Movement Processing on Modern GPU-Enabled Systems., , , , , und . IPDPS, Seite 983-992. IEEE Computer Society, (2016)A Case for Non-blocking Collectives in OpenSHMEM: Design, Implementation, and Performance Evaluation using MVAPICH2-X., , , und . OpenSHMEM, Volume 9397 von Lecture Notes in Computer Science, Seite 69-86. Springer, (2015)Channel condition self-clocked packet scheduling scheme for wireless networks., , , , und . EURASIP J. Wireless Comm. and Networking, (2013)Distributed Topology Control for Energy-Efficient and Reliable Wireless Communications., , , , und . IEEE Systems Journal, 12 (3): 2152-2161 (2018)Optimized Broadcast for Deep Learning Workloads on Dense-GPU InfiniBand Clusters: MPI or NCCL?, , , und . EuroMPI, Seite 2:1-2:9. ACM, (2018)CUDA-Aware OpenSHMEM: Extensions and Designs for High Performance OpenSHMEM on GPU Clusters., , , , , und . Parallel Computing, (2016)Exploiting Hardware Multicast and GPUDirect RDMA for Efficient Broadcast., , , , , und . IEEE Trans. Parallel Distrib. Syst., 30 (3): 575-588 (2019)Optimized Broadcast for Deep Learning Workloads on Dense-GPU InfiniBand Clusters: MPI or NCCL?, , , und . CoRR, (2017)OC-DNN: Exploiting Advanced Unified Memory Capabilities in CUDA 9 and Volta GPUs for Out-of-Core DNN Training., , , , und . HiPC, Seite 143-152. IEEE, (2018)