CHAPTER 1 イーサネットスイッチじゃダメ!?
AI基盤に必要なネットワークについて学ぼう!

IT技術を活用したビジネスの変革が求められる中、人工知能(AI)は必要不可欠な技術となり、幅広く利用されています。また、IoTの進展によるデータ量の増加や計算技術の発展により、AIに求められる計算はますます大規模化しています。

GPUの活用によってサーバーの計算スピードはますます高速になったのに、ネットワーク通信がボトルネックになって本来の性能が発揮できない。これは大問題です!

なぜ、AI基盤においてネットワークがボトルネックになるのでしょうか?

並列処理によりネットワークの通信量が膨大

AI、ディープラーニングでは膨大なデータを計算するために、複数のサーバーで並列処理を行うAIクラスタ構成が必要となります。AIクラスタでは各サーバーで行われた計算結果を常に同期をとりながら処理をしなくてはなりません。GPUにより高速化されたサーバー間の通信量は膨大で、通常のイーサネットではついていけません。

イーサネットでは、AIの並列処理の通信量に対応できない

機械学習は何万、何百万通りの計算を並列して行い、その結果をノード間でやりとりするの。
イーサネットだと通量量が多すぎて、パンクしちゃうわ。

AI基盤のネットワークに必要なのは、高速なGPU間通信の邪魔をしないこと

GPUを利用したAI計算のパフォーマンスを最適化するためには、GPU間の通信をできるだけ妨げないことが重要です。GPU間通信は第3世代NVLinkの場合、4.8Tbps(双方向)ものスピードです。これに比べ、CPU間通信は約500Gbps(双方向)、一般的なサーバーで用いられるイーサネットは20Gbps(双方向)程度です。GPUの求める通信スピードに、イーサネットではまったく追いついていないのです。

通信スピード1Gbpsを時速0.5kmに例えると・・・

GPUに比べるとイーサネットの通信スピードは240分の1!
通信スピードが遅すぎて、いつまでたってもAI計算が終わらない・・・