パケット損失と輻輳通知: AI タスクの完了を加速するための、よりスマートで高速かつ同期化されたアプローチ。
機械学習、自然言語処理、生成 AI、ロボット工学、自律システムにおける技術の進歩により、人工知能 (AI) と高性能コンピューティング (HPC) は著しい成長を遂げています。
これらのイノベーションの中核を成すのは、大規模な分散学習モデルです。これは通常、複数のGPUに分散された数十億、あるいは数兆ものパラメータで構成されています。学習プロセス中、これらのノードはバックエンドのAIイーサネットスイッチファブリックを介して膨大な量のデータとリアルタイム更新を交換することで同期します。しかし、パケットロスはこの同期を著しく損なうため、再送信や通信の遮断が発生します。これは最終的に、レイテンシの増加、ジョブ完了時間(JCT)の延長、そして高価なGPUリソースの非効率的な利用につながります。
AIデータセンタースイッチングマトリックスにおけるサイレントパケットロス
JCTは重要な指標ですが、現代のAIワークロード、特に大規模なトレーニングや推論タスクは、クラスター間の緊密な同期に依存しています。1つのパケットロスでさえ、パフォーマンスに大きな影響を与え、運用コストを増加させる可能性があります。
例えば、トラフィックの輻輳によりスイッチバッファがオーバーフローすると、AI Ethernet/IPスイッチングファブリック内でRoCE v2パケットのパケットロスが発生する可能性があります。これらの破棄されたパケットは再送が必要となり、学習プロセスや推論プロセスの遅延や中断につながります。
明示的輻輳通知(ECN)はIPヘッダー内のビットにフラグを立てることで輻輳を通知しますが、輻輳によって破棄されたパケットを特定することはできません。したがって、再送が必要なパケットを特定することはできません。
パケット損失および輻輳通知(DCN)ソリューション
この問題に対処するために、 ジュニパーネットワークスは、Tomahawk 5 チップをベースにした QFX5240-OD および QFX5240-QD (64 x 800GbE Ethernet/IP プラットフォーム) 上の Junos OS(TM) Evolved ソフトウェア バージョン 23.4x100d40 用に開発された新しい輻輳管理機能である Drop Congestion Notification (DCN) を導入しました。
輻輳が発生すると、スイッチはパケットペイロードを減らし、この情報を高優先度キューを介して受信ホストに転送することで、パケット損失通知を送信します。 ネットワークスイッチイングファブリックは、DCN マーカーを持つこれらのトリミングされたパケットを識別し、それらを高優先度キューに送信します。
したがって、宛先ホストはこれらのトリミングされた DCN パケットを処理し、輻輳のために明示的に破棄されたパケットを特定し、送信元に失われたパケットの再送信を直ちに要求する必要があります。
ただし、これらのプルーニングされたパケットはターゲットサーバーのメモリには送信されません。代わりに、選択的な再送信が必要なパケットを正確に識別するために使用されます。これにより、デフォルトの再送信プロセスに過度に時間がかかることが回避され、エンドツーエンドのレイテンシが短縮され、タスクの正常な完了が保証されます。
下の図は、簡略化されたトポロジを示しています。パケットが最初のスイッチに入ると、極端な輻輳(ECNしきい値を超える)が発生した場合、これらのパケットは破棄されずにプルーニングされてから、ターゲットGPUサーバーのNICカードに送信されます。プルーニング処理は最初のスイッチによって実行されますが、中間スイッチもプルーニングされたフレームを認識し、高優先度キューを介して出力インターフェースに即座に送信する場合があります。ターゲットNICカードに到着すると、システムはソースサーバーへの再送信要求を開始します。
QFX5240-ODおよびQFX5240-QDスイッチでは、DCN関連パケットを処理するために、パケットキューとは独立して専用キューが動作します。この分離により、ユーザーはDCNパケットに割り当てられる遅延と帯域幅をより効率的に管理できます。

AIイーサネットスイッチングファブリックでは、特にワークロードが分散GPUクラスターにまたがって拡張される場合、一貫したパフォーマンスと同期動作の維持が極めて重要です。DCNは、深刻な輻輳発生時のパケットロスをリアルタイムで可視化することで、この重要な課題に対処します。エンドポイントにパケットロスを警告することで、DCNは迅速な復旧を可能にし、潜在的なレイテンシを最小限に抑え、AI JCTの維持を支援します。
最終的に、DCN は、ネットワーク スイッチング ファブリックと AI ワークロード間の可視性のギャップを埋め、スケーラブルで高性能な AI インフラストラクチャを構築するための基盤機能としての地位を確立します。












