Ethernetというか10GBASE-Tに関しては、2017年から【10GBASE-T、ついに普及?】と題し、全11回と番外編2回をお届けした。だが、ツイストペアによる銅配線のEthernetは10GBASE-Tまでで、25/40GBASE-Tはまだまだ実用化には至っていない。
 【アクセス回線10Gbpsへの道】とも一部は被るかもしれないが、ここでは光ファイバーを利用する“光Ethernet”を紹介していこう。 「光Ethernetの歴史と発展」記事一覧10BASE-Tと同じ仕組みの光ファイバーで最大2kmを実現「10BASE-F」屈折率で伝送距離が異なる「光ファイバー」の材質と構造最大100Mbpsながら伝送距離の異なる「100BASE-FX」「100BASE-SX」などの各規格実効1Gbpsに到達した「1000BASE-SX/1000BASE-LX/1000BASE-CX」拠点間接続に用いる「1000BASE-X」の各種関連規格低価格な光ファイバーで1Gbpsを実現する車載向けがメインの「GEPOF」10Mbpsの「MII」から1000MbpsのCisco独自規格「SGMII」まで1波長で10Gbps、光源と到達距離の異なる「10GBASE-W/R」の各規格10Gbpsのフレッツ光で使われる「10GBASE-PR」、既存ケーブルを流用できる「10GBASE-LRM」XENPAK→X2→XFP→SFP+と移った10GBASEのトランシーバーモジュール規格10Gbpsのシリアル通信規格「XFP」、これを置き換えた「SFP+」10GbEの次は40GbEと100GbE、HSSGによってともに標準化の開始へ最大100Gbps、「IEEE 802.3ba」として標準化された8つの規格IEEE 802.3baで定義されたInterconnectとトランシーバー規格100Gbpsで100mを目指す「P802.3bm」、IEEE 802.3baをブラッシュアップ最大100Gbps・100mの「100GBASE-SR4」と40Gbps・40kmの「40GBASE-ER4」CFPのサイズ半分、最大200Gbpsの「CFP2」、さらに小型化された「CFP4」40Gbpsの「QSPF+」、50Gbpsの「QSFP56」、112Gbpsの「SFP-DD」「QSFP28」25Gbps×4で100Gbps、光Ethernet第2世代「IEEE 802.3bm-2015」の各規格が標準化50Gbpsに対応する5つの規格「50GBASE-KR/CR/SR/FR/LR」「25G PAM-4」で100/200Gbpsを実現する7規格と、SMF1対で100Gbpsの「100G PAM-4」25Gbps×8の「200GBASE-R」では4つのモジュール規格が乱立最大400Gbpsを実現する2つのモジュール規格「OSFP」「CDFP」1レーン50Gbpsで最大400Gbpsを実現する「P802.3bs」レーンあたり50/25Gbpsで400Gbpsを実現する「IEEE 802.3bs」の各規格53.125Gの「PAM-4」を4対束ねた「PSM4」で最大400Gbps「400GBASE-DR4」アクセス回線向けの光ファイバー規格「IEEE P802.3cp/P802.3cs/P802.3ct」位相変調した光信号を復号するコヒーレント光、波長分離多重の「DWDM」併用の「400ZR」「100GBASE-ZR」を残し「IEEE P802.3ct」から「400GBASE-ZR」を分割1対のMMFで100Gbpsを目指す「IEEE P802.3db」IEEE標準ではない光Ethernetの各規格、100G/400G/800Gですでに登場SWDMを用いた100/40Gbpsの「100G-SWDM4-MSA」と「40G-SWDM4-MSA」「100GBASE-LR4」と「100GBASE-SR10」の間を埋める最大100Gbpsの「100G PSM4 MSA」SMF1本で25Gbps×4の100Gbpsを実現、到達距離2kmの「CWDM4 MSA」、40kmの「4WDM MSA」100Gbpsで10/20/40kmの到達距離を狙った「100G 4WDM-10/20/40」「100G PAM-4」で最大100Gbps、到達距離2kmの「100G-FR」と10kmの「100G-LR」SMF1対で100Gbpsの「100G LR1-20/ER1-30/ER1-40」、4本束ねて400Gbpsの「400G-FR」最大400Gbps、到達距離2kmの「400G-FR4」と到達距離10kmの「400G-LR4-10」最大100Gbpsで250kmを伝送可能な「MSA-100GLH」、巨大なサイズと消費電力で採用進まず最大400Gbps、到達距離10kmの「CWDM8」、8×50G NRZの採用で低コストと低電力を実現400Gbpsで到達距離2kmと10kmの「CWDM8 2km/10km」、低OH濃度SMFの採用で損失を抑える400Gを光ファイバー1本で双方向通信する「400G BiDi MSA」、「400GBASE-SR8」を先行規格化50Gが8対で400Gbpsの「400G-BD4.2」、消費電力増や高コストが課題にIEEE「400GBASE-SR4.2」は先行した「400G-BD4.2」と相互互換性を確保高コストで普及に至らない「400GBASE-SR8」と、さらに高価な「400GBASE-SR4.2」最大800Gbpsの100G PAM-4 PHY、ベンダー各社がサポート、受発光素子普及のカギは940nm?ETCがリリースした「800G Ethernet」の仕様は400Gを2つ並べる構造に「QSFP-DD MSA」を発展させる「QSFP-DD800」、供給電源など今後に課題も最大800Gbpsを目指す「800G Pluggable MSA」、3つの変調方式を採用高帯域と低レイテンシーの一方で到達距離は限界へ、800Gへ想定される4つのシナリオPSM4とCWDM4で1.6Tb/secを実現し、到達距離も延長「800G Pluggable MSA」800G Ethernetに関連、OSFP MSAと2つのIEEEの動向800Gの本命「IEEE 802.3 Beyond 400 Gb/s Ethernet」、100/200Gの信号で800G/1.6Tを実現200G×8の1.6Tbps、×4の800Gbpsでの転送実現は2023年?100Gが8対の「800GBASE-VR8/SR8」が仕様に追加、BERの目標値決定にはさらなる情報が必須200GにおけるElectricalインターフェースを検討、通信に必要な消費電力は半減へBeyond 400 Gb/s EthernetにおけるOTNサポートは4月の投票でいったん否決1.0E10年のMTTFPAを維持、1.0E-14のBER Targetには高コストなFECが必要にFacebookやMicrosoftのDC事業者が先行、Beyond 400G Study Groupは800Gと同時に1.6Tの標準化を主張200Gの光伝送は技術的に実現可能、一定の損失を前提にすれば現実的なPAM6の検討も?800Gb/sと同時に1.6Tb/s Ethernet仕様も策定へ 200Gb/sレーンの製品出荷は2027年頃?到達距離10kmの「800G-LR」に向け、Coherent-Lite方式を検討を求めるGoogle200Gのシリアルと800GのWDM、どっちが先に100万ポート出荷を実現できるのか?400・200Gb/sのサポートなど、2021年7月ミーティングへの投票は可決が多数800Gで10kmの到達距離を実現する「800Gbps/10km Reach SMF」の4案800Gで到達距離40kmを目指す「ER8」、MZMを採用し、400G向けDSPを2つ並列銅配線での8レーン800Gが規格化、レーンあたり200Gも実現へ?「IEEE P802.3df」のPAR分割に向けた動き、作業効率化の一方で異論も?800G実現に向け、PDM-32QAMで96G/192GBaudとPDM-16QAMで120G/240GBaudをリストアップこれまでの光Ethernet規格振り返りと、「40GBASE-FR」をめぐる議論の経緯「IEEE 802.3cn-2019」は若干のパラメーター変更のみ、「100GBASE-AR/400GBASE-AR」は現時点で幻に「100GBASE-AR」と「400GBASE-AR」は「IEEE P802.3cw」に、PMDの仕様を定義して2023年中ごろに標準化?到達距離500mの「CWDM4-OCP-100G」、低価格な100G Ethernet規格として広く流通し始める#series-contents .current-page { font-weight: bold; }
 引き続き「800G Pluggable MSA」について。MSA発足時のプレゼンテーションは前回紹介した通りだが、これに続いて800G Pluggable MSAからリリースされているホワイトペーパーを基に、もう少し説明しよう。
基本となるシナリオ。あとはSpineをどう配するかという話になる。出典は800G Pluggable MSAの\”ENABLING THE NEXT GENERATION OF CLOUD & AI USING 800GB/S OPTICAL MODULES\”
800G Pluggable MSAが想定するデータセンターの構造図と、4つのシナリオで要求されるスペック
 上の図が800G Pluggable MSAが想定するデータセンターである。最上位が「DCI(Data Center Interconnect)」なのだが、最大数10kmの距離を想定しているので、MSAのカバー範囲外だ。その下が、昨今のHyper-Scale Data Centerでよく使われる「Spine-Leaf-TOR(Top Of Rack)」型の構成である。
 この構造そのものは割と一般的である。少し古いデータだが、例えばMicrosoftの2013年におけるデータセンターの構造は以下のようなものだ。
これは400Gの議論をしている際の資料だが、構造と伝送距離に関しては参考になるかと思う。出典は\”Global Networking Services: Objectives to Support Cloud Scale Data Center Design\”
 Facebookの開発者向けブログ「FACEBOOK Engineering」で公開されている以下の図では、LeafとSpineが垂直に交わるような構造になっているが、階層構造としては最初の図と同じことが分かるだろうか。
Spine Planeが複数のServer Podsを横方向に横断するかたちで構成されるという面白い構造。これは2014年のものなので、Linkは40Gだ。出典は\”Introducing data center fabric, the next-generation Facebook data center network\”
 ちなみに、800G Pluggable MSAでは、2022年に要求されるスペックとして、以下を挙げている。

Scenario 1(Server⇔TOR)

Scenario 2(TOR⇔Leaf)

Scenario 3(Leaf⇔Spine)

Scenario 4(TOR⇔DC)

帯域

200G

800G

800G

800G

モジュール

QSFP-DDないしQSFP

到達距離

ラック内4mまたはラック間20m

70m以上が必須または100m程度

500mまたは2km

80~120km
 Microsoftにおける実際の数字(3m/20m、500m、1km、10~80km or >100km)とかなり近い数字になっていることからも、MSAの想定する要求そのものは、大きく外れていないと考えていいだろう。
 MSAでは、Scenario 1は2022年には200Gで、接続方式は「AOC(Active Optical Cable)」。Scenario 2は800GのPSM4ないしPSM8、Scenario 3が800GのPSM4/FR4、Scenario 4が800G ZRになるとしている。
 このうち、Scenario 4の800G ZRは、MSAの検討対象外なのでOIF(Optical Internetworking Forum)」が手掛けることになるだろう。
 実際、OIFは、800G IA(Implementation Agreement)の開発を始めることを2020年12月に発表している(まだOIFではそう呼んではいないが、おそらく「800ZR」となると見込まれている)。
 そんなわけで、MSAとしてはScenario 1~3に注力すればいい、ということとなった。2019年がいずれも100Gないし400Gなのに対し、2022年には800Gになることに対応しよう、という話である。
低レイテンシー・高帯域への要求の一方、AI/HPC向けクラスタのシナリオにはやや疑問符も
 ちなみに、最初の図はCloud Datacenter向けの構造となるが、その一方でAI/HPC向けクラスタとなるのが以下の図だ。
AI向けはともかくHPC向けでは、FatTreeとなる場合が多い。その意味ではScenario 2の帯域は少なくとも2倍、できれば4倍は欲しいところで、その意味でも「?」ではある。出典は800G Pluggable MSAの\”ENABLING THE NEXT GENERATION OF CLOUD & AI USING 800GB/S OPTICAL MODULES\”
 HPC向けだとTORやDCは存在しない方が通常なので、Spine-Leaf構造になることそのものは普通だが、その際にLeaf-Serverは現行2×200Gなのが2021年には2×400Gに、Spine-Leafは400Gが800Gにそれぞれアップグレードされる、としている。
 ただ、この話にはさすがに少し違和感がある。例えば現時点でのTOP500は、2020年11月の結果となるが、この中でEthernetを使っているものの最上位は、66位の「ADVANCED COMPUTING SYSTEM」となる。
 ところが、これはノードあたり6本の200G Ethernetで3次元トーラスを構成するという構造なので、物理的にはEthernetを利用しているものの、上図のようなAI/HPC向けクラスタの構造とは全く無縁だ。
 もう少し一般的な構成だと、86位となっているサウジアラビアKAUST(キング・アブドゥッラー科学技術大学)の「UNIZAH-II」というシステムが10G Ethernetとされているが、実際にはこのシステムはMellanox(現NVIDIA)のConnextX-6を利用してInfiniBandでInterconnectを構築していて、10Gはメンテナンスや外部からのアクセス用であり、Interconnect用ではない。
 実際にTOP500を見てみると、上位にはInfiniBandまたは独自Interconnect(CrayのAries interconnectやSlingshot、IntelのOmni-Path Fabric、富士通のTofuなど)がほとんどで、Ethernetを使って構築されたシステムはかなり下位である。その意味で、このシナリオはやや疑問符が付く。
 HPC向けはともかくAI向けに関しては、AI/HPC向けクラスタの図のような構造になっている可能性もあるが、複数のノードで連携して処理を分散して行うような使い方であれば、やはりHPC的なクラスタ構造になっていないと難しいようにも思う。
 ただ、帯域そのものへの要求が増えつつあること自体は間違いではない。MSAによれば、AI/HPC向けネットワークの場合、以下のような要求があるとしている。AI/HPC向けの場合、絶対的な帯域もさることながら、レイテンシーの少なさが非常に重要視されていることと、これは無関係ではない。

Scenario 1(Leaf-Server)

Scenario 2(Spine-Leaf)

帯域

400G

800G

モジュール

QSFP-DD/OSFP

到達距離

ラック内4mまたはラック間20m

500m

レイテンシー

92ns(IEEE PMA layer)
 さて、この2種類の利用シナリオにおける5つのScenario(Cloud Datacenter向けのScenario 4はMSAのサポート外)については、Cloud Datacenter向けのScenario 1、つまりTORとLeafの間の接続となる。
 加えて言えば、要求としては400G以上であるため、800Gが必ずしも必要となるわけではないが、AI/HPC向けのScenario 1、つまりLeafとServerの接続もやはり20m以内ということで、Short Reachが適用できる。ここに向けてのMSAのProposalが以下となる。
「800G SR8」を想定した構成。AI/HPCのScenario 1もやはり2×400Gだから、この構成は都合がいいとも言える。出典は800G Pluggable MSAの\”ENABLING THE NEXT GENERATION OF CLOUD & AI USING 800GB/S OPTICAL MODULES\”
 要するに、1つのモジュールに2組の400GBASE-SR4を組み込む方式である。もっとも、400G-SR4という規格は現時点では存在しない。近いものは『IEEE「400GBASE-SR4.2」は先行した「400G-BD4.2」と相互互換性を確保』で紹介した「400GBASE-SR4.2」だが、こちらは50G PAM4、つまりレーンあたり50Gbpsなので、片方向あたり8対、双方向で16本の光ファイバーが必要となる。
 これを2つ並べると、トータルで32本の光ファイバーが必要となる計算なので、これは非現実的だ。そこでMSAでは100G PAM4、つまりクロック信号は56Gで、これにPAM4変調を掛けて1レーンあたり100Gの転送が可能な仕様を策定することを決めた。これなら800Gでも片方向あたり8対、トータルで16本の光ファイバーで済むからだ。
 その一方で、到達距離に関してはかなり限界が近いことも認識されていた。IEEEによれば、光源にVCSELを利用する限り、MMF(それが仮にOM4/OM5であっても)を利用する場合も、到達距離100mを確保するのは50Gbpsが限界であり、100Gbpsに引き上げるとOM4/OM5で50m、OM3だと35mになるとしている。
IEEEの方も、もうOM3のサポートは切り捨てた上で、30~50mの到達距離に限って400GBASE-SR4を策定しよう、という動きがあるらしい。出典は800G Pluggable MSAの\”ENABLING THE NEXT GENERATION OF CLOUD & AI USING 800GB/S OPTICAL MODULES”
 これを避けるべく以下の各方策が考えられたものの、いずれも高コスト化が避けられない。 MMFを止めてSMFにするVCSELを止め、さらに高出力のレーザー源を使うPAM4をPAM16にする、あるいは400ZRのようにCoherentを使う
 何をどうやってもコストとの兼ね合いになる関係で、であれば到達距離を諦め、VCSEL+MMFで800Gを狙おう、と割り切ることにしたようだ。 「10GBASE-T、ついに普及へ?」記事一覧【技術編1】【技術編2】【技術編3】10GBASE-Tの基本仕様とは?【歴史編1】【歴史編2】【歴史編3】10GBASE-Tの普及状況【実用編1】PCIe帯域幅とストレージ性能が落とし穴【実用編2】10GBASE-T/1000BASE-T混在時の問題はMTU【実用編3】Windowsで高速さを活かすには「RDMA」【実用編4】CAT5ケーブルのままで使える2.5G/5GBASE-T【実用編5】さらに高速化! 25G/40GBASE-Tの普及は?#series-contents .current-page { font-weight: bold; }【アクセス回線10Gbpsへの道】記事一覧622Mbpsを32台のONUで分割、ATMがベースの「ITU G.983.1」仕様「Bフレッツ」(100Mbps)に採用された最大622Mbpsの「B-PON」IEEE 802.3ahとして標準化された1Gbpsの「GE-PON」2.488Gbpsの「G-PON」、B-PON後継のG.984.1/2/3/4として標準化「10G-EPON」で10Gbpsに到達、IEEE 802.3avとして標準化NURO光 10Gに採用された10Gbpsの「XG-PON」、「G.987」として標準化XG-PON後継、上りも10Gbpsの「XGS-PON」と「NG-PON2」25Gbpsの「NG-PON2+」、5G基地局向けバックボーン向け最大100Gbpsの「100G-EPON」、2020年に標準化完了【番外編】XG-PONを採用する「NURO 光 10G」インタビュー#series-contents .current-page { font-weight: bold; }
大原 雄介
フリーのテクニカルライター。CPUやメモリ、チップセットから通信関係、OS、データベース、医療関係まで得意分野は多岐に渡る。ホームページはhttp://www.yusuke-ohara.com/

最大800Gbpsを目指す「800G Pluggable MSA」、3つの変調方式を採用

PSM4とCWDM4で1.6Tb/secを実現しつつ到達距離を延長する「800G Pluggable MSA」
▲[期待のネット新技術]の他の記事を見る

関連リンク 800G Pluggable MSA ENABLING THE NEXT GENERATION OF CLOUD & AI USING 800GB/S OPTICAL MODULES Global Networking Services:Objectives to SupportCloud Scale Data Center Design(IEEE) Introducing data center fabric, the next-generation Facebook data center network OIF CIE 4.0

関連記事

連載
ネット新技術
最大800Gbpsを目指す「800G Pluggable MSA」、3つの変調方式を採用
2021年4月27日

連載
ネット新技術
IEEE「400GBASE-SR4.2」は先行した「400G-BD4.2」と相互互換性を確保
2021年3月2日

連載
ネット新技術
53.125Gの「PAM-4」を4対束ねた「PSM4」で最大400Gbpsを実現する「400GBASE-DR4」
2020年10月6日

連載
ネット新技術
「QSFP-DD MSA」を発展させる「QSFP-DD800」、供給電源など今後に課題も
2021年4月20日

投稿者 Akibano

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です