一文看懂光模块:从“数据快递员”到AI时代的“基建核心”

2. 电信光模块:追求“远、强、耐”

电信领域的光模块,主要用在基站回传、城域网、骨干网,核心要求是“传得远、抗干扰、耐环境”。

“传得远”:骨干网是连接不同城市、不同国家的通信网络,比如从北京到上海的骨干网,距离有1300多公里,需要光模块能支持长距离传输。这类光模块会采用“相干技术”,就像给光信号加了“放大镜”和“稳定器”,能让光信号传几千公里都不衰减。比如中际旭创为电信骨干网做的100G相干光模块,能支持4000公里以上的传输,不用中途加“信号放大器”,大大降低了电信运营商的建设成本。

小主,

“抗干扰”:电信光模块大多装在户外的基站或机房里,会遇到电磁干扰(比如附近有高压电线)、温度变化(夏天高温、冬天低温),所以需要有很强的抗干扰能力。比如中际旭创的电信光模块,采用了“屏蔽外壳”,能挡住99%的电磁干扰;还能在-40℃到85℃的温度范围内正常工作,不管是东北的寒冬还是海南的酷暑,都不会出故障。

“耐环境”:户外的基站可能会遇到下雨、刮风、灰尘,所以光模块的外壳要“防水、防尘”。中际旭创的电信光模块,外壳防护等级达到了IP67(最高级别的防护之一),即使被雨水淋到、被灰尘覆盖,也不会影响内部元件的工作。

3. 工业光模块:追求“硬、准、灵”

工业场景的光模块,比如工厂的自动化生产线、智能电网、矿山监控,核心要求是“抗冲击、传得准、灵活适配”。

“抗冲击”:工厂里的机器会震动,矿山的环境也很恶劣,光模块要能承受冲击和震动。比如中际旭创为工业场景做的25G光模块,能承受1000G的冲击(相当于从1米高的地方掉到水泥地上),还能在500Hz的震动环境下工作,不会因为震动导致元件松动。

“传得准”:工业场景里的数据传输不能出错,比如智能电网的电流、电压数据,要是传输时出错,可能会导致电网故障;工厂生产线的传感器数据要是错了,会导致产品质量问题。所以工业光模块的“数据准确率”要求极高,通常是“误码率低于10的-12次方”(相当于传1万亿条数据,最多错1条)。

“灵活适配”:不同工业场景的接口、电压不一样,光模块要能灵活适配。比如中际旭创的工业光模块,支持多种接口(比如SFP+、QSFP28),还能适配12V、24V、48V等不同电压,不用为不同场景单独设计,大大降低了企业的采购成本。

四、AI时代:光模块为啥从“配角”变成“核心基建”?

在AI没火起来之前,光模块只是“数据传输的工具”,很多人没关注它;但AI时代到来后,光模块一下子变成了“核心基建”,甚至被称为“AI算力的血管”,这是为啥?

1. AI训练:需要光模块“喂饱”GPU

AI大模型的训练,本质上是“让几万台GPU一起算数据”。比如训练一个千亿参数的大模型,需要把海量数据(比如几亿篇文章、几千万张图片)分到不同的GPU上,每个GPU算一部分,然后再把计算结果汇总、交换,反复迭代几十万次,才能训练出能用的模型。

这个过程中,GPU之间的数据交换完全依赖光模块:如果光模块速度慢,GPU就会“等数据”——比如GPU算完了自己的部分,却要等半小时才能收到其他GPU的结果,训练效率会极低;如果光模块速度快,比如用800G光模块,GPU之间的结果交换能在几秒内完成,训练时间会大幅缩短。

举个真实的例子:某AI公司用400G光模块训练一个百亿参数的模型,花了30天;换成中际旭创的800G光模块后,训练时间缩短到了18天,效率提升了40%。而且模型越大,对光模块速度的要求越高——训练万亿参数的模型,必须用1.6T光模块,否则根本没法在合理时间内完成训练。

另外,AI训练的数据量还在指数级增长:2020年训练一个大模型需要几十TB的数据,2024年需要几百TB甚至几PB(1PB=1000TB)的数据,这就要求光模块的“容量”也要跟着涨,从400G到800G,再到1.6T,甚至未来的3.2T,只有这样才能“喂饱”GPU。

2. AI推理:需要光模块“不卡顿”

AI训练完后,要用来“干活”,比如你用AI写文案、生成图片、做语音翻译,这个过程叫“推理”。推理虽然不需要像训练那样多的GPU,但需要“实时响应”——你发出一个请求,希望几秒钟内就能收到AI的回复,这就需要光模块“快速传数据”。

比如你用AI生成一张“未来城市”的图片:你在手机上点击“生成”,请求会先传到AI数据中心的服务器,服务器里的GPU算出图片后,再通过光模块把图片数据传回到你的手机。如果光模块速度慢,比如用100G光模块,这个过程可能要5秒;用800G光模块,1秒内就能完成,你感觉不到任何延迟。

而且现在AI推理的“并发量”越来越大——比如某AI绘画工具,同时有10万人在用,每秒要处理几十万次请求,这就需要光模块能“同时传很多数据”,不能堵车。中际旭创的800G光模块支持“8通道并行传输”,就像一条8车道的高速路,能同时走8路数据,不会因为并发量高而卡顿。

3. AI集群:需要光模块“连得密”

这章没有结束,请点击下一页继续阅读!

AI数据中心里的GPU不是零散分布的,而是组成“集群”——比如一个集群有1024台GPU,这些GPU要通过光模块连接成一个“网络”,才能协同工作。这个网络的“密度”(每台GPU连接的光模块数量)直接影响AI的算力。

以前的GPU集群,每台GPU可能只连1个光模块,能和几十台其他GPU通信;现在的AI集群,每台GPU要连4个甚至8个光模块,能和几千台其他GPU通信,这样才能处理更复杂的模型。比如英伟达的DGX H100集群,每台服务器装8块GPU,每块GPU连2个800G光模块,整个集群能支持几千台GPU协同工作,这背后就是光模块的“高密度连接”在支撑。

中际旭创为AI集群设计的“光模块阵列”,能把多个800G光模块集成到一个“盒子”里,每台GPU只需要插一个“盒子”,就能实现和几千台GPU的连接,大大简化了集群的布线,还提高了连接的稳定性。

五、光模块的“技术升级”:从传统到CPO,未来还能怎么进化?

光模块不是一成不变的,为了跟上数据量和AI算力的增长,它的技术也在不断升级。从早期的“可插拔光模块”到现在热门的“CPO技术”,每一次升级都在解决“速度更快、成本更低、功耗更小”的问题。

1. 传统可插拔光模块:灵活但有瓶颈

我们之前讲的100G、400G、800G光模块,大多是“可插拔式”的——就像U盘一样,能插进服务器或交换机的接口,坏了可以直接拔下来换,灵活性很高。

这种模块的优点很明显:安装方便、维护简单,比如数据中心里某个光模块坏了,工程师不用拆服务器,直接换个新的就行,不影响其他设备工作。但随着速度提升到800G、1.6T,它的瓶颈也越来越明显:

- 功耗高:可插拔模块需要独立的电源和信号接口,速度越快,功耗越高。比如800G可插拔模块的功耗约12-15瓦,1.6T可能达到20瓦以上,成千上万的模块一起工作,总功耗会非常惊人。

- 延迟略高:信号要从服务器芯片传到可插拔模块的接口,再转换成光信号,这个过程会有微小的延迟。对普通数据传输来说没问题,但AI训练需要“零延迟”,这点延迟就可能影响效率。

- 成本高:高速可插拔模块的芯片和光学组件成本高,比如1.6T可插拔模块的价格目前还是800G的2倍多,对中小企业来说负担较重。