大白话聊透人工智能精校章节_一文看懂光模块：从“数据快递员”到AI时代的“基建核心”

2. 电信光模块：追求“远、强、耐”

电信领域的光模块，主要用在基站回传、城域网、骨干网，核心要求是“传得远、抗干扰、耐环境”。

“传得远”：骨干网是连接不同城市、不同国家的通信网络，比如从北京到上海的骨干网，距离有1300多公里，需要光模块能支持长距离传输。这类光模块会采用“相干技术”，就像给光信号加了“放大镜”和“稳定器”，能让光信号传几千公里都不衰减。比如中际旭创为电信骨干网做的100G相干光模块，能支持4000公里以上的传输，不用中途加“信号放大器”，大大降低了电信运营商的建设成本。

小主，

“抗干扰”：电信光模块大多装在户外的基站或机房里，会遇到电磁干扰（比如附近有高压电线）、温度变化（夏天高温、冬天低温），所以需要有很强的抗干扰能力。比如中际旭创的电信光模块，采用了“屏蔽外壳”，能挡住99%的电磁干扰；还能在-40℃到85℃的温度范围内正常工作，不管是东北的寒冬还是海南的酷暑，都不会出故障。

“耐环境”：户外的基站可能会遇到下雨、刮风、灰尘，所以光模块的外壳要“防水、防尘”。中际旭创的电信光模块，外壳防护等级达到了IP67（最高级别的防护之一），即使被雨水淋到、被灰尘覆盖，也不会影响内部元件的工作。

3. 工业光模块：追求“硬、准、灵”

工业场景的光模块，比如工厂的自动化生产线、智能电网、矿山监控，核心要求是“抗冲击、传得准、灵活适配”。

“抗冲击”：工厂里的机器会震动，矿山的环境也很恶劣，光模块要能承受冲击和震动。比如中际旭创为工业场景做的25G光模块，能承受1000G的冲击（相当于从1米高的地方掉到水泥地上），还能在500Hz的震动环境下工作，不会因为震动导致元件松动。

“传得准”：工业场景里的数据传输不能出错，比如智能电网的电流、电压数据，要是传输时出错，可能会导致电网故障；工厂生产线的传感器数据要是错了，会导致产品质量问题。所以工业光模块的“数据准确率”要求极高，通常是“误码率低于10的-12次方”（相当于传1万亿条数据，最多错1条）。

“灵活适配”：不同工业场景的接口、电压不一样，光模块要能灵活适配。比如中际旭创的工业光模块，支持多种接口（比如SFP+、QSFP28），还能适配12V、24V、48V等不同电压，不用为不同场景单独设计，大大降低了企业的采购成本。

四、AI时代：光模块为啥从“配角”变成“核心基建”？

在AI没火起来之前，光模块只是“数据传输的工具”，很多人没关注它；但AI时代到来后，光模块一下子变成了“核心基建”，甚至被称为“AI算力的血管”，这是为啥？

1. AI训练：需要光模块“喂饱”GPU

AI大模型的训练，本质上是“让几万台GPU一起算数据”。比如训练一个千亿参数的大模型，需要把海量数据（比如几亿篇文章、几千万张图片）分到不同的GPU上，每个GPU算一部分，然后再把计算结果汇总、交换，反复迭代几十万次，才能训练出能用的模型。

这个过程中，GPU之间的数据交换完全依赖光模块：如果光模块速度慢，GPU就会“等数据”——比如GPU算完了自己的部分，却要等半小时才能收到其他GPU的结果，训练效率会极低；如果光模块速度快，比如用800G光模块，GPU之间的结果交换能在几秒内完成，训练时间会大幅缩短。

举个真实的例子：某AI公司用400G光模块训练一个百亿参数的模型，花了30天；换成中际旭创的800G光模块后，训练时间缩短到了18天，效率提升了40%。而且模型越大，对光模块速度的要求越高——训练万亿参数的模型，必须用1.6T光模块，否则根本没法在合理时间内完成训练。

另外，AI训练的数据量还在指数级增长：2020年训练一个大模型需要几十TB的数据，2024年需要几百TB甚至几PB（1PB=1000TB）的数据，这就要求光模块的“容量”也要跟着涨，从400G到800G，再到1.6T，甚至未来的3.2T，只有这样才能“喂饱”GPU。

2. AI推理：需要光模块“不卡顿”

AI训练完后，要用来“干活”，比如你用AI写文案、生成图片、做语音翻译，这个过程叫“推理”。推理虽然不需要像训练那样多的GPU，但需要“实时响应”——你发出一个请求，希望几秒钟内就能收到AI的回复，这就需要光模块“快速传数据”。

比如你用AI生成一张“未来城市”的图片：你在手机上点击“生成”，请求会先传到AI数据中心的服务器，服务器里的GPU算出图片后，再通过光模块把图片数据传回到你的手机。如果光模块速度慢，比如用100G光模块，这个过程可能要5秒；用800G光模块，1秒内就能完成，你感觉不到任何延迟。

而且现在AI推理的“并发量”越来越大——比如某AI绘画工具，同时有10万人在用，每秒要处理几十万次请求，这就需要光模块能“同时传很多数据”，不能堵车。中际旭创的800G光模块支持“8通道并行传输”，就像一条8车道的高速路，能同时走8路数据，不会因为并发量高而卡顿。

3. AI集群：需要光模块“连得密”

这章没有结束，请点击下一页继续阅读！

AI数据中心里的GPU不是零散分布的，而是组成“集群”——比如一个集群有1024台GPU，这些GPU要通过光模块连接成一个“网络”，才能协同工作。这个网络的“密度”（每台GPU连接的光模块数量）直接影响AI的算力。

以前的GPU集群，每台GPU可能只连1个光模块，能和几十台其他GPU通信；现在的AI集群，每台GPU要连4个甚至8个光模块，能和几千台其他GPU通信，这样才能处理更复杂的模型。比如英伟达的DGX H100集群，每台服务器装8块GPU，每块GPU连2个800G光模块，整个集群能支持几千台GPU协同工作，这背后就是光模块的“高密度连接”在支撑。

中际旭创为AI集群设计的“光模块阵列”，能把多个800G光模块集成到一个“盒子”里，每台GPU只需要插一个“盒子”，就能实现和几千台GPU的连接，大大简化了集群的布线，还提高了连接的稳定性。

五、光模块的“技术升级”：从传统到CPO，未来还能怎么进化？

光模块不是一成不变的，为了跟上数据量和AI算力的增长，它的技术也在不断升级。从早期的“可插拔光模块”到现在热门的“CPO技术”，每一次升级都在解决“速度更快、成本更低、功耗更小”的问题。

1. 传统可插拔光模块：灵活但有瓶颈

我们之前讲的100G、400G、800G光模块，大多是“可插拔式”的——就像U盘一样，能插进服务器或交换机的接口，坏了可以直接拔下来换，灵活性很高。

这种模块的优点很明显：安装方便、维护简单，比如数据中心里某个光模块坏了，工程师不用拆服务器，直接换个新的就行，不影响其他设备工作。但随着速度提升到800G、1.6T，它的瓶颈也越来越明显：

- 功耗高：可插拔模块需要独立的电源和信号接口，速度越快，功耗越高。比如800G可插拔模块的功耗约12-15瓦，1.6T可能达到20瓦以上，成千上万的模块一起工作，总功耗会非常惊人。

- 延迟略高：信号要从服务器芯片传到可插拔模块的接口，再转换成光信号，这个过程会有微小的延迟。对普通数据传输来说没问题，但AI训练需要“零延迟”，这点延迟就可能影响效率。

- 成本高：高速可插拔模块的芯片和光学组件成本高，比如1.6T可插拔模块的价格目前还是800G的2倍多，对中小企业来说负担较重。