开云直播
Kaiyun中国大陆开云体育官网入口 港汉文用全光信号处理芯片, 冲破AI数据中心传输瓶颈
发布日期:2026-06-14 09:48:00 点击次数:82

Kaiyun中国大陆开云体育官网入口 港汉文用全光信号处理芯片, 冲破AI数据中心传输瓶颈

马斯克 xAI 的 Colossus 数据中心里有着高达 55 万张 GPU,可是测验时平均每张卡的愚弄率独一梗概 10%。剩下的 90% 算力其实被数据搬运拖了后腿,也便是说 GPU 大部分时刻齐是在等数据。

6 月 11 日,香港汉文大学博士生王本善和他所在的黄超然教化团队在《科学》杂志上发表了一篇论文。港汉文黄超然教化为著作的通讯作家,港汉文博士商榷生王本善和肖洽荣为著作的共同第一作家。其他共同作家包括来自港汉文的博士商榷生徐滕基、范理、刘少杰和孔秋强教化,华中科技大学董建绩教化和复旦大学张俊文教化。

他们打造了一款全光信号处理芯片(OSP,Optical Signal Processor),不错镌汰数据在 GPU 之间传输蔓延,把被疲塌的遵循找转头,让 GPU 不再干等。本次芯片的总隐隐量达到 1.6Tbps,蔓延仅有 60 皮秒。1.6Tbps 意味着一秒就能传上百部蓝光电影,60 皮秒则比一个电脑时钟周期还要短。

光信号无需转成电,径直在中途修好

在现时的数据中心里,大部分 GPU 之间依靠光互联杀青数据传输。光模块辐射端将数字信号转成光然后传出去,剿袭端再来转来电。但是光信号在光纤里跑的时候会受损,举例色散会让脉冲展宽,光电器件带宽不够会让信号变糊,非线性效应则会制造各式失真。

随着传输速率的赓续普及,信号失真问题也会更严重。传统作念法是在光转成电之后,使用数字信号处理(DSP,Digital Signal Processing) 芯片去成立。尽管 DSP 芯片相等进修,可是它的蔓延很高。在电处理上依赖于数字时钟频率,一般在兆赫兹或吉赫兹级别,蔓延在微秒级到毫秒级,当几万张卡一说念跑的时候,这个蔓延会被赓续放大。

对此,商榷团队的想路是受损是在光路上出现的,那么就在光路上径直成立。他们所打造的全光信号芯片放在光电探伤器之前,是以会在信号照旧光的时候就把失真抵偿掉。处理前无须转电,就无须等候时钟周期,光速有多快,处理就不错有多快。

他们在芯片上想象了三层级联的光学储备池,每层齐想象了一个反馈回路。这三层重迭起来之后,相助一个 8 分支的全光读出层,就能酿成一个等效的无穷脉冲反应滤波器。

也便是说,这颗小小的光子芯片在功能上好比一个领有 7 个反馈通说念和 64 个前馈通说念的复值滤波器。进一步愚弄光电探伤器的平方律探伤,总共这个词系统不错等效成二阶 Volterra 非线性平衡器结构。他们还挑升把储备池层和读出层的采样周期调成不完好意思一致,借此产生了游标卡尺雷同的放大效应。这么一来,有用采样分辨率达到了 1 皮秒,1 皮秒是一万亿分之一秒,这比光走一根头发丝直径的距离还要短。

王本善告诉 DeepTech,咱们常用的札记本发烫了 GPU 就会降频,披露屏画面也会变卡。而数据中心里的几万张卡一说念跑,电芯片发烧会更严重,进一步镌汰系统遵循。正因此他们转而使用光来作念处理,杀青了发烧更少、蔓延也更低的后果。对于 AI 数据中心来说,合座也不错更节能。

色散、带宽、非线性,三种毁伤一说念修

一直以来,光纤通讯里存在三个穷困:在色散方面,不齐心思的光速率不雷同快,脉冲会被拉宽,这就导致前后码元叠在一说念;在光收发机方面,带宽不够就像一扇太窄的门,滚球app(中国)官网下载高频重量当然也就过不去,信号也会变糊;在光纤里非线性效应方面,能量太高的时候,光自己也会彼此干预。

使用传统 DSP 来处理色散的痛点在于,由于剿袭端在作念光电探伤的时候光信号相位信息依然丢失,是以抵偿后果十分有限,而且还会放大高频噪声。业内有个经典公式 B²DL,其被用于算计色散对于系统的适度。以 100GBaud 信号为例,在 C 波段传输的时候,DSP 偶然无损抵偿的积累色散仅有梗概 25 皮秒每纳米。

王本善作念的对比实验披露,当光纤长度为 5 公里,积累色散为 85 皮秒每纳米,莫得 OSP 的时候眼图则是一派暗昧。OSP 一加上去,眼图坐窝就明晰了。他还在 5 公里光纤上跑了 100GBaud 的 PAM4 信号,在莫得任何剿袭端 DSP 辅助的前提下,OSP 就能及时把信号修好。仿真扫尾披露,OSP 致使不错接济 170 皮秒每纳米色散下的 100GBaud 传输,这让可用的波分复用窗口被拓宽了 6.8 倍以上;同期 OSP 还接济 200GBaud 的超高速信号处理。

低本钱、低功耗、可编程,一个芯片处理八个通说念

据先容,OSP 并非一块固定功能的芯片,假如疗养片上微加热器驱动的移相器,它偶然再行建立光场处理历程,从而不错适当不同的调制表率、数据速率和责任波长。

王本善在 5 公里光纤上辩认测试了 OOK 和 PAM4 两种调制表率,秀美率从 56GBaud 到 112GBaud,波长从 1,540 纳米到 1,565 纳米齐是聚拢可调的。他还使用粒子群优化算法来作念原位测验,Kaiyun(中国大陆)开云·体育官方网站借此发现 OSP 偶然针对不同链路景象来自动地优化参数,而况传输出错的概率遥远低于阿谁能让硬件我方把空幻修好的门槛。

在制程方面本次 OSP 芯片用的是商用硅光平台,65 纳米以上就能得志。比拟之下,1.6T 光模块需要的传统 DSP 芯片得用 3 纳米制程。而 3 纳米的流片用度是 65 纳米的几十倍致使上百倍,本钱差距相等悬殊。在功耗方面 DSP 芯片处理 1.6T 信号大摘录 10 瓦。

王本善测了一下 OSP 芯片功耗梗概为 100 毫瓦,表面上还能降到 10 毫瓦量级,杀青了一百到一千倍的普及。而且,光芯片的制程条件更低,65 纳米就能跑,传统电芯片却要一齐追摩尔定律悲伤 3 纳米。由此可见,当电芯片越作念越贵、功耗越来越高的时候,光芯片早已使用进修制程杀青了弯说念超车。

光芯片还有一个自然上风,这个上风便是并行处明智商。传统 DSP 芯片处理波分复用信号的时候,每个波长通说念齐需要配一个 DSP 模块,8 个通说念需要 8 个 DSP,32 个通说念需要 32 个 DSP,功耗和芯单方面积线性增长。

本次 OSP 芯片愚弄了光波的并行性,一个芯片就不错同期处理多个波长通说念,完好意思不需要零碎增多能耗和芯单方面积。王本善搭建了一个 1.6Tbps 的数据中心互联演示系统,其中 C 波段 8 个波长通说念,每一个通说念跑 200Gbps 的 PAM4 信号,随后通过 5 公里光纤传输。

时代,一个 OSP 芯片就不错同步处理总共通说念,由于不同波长的色散不雷同,这时剩下的极年少问题,只需要一个小电处理芯片就能不休。在羼杂决策里,每个通说念平均只需要 25 抽头的前馈平衡器或 15 抽头的决策反馈平衡器,抽头数比传统纯 DSP 芯片决策少了一个数目级以上,且性能更佳。

王本善在采访中还提到了一个对于技巧道路的重要判断,使用光预备来作念通用预备一直濒临一个问题,那便是输入输出齐是电信号,需要反复作念电光光电挪动,这么一来上风就被吃掉了。但他选的这个场景不雷同,因为光互联的输入是光、输出亦然光,自然就安妥光预备,也便是说他们把光预备芯片嵌在了最合适的位置上。

从实验室到运行创业,把光预备用在最合适的地点

据了解,王本善 2020 年从武汉大学本科毕业,学的是电子信息工程。他本科就作念过空间光通讯形貌,拿了寰宇大学生光电想象竞赛二等奖。武汉是中国的光电子产业重镇,炊火通讯、光迅科技这些龙头企业齐在这里。本科时代拜访企业,让他对光电行业有了初步的意志和兴致。其后他看到黄超然结实这边作念的光预备形貌,发现蓝本光学除了通讯以外,在预备等限度也有各种的应用远景。

2021 年 6 月,他加入了黄超然教化团队,成为后者团队最早期的博士生之一。这个形貌从 2022 年运行,中间流片迭代了五次以上,每次需要恭候半年,转头测试、优化参数、再等下一次,每一次恭候齐很煎熬。与此同期,光通讯和光预备干系限度发展赶快,团队的技巧见地也随着行业表露赓续提高:从起首面向单通说念 50G 内,冉冉普及到 200G 乃至 400G 级别。

2024 年,他们第一次在纯光链路里把信号规复出来。时代莫得用任何 DSP 芯片,莫得用任何 DSP 算法,一个 200G 的 C 波段 1,550 纳米信号在光纤里传了一段 5 公里之后(等效 O 波段 1,300 纳米传输 80 公里),被他们本次研发的 OSP 芯片完完好整地修了转头。王本善说:“看到本来很 dirty 的高速信号径直变得很干净,总共这个词团队相等怡悦。这个扫尾在学界和业界齐莫得见过。”现在商用主流 1.6T 模块传输距离仅为 O 波段 2 公里。

香港汉文大学在光学限度有着额外的传承,“光纤之父”高锟曾担任该校校长,他的商榷让光通讯成为可能。半个多世纪后,该校团队此次在《科学》上发表全光信号处理芯片,让光处理信号成为实践。从让光跑腿到让光动脑,不错说这所大学用了几代东说念主的时刻。而王本善行为黄超然的第一个博士生,参与并见证了团队第一篇 Science 正刊的出身,这份履历对他来说酷好不凡。

LOL比赛下注app2026中国官方下载

王本善下个月行将毕业拿到博士学位。现在,他跟所在团队正在筹谋一家初创公司,积极鼓舞干系技巧的产业化责任。他们在前年投入了中国外洋大学生转换大赛(原互联网+),拿了寰宇第三名,脚下依然有投资机构抒发了融资意向。

未来,他但愿在中国香港或内地尽快把公司跑起来,他敬佩光互联的蔓延从微秒毫秒级降到皮秒级,AI 测验本钱会随着降下来,普遍东说念主用 AI 花的钱也会变少。测验一个万亿参数的大模子,本来可能要一个月,未来有但愿在十分之一的时刻里跑完,那被耽误的 90% 算力,也许很快就能要转头了。

参考贵寓:

运营/排版:何晨龙Kaiyun中国大陆开云体育官网入口

友情链接: