再谈华为的逻辑折叠

可梦之 发表于 2026-5-31 10:20:52

本帖最后由可梦之于 2026-5-31 10:23 编辑

逻辑折叠制造商采用的w2w+hybrid bonding。先单独生产两个die，做好铜柱，然后打磨平整，face2face的键合。需要低温键合，不能超过300度，否则容易损坏芯片。同时在背面做TSV把管脚等引出来。

hw厉害的地方在于把HB/TSV的密度都大大提高了。HB最小间距降低到了1.5um，TSV是6um。这样，两个die之间可以做到5000万级别的互联线。这使得更低层次的逻辑互联成为可能。否则HB互联只有几万几十万的情况下，只能做到logic到sram这种block级别的划分和互联。

当然这是有代价的，一个就是5000M互联线的良率问题，hw给的答案是冗余。但是clock/power这种可以做mesh的网络好做，signal连线怎么做冗余，总不能每个都占用两个hb做冗余吧。

还有一个问题是散热。hw给的答案是做逻辑拆分和PR的时候就要考虑热，不要把两个发热高的放在一起。但是这又与逻辑折叠相悖，本就是要把相关的逻辑放在一起，这些大概率会同时发热。我看图片可能大部分还是logic和sram堆叠，控制发热。另外一个是提高封装散热。没有说细节，我怀疑做那么多TSV可能主要是为了散热，利用TSV的铜柱把热量从背面散出去。因为管脚不需要这么多TSV。

软件方面，hw承认现有EDA支持度还很低（包括国外EDA），主要靠人工，效率不高。EDA是比制造更大的瓶颈。hw的方案是在synthesis之前加入了partition这一层，划分模块和上下die，然后整个flow做迭代。这方面hw还是很nb的，虽然我猜做的是相对简单的，logic folding的潜力还有很多没有挖出来。

3D EDA学术研究一直有，最近也有北大的论文被炒的火热。但是学术界论文要落地还有很多问题。我们看没有哪家EDA厂商蹭这个热点，也说明的确没有突破，否则早大力宣传了。受影响最大的还是PR工具，前端工具相对影响不大。国内做PR的有鸿芯微纳、立芯等，2D的都问题多多。华大、概论等也开始做PR了，但是目前进度还不如前两家。hw自己也有搞，Macro-placement据说搞的不错，但是整体的PR是没有的，否则也不会扶持某家EDA公司。这里面placement相对容易些，学术论文比较多，routing更难，学术论文相对都少不少。

对STA影响相比要小些，RC抽参工具将HB抽象之后，STA核心算法不用变，除非垂直的HB的电感效应太大不能忽略（大概率不会发生）。主要影响是MMMC和OCV。如hw所说，corner数量大大增加，同一个pipeline，一个ff是SS，另外一个ff是FF的情况之前也不会发生。OCV方面，没有具体数据。但是提到HB的overlay accuracy是0.5um。要知道HB pitch已经降低到1.5um，铜柱直径不会超过1.0um，那么对齐最大差0.5um的情况下，这个偏差已经非常显著了。当然HB的铜柱比较粗，电阻也比较小，寄生电容不太大的情况下，还是可控的。更好的一点是，对齐错位应该是整个die一起的，所有的HB都偏差0.5um，之间的variation也不用很大。

逻辑折叠也是有物理上限的。f2f的方案只能做两层堆叠。多层肯定要用tsv，鲲鹏给的3层方案就是上面两层core用f2f，下面的uncore用tsv连接。用tsv的话，连接数是个瓶颈。但另一方面，多层的logic拆分，肯定会造成die-to-die之间的连接数陡增。TSV要做密的话，wafer可能要进一步减薄，但是现在已经从几百微米减薄到10微米之内，如果进一步减薄，良率怎么保证。

还有一个大瓶颈是散热。手机芯片几w几十w的堆叠在一起问题还不太大。大芯片上百w，AI芯片可能几千w甚至更多，堆叠起来散热如何解决？黄说NV不用是有技术原因的，一方面NV卡现在散热都是头疼问题，进一步堆叠挑战过大。另一方面，现在AI芯片显存问题更严重，与其logic堆叠，不如多搞几层HBM，把显存提上去。

总之，hw是很牛逼的，在处处受限的情况下闯出一条路来，有可能是一条康庄大道。生物进化史上类似事情无数次发生。但是现在就断定这条路一定比原来的路更好，为时尚早。芯片行业集中了全世界的聪明人才，即便海外也有很多华人，并不存在一个想法只有你能想到，别人想不到，区别在于具体的实现细节。赢学大家都爱，但是不符合科学/科技发展规律。

大黑蚊子 发表于 2026-5-31 13:37:34

HB最小间距降低到了1.5um，TSV是6um。这样，两个die之间可以做到5000万级别的互联线。

我在知乎上看到夏晶（华为鲲鹏/昇腾的首席架构师）在某个答案的评论里吐槽过，说这个指标太保守了{:214:}

大黑蚊子 发表于 2026-5-31 13:42:00

3D EDA学术研究一直有，最近也有北大的论文被炒的火热。但是学术界论文要落地还有很多问题。我们看没有哪家EDA厂商蹭这个热点，也说明的确没有突破，否则早大力宣传了。受影响最大的还是PR工具，前端工具相对影响不大。国内做PR的有鸿芯微纳、立芯等，2D的都问题多多。华大、概论等也开始做PR了，但是目前进度还不如前两家。hw自己也有搞，Macro-placement据说搞的不错，但是整体的PR是没有的，否则也不会扶持某家EDA公司。这里面placement相对容易些，学术论文比较多，routing更难，学术论文相对都少不少。

据说EDA这方面是两家，立芯和行芯，都有华为哈勃的投资
还有小道消息说这两家的能力比华为自己的EDA团队强

可梦之 发表于 2026-5-31 13:58:13

大黑蚊子发表于 2026-5-31 13:37
我在知乎上看到夏晶（华为鲲鹏/昇腾的首席架构师）在某个答案的评论里吐槽过，说这个指标太保守了 ...

鲲鹏/昇腾芯片更大需要更多的互联线，所以密度还要进一步增加。所以现在鲲鹏只是做chip folding，一个die是逻辑的core，一个die是其他的uncore。明年才会做三层，用上logic folding。

可梦之 发表于 2026-5-31 14:02:13

大黑蚊子发表于 2026-5-31 13:42
据说EDA这方面是两家，立芯和行芯，都有华为哈勃的投资
还有小道消息说这两家的能力比华为自己的EDA团队 ...

立芯有哈勃投资，行芯应该没有。但行芯的RC工具的确进入了hw。
后一句认可。华为搞EDA研发不是舒适区，还是做大甲方滋润。

大黑蚊子 发表于 2026-5-31 15:13:59

可梦之发表于 2026-5-31 13:58
鲲鹏/昇腾芯片更大需要更多的互联线，所以密度还要进一步增加。所以现在鲲鹏只是做chip folding，一个die ...

我看那个路线图做不到三层吧，应该要到28年以后

关于夏晶的发言，还有这么一段，我当初看到的时候给记下来了，后来再找发现这哥们应该是给删了，我贴在这里，反正爱坛小众，不太应该会有人追杀到这里

作者：Dio-晶
给韬一点自信
黑子蛮多，评价所谓韬不就是堆叠、3D集成、先进封装什么的，并引用台积电、AMD的材料为参照，是业界通用能力，叠加EUV还能更强：）
那为啥不做呢？你想过没有？
为何世人知其路，而罕至其深处？
诚然AMD也有MIXXX系列的3D结构，BroadCom也有相应3.5D什么的路标。
学术界论文更是汗牛充栋，工业届为啥没有再进几步，更深入折叠一下？
其实这真的是一个岔路口！！！！！
讲几个简单的逻辑，原本我是准备在会上回答的，奈何没人问，sign。
1、TSV，也就是所谓打孔（其实还包括一些其他3D特征的对象和rule），它们其实是一种Device，在加工上和一个FET管子是同等级别的特征的。但是，功能上的管子，例如NAND2，是工艺原生之子，而TSV是工艺后生之客。
啥意思呢？就是你定义一个2nm的工艺的时候，在第一天是不会考虑TSV这种器件的，因为它只会让你的刀变慢：）
几乎所有的TSV设计，都是在工艺成熟之后再叠加的。也就是工艺研发需要二次入场，这种研发的复杂度比原生第一次的研发要麻烦很多很多。
既熟则安，既利则惰，Fab能在先进工艺赚钱，就没人愿意二次开发新器件。
而且越先进的工艺，原生Cell，就是NAND2越脆弱，越经历不起万针扎身的淬炼。你看AMD的Bottom就还只到6nm，很难前进的。

2、其实折叠互联这事，天生与工艺精度是反方向的。你再想想那个Gear Ratio，也就是何总那张图，要令上下 Die 之中，标准单元直连相通，便需要Bonding Pitch 逼近 Cell 尺寸，而Cell 愈小、工艺愈进，Pitch 便要愈小。
你且算算，2nm的工艺如果要上下NAND2直接连上（也就是细粒度的逻辑折叠），需要Bonding Pitch压缩到多少nm？能做得到吗？细折易言，直通难行

3、工艺微缩之后，需要的金属层数也越来越多，例如Nvidia BlackWell，他的金属层数到22层了（手机多少我不知道），因为晶体管足够密，你必须要足够的金属层才能把它们互联起来。但是，这事又背道而驰了。金属层愈多，堆叠之后垂直路径愈长、愈复杂。还有一个一般人忽视的事情，金属层多了，再磨薄，这个wafer的bow值就会很大（懂得自然懂），对Bonding的精度、难度要求都变高无数。先写这几点吧：）需要再补充

所以，有些事，做一做，感受不一样。
事非经过不知难，成如容易却艰辛。
事在人为，道在躬行。
不妨自信一点：）

可梦之 发表于 2026-5-31 15:40:36

大黑蚊子发表于 2026-5-31 15:13
我看那个路线图做不到三层吧，应该要到28年以后

关于夏晶的发言，还有这么一段，我当初看到的时候给记下 ...

我看过这个。诚然，工艺越先进，密度越高，需要TSV/HB的密度也越高，肯定越难。但是先进封装/logic folding与先进工艺是解耦的，7nm能做logic folding，2nm自然也能做（自然需要更先进的封装）。hw没有EUV能搞出这个来是很nb，但没必要争竞别人搞不出来。

orleans 发表于 2026-5-31 22:17:26

凡事绕不开需求和可能，对于芯片的需求永远是更快更强更便宜。物理缩微属于直道，直道不通的时候各种绕道而行就会有人尝试。只是绕路的艰辛不比直道更容易。当你在绕道上走远了，别人想跟也不容易，就像直路前行的领头人别人想追上也不是一朝一夕的事

可梦之 发表于 2026-5-31 23:42:52

orleans 发表于 2026-5-31 22:17
凡事绕不开需求和可能，对于芯片的需求永远是更快更强更便宜。物理缩微属于直道，直道不通的时候各种绕道而 ...

其实直道早就走不通了，最小尺寸一致卡在十几nm下不去了。现在所谓的7nm/2nm都是等效出来的，为了市场宣传让大家好理解。真实的制造已经非常复杂的绕道了。

页: [1]

爱吱声's Archiver

再谈华为的逻辑折叠