【知乎】 华为昇腾芯片跟英伟达的芯片相比,差在哪里? |
您所在的位置:网站首页 › 房山是北京最差的地方吗知乎 › 【知乎】 华为昇腾芯片跟英伟达的芯片相比,差在哪里? |
华为昇腾芯片跟英伟达的芯片相比,差在哪里? Rawide Multimedia & NPU Arch 224 人赞同了该回答 inference意义不大,这里只说training部分,个人觉得差距有以下几点 能耗比,这块和微架构,制程都有关系,晟腾没有n3的先进工艺,做出来的die size肯定比nv的要差很多,n3比n7面积快小一倍了,导致哪怕同样优秀的架构设计,要做一样的事情,晟腾可能需要2个芯片才能完成,nv用一个就可以了,况且晟腾的SIMT/SIMD设计不会比nv更强。不过这块影响不大,servers上可以用数量弥补,反正钱能解决的都不是问题。 mem BW,晟腾肯定是拿不到HBM3e, 后续次一点的GDDR7肯定也没戏,memory bound是个很严重的问题,用LPDDR需要很多phy堆bus width才能把BW提上来,对floor plan,die size都是很大的挑战。大模型训练速度会受到很大的影响。 scaler, D2D受工艺限制,做扩展还有散热的问题,而且BW的bottleneck比computation更大,C2C需要很优秀的bus design,ARM后续的总线授权应该拿不到了,晟腾要设计私有的高性能总线协议才行,还要增加sram以及做cache coherency都是不小的挑战。 high-speed interface, B2B需要用到的高速互联接口,nv有nv switch, nv link,光接口做到很大的BW,这块国内供应商没有能打的,又只能华为自己上,从物理层到协议层以及SDK都要做出来,突破了这个才能去谈pod,不然最多做到C2C的单板,用PCIE5.0去打nv switch,差太多了。 生态,cuda是没希望了,mindspore要上接pytorch,下接ISA, framework, UMD, KMD全部自己做完,以前cuda的要迁徙过来,无数bug要修,还有性能,精度问题。没记错的话,晟腾只能适配H自己arm based的server,和普遍用的X86 linux还不通用(RSIC-V做高性能还有很长的路要走,短期没指望)。NV的PCIE borad是没这问题的,当然pod就是另外的话题了。 but,差就差点,又不是不能用,至少H这边不会断供,可能产能不够,要排队买,NV的GH,B200是好,买不到有啥用。先解决有没有的问题,再想好坏的问题。就是后续大模型训练上,需要的时间就多了,整体上还是BW的限制更严重一些,看能不能从存内结算等方向想想办法了。 发布于 2024-04-02 10:50 赞同 219收起评论 分享 收藏喜欢 收起 欢迎参与讨论 66 条评论 默认 最新 到处挖坑蒋玉成 第一条就有明显事实错误也是不容易 首先老黄现在没有使用N3工艺,目前H100和B100用的都是N4,属于N5拉皮,然后从A17Pro的表现来看N3跟N5完全没有拉开一代的差距 昨天 00:21 · IP 属地北京 回复31 到处挖坑蒋玉成 ooosimdexe “达不到台积电水准”不过就是你单方面的话术罢了。麒麟9000S实物无论是晶体管密度还是产品实际表现都完全能达到N7的水平,AI这边昇腾910B实际测试也跟同代的A100可以对标,单卡算力和能效处于同一水平,整体有差距也明显不在工艺上。第二,所谓的N3才更像是文字游戏,从B200看,老黄已经开始用堆面积砍精度的一次性手段来提升算力了,这说明连老黄自己都不相信台积电工艺还能在取得实质性进步了,这也与苹果的实际表现相符。换句话说后续差距拉大的可能性几乎不存在——反而如果华为真的搞出了传言中的N5,那就意味着工艺差距直接被抹平了。 17 小时前 · IP 属地北京 回复19 ooosimdexe Nxx玩文字游戏意义不大,多重曝光的N7也达不到TSMC N7的水准;工艺上1-2代的gap是客观存在的,后续是拉大还是缩小差距见仁见智 昨天 01:01 · IP 属地上海 回复6 查看全部 11 条回复 napplestyetO二 第四条 华为有hccs有光交换机,网络出身的企业,高速接口肯定是最先解决的 昨天 01:06 · IP 属地上海 回复11 napplestyetO二 dreamalcohol 国内超算只能买国内的卡,国家应该是有意推动更多算力中心建设的 15 小时前 · IP 属地上海 回复1 dreamalcohol 大型机不好卖,大多数客户都是购单卡自组网络拓扑。 17 小时前 · IP 属地重庆 回复喜欢 展开其他 2 条回复 SSS709 除了HBM,其他问题应该不大 04-02 · IP 属地广东 回复8 金戈铁马 HBM,合肥有惊喜 04-02 · IP 属地江苏 回复9 想飞的鱼 金戈铁马 合肥今年也就能造hbm2e 10 小时前 · IP 属地福建 回复5 展开其他 3 条回复 巴拉巴拉 NV不是N3,用N3的那个已经上当了,颇有当年Intel 14nm雄风 11 小时前 · IP 属地上海 回复5 前堂客 苹果? 10 小时前 · IP 属地广东 回复喜欢 回眸一笑倒苍生 NV也没用N3啊 18 小时前 · IP 属地中国香港 回复3 芒果 给中国企业几年的时间,回头再来看看,我相信会上更多的台阶。制裁不全是坏处。 18 小时前 · IP 属地河北 回复1 五行缺帅 多几个华为、京东方、中芯国际,多几个清华大学摩擦学实验室才有用啊 2 小时前 · IP 属地广东 回复喜欢 小木头 其实就差一个台积电。 04-02 · IP 属地上海 回复1 风度翩翩的猪肉佬 不止的,同是5nm,920b和a800也有差距,我们跑训练和华为的研发一起调优,出来的效果大概是a800的70%,推理大概是80% 21 小时前 · IP 属地广东 回复5 到处挖坑蒋玉成 风度翩翩的猪肉佬 现在哪有920B?如果你说的是910B的话它用的是N+2,相当于7nm 15 小时前 · IP 属地北京 回复2 查看全部 6 条回复 tong3162 华为加油!支持华为! 04-02 · IP 属地湖北 回复2 一念永恒 只要还有制造工艺,别的都能想办法。训练完全可以先用nv的凑合,只要不追求搞创新对标最新大模型,训练的算力完全是可控的 8 小时前 · IP 属地江苏 回复1 zuan 第五条,mindspore和pytorch的关系是互相替代关系,为毛要上接pytorch?再说当下整个深度学习软件生态中,pytorch才是核心环节。能不能接入到深度学习的生态,关键是适配pytorch。 19 小时前 · IP 属地河北 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |