青岚:云计算这个美国对华封锁的重点领域,二次长征势在必行
从渠道体系到商业习惯,这些问题的答案甚至可以追溯到近一个世纪之前。
早在IT产业“史前”的1932年,蓝色巨人IBM就成立了服务局部门(SBD),在美国各大城市自建制表机“机房”,通过人力配送“互联网”传输打孔卡“数据”,为辐射范围内的中小企业提供算力服务,使其无需承担昂贵的硬件购置或租赁费用。尽管SBD营收从未超出过5%的贡献度,但这种伴随着一整代美国“新市民”与“新白领”共同成长起来的水平分工与服务付费生态,最终嵌入了美式管理资本主义的“基因编码”,从而在电子计算机时代也依然顺畅运转。以Tymshare公司为代表的多用户远程终端分时服务,同样曾在微型计算机问世前兴盛一时。
对于中国云计算乃至更广义的软件服务业而言,与其艳羡这种“放之四海而不准”的特殊生态系统,更好的做法理当是审视自身的特殊禀赋并发扬光大。
没有历史包袱、敢于拥抱变化,正是中国高科技产业一次次被验证的可贵“后发优势”,而在云计算产业,随着生成式AI浪潮席卷而来,十年一遇的变革窗口也已开启。
得AI者得天下,无疑是当前云计算产业简单粗暴的主导法则。
顺之者昌,逆之者亡。
有OpenAI作为招牌的微软Azure,攻城略地势如破竹,而因AI算力不足丢掉大客户xAI的甲骨文,股价应声而落。
今年年初,甚至曾有投资人大胆预测,按照微软Azure与亚马逊AWS市场份额之间此消彼长的速度,Azure可能到2026年反超AWS,实现云计算行业历史性的“霸权交接”,其判断依据正是微软在AI算力与标杆客户上的领先布局。
除了其与OpenAI家喻户晓的密切关系,微软在娱乐应用上与英伟达早已培育了长期的互信合作关系,因此在面向AI应用的GPGPU“囤货潮”中,也总能得到英伟达的回报。
根据瑞银明星分析师蒂莫西·阿库里(Timothy Arcuri)判断,微软对2024财年英伟达总营收的贡献达到惊人的19%,是名副其实的最大合作伙伴,超过亚马逊和谷歌两大买家总和。如此紧密的利益纽带,将之称为新时代WINTEL联盟也并不为过。
不久前心智观察所与《奥尔特曼传》作者周恒星的独家对话中,对于这套已然成型的“微软模式”也有精彩概括:“谷歌就是一直吊打微软,到纳德拉成为CEO之后,可能云计算方面开始让微软稍微扳回了一局,因为谷歌虽然也有云计算,但其实不是它的优势。纳德拉觉得应该做一些谷歌还不是特别擅长的东西,就看准了AI,他也说服了比尔盖茨,之后就跟OpenAI结盟了”。
面对微软Azure挟AI业务搅动的变局,亚马逊已经难以继续保持从容。对标“微软模式”,亚马逊一面不断加大对Anthropic投资,试图为自己确保一张在基础大模型上的参赛门票,另一方面,在英伟达GPU供货争不过微软的情况下,亚马逊对自研大算力AI芯片也日益重视,旗下Annapurna labs用于大模型训练的Trainium 2芯片及实例已在上周正式发布,研发团队内部人员直言,“我们的mission是打破英伟达的垄断,democratize AI for everyone。所以我们一切都是对标英伟达......完整的技术栈加上和AWS强大的基建和用户基础,是我们和英伟达叫板的最大底气”。
(Anthropic创始人、如今美国AI产业界大佬Dario Amodei出身百度美研,与他的同事们几乎最早揭示了大模型“规模定律”的存在)
攻防的冲动,当然不仅仅存在于美国云计算产业,在国内,头部玩家也不约而同对标“微软模式”,开启了基础大模型与智算中心投资(Artificial Intelligence Data Center,AIDC)的“军备竞赛”。
相比基础大模型开发,智算中心建设的资本与技术挑战同样巨大。随着模型参数量提升,对算力需求已经达到了传统通用计算难以设想的高度。在2024年尾声,GPU万卡训练集群已近乎成为国内外AI大模型头部玩家“标配”,万卡乃至更高数量级集群,不仅需要特殊的数据中心网络架构以调度计算存储资源,在供电和散热上也面临全新挑战,以910B组成的万卡集群为例,仅加速卡额定功率就高达9800千瓦,年耗电量约8500万度。
令技术难度进一步加剧的是,在这个云计算产业重排座次的关键阶段,美国人似乎格外容不得其他竞争者。
从开源大模型到先进芯片乃至云端算力访问权限,美国朝野正以极其罕见的高效和细致,筑起对华封锁的高墙。以所谓的《远程访问安全法案》为例,就明确提出要堵塞中国公司通过“全球任何地方的云服务提供商”使用先进计算芯片的可能。
这种人为的敌意,显然为中国云计算产业带来了空前挑战。如果说2010年代,行业比拼的主要是资本实力和市场策略,高端芯片的可及性并不构成约束条件,甚至中国市场成为英特尔、AMD、英伟达、博通等公司最前沿数据中心产品的“试验场”,那么在供应链实质性割裂的形势下,AI算力基础设施就成为了最为关键的“咽喉点”(choke point)。
为了挣脱卡住咽喉的枷锁,中国云计算产业第二次“长征”已势在必行。
不难想见,这场长征假如未竟全功,那么不仅中国云计算产业此前十余年辛勤开垦的市场份额将不进反退,中国通用人工智能的发展,也将被“锁死”在中低端。
正是因为其关乎巨大公共利益,国内智算中心建设已经形成了产学研用协同攻坚的局面,从以软补硬到器件结构、制程工艺、计算架构乃至计算介质,展开了堪称“饱和式”的技术攻坚。
在工业界,国内几大云计算巨头的万卡智算集群,已普遍运用了各具特色的新一代数据中心网络架构,例如某企业计算研究部提出的新一代光电混合交换网络架构,能够将集群规模(NPU/GPU数量)扩展至128K,同时满足ns-µs量级快速链路切换。集群节点内可通过波长切分器件带来快速的光链路切换,节点间通过MEMS器件带来集群规模弹性扩展。
而在学术界,中国研究者在存算一体等新型计算架构上的探索,已经走在了全球微电子领域最前沿。
根据公开信息,在科技部2024年度“先进计算与新兴软件”重点专项启动的20项任务中,就包括了“基于存算一体的分布式近数据处理计算系统”和“面向大模型训练的异构存算系统”。
前者考核指标为:研制一款存算一体的近数据智能计算原型芯片及原型设备,实现大模型等典型人工智能应用的原型验证。近数据处理加速器聚合吞吐率达到120GB/s,存储密度超过0.15Gb/mm2,存储与计算的片间带宽达到1.6TB/s;近数据计算处理系统实现的等效能效比和等效吞吐率较传统方案提升1个数量级;智能计算模块的算力密度突破6TPP/mm2(作为对比,美国商务部先进芯片禁令中的性能密度限制则为TPP不得高于5.92/mm2),支持整数型和浮点型数据格式的全精度计算。
第二项任务的考核,则更贴近实际生产场景,目标是研制一套面向大模型训练的异构存算系统,支持基于国产AI加速卡的远程存储直通技术,融合高带宽内存、DRAM、非易失性存储、固态硬盘等多级存储,支撑千亿级以上参数大模型高效训练,单卡训练可支撑参数规模超过百亿,数据I/O时间占总训练时间的20%以内,平均检查点恢复时间小于60s。
在这个时间点上,对于智算中心技术攻坚乃至中国云计算产业的未来前途,科技观察家保罗·特里奥洛(Paul Triolo)最近的一段话恰可作为总结:
“鉴于美国及其盟友实施的严格控制以及未来技术路线图的复杂性,中国半导体行业似乎不太可能“赶上”世界其他地区。但是,在2023年,美国政府中没有人认为华为和中芯国际能够像Mate 60那样生产基于7纳米SoC的智能手机。明年,中国半导体行业可能会再次震惊世界”。
本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。
网址:青岚:云计算这个美国对华封锁的重点领域,二次长征势在必行 http://c.mxgxt.com/news/view/332229
相关内容
我国科学家在量子计算领域取得重大突破盘点:计算机领域的大佬们
着急了?美媒:OpenAI首席执行官奥尔特曼称,为在AI领域击败中国,美国必须做更多
赵晓岚: 视觉设计的时尚先锋 创新理念的美学先驱
安超云:引领中国云计算市场的璀璨明星
大华指纹密码锁,指纹锁的十大品牌有哪些呢(大门密码指纹锁哪个牌子的好)
云计算价值影响力矩阵
美媒:谷歌开出230亿美元收购天价,押注云计算安全
最懂中国企业=唯一入口,金蝶在企业云服务上立了个Flag!
“独家揭秘:体育领域的新晋明星”