2024-10-10 07:59 点击次数:194
9月25日,在2024百度云智大会上,百度集团实行副总裁、百度智能云业绩群总裁沈抖在云智大会上默示cccc77.com,往时的一年,是大模子从技艺变革走向产业变革的关节一年,而大模子与云蓄意普遍统一,正在成为新式的基础门径,“大模子偏激关相干统,在短短几年内,正在飞速成为新一代的基础门径。此次变革的速率前所未有”。
百度集团实行副总裁、百度智能云业绩群总裁沈抖 图片着手:企业供图
围绕大模子算力方面,沈抖默示,提到算力,不少东说念主皆传说过“万卡集群”,简便来说,GPU集群有三个特征:极致规模、极致高密和极致互联。
而这些“极致”带来了几个严峻的挑战。沈抖先容,首先是无数的开辟、运营资本,建一个万卡集群,单是GPU的采购资本就高达几十亿元。其次,在这样大规模的集群上,运维的复杂性急剧增多。他谈到,硬件弗成幸免地会出故障,而规模越大,出故障的概率就越高。“Meta进修Llama3的时候,用了1.6万张GPU卡的集群,平均每3小时就会出一次故障。”
沈抖进一步默示,在这些故障中,绝大多数是由GPU引起的,其实GPU是一种很敏锐的硬件,连中午天气温度的波动,皆会影响到GPU的故障率。这两个挑战迫使百度从头运行念念考怎样构建、管制和贵重宏大而复杂的GPU集群,屏蔽硬件层的复杂性,为大模子落地的全经过提供一个简便、好用的算力平台,让用户好像更容易地管制GPU算力、低资本的用好算力。“往时一年,咱们感受到客户的模子进修需求猛增,需要的集群规模也越来越大,与此同期,全球对模子推理资本的握续下落的预期也越来越高。这些皆对GPU管制的自若性和灵验性建议了更高条款。”
基于此,百度智能云通知将百舸AI异构蓄意平台全面升级至4.0版块,围绕落地大模子全旅程的算力需求,在集群创建、开辟施行、模子进修、模子推理四大方面,为企业提供“多、快、稳、省”的AI基础门径。
其中,为了贬责算力资源短少的问题,百舸4.0对“多芯混训”智商进行了要点升级,终明晰在万卡规模集群上95%的多芯夹杂进修着力,达到业务最首先水平。在集群部署门径,升级后的百舸好像终了用具层面的秒级部署,将万卡集群运行准备时辰从数周最快缩减至1小时,极地面栽植部署成果,缩小业务上线周期。针对大模子进修过程中故障频发的问题,百舸4.0全面升级了故障检测妙技和自动容错机制,不错灵验遏抑故障发生频次,大幅减少集群故障处置时辰,在万卡集群上终明晰杰出99.5%的灵验进修时长。
美女自慰此外cccc77.com,百度智能云同期公布了千帆大模子平台的最新“收货单”,在千帆大模子平台上,文心大模子日均调用量杰出7亿次,累计匡助用户精调了3万个大模子,开辟出70多万个企业级哄骗。往时一年,文心旗舰大模子降价幅度杰出90%。