数字营销新闻资讯

Google & Facebook 大咖实战经验分享,带你玩转外贸营销

微软必应借助英伟达Triton加速广告投放

推理软件使得必应能够使用英伟达A100 Tensor Core GPU,为搜索巨头带来了7倍的吞吐量。陈久盛的团队刚刚得到了加速。他们正在为微软必应的用户提供个性化广告,借助在英伟达A100 Tensor Core GPU上运行的英伟达Triton推理服务器,他们以降低的成本提供了7倍的吞吐量。这对于这位首席软件工程经理及其团队来说是一项了不起的成就。

调整复杂的系统
必应的广告服务使用数百个不断发展的模型。每个模型必须在10毫秒内响应请求,这比眨眼还要快10倍。最新的加速开始于团队为使AI模型运行得更快而提供的两项创新:Bang和EL-Attention。它们共同应用了复杂的技术,在更短的时间内使用更少的计算机内存完成更多的工作。模型训练基于Azure Machine Learning以提高效率。

借助英伟达A100 MIG飞翔

接下来,团队将广告服务从英伟达T4升级到A100 GPU。后者的多实例GPU (MIG)功能让用户可以将一个GPU分割成几个实例。陈的团队充分利用了MIG功能,将一个实体A100转化为七个独立的实例。这使得团队能够以10毫秒的推理响应时间,获取到每个GPU的7倍吞吐量。

灵活、简单、开放的软件
部分原因是因为Triton使得用户能够在单个GPU的隔离实例上同时运行不同的运行时软件、框架和AI模式,使得此次转换得以实现。推理软件包含在一个软件容器中,因此易于部署。而且,开源的Triton——通过英伟达AI企业版也可以获得企业级的安全性和支持——得到了一个随着时间推进使软件变得更好的社区的支持。用Triton在A100 GPU上加速必应的广告系统是陈喜欢他的工作的一个例子。他得以见证AI的突破。虽然场景常常变化,但团队的目标始终保持不变 —— 为用户和广告商创造胜利。