CEVA应对非结构化的稀疏性
2022年2月1日 - 作者:Aakash Jani
Ceva的Neupro-M深度学习加速器(DLA)的推断速度比上一代的新架构更快。可授权的核心展示了Winograd-Convolution和非结构化 - 比较发动机,从而促进性能并降低功耗。这些加速器还保持乘积蓄电位(MAC)单位忙碌,增加了利用率。
每个Neupro-M发动机都有4,096个单位MAC阵列,每秒可以实现10万亿个INT8操作(顶部)。新的稀疏能力可以大大改善该阵列的利用率,比具有类似顶部速率的竞争DLA提供更高的性能。智力 - 专业(IP)供应商为其新DLA提供了可扩展的配置。NPM11采用单个Neupro-M发动机。NPM18具有八个引擎,CEVA打算扩展其Neupro-M家族,以支持多达八个NPM18的实例化(64个发动机)。它已经运送了RTL来领导客户,并预计三月的一般生产发布。
NEUPRO-M针对高端计算机视觉的目标,例如智能手机,AR/VR耳机和多摄像机监视系统。新的IP还用于2级和3级ADA设计。DLA具有用于固件更新和关键身份验证的安全飞地,并且已获得ASIL B和ASIL D认证。
DLA IP仍然具有很高的竞争力,新产品每月从CADENCE和SYNOPSYS等既定竞争者以及Edgecortix和Expedera等初创公司到达。在这个拥挤的领域,供应商必须通过软件,功耗和推理潜伏期来区分。
Neupro-M取代并建立在Ceva的较旧的Neupro-S上。对于具有50%稀疏性的型号,它的前身的峰值性能翻了一番。CEVA将Neupro-S中的DSP(矢量处理单元或VPU)和收缩阵列分开。对于Neupro-M,它将VPU与其他预处理器和加速器集成在一起。但是,这两个DLA都采用了相同的软件,但是可以简化移植应用程序的任务。
订户可以查看全文在微处理器报告中。