AI芯天下丨动态可重构芯片的演进过程和方法学原理

摩尔定律的放缓以及经典的冯诺依曼架构瓶颈让ai芯片的进一步提升面临挑战,这也在很大程度影响ai的发展和落地。因此,ai芯片架构的创新对于ai发展意义重大。
可重构计算芯片因其强大的适应性、灵活性以及能够达到的超高能效比,近年来,在业界得到广泛关注。了解可重构芯片的方法学原理,可深入理解这一全新技术路线的重要意义。
可重构芯片的由来
从历史规律来看,集成电路的摩尔定律不是第一个,而是提供指数增长的计算范式的第五个范式。每当一种范式失去动力,另一种范式就会加快步伐。从这个角度上讲,摩尔定律只是一位“过客”,之后我们还会迎来第六个范式。
投入的成本越来越高但收益越来越低,甚至有人认为半导体产业已经进入了无效益的繁荣时代。在这种情况下,可重构硬件和芯片的概念便来到了人们视线中。
芯片在ai演变中扮演了中心角色,算力的需求又给芯片带来压力。ai浪潮、计算浪潮、芯片浪潮发生时期大致重叠,即三种创新浪潮的关键时间节点大致相同,这说明半导体的变化在ict演变中扮演了关键角色。
芯片技术恰是计算与it革命的引擎,gpu推动ai掀起第三次浪潮,算力需求牵引soc进入超算,片上超算开启泛在计算时代,架构创新牵引芯片可再编程,可重构芯片继续推动ai再掀浪潮。
在物联网浪潮下,由于动态、异质、链接、安全隐私等特性,需要低功耗、极便宜、可伸缩、协议多、接口多、硬加密的物联网芯片。
可以预见,物理芯片和实际需求之间的缺口还将越来越大,现实需求将激励创新。未来10年,csoc(定制soc)时代将向rsoc(可重构soc)时代过渡。
可重构芯片的优势
以专用集成电路为代表的专用计算根据特定的应用来定制电路结构,其执行速度快、功耗小、成本低,却有一个致命缺陷——灵活性和拓展性差。针对不同应用需要设计不同的芯片,设计周期长,投入研发成本也高。
而可重构计算芯片则让芯片成了随机应变——硬件跟着软件变,软硬件双编程,根据不同的应用需求,实现对症下药。
比如说,“双11”即将到来,公众想要愉快“剁手”,得仰赖电商公司强大的后台处理能力。这时如果电商针对交易来配置系统以保障公众购物体验,当“双11”过去,这样配置的系统处理起其他任务时表现可能就欠佳。
若采用可重构计算芯片来部署系统,则面对不同的应用需求,它可以自行变动,时刻保持最佳状态。
可重构芯片的演进过程
可重构芯片具备软件、硬件双编程的特性,硬件架构和功能随软件变化而实时动态变化,因而又被称为软件定义芯片。
可重构芯片的出现打通了“应用定义软件、软件定义芯片”进而实现“应用定义芯片”这一人们长期追求的通道,而广泛的适应性也使其成为替代专用集成电路、可编程器件和经典处理器的有力竞争者。可重构芯片技术的发展经历曲折。
尽管可重构的概念早在20世纪60年代就被提出,但经过半个多世纪才终于获得突破。可重构芯片最早的技术源头可追溯到20世纪80年代末诞生的高层次综合理论和方法。
进入新世纪后,中国学者经过10多年的不懈努力,突破了一系列核心关键技术,成为可重构芯片领域的全球领跑者。了解可重构芯片的方法学原理,可深入理解这一全新技术路线的重要意义。
可重构计算架构原理
从2015年开始,一种新型计算架构,coarse-grained reconfigurable architecture(cgra),获得国际学术界和工业界的广泛关注。
cgra计算架构通过空域硬件结构组织不同粒度和不同功能的计算资源,通过硬件运行时配置,调整硬件功能,根据数据流的特点,让功能配置好的硬件资源互连形成相对固定的计算通路,从而以接近“专用电路”的方式进行数据驱动下的计算。
可重构阵列在不同时刻可以配置成为不同的功能,进而进行数据驱动的asic计算。当算法和应用变换时,再次通过配置,使硬件重构为不同的计算通路去执行。
cgra最大的优势体现在两方面,一是没有传统指令驱动的计算架构取指和译码操作的延时和能耗开销,二是在计算过程中以接近“专用电路”的方式执行。
对比来看,cgra的计算能效平均可达cpu计算架构的1000倍以上、是gpu计算架构的100~1000倍、是fpga计算架构的100倍以上,相比npu能够有10倍以上的性能提升,cgra基于配置方式执行,执行效率可以和asic相当,但是灵活性远远好于asic。
此外,cgra架构算力可以弹性扩展,适用于从云端到边缘端对高能效和灵活性有综合要求的场景。
其中的难点与对应的核心技术
①配置信息量大幅减少及“隐式配置数据驱动”技术。要不断地改变一个硬件的架构,需要不断进行配置,那么就要考虑配置的信息量有多大。
一般的fpga的配置信息大概要十几兆、几十兆字节,耗费几百毫秒到几秒的配置时间。要在很短的时间内实现配置的变化,首先需要减少配置信息量。
通过对计算流图的分析,基于子图同构相似度匹配的层次化配置信息生成技术,按照子图间相似度匹配和交叉索引的方式,提取数据流图共性,形成层次化的配置信息组织结构,可以使配置信息总量减少70%以上。
②配置信息高效加载及相关性感知缓存及轮摆式加载技术。配置信息量减少后还需要把它加载到数据通道上,配置仍要消耗时间。
因此就要一个相关性感知的配置流的缓存策略,加载的时候一部分加载、一部分运算,也就是轮摆式动态加载机制:采用基于计算任务对配置信息进行分组的片上高速缓存结构及预取方法,消除各层配置流冗余传输,按层向下汇聚配置集合,并采用流水均衡方法优化流水配置间隙,实现轮摆式动态快速加载。
这些技术克服了动态可重构芯片配置信息优化生成、存储和加载难题,通过配置和执行过程的最大限度并行化,实现了纳秒级的功能重构,突破了制约能效提升的技术瓶颈,为动态可重构芯片能够同时实现高能效和高灵活奠定基础。
③高效阵列架构及控制密集型任务并行化方法。可重构计算架构对计算密集型任务很有效,但是如何执行控制密集型任务是一个较难的问题。这就要探索控制密集型任务在集中式控制计算阵列上的并行化方法。
通过给出通用映射流程,采用执行体和条件计算合并、配置融合、配置分支优化等技术减小控制任务的配置和执行时间,这些优化能提升大约40%的性能。
同时,对于分布式控制系统,采用控制密集型任务在分布式控制计算阵列上的并行化方法,支持触发式的符合配置的运算单元及其控制,有机结合触发式机制和复合配置结构,高效实现复杂控制流的指令级并行,降低控制流造成的等待和执行代价。通过这些方法使控制密集型的任务的处理速度进一步的提升,提升20%—140%。
结尾:
作为一种新类别的ai芯片,可重构芯片能否推动相关应用市场的爆发,能否让数据流驱动的芯片更好地满足密集计算场景需求,能否与冯诺依曼架构芯片一起加速ai的普及,这背后的答案都需要观察。
转载至公众号—ai芯天下


江阴国四柴油批发 靖江地区柴油直销
别墅屋顶阳光房-屋顶阳光房-鑫发生产基地厂家直销
NSX400N施耐德——(欢迎您)
黄石管道防腐木托 咸宁管道保冷木托厂家
广东 惟允 小型循环热风机7 5KW
AI芯天下丨动态可重构芯片的演进过程和方法学原理
高品质抗震球形钢支座_厂家直销质量保证_没有中间商赚差价
苏州福沃斯电梯直销无机房电梯介绍
互联网创业新项目招商加盟?选拉米拉孵化园+未来部落
工程用混凝土布料机的安装过程介绍
黄山牙科铅门【防辐射】
化工工程专用15吨聚羧酸减水剂储罐
夏季 必备防蚊驱虫用品 硅胶驱蚊手环 不仅驱蚊虫戴着也美观
海宁吊车出租怎样避免纠纷
哪里卖硅胶生产线,买智能环保型密炼机上辅机选哪家
天成花园 实验小学旁边 双阳卧大三居 有房本能贷款 户型特好
采用了回路热管散热技术
广东鑫鼎欧光纤数据线性价比高专业厂家鑫鼎欧
园林纪念币定制 十二生肖纪念币定制 公司司徽定做
供应胶体石墨(粉末冶金 金属合金专用)