作者:刘于苇
随着最近几年AI技术快速发展,数据搬运速度是运算的瓶颈,面临数据洪流,数据搬运慢、搬运能耗大等问题亟待解决。而且各类应用对算力的要求越来越高,存储墙的问题也越发明显。目前有非常多的架构出现,尝试去解决处理存储墙的问题,其中存算一体是所有新型架构中最有效的一种。
如果能使用Flash存储器完成神经网络的储存和运算,那将解决AI的存储墙问题,提高运算效率,降低成本。
在近日举办的第十一届松山湖中国 IC 创新高峰论坛上,北京知存科技带来了自主研发的新一代面向可穿戴设备的超低功耗存算一体芯片WTM2101。
据介绍,知存科技的WTM2101是国际上首个存算一体SoC芯片,另一款产品WTM1001则是首个存算一体加速器。据知存科技副总裁李想介绍,WTM2101的超低功耗存算一体特性,适用于低功耗唤醒、识别、降噪等场景,例如TWS耳机、手表等智能可穿戴设备等领域。
北京知存科技有限公司副总裁李想
基于不同的存储介质,大家在做存算一体技术的时候会采用不同的技术方向,有些是忆阻器,有些公司是用SRAM、Nor Flash,知存科技使用的就是Nor Flash技术。
Flash的存算一体技术包含Flash存储设备(拥有数个Flash存储页) 、Flash存储页 (拥有数亿个Flash存储单元)、Flash存储单元三个部分。关于知存科技为何选择Flash,李想表示:“首先,Flash工艺成熟,距离最早量产和用在设备中已有数十年时间。其次,Flash的存储密度大。”
以40nm举例,存储密度不大的情况下,用Flash存算一体技术的存储密度,比用5nm的SRAM还要高出几倍左右。另外,知存科技考虑到Flash采用的浮栅晶体管是三端的CMOS存储器,相比双端的MRAM、RRAM等其他存储器,浮栅晶体管更类似于CMOS晶体管,但比CMOS晶体管多了一个浮栅可以存储阈值电压。把流过晶体管的电流放大,使实现单个存储单元可存储8bit数据,也可以使单个存储单元可完成8bit乘法和加法。
在比较传统的冯·诺依曼架构和存算一体架构时,李想提出,传统冯·诺伊曼体系结构中的数据需要从处理单元外的存储器提取,处理完之后再写回存储器,这个过程能耗大概在60%-90%之间,能效的利用非常低,这是低功耗和高性能之间的矛盾关键点。
而存算一体芯片是新型的计算架构,使存储器同时拥有计算和存储功能,可以极大减少数据搬运过程。它的实质是一个向量矩阵的乘法,通过前端的数模转换,把输入数据转换成电流的模拟信号,当信号进入矩阵的时候,在矩阵里每个单元存一个8bit的数,比如存入3,流过晶体管,电流放大3倍,存入100,电流放大100倍,相当于横向做乘法,纵向做电流的累加,所以流过这个矩阵,相当于做一个向量矩阵的乘法。
这个矩阵适合跑AI网络,WTM2101就是基于这个技术,目标市场是耳机和手表,知存科技主要提供的是算力平台。李想表示,用在手表中会比耳机多一些健康算法。
在智能音频方面,有唤醒等功能,其中知存的VAD与市场现有方案不一样,效果以往的会更好。另外在声纹识别方面,李想谈到,现在耳机和手表还没有声纹识别的功能,基本上是用在手机上,知存的这个芯片可以将声纹识别的功能在手表和耳机等可穿戴设备中实现。
WTM2101尺寸是2.9*2.6mm,峰值算力是50Gops,能效比达到15Tops/W,最大可存1.8M的神经网络。这个芯片除了有存算一体的部分外,还有一个RISC-V内核、音频ADC和电源管理,以及丰富的接口等。
公开消息显示,北京知存科技有限公司是一家专注存算一体芯片研发的企业。创始团队从2012年开始研发存算一体芯片;2014年,知存科技的创始人在美国加州大学圣芭芭拉分校的实验室做这项技术的研发,完成过6次流片和技术验证;2016年,创始团队在完成国际第一块模拟存算一体深度学习芯片;2017年10月23日在北京注册公司,2018年3月正式开始运营;2019年底量产国际首个存算一体芯片WTM1001。
面向可穿戴领域的WTM2101目前还是样片阶段,将于2021年年底小批量试产。
据介绍,公司目前拥有80人,核心团队成员毕业于北京大学、北京航空航天大学、美国加州大学洛杉矶分校、加州大学圣芭芭拉分校等学校。核心团队成员大部分都有十年以上的行业经验。公司还自主开发的存算一体芯片量产测试流程,累计流片超过20次,截至目前,知存科技已完成3亿元产业资本领头的融资,包括中芯聚源、科讯创投、国投创业、飞图创投等。
来源:电子工程专辑