嘉楠科技:云上的AI芯片设计之旅
嘉楠科技成立于2013年,同年发布了全球首款基于ASIC芯片的区块链计算设备,引领行业进入ASIC时代,自此逐步积累了丰富的芯片量产经验。
2016年,16nm产品量产标志着嘉楠科技成为中国大陆地区先进制程首个阵营的公司。2018年至今,嘉楠科技相继实现全球首个基于自研的7nm芯片量产,以及量产基于RISC-V自研商用边缘智能计算芯片勘智K210。其中,作为AI神经网络加速器的KPU完全依托于自主研发。
目前,嘉楠科技已实现月均上千万颗芯片的量产,产品和服务遍布全球60多个国家和地区,在美国、加拿大、瑞典、冰岛、波黑、马来西亚、韩国、俄罗斯、亚美尼亚和香港等国家和地区均建立了良好的客户群基础。
未来,嘉楠科技将在芯片研发和高性能计算的基础上,协同业务伙伴推动AI在各领域的普惠化进程,通过AI让生活更美好。
面临的挑战
随着半导体制程工艺的逐步演进,现代芯片设计行业越来越依赖于各种各样的电子设计自动化(EDA, Electronic Design Automation)工具软件来辅助设计人员工作。但是在真实的生产实践中,嘉楠科技发现这些设计工具软件对于企业IT基础设施的要求近乎苛刻。如果投入大量人力物力自建数据中心尝试解决这些问题,往往会带来设计工作之外的额外负担。
首先,在芯片设计的不同阶段,设计人员需要用到不同的工具软件,但是不同的工具软件对于IT基础设施的特性要求不尽相同。比如某些软件强依赖于CPU的性能和稳定性;某些软件需要海量的内存;而另一些软件则需要高IOPS和吞吐量的文件系统存储来支持。芯片设计企业在规划本地数据中心时,很难在兼顾不同性能需求与合理的架构和成本规划之间达到平衡,此外种类繁多的设备实质上也增加了部署和运维的难度。
其次,作为高性能计算的细分应用场景之一,现代芯片设计软件对于IT基础设施的性能需求十分严苛。单一计算任务调度成百上千个核心的CPU,占用TB级别内存资源且需要连续运行数日已经是司空见惯,同时还会有千万级别数量的小文件和单体文件(约数十TB)的场景并存。对于芯片设计企业而言,设计运维一个如此规模的高性能计算集群环境并保持其稳定运行是非常困难的。看似微小的报错和故障都可能引起计算任务失败、数据丢失和工期延误等重大风险。
最后,由于整个半导体产业链的特性,芯片设计企业的工作负载通常具有较强的周期性。不论是项目进行中设计人员集中操作的短周期高峰,还是整体项目排期所导致的长周期高峰,最终的结果都是即使花费重金购置大量高配置设备来满足峰值资源需求,也难以避免年化使用率不足10%的巨额闲置浪费。除了以上技术难点, 很多项目管理上的痛点一直以来也困扰着嘉楠科技, 例如:
受限于本地数据中心的规模,当有多个项目或多个团队并行工作时,需要解决IT基础资源使用经常面临“串行排队”的尴尬,导致项目任务编排困难且进度难以预期;
不同项目不同团队共用同一套IT基础设施时,其资源利用率、成本分摊等效益考核难以统计;
项目高峰来临时突发设备采购对于财务规划的冲击,以及漫长不可控的采购部署周期带来的项目延期风险;
如果在不同地域的分支办公室分别建设IT基础设施,则难以进行统一管理且增大了安全隐患。如果都连接到同一个自建数据中心则会对网络基础设施性能、稳定性以及配置的灵活性带来诸多挑战。
因此,在经历了多年自建数据中心的实践后,嘉楠科技将目光转向了云计算,希望能够借助云计算的诸多新特性来解决自己遇到的问题。在问到为什么选择AWS来实践自己的创新时,嘉楠科技技术副总裁吴敬杰先生说到:“因为创新本身的不确定性,我们希望自己的探索能够基于更加稳妥的平台来进行。AWS在全球云计算市场上的口碑和地位是毋庸置疑的。同时AWS对于安全的重视、完善的安全架构和工具、对于高性能计算和半导体行业需求的深刻理解,以及众多的同业成功案例坚定了我们选择AWS的信心。”
嘉楠科技在AWS上的实践
安全,一定是嘉楠科技作为一家芯片设计企业尤为关注且优先解决的问题。通过选择不同的AWS服务,嘉楠科技构建了涵盖数据安全、网络安全、操作安全及审计审查的全方位安全体系。
使用AWS Direct Connect服务, 嘉楠科技建立了自建数据中心与AWS多个区域之间的专线连接,不仅获得了更好的网络连接性能,而且通过通信加密的方式保障了数据传输的安全;
针对不同的项目及团队,通过创建多个Amazon Virtual Private Cloud (Amazon VPC)来构建逻辑隔离的云上基础网络环境,形成多集群的安全边界,以私有子网实现关键资源的外网隔离,并通过安全组来控制内部流量访问许可;
通过调用AWS Identity and Access Management (IAM) API的方式, 与本地目录管理系统和身份验证系统进行集成,完成了相关人员的云上资源调用授权及鉴权操作;
针对敏感数据信息,均使用AWS Key Management Service (KMS)对所使用的存储服务Amazon Elastic File System (Amazon EFS), Amazon FSx for Lustre, Amazon Elastic Block Store (Amazon EBS)进行加密保护;
建立各分支办公室到AWS的加密VPN连接,并通过AWS CloudTrail和Amazon CloudWatch服务进行资源以及操作日志收集, 以备日后审计;
使用加密后的Amazon Simple Storage Service (Amazon S3)进行云上集中存储和远程归档备份。
在完成基础网络和身份验证系统部署后,嘉楠科技使用AWS ParallelCluster在 AWS云中部署和管理基于SGE的高性能计算(HPC)集群。通过编制不同的AWS CloudFormation 模板以分钟级的速度快速构建不同设计阶段所需的不同基础设施环境。针对计算密集型的任务选择内核频率高达4.0GHz的Amazon Elastic Compute Cloud (Amazon EC2) Z1d 实例或计算优化型C5系列实例;针对内存密集型任务选择最高可达3.9TB内存的X1e实例或者内存优化型R5系列实例。
为了应对不同阶段计算任务对于文件存储高IOPS和高吞吐量的需求,嘉楠科技选择了使用Amazon FSx for Luster这一完全托管的高性能文件系统非常便捷地获得高达数百GB的吞吐量和百万级IOPS读写,而且能够兼顾数据高可用性的要求。在尚未提供Amazon FSx for Luster服务的区域, 采用I3实例部署GlusterFS集群的方式来构建软件运行需求的高性能共享文件系统。此外,在要求实例间网络带宽的场景下,选择Placement Group的方式来获得低网络延迟和高网络吞吐量。
在成本控制方面,嘉楠科技通过不同计算任务的基准测试来选择最具性价比的服务和实例类型来进行部署。及时审查资源空闲状态来触发释放操作以减少浪费。同时,在一段时间的使用之后,对于长期稳定负载和短期可预期突发负载,分别采用预留实例RI和Spot实例来获得高性价比的折扣优惠。
图1是嘉楠科技的系统架构示意图,采用的AWS服务包括:Amazon EC2、Amazon S3、Amazon FSx for Lustre、Amazon VPC、AWS Direct Connect、AWS KMS、IAM、AWS CloudTrail、Amazon CloudWatch、AWS ParallelCluster等。
图1:嘉楠科技基于AWS的系统架构示意图
获得的收益
通过将芯片设计负载迁移至AWS,嘉楠科技可以在分钟级的时间内获得了近乎“无限”的基础设施扩展能力,单一计算任务不必再担心特定资源短缺的问题,而且可以更灵活地在时间成本和费用成本之间做选择。同时,多团队、多项目可以通过多集群的方式工作,很大程度上节省“排队”时间,从而提升整体的芯片研发速度。在计算任务结束后,闲置云上资源可以及时释放节省成本,真正做到“只为有效使用而买单”。
“通过使用AWS的服务,更客观地提升了我们整体的安全管控水平。而且AWS的基础设施运维管理水平是远在我们之上的,事实也证明了AWS的服务运行要比我们自建数据中心更加稳定。我们一直坚持让专业的人做专业的事。既然半导体行业已经能够接受使用IP厂商的授权,通过代工厂来做生产,那么接受云计算服务来提升自身的IT支撑能力也不是那么遥不可及的事情。”嘉楠科技技术副总裁吴敬杰先生总结道。
最新活动更多
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024先进激光技术博览展
-
精彩回顾立即查看>> 全数会2024中国深圳智能制造与机器人展览会
-
精彩回顾立即查看>> 2024(第五届)全球数字经济产业大会暨展览会
-
精彩回顾立即查看>> 维科杯·OFweek2024中国工业自动化及数字化行业年度评选
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论