-
智能处理器IP
-
MLU智能芯片
-
软件开发环境
-
Cambricon-1A
高性能硬件架构及软件支持
兼容Caffe、Tensorflow、MXnet等主流AI开发平台,已多次成功流片国际上首个成功商用的深度学习处理器IP产品,可广泛应用于计算机视觉、语音识别、自然语言处理等智能处理关键领域。
-
Cambricon-1H8
低功耗版
面向视觉应用针对视觉领域设计的深度学习处理器IP产品。与寒武纪1A相比,在同样的处理能力下具有更低的功耗和面积,可广泛应用于安防监控、智能驾驶、无人机等领域。
Cambricon-1H16
更高性能版
完备的通用性
1A的升级版本,能效比得到数倍提升,拥有更广泛的通用性,可广泛应用于计算机视觉、语音识别、自然语言处理等智能处理关键领域。
-
智能处理器IP
-
MLU智能芯片
-
软件开发环境
Cambricon NeuWare SDK ▼
支持主流编程框架 ▼
- TensorFlow Caffe MXNet
- 难点:
-
作者:祖亚洲
链接:https://www.zhihu.com/question/41469046/answer/124179575这个工作继续下去有潜力把一整套系统做出来, chip tape-out, compiler/language support, multi-chip interconnect, 等等,但是继续下去有很多 design consideration 需要讨论:
1. Accelerator 和 CPU 的通信怎么做,像 nvidia 对他的GPU有一整套通信机制,只是没有开源。这些CPU和accelerator的通信模型是很烦的,需要的支持团队也不小。他怎么从 CPU instruct accelerator 去load数据,怎么保持数据一致性,这些design很费脑子,退一步说,这一整套 API 的实现可不简单。
2. 这个编译器,还有programming model怎么做,是准备在C/C++里面加特定的pragma/library,还是让python自动compile某一部分代码到这个ISA,然后下面的runtime自己manage CPU-accelerator 通信。
3. 现在工业界搞的NN都巨大无比,你单个加速器就算是power8那么大的,全是SIMD lanes也不够。这个加速器怎么支持distributed计算,怎么和tensorflow/CNTK的framework融合。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:寒武纪芯片——有自己的SDK,支持tf、caffe、MXNet - Python技术站