1. AI 硬件需要10X/year 的性能提升。这个只有靠scaling 实现(multi-core; multi-chip; multi-cluster, etc.)。靠制程缩小(比如5nm) 和 构架创新(architecture innovation)是达不到的。
2. 在DATA CENTER (TRAINING)领域,NVIDIA 一人独大。没有人能够挑战。INTEL 可能挑战。但是目前还不行。
3. 目前所有的初创公司,都是在EDGE领域做 INFERENCING。而不是在DATA CENTER (TRAINING)领域。原因:挑战NVIDIA,机会太渺茫。
4. 各大公司都在发展自己的SOC 构架协议: memory interconnect protocol; memory protocol; network fabric. 比如:INTEL, NVIDIA。小一些的联合起来做:
Rivals AMD, Arm, IBM, and Xilinx ganged together around CCIX and GenZ, a cache-coherent interconnect for accelerators and a link for memory, respectively. Recently, Intel countered with a more open processor interconnect for accelerators and memory called CXL, but so far, it lacks the third-party support of CCIX and GenZ.
6. 各大公司研发自己的accelerator (谷歌,百度,亚马逊,阿里巴巴,脸书)。同时,减小精度(4位,2位,甚至1位的数据宽度。浮点变定点),减少存储。
7. 性能评判标准很不成熟。还在发展中。 MLPerf 由谷歌起草;百度也有一个。
8. 深度学习这个领域还处在早期阶段,所以,保持硬件的灵活性很重要。研发者应该在可编程(programmability) 和性能(performance) 之间找到平衡。