高算力芯片的发展

最近参与了2024年北京AI芯片峰会，虽然是讲AI芯片，但因为目前算力主要讲的是智能算力，所以，针对高算力芯片的发展趋势有重点的讲解。之前没有很系统关注这块，这次算是做了全面了解。下面，借用峰会的一些内容，整理一下，试着解释一下算力方面的技术发展现状和趋势。

算力为什么突然被这么强调，主要是因为人工智能，人工智能实际上已经发展了很多年，为什么这两年突然会发现算力严重不足。那就要归功于 AI 大模型的兴起了。

下方部分课件引自 2024北京AI芯片峰会 清华大学集成电路学院尹首一《高算力芯片发展路径探讨：从计算架构到集成架构》

看上面这张片子，表达了AI大模型的出现，大大提升了人工智能的泛化能力（之前的AI如：CNN，只能做很固定的小任务，这样做起来太累了，无法大规模推广），泛化意味着可以有迁移学习的能力，能同时具备多任务的处理能力（就好比教一项技能，被教的人可以举一反三）。这使得大规模的将AI应用到各行各业成为可能。于是，开始了资本的狂潮，全世界都开始卷大模型。

但是，大模型原理就是Scale Mode，它的有效是基于更大的参数模型，基于更多数据的训练。因此，智能算力成为发展AI的瓶颈。这里参数的规模和数据规模的提升是成千上万倍的。原有算力已经不能满足。

大模型带来的算力需求，现状是：已经无法满足。

近几年，英伟达的算力卡的能力成指数值增长（差不增长了1000倍，而且还提供了集群算力），但仍然已经跟不上AI大模型的需求。

好的，说到算力，那就到了我们今天要讲的第一个点：芯片的算力到底需要怎样才能提升？

1：芯片算力提升的思考

说到芯片能力，大多数人知道的就是摩尔定律了。摩尔定律主要讲的是18个月算力提升一倍。那算力是靠什么来提升的呢？从原理上讲，一般有三个因素：

1.1：算力/晶体管

首先是计算的方法，就好比一个数学好的学生算题比数学差的算得快，，那是因为他有好的方法。我们称之为计算架构。而计算架构，很多人基本是不管的，但实际上它一直在发展。

说到算力的计算架构，我们先从芯片的维度来看看，有哪些架构？

1.1.1：常见的芯片架构

* CPU的冯·诺依曼架构

这是大熟知的架构，一般说到计算机运算，普遍指的就是CPU的架构，而之前大多数程序员编程/写代码也一般是针对CPU（现在不同了，很多已经在基于GPU或其它芯片编码了）。它的特点主要是：中央处理器是控制单元/运算单元/寄存储，寄存器可以理解为最快速的存储单元，主要用来存指令操作的数据，地址，状态。依赖存储器（内存），存储器与处理器通过总线连接，实际的运算是按顺序执行。

代表产品：Intel 和 amd 的x86 CPU（用于电脑），高通，三星，苹果，华为，联发科等的 arm核 CPU（用于移动设备），（这里注意了，ARM公司独家提供arm核的授权和技术支持，并不直接生成CPU。ARM架构是基于RISC指令集，但和开源的RISC-V是不同的，会更复杂）

它的弱点：内存的总线的速度，并行能力差（也有多核，但并行度远小于其它运算芯片），因为复杂运算一定会用到内存（缓冲），处理器和内存之间的不断互访，一定会有很大的损耗。

说到并行能力，可以拿它和GPU做比较。我们基于CPU编程，一般是不会有太多并行的，你还真不能说是CPU的问题，早期的问题还基于都是串行的。只是AI发展，大家发现简单矩阵运算可以完整神奇的效果，才发现原来并行也可以解决问题。

：GPU的图形处理并行架构

最开始是用于图形运算，然后输出到显示器的，慢慢用在了深度学习，AI训练，HPC（高性能运算）。它的特点是并行运算（想想显示器图行的渲染，那确实是可以并行的），适合于距阵运算，图像处理，视频解码等高吞吐量的任务。它的并行能力得益于它有上千个小型内核。

代表产品：英伟达的GPU，AMD 和 Intel 也有GPU产品，但占比越来越小。

：FPGA的现场可编程架构

可编程芯片，最早是用于ASIC芯片验证使用。它的特点是芯片结构是固定的（LUTS和FF，加Switch），但可以通过编程来达成不同的硬件级别的数字逻辑功能。它的特点是任意并行，且可编程/定制（定制出来的运行是硬件级别的）。

代表产品：Xilinx（目前属于AMD），Altera (目前属于Intel）国内的有同创，安路，复旦微……

：TPU的张量计算架构

基于脉动阵列架构，是Google专门用来为深度学习任务定制的芯片，特别适合用于张量运算（Tensor Operation），这对神经网络的训练和推理非常重要。相比于CPU和GPU，它在处理深度学习的任务时更有效率。（实际上它内部还有数据驱动的原理，节省内存与处理器之间的访问）

代表产品：Google生产，国内也有类似的产品（大会上就有）

：ASIC专用的集成电路架构

按需求，直接使用专用的硬件电路来达成运算，具有极高的性能和能效比。你可以理解，编好程序然后固化成固定的硬件数字逻辑电路。

优缺点明显，一旦设计完成，功能基本不可变动。

代表产品：挖矿机，网络加速器，视频编解码，AI推理。

：NPU的神经处理单元架构

NPU实际上与TPU是类似的，都是专门为神经网络运算设计的，主要用于训练和推理。一般会把产品分为训练型和推理型产品（对于训练，可能还会有集群多卡运算的需求）。

比如：华为的Ascend系统，930训练的，310是推理的。

：DPU的数据单元处理架构

主要关注数据中心的数据处理和网络处理，用于加速数据中心的网络，存储任务。适合于大规模数据中心中的分布式系统和虚拟化环境。这里DPU容易混淆，有命名 DeepLearning PU的（那我理解就是NPU了），但我们大多数情况下认为是Data Proccess Unit。

代表产品：NVIDA，Marvell。

：RISC-V 精简指令集处理架构

开源的指令集，指令集非常精简，核心指令集非常小巧，开发者可扩展。但社区成熟度，商业化程度不高。

上面的分类，是我们对于有算力芯片的常见分类，实际上，我们并不能很清楚看到各种架构的算力情况。下面，我们从运算的原理层面上，看看还有什么样的计算方式？计算架构？

1.1.2：数据流架构

既然不断读取数据有损耗，那可不可以不要不停的访问？

其实有这种思路很正常，就像早期处理大数据的加工任务时，发明的移动计算不移动数据的方案类似。因为数据移动的代价太高了。这里只不过是将运算固化在流程里，这样就做到不用移动数据，而是当数据流动时，自动完成运算。不需要去配合控制中心的指令造成必须的数据搬移。（我们这里不讲解在硬件层面，如何才能做到，有空可以单独说）

对于谷歌的TPU，它在实现张量运算时，实际上就是一个数据流动的运算架构。当然，这种架构只能满足指定的运算。所以，谷歌TPU能够高效运算的底层原理，就是利用了数据流动计算的新架构。

1.1.3：存算一体架构

如何能够做到计算时不搬运数据，是否可以在存储器上直接完成运算？就是所谓的存算一体。

实际上，真是可以做到的。而且有模拟和数字的两种方式。

模拟CIM 通过电流、电容等模拟信号执行加法、乘法等运算，具备高能效，但存在精度限制，适合应用在能效要求高但精度要求不高的场景。

数字CIM 依赖数字逻辑电路进行计算，精度高且与现有工艺兼容，适用于需要高精度和大规模集成的应用场景。

这两种技术各有优势，模拟CIM主要突出在能效方面，而数字CIM则在精度和可扩展性上表现更优。

三星的存储具有高带宽（HBM），同时支持在存储中运算/处理（PIM）

1.1.4：运算可重构架构

我们有没有可能根据实际的运算情况，在硬件层面定制最优的运算方法？有点象FPGA能做到事情。

比如：我们要做神经网络的运算时，我们可以：

通过稀疏化的作用，减少不必要的连接和计算来提升计算效率，特别是在大规模神经网络和矩阵运算中，显著降低计算复杂度和功耗。方法：权重剪枝，矩阵乘中减少非0元素。见下图。

稀疏化的实现主要依赖于剪枝和稀疏矩阵运算，同时结合可重构芯片的动态架构调整，使得计算资源根据需要进行优化配置，从而实现高效、低能耗的计算。

好了，上面实际上给了三个方法：

1：数据流架构。数据驱动运算

2：存算一体架构。在存储器就地完成运算。

3：运算可重构。根据运算的特点，通过可配置硬件调整运算方法/优化，提升运算能力。

1.2 晶体管密度

说到晶体管密度，就是单位面积存在的晶体管数量越多，算力自然越高，所以，将晶体管变小，是提升密度的方法，也就是工艺水准的提升。这是之前摩尔定律主要的提升点。
如果从工艺上看，摩尔定律时代的制程已经到极限，目前什么3nm已经有浮夸层面（各片不同的计算规则），而1nm基本上是制程上的极限了。

我们是不是可以通过集群来打破算力的瓶颈呢？部分上可以，但是：

集群扩大，导致更大网络带宽，这也是有瓶颈的。这种Scale很容易就到网络瓶颈，这当然也是扩大算力的方法之一。只是今天不单独讲了。

除了网络互联的问题，大规模集群会导致单位密度变大，导致功耗/散热的问题：

于是，换个方向，我们在固定空间上下功夫，有了先进的集成创新。

1.2.1：三维集成芯片

注意，这里实际上有两种技术：
一种是 2.5D 集成：

2.5D：将多个晶片放在一个硅中介层，实现互联。仍然受限于面积。（相比于用PCB板来完成不同芯片的互联，密度更高。所以，密度提升是指的多个芯片集成的情况下，密度会更高。

一种是3维集成：

按垂直堆叠的3维集成方案。

1.3：芯片面积

芯片晶体管密度相同的情况下，芯片越大，是不是越能算。那是自然，但是，芯片面积是受限的。

芯片是由晶圆加工的，晶圆的面积是有限的，因为有良率和散热的问题。受限于光刻机的爆光面积，单颗芯片的面积也是受限的。

但是，我们确实可以通过处理，扩大芯片的面积。也就是将整个晶圆变成一颗芯片。

1.3.1：晶圆级芯片

1：制造工艺上，需要对可能良率未达到的区域进行容错。容错的架构

2：需要解决大芯片的热量问题。

3：需要设计一个分布式网络NoC，保证区域间的快速通迅。

4：功耗，供电问题，

5：封装技术

1.4：总结

可以看上图，几种方案，可以提升算力所解决的挑战。算是一个总结。（应该还需要加上芯片的算力集群）

2：存算一体的思考

抛开前些年更火的芯片制程提升，存算一体是提升算力非常重要的一条赛道，也就是我们说的存内计算。而存内计算的重点是存储介质，那不同存储实现存内计算的优，劣势和发展如何？实际市场上的应用如何？在这节里仔细说说。

2.1：历史上的存算分离与近存计算

大家都知道传统的计算架构是CPU的冯式架构，它由 CPU（逻辑运算），存储器（内存，NAND）组成，两者是分离的。我们称之为存算分离。

这种架构的主要问题包括：（好处是分离符合人的思维方式，可以将问题简化）

带宽瓶颈：计算资源（CPU）与存储资源之间的带宽限制，特别是随着计算核心数增加，内存带宽增长的速度跟不上。
功耗瓶颈：由于大量的数据在存储器和CPU之间传输，导致数据传输过程中的功耗增加。
时延问题：存储器和处理器之间的通信需要时间，这会造成额外的延迟，影响系统性能。

引入技术如CXL（Compute Express Link）可以灵活地分配存储和计算资源，但这种方式并不能完全解决存算分离带来的根本问题。Scale out和采购管理虽然可以扩展存储和计算资源，但并不能提高单核计算的带宽利用率。

新的连接技术（如PCIe 4.0/5.0/6.0、光通信）和内存技术（如DDR4/5/6），这些技术能够提升带宽，但依然无法完全解决带宽和功耗瓶颈的问题。

因此，出现了近存计算：

近存计算是一种新的模型，将存储和计算紧密结合，减少数据在存储器和CPU之间的传输，极大地降低带宽和功耗瓶颈。同时，通过将计算资源直接整合到存储器中，可以提高性能并减少时延（也是一种近存，将计算与存储靠得更近了）

在说近存这之前，要说一下HBM：（High Bandwidth Memory)，为了解决DRAM的带宽问题，将内存堆叠在一起，并使用宽总线接口直接与处理器连接，达成高带宽内存的技术。最新的HBM3可以达到819GB/S。工艺上有两种方式，一种是TSV（硅通孔）3D堆叠方案，另一种是2.5D封装技术，采用硅中介层来完成与芯片通信。

这又更近了一步，我们理解是近存，那能否更进一步呢？那就是存内计算了

最理想的存算一体：（人的大脑）

人的大脑既是存储又是运算，并没有将存储与运算分离，但具体的实现原理，现在人类还没有明白。

2.2：存内计算的原理

通过内存来实现存内运算，有两种方式。一种是模拟，一种是数字，

考虑模拟实现的算法有限，不能用于AI训练（不满足各种算子要求），所以，我们今天重点要讨论的数字的实现。

数字实现，可以理解在内存中添加了运算单元，以及在内存控制器中添加了运算调度。

2.3：不同存储实现PIM 的优劣

针对不同存储器对于存内计算的特点，下面罗列一下：（可能没有硬件知识的人会看不明白，可跳过）

下面的课件引自 2024北京AI峰会北京超弦存储器研究院戴瑾教授的《对内存计算的思考》

2.3.1：SRAM PIM

SRAM PIM（Processing-In-Memory，内存处理技术）是一种通过在静态随机存取存储器（SRAM）中集成计算能力，从而加速数据处理的技术。这种技术打破了传统计算系统中处理器和内存之间的分离结构，将部分计算任务直接在内存内部完成，减少数据在处理器和内存之间传输的瓶颈，特别适合于数据密集型应用。

2.3.2：NOR Flash PIM

NOR Flash PIM（Processing-In-Memory，内存处理技术）是将计算能力集成到 NOR Flash 存储器中的一种新兴技术。NOR Flash 是一种非易失性存储器，广泛应用于嵌入式系统、固态驱动器（SSD）以及代码存储设备中。NOR Flash PIM 技术通过在存储单元内部增加处理能力，使得部分计算可以在存储器内部完成，从而减少数据在处理器和存储器之间的传输，提升数据密集型应用的效率。

2.3.3：DRAM PIM

DRAM PIM（Processing-In-Memory，内存处理技术）是指在动态随机存取存储器（DRAM）中集成计算能力，从而加速数据处理的一种技术。传统计算架构中的“冯·诺依曼瓶颈”——即数据在处理器和内存之间传输造成的延迟和带宽限制——是制约现代计算系统效率的主要问题之一。DRAM PIM 技术通过将一部分计算任务移到内存中执行，减少了数据移动和处理时间，提升了数据密集型任务的性能和效率。

2.3.4：NAND Flash PIM

NRAD Flash PIM（Non-Volatile Resistive RAM Access Device Flash Processing-In-Memory，非易失性电阻存取设备闪存内存处理技术）是一种结合了非易失性存储器技术和内存处理能力的新兴技术。NRAD Flash 是一种基于电阻存储器（Resistive RAM，RRAM）的新型存储器，具有非易失性、高密度、低功耗的特性，而 PIM 技术通过在存储器中直接集成计算能力，能够有效解决“冯·诺依曼瓶颈”，从而提升数据处理的效率。

2.3.5：MRAM 与 PIM

MRAM：（Magnetoresistive Random Access Memory，磁阻随机存取存储器）是一种基于磁性材料的非易失性存储器技术，它通过磁性材料的不同状态来存储数据。MRAM 被视为有潜力替代 DRAM、SRAM 以及 NAND Flash 的下一代存储器技术之一，具有非易失性、快速读写、高密度和高耐久性的特点。

2.3.6：RRAM与PIM

RRAM:（Resistive Random Access Memory，电阻式随机存取存储器），也称为 ReRAM，是一种非易失性存储器，通过材料的电阻变化来存储数据。RRAM 作为下一代存储器技术之一，具有高存储密度、低功耗和高速存取的特点，被视为有潜力替代现有的 NAND Flash 和 DRAM 的新型存储技术之一。

2.3.7：PCRAM与PIM

PCRAM：（Phase Change Random Access Memory，相变随机存取存储器）是一种新型的非易失性存储器，利用材料的相变特性来存储数据。与传统的 DRAM 和 NAND Flash 不同，PCRAM 通过材料在晶态和非晶态之间的可逆相变来表示二进制信息。其工作原理基于材料在不同物理状态下具有不同的电阻特性，这些状态可用来区分数据的“0”和“1”。

2.3.8 : 新兴的FeRAM

FeRAM（Ferroelectric Random Access Memory，铁电随机存取存储器）是一种基于铁电材料特性的非易失性存储器。FeRAM 通过铁电材料的极化状态来存储数据，既结合了 DRAM 的高速存取，又具备与 NAND Flash 类似的非易失性。它在功耗、速度和耐久性等方面表现优异，适用于多种低功耗和高可靠性场景。

2.3.9：2TOC DRAM

其中，SRAM结合HBM的方案，已经广泛用于许多高性能平台中。

2.4：存算一体的应用

从下图可以看到存算一体的整体架构：

3：Chiplet 迈向大芯片的思考

3.1：Chiplet 定义

我们看看近期最火的NVIDA芯片的发展：

NVIDIA在不断优化其GPU架构，通过提高晶体管密度、增大内存带宽、改进NVLink通信速度和提升计算性能，推动数据中心和服务器的计算能力飞速增长。

在第一节里讲过芯片面积的扩大，可以使用晶圆级芯片，或者通过集成技术（3D和2.5D尽量提升密度），实际上集成技术就是把不同种类的小芯片集成到一起，也就是我们现在要讲的Chiplet技术：

目前成熟的chiplet封装是2D/2.5D小规模封装，但是3D集成是趋势，会有更高的密度和性能。

也存在将处理器与存储通过3D集成在一起的方式（减少传输距离）（上面HBM就是一种应用），不仅仅是处理器小芯片放到一起。

3.2：标准服务器形态的Chiplet

对于标准服务器，Chiplet可以提升良率，因为单一芯片的面积变小（良率高）

可通过封装技术实现多个芯片高效互联，需要选择合理的封装与互联技术：

3.3：非标准服务下的Chiplet设计

从标准服务器，也可以做定制服务器，通过Chiplet来定制芯片突破传统。

3.4：Chiplet的应用

通过Chiplet异构集成技术，包括存内计算、近存计算、以及3DIC Chiplet与HBM集成的应用，能够突破传统架构的瓶颈，实现计算能效的显著提升。这些技术结合有望推动未来高性能计算、AI推理和大规模数据处理的进一步发展。

AI计算芯片的多样性和技术进步，尤其是通过Chiplet技术的应用，各厂商在制程工艺、集成度、内存带宽和计算性能方面的不同设计选择。Chiplet技术使这些高性能芯片能够更灵活、更高效地满足不同AI计算任务的需求，包括推理、训练和高性能计算等应用场景。

CPO架构与Chiplet架构的配合，将光传输模块与XPU封装在一个芯片内。

Chiplet集成技术在大算力终端中的广泛应用，从数据中心到消费电子，Chiplet技术通过模块化和灵活的设计，满足了不同场景对算力、能效、功耗和带宽的多样化需求。在未来的AI加速器、自动驾驶汽车和AI终端设备中，Chiplet技术将继续发挥重要作用，推动高效算力系统的发展。

3.5：EDA如何使能Chiplet集成

Chiplet架构虽然带来了性能的提升，但也增加了设计的复杂性。为了解决这些难题，需要新的设计分析平台，通过架构探索、布局布线和多场仿真验证来优化设计流程，提升设计的迭代效率，确保系统能够在电源、热管理、时序等方面满足要求。

Chiplet架构设计过程中的复杂性，并强调了跨团队协作的重要性。通过系统工程师、SoC工程师、封装工程师、DFT工程师等多个团队的协作，结合架构探索、物理实现、协同分析和验证签核四个主要模块，确保整个Chiplet系统设计能够满足高效能、可制造性和电气完整性的要求

EDA工具在现代Chiplet架构设计中的关键作用，通过自动化设计、高精度仿真和大规模仿真能力，帮助设计师应对复杂的系统设计挑战，特别是在信号完整性、热管理、封装设计等方面。EDA的自动化和高效解决方案不仅提高了设计的精度，还缩短了设计周期

3.6：Chiplet的封装挑战

封装一样会有很多问题：

3.7：UCIe——Chiplet的高速互联

更好的互联技术，可以提升chiplet的效果，于是，产生了UCIe互联技术

4：国内算力需求分析

国内的智算与国外是有差别的，因为国内主要专注应用。目前阶段，应用没有起来，用量并不大。国外以工具为主，更容易销售，有更多人使用。

4.1：智算中心现状

近三年，国同大约有 50+智算中心建成。还有 60+在规划和建设中，目前建成的主要是一，二线城市，在建的多数是在三线城市。

地方建立智算中心的意图：

1：AI产业链的拉动。这应该是最主要的目的。

2：算力是国家战略，是国之重器。

3：科技孵化引导地方未来产业布局。

很多项目都是和华为研究所合作的（因为只有华为有自研的高端算力卡）

4.2：算力成本核算

综上所述，4090的投入目前是最划算的。

4.3：智算中心 AIDC 发展的趋势

在AI和大规模计算领域中的技术创新方向，挑战主要来自于绿色化目标、NVIDIA的统治地位以及如何优化资源利用率来获得更高的投资回报。

国外主要靠工具，国内希望从生产应用突破。

上面说过了，国内专注应用，所以，市场需要单独推理加速产品，这更加重要。推理阶段需要低延迟，实时，处理大量数据。由于国内市场的多样性和复杂的应用需求，针对不同场景的专用推理加速产品需求增长显著。

训练会推动EFPGA（嵌入式FPGA）和工具链发展，EFPGA在设计中被嵌入到固定的硬件架构中，允许芯片在生产后仍然能够通过软件编程进行功能更新和优化。这种灵活性使其成为AI和数据处理任务中的关键部分，尤其在处理动态变化的工作负载时具有优势。

高速大容量内存以及高带宽互联技术是未来芯片与AI结合的关键。

这种需求为未来AI硬件的发展指明了方向，尤其是通过Chiplet技术结合高效内存和互联方案，可以满足大规模AI计算的要求。

国内NVL36/72系列系统在高密度架构中的计算能力，通过NVLink和高性能计算节点的结合，实现大规模计算集群的高效运行

华为可能赶上训练算力的红利，但目前开发工具链的生态较差（CANN对标CUDA），会影响它的应用，目前也只有少量大厂，华为可以为其定制开发，普通用户一是拿不到卡，确实也会碰到有问题没处找人的情况，大家不太敢用。

国内可能会兴起一些异构芯片企业。可以理解为CPU+GPU+FPGA+ASIC这种混合运算架构的芯片。多模态异格的运算是提升运算能力的一大利器。

5：国内算力厂商情况

我们来简单罗列一下国内各条产业链上的AI芯片厂商（并没有列全，我有时间会补充和修改）。

5.1：算力解决方案

浪潮元脑

浪潮公司——原来是做服务器和ERP软件。

提供全面的AI服务，硬件（人工智能卡），AI Paas服务平台，AutoML Suite开发套件。

为智能时代而生。提供智算产品。整合一体化交付服务，实际上提供全面的AI服务。它不仅涵盖了多种功能的人工智能加速卡，还通过与英特尔的合作进一步提升了其在AI服务器市场的竞争力。

联想凌拓

联想和NetApp合资企业——NetApp有极强的存储技术，联想主要做电脑。

从云端到私有部署，数据管理凌拓，关注数据资产。数据资源化，数据资产化。

ONTAP系统，Data Fabric，获取整体资源管理能力。还有存储管理平台，容器化管理。

围绕数据管理，以中国客户需求为导向，提供一系列先进的数据管理技术和解决方案

惠普Z系列工作站

协助AI开发，虽是国外HP，但需要关注的是，它有国内的AI算法合作厂商：极视角科技

该公司有大量的AI业务，有成熟的AI开发社区。

有Z420，Z820，Z620等工作站满足多种场景，

极视角科技

深圳公司，AI和机器视觉算法提供商。C轮融资过亿。

提供算法商城，开发者生态社区。

和HP打造算力边缘盒子/管理平台，算力工作站。

安谋科技

Arm中国子公司，一家独立运营，中资控股的合资公司，是中国最大的芯片IP设计与服务供应商。

IP设计，Arm技术相关。聚焦AI，CPU，SPU,VPU，开发流程体系，智能计算底座。为国内移动终端，智能汽车，物联网。总部在深圳（800人），为智能计算创造价值。

依托 Arm 世界领先的生态系统资源与技术优势，立足本土创新与中国合作伙伴共同成长，致力于成为中国集成电路核心知识产权开发与服务平台，支持并推动中国电子信息产业的高速发展。

另外，也有芯片产品：玲珑DPU（显示处理），玲珑VPU（视频处理）

清程极智

北京公司，新公司，数千万融资。

提供AI系统智能软件，有清华，智谱背景。主要是为大模型训练提供软件解决方案，提升训练效率。

芯合半导体

上海张江公司。

提供Chiplet的EDA支持解决方案，是国内唯一覆盖半导体全产业链的仿真EDA公司。

奇异摩尔

上海集成电路公司。

基于面向下一代计算体系架构，提供全球领先的2.5D及3DIC Chiplet异构集成通用产品和全链路服务，其中包含高性能通用底座Basedie、高速接口芯粒IODie、Chiplet软件设计平台等产品，涵盖高算力芯片客户所需的高速通信接口、分布式近存、高效电源网络等功能。

锋行致远科技

上海公司，提供边缘计算的加速模组（就是加速卡），2023年成立的新公司。

以自主研发的存算加速模组为基石，将存算一体化技术推进应用，把计算机架构中独立的计算能力和存储能力做了芯片级别的集成，通过让数据跑的距离更短、速度更快、能耗更低，提升了几十倍甚至几百倍的计算效率，迭代研发高功效存算一体化的芯片。我理解现在研发中，并没有出芯片。

芯瑞微科技

上海公司，专注仿真领域的EDA公司.

致力于打造数字时代的电子设计系统仿真EDA软件以及多物理仿真CAE软件，为国内外芯片及系统设计公司提供以多物理场仿真为核心的系统仿真验证软件平台。

乾瞻科技

上海公司，专注芯片互联IP公司。

提供互联UCIe/D2D Chiplet IP 方案。

商汤科技

香港公司，专注AI算法。估值 60亿美元的独角兽企业

现状并不好。只是当初赶上了风口。因为涉JUN，上市未果。

超聚变科技

超聚变数字技术有限公司是从华为剥离出服务器业务后独立运营的公司，是华为原服务器业务的继承者，致力于成为全球领先的算力基础设施与服务提供者。

中科曙光

天津上市企业，生产高端计算机，通用服务器制造。

5.2：GPU / CPU

壁仞科技

国内领先的GPU厂商。

海光信息

天津 CPU/GPU 厂商，独角兽企业

海光CPU兼容x86指令集，DCU以GPGPU架构为基础，兼容CUDA。

华为海思

提供重要的三个系列算力产品：麒麟手机（arm架构）芯片，鲲鹏服务器芯片，昇腾NPU芯片（分为训练和推理2款），

摩尔线程

GPU制造厂商。

天数智芯

打造GPU，致力AI计算和图形显示。

行云集成电路

GPU芯片研发商，北京

此芯科技

CPU研发。

5.3：AI 芯片

包括觉见的 NPU，TPU，ASIC芯片

珠海芯动力

珠海公司，提供集成电路芯片设计及服务。

现有自主研发产品可重构并行处理器（简称RPP），是以独特原创的芯片架构设计的异构芯片，具有良好的生态兼容和超高能效的并行计算能力，可以在日新月异的人工智能算法中快速的跟进，打破高性能芯片和通用芯片的鸿沟，可广泛应用在各个场景，为各行业在并行计算领域提供一体化的解决方案。

首款基于可重构架构的GPGPU芯片RPP - R8已经流片成功，实现小规模量产。未来可能采用Chiplet和I/O die连接的方式开发下一代产品。

RPP架构的芯片适合大模型训练，非常重要。

云天励飞

深圳上市企业，专注专用 AI芯片以及背后的算法，承接一些AI项目。

人工智能平台。AI+ 数字城市领域。AI算法开放平台。智能公交，人居生活（购物中心），智能园区，机器人调度平台，无人化管理。

这家公司我司有过直接接触，可以提供硬核 IP 的集成服务。早期，瑞芯微的NPU核是采用的他们的方案（近期才更换其它供应商）

后摩智能

国内公司，提供存算一体AI芯片，提供多层次开发库，保证兼容。

GA102 300T算力。光栅化？存算一体的AI芯片——先乘再加的运算非常的多，矩阵运算。80%，90%计算量，为了加速，专门设计了乘加运算。冯式运算依赖存储器，存储容量需求大，容易拥堵。提供多级存储。

缓存（SRAM），外部存储（DDR）的做法。存算一体：仓库和厨房。HBM内存：SRAM,DRAM，RRAM，Flash。SRAM是最常用，可达200TOPS。

苹芯科技

国内公司，提供存算一体AI芯片。

苹芯芯片点亮智能生活，海量数据，计算效率。将存储和计算合二为一。PIM加速单元。语音，视觉应用，多模态芯片。

北极雄芯

国产AI芯片，存算一体，Chiplet大芯片

凌川科技

大算力推理芯片智能视频处理芯片/AIGC推理芯片

爱芯元智

端侧/边缘侧 AI芯片（NPU AI处理器，ISP）智慧城市，智能驾驶领域

中昊芯英

高性能TPU芯片，提供多卡互联

亿铸科技

存算一体的AI芯片

聆思科技

算法算力一体芯片

视海芯图

机器视觉芯片

上海富瀚微

边缘视觉AI芯片

奕行智能

广州智驾AI芯片研发

原粒半导体

北京原粒半导体致力于多模态AI处理器设计技术和Chiplet算力融合技术的研发

知合计算

深圳公司，基于RISC-V架构研发针对人工智能智算场景的高性能、可扩展计算芯片

其它

赛武纪，比特大陆，地平线，燧原科技，中科驭数，深鉴科技，百度昆伦，新华三，地芯科技，芯华章，灵动微电子，瑞芯微，兆易创新，华润微电子，联发科，

5.4：类脑芯片

时识科技

类脑智能芯片

智芯科

具身智能的大脑芯片

5.5：光子芯片

光本位科技

苏州园区的光芯片研究企业。