SPS5710 大模型时代，国产GPU面临哪些挑战

在大模型训练上存在差距

大语言模型是基于深度学习的技术。这些模型通过在海量文本数据上的训练，学习语言的语法、语境和语义等多层次的信息，用于理解和生成自然语言文本。大语言模型是自然语言处理（NLP）领域中的一个重要分支，应用于文本生成、分类、情感分析等多种任务。

深度学习是现代机器学习领域的一种强大的算法，它可以在图像识别、语音识别、自然语言处理、游戏AI等各种应用领域取得惊人的成果。然而，深度学习对计算几硬件的要求非常高，通常需要使用GPU进行大规模训练。在使用GPU进行深度学习时，一个常见的问题就是选择单精度还是双精度。

浮点数是一种用于表示实数的数值格式，它包括符号位、指数位和尾数位三部分。通过这三部分，浮点数可以表示非常大或非常小的数，同时保持一定的精度。

单精度和双精度是指浮点数在计算机中的存储方式和精度。单精度通常使用32位（4字节）来存储一个浮点数，而双精度则使用64位（8字节）来存储。由于双精度使用了更多的位数，因此它可以表示更大范围的数值，并具有更高的精度。

大模型训练需要处理高颗粒度的信息，因此对于用于大模型训练的GPU芯片处理信息的精细度和算力速度要求更高，现阶段，国产GPU在支持大模型训练的能力方面相对来说还较差。

不同于多媒体和图形处理的单精度浮点计算（FP32）计算需求，双精度浮点计算能力FP64是进行高算力计算的硬性指标。英伟达的A100同时具备上述两类能力，而国内大多GPU只能处理单精度浮点计算。

从目前的信息来看，海光信息的协处理器（DCU）能够支持FP64双精度浮点运算，海光DCU属于GPGPU 的一种，采用“类CUDA”通用并行计算架构。据该公司介绍，其DCU产品能够完整支持大模型训练。不过相比于英伟达的A100性能只有其60%。

另外，景嘉微表示面向AI 训练、AI推理、科学计算等应用领域研发成功的景宏系列，支持INT8、FP16、FP32、FP64等混合精度运算，该产品在大模型的训练上或许也可以期待一下。

在软件和生态方面存在差距

除上述情况以外，国产GPU在软件和生态方面与全球领先品牌相比，也存在一定的差距。软件工具链的完善度方面，全球领先的GPU厂商已经构建了完整的软件工具链，包括编译器、调试器、性能分析工具等，可以方便地支持开发人员进行GPU程序的开发、调试和优化。而国产GPU在这方面还需要进一步完善，以满足用户的多样化需求。

生态系统的成熟度方面，全球GPU市场已经形成了较为成熟的生态系统，涵盖了各种应用领域和场景。然而，国产GPU在生态系统建设方面尚处于起步阶段，缺乏足够的应用支持和市场认可。这导致国产GPU在市场上的竞争力相对较弱，难以与全球领先品牌抗衡。

近些年可以明显的看到，国产PGU企业也正在这些方面不断努力。在软件支持方面，国产GPU企业正在积极与主流操作系统、开发环境以及图形处理软件等进行适配，确保用户能够流畅地使用各种应用软件。同时，一些企业还在推动GPU在人工智能、云计算等新兴领域的应用，为国产GPU生态注入新的活力。

在驱动程序优化方面，国产GPU企业也在加大投入力度，不断提升驱动程序的性能和稳定性。通过优化驱动程序，可以充分发挥GPU的性能优势，提升整体计算效率。

此外，国产GPU企业还在积极探索与各种应用场景的深度融合。例如，在游戏、图形设计、视频渲染等领域，国产GPU正在与相关企业合作，共同推动相关应用的发展。这种深度融合不仅有助于提升国产GPU的市场竞争力，也有助于推动整个产业的进步。