本赛题涵盖面向 openKylin 端侧智能引擎的大模型推理优化的各种技术方向,包括但不限于以下重点方向:
1)大模型压缩技术:使用低比特量化、剪枝、蒸馏等方法,减少模型参数规模和计算量,加速推理;需解决问题:如何定制化大模型压缩策略以平衡推理效率和精度损失?
2)大模型推理加速算法:包括高效运算内核设计、并行流水线优化、缓存调度策略等,加快推理速度;需解决问题:如何综合数据并行、张量并行、管道并行、专家并行等方法,在最大化GPU吞吐量的同时满足部署资源约束?
3)异构协同推理:探索在多种计算单元间协同调度,将任务分配到不同硬件资源上并行计算;需解决问题:如何根据推理任务特征,动态将计算负载分配到最合适的计算单元,使各类加速器资源得以充分利用并提高能效?
4)RISC-V 架构优化与支持:挖掘RISC-V架构中向量、矩阵等AI加速算力,构建易于使用的RISC-V AI开发框架;需解决问题:如何构建和优化面向RISC-V的大模型推理框架、算子库和编译器,以弥补生态不足并发挥其指令集灵活性的优势?
5)其他创新方向:如针对特定模型或应用场景的专用优化、自研轻量化推理框架等(若有疑问,可询问技术支持咨询选题可行性);需解决问题:如何通过模型剪枝、蒸馏、低秩分解等技术,尽量保持精度的同时大幅减小大模型的计算和存储开销,使其适配资源受限的端侧设备?
最终提交的成果应包括详细的技术方案描述、实现代码和验证结果,使评审者能够复现和检验优化效果。详细请见作品提交。