跳转到内容

题目要求

基础环境

海光DCU 环境

题目1: 求解二维数组每行的累加值 20%

基于 DCU 编写完整 并行程序

  1. 实现初始化二维数组 float A[10000][10000]
  2. 求该数组 每行的累加值 ,并将该值保存到相应行的第一个元素中。注意优化程序性能,并说明优化方法

题目2: 大模型的量化与推理性能评测 40%

针对 DeepSeek-R1-Distill-Qwen-7B 模型开展模型量化实验 ;

  • 实验需采用 INT8INT4GPTQAWQ 等常见量化方法,在保证模型困惑度(Perplexity, PPL不显著劣化的前提下,旨在降低显存占用
  • 数据集:统一采用 WikiText-103-v1test 文件作为评测基准(示例来源),该测试集共包含 4,358 条文本 ;
  • 困惑度(PPL)计算的解释、原理及标准实现参考相关技术文档中示例: 使用Transformers 中的 GPT-2 计算困惑度 一节所展示的实现方法 ;
  • 评测计算从 WikiText-103-v1 测试集中随机抽取 100 条非空文本作为评测数据 ;
  • 用于评测 FP16 基线和所有量化模型的样本子集必须完全相同
  • 必须 固定随机种子 以确保每次抽取的样本一致 ;
  • 最大序列长度 max_length 设置 512

评判标准:

  • 正确性:量化方法实现正确,严格按照指定参考文档中的代码示例实现评测,并在选定的固定样本子集上完成困惑度计算 。;
  • 性能指标:量化模型的 PPL 相对 FP16 基线上升幅度 ≤ 15%情况下,显存峰值越少越优
  • 分析与展示:需给出量化下的结果对比表(包含 PPL显存峰值 ),并分析 精度——性能平衡 策略,结果需 可复现 且具备 可解释性

题目3: 大模型动态权重迁移与推理延迟评测 40%

在大模型推理部署场景中,为避免模型 权重长时间静置于 GPU 显存而造成的算力浪费,因此需设计并实现一套 动态权重迁移机制 。该机制需具备在模型空闲时权重数据从 GPU 显存迁移至主机内存,并在新推理请求到达时迅速将权重恢复GPU 显存完成推理计算的能力

评判标准:

  • 功能实现:迁移与恢复过程中是否会推理错误,若能完整生成并且输出内容风格与基线一致则视为正确 ;
  • 性能指标:核心评测首 token 延迟,即从推理请求到达、模型开始恢复,到输出首个 token 的总时间。延迟必须小于 5,延迟越小越优 ;
  • 迁移判定准确性:通过监控显存使用量,验证空闲时显存释放的数据量,恢复后显存是否重新加载模型参数 。

提交方式

提交说明

最终需提交一份完整的报告文档;

文档中应清晰展示:

  • 使用测试平台的 软硬件环境 ,关键的实验结果与分析 ;
  • 使用 截图 的方式进行说明(显存监控截图代码运行结果等) ;
  • 所有相关的 模型文件源代码完整的运行日志 等材料需打包整理,作为附录或备查文件一并提供(为确保结果的可复现性公平性) ;

比赛日程

日期事项
10.8-10.15提交答案
10.16-10.23批阅和通知答辩
10.30颁奖和总结

注意事项

提交答案方式:提交至 20241513040@sspu.edu.cn , 标题为 [DCU竞赛+学号+姓名]