主题
题目要求
基础环境
海光DCU 环境
题目1: 求解二维数组每行的累加值 20%
基于 DCU 编写完整 并行程序 :
- 实现初始化二维数组
float A[10000][10000]; - 求该数组
每行的累加值,并将该值保存到相应行的第一个元素中。注意优化程序性能,并说明优化方法 。
题目2: 大模型的量化与推理性能评测 40%
针对 DeepSeek-R1-Distill-Qwen-7B 模型开展模型量化实验 ;
- 实验需采用
INT8、INT4、GPTQ、AWQ等常见量化方法,在保证模型困惑度(Perplexity,PPL)不显著劣化的前提下,旨在降低显存占用 ; - 数据集:统一采用
WikiText-103-v1的test文件作为评测基准(示例来源),该测试集共包含 4,358 条文本 ; - 困惑度(PPL)计算的解释、原理及标准实现参考相关技术文档中示例: 使用Transformers 中的 GPT-2 计算困惑度 一节所展示的实现方法 ;
- 评测计算从
WikiText-103-v1测试集中随机抽取100条非空文本作为评测数据 ; - 用于评测 FP16 基线和所有量化模型的样本子集必须完全相同 ;
- 必须
固定随机种子以确保每次抽取的样本一致 ; - 最大序列长度
max_length设置512;
评判标准:
- 正确性:量化方法实现正确,严格按照指定参考文档中的代码示例实现评测,并在选定的固定样本子集上完成困惑度计算 。;
- 性能指标:量化模型的
PPL相对FP16基线上升幅度 ≤ 15%情况下,显存峰值越少越优 ; - 分析与展示:需给出量化下的结果对比表(包含
PPL、显存峰值),并分析精度——性能平衡策略,结果需 可复现 且具备 可解释性 。
题目3: 大模型动态权重迁移与推理延迟评测 40%
在大模型推理部署场景中,为避免模型 权重长时间静置于 GPU 显存而造成的算力浪费,因此需设计并实现一套 动态权重迁移机制 。该机制需具备在模型空闲时将 权重数据从 GPU 显存迁移至主机内存,并在新推理请求到达时迅速将权重恢复回 GPU 显存完成推理计算的能力 ;
- 基于 DeepSeek-R1-Distill-Qwen-7B 模型,所有评测均采用统一的测试输入
The future of artificial intelligence is; - 要求模型连续生成 50 个 token 作为输出。参考开源实现如 vLLM 的“睡眠模式”机制 ;
评判标准:
- 功能实现:迁移与恢复过程中是否会推理错误,若能完整生成并且输出内容风格与基线一致则视为正确 ;
- 性能指标:核心评测首
token 延迟,即从推理请求到达、模型开始恢复,到输出首个 token 的总时间。延迟必须小于5秒,延迟越小越优 ; - 迁移判定准确性:通过监控显存使用量,验证空闲时显存释放的数据量,恢复后显存是否重新加载模型参数 。
提交方式
提交说明
最终需提交一份完整的报告文档;
文档中应清晰展示:
- 使用测试平台的
软硬件环境,关键的实验结果与分析 ; - 使用
截图的方式进行说明(显存监控截图、代码运行结果等) ; - 所有相关的
模型文件、源代码、完整的运行日志等材料需打包整理,作为附录或备查文件一并提供(为确保结果的可复现性与公平性) ;
比赛日程
| 日期 | 事项 |
|---|---|
| 10.8-10.15 | 提交答案 |
| 10.16-10.23 | 批阅和通知答辩 |
| 10.30 | 颁奖和总结 |
注意事项
提交答案方式:提交至 20241513040@sspu.edu.cn , 标题为 [DCU竞赛+学号+姓名] 。