题目要求

基础环境

海光DCU 环境

题目1: `求解二维数组每行的累加值` 20%

基于 DCU 编写完整 并行程序 ：

实现初始化二维数组 float A[10000][10000] ；
求该数组 每行的累加值 ，并将该值保存到相应行的第一个元素中。注意优化程序性能，并说明优化方法 。

题目2: `大模型的量化与推理性能评测` 40%

针对 DeepSeek-R1-Distill-Qwen-7B 模型开展模型量化实验；

实验需采用 INT8、INT4、GPTQ、AWQ 等常见量化方法，在保证模型困惑度（Perplexity, PPL）不显著劣化的前提下，旨在降低显存占用 ；
数据集：统一采用 WikiText-103-v1 的 test 文件作为评测基准（示例来源），该测试集共包含 4,358 条文本；
困惑度（PPL）计算的解释、原理及标准实现参考相关技术文档中示例：使用Transformers 中的 GPT-2 计算困惑度一节所展示的实现方法；
评测计算从 WikiText-103-v1 测试集中随机抽取 100 条非空文本作为评测数据；
用于评测 FP16 基线和所有量化模型的样本子集必须完全相同 ；
必须 固定随机种子 以确保每次抽取的样本一致；
最大序列长度 max_length 设置 512 ；

评判标准：

正确性：量化方法实现正确，严格按照指定参考文档中的代码示例实现评测，并在选定的固定样本子集上完成困惑度计算。；
性能指标：量化模型的 PPL 相对 FP16 基线上升幅度 ≤ 15%情况下，显存峰值越少越优 ；
分析与展示：需给出量化下的结果对比表（包含 PPL、显存峰值 ），并分析 精度——性能平衡 策略，结果需 可复现 且具备 可解释性 。

题目3: `大模型动态权重迁移与推理延迟评测` 40%

在大模型推理部署场景中，为避免模型 权重长时间静置于 GPU 显存而造成的算力浪费，因此需设计并实现一套 动态权重迁移机制 。该机制需具备在模型空闲时将 权重数据从 GPU 显存迁移至主机内存，并在新推理请求到达时迅速将权重恢复回 GPU 显存完成推理计算的能力 ；

基于 DeepSeek-R1-Distill-Qwen-7B 模型，所有评测均采用统一的测试输入 The future of artificial intelligence is ；
要求模型连续生成 50 个 token 作为输出。参考开源实现如 vLLM 的“睡眠模式”机制；

评判标准：

功能实现：迁移与恢复过程中是否会推理错误，若能完整生成并且输出内容风格与基线一致则视为正确；
性能指标：核心评测首 token 延迟，即从推理请求到达、模型开始恢复，到输出首个 token 的总时间。延迟必须小于 5 秒，延迟越小越优；
迁移判定准确性：通过监控显存使用量，验证空闲时显存释放的数据量，恢复后显存是否重新加载模型参数。

`提交方式`

提交说明

最终需提交一份完整的报告文档；

文档中应清晰展示：

使用测试平台的 软硬件环境 ，关键的实验结果与分析；
使用 截图 的方式进行说明（显存监控截图、代码运行结果等）；
所有相关的 模型文件 、 源代码 、 完整的运行日志 等材料需打包整理，作为附录或备查文件一并提供(为确保结果的可复现性与公平性) ；

比赛日程

日期	事项
10.8-10.15	提交答案
10.16-10.23	批阅和通知答辩
10.30	颁奖和总结

注意事项

提交答案方式：提交至 20241513040@sspu.edu.cn , 标题为 [DCU竞赛+学号+姓名] 。

题目要求 ​

基础环境 ​

题目1: 求解二维数组每行的累加值 20% ​

题目2: 大模型的量化与推理性能评测 40% ​

评判标准： ​

题目3: 大模型动态权重迁移与推理延迟评测 40% ​

评判标准： ​

提交方式 ​

提交说明 ​

比赛日程 ​

题目要求

基础环境

题目1: `求解二维数组每行的累加值` 20%

题目2: `大模型的量化与推理性能评测` 40%

评判标准：

题目3: `大模型动态权重迁移与推理延迟评测` 40%

评判标准：

`提交方式`

提交说明

比赛日程