基础模型
DeepSeek-Coder-7B-Instruct
微调方法
QLoRA (4-bit)
训练数据量
90,000 条
预计剩余
2h 35m
训练进度Epoch 2/3 | Step 8,125/12,500
Loss: 0.345665%
基本信息
- 任务ID
- 2
- 模型类型
- LLM
- 数据集
- 代码指令数据集
- 训练集/验证集
- 90,000 / 10,000
- 创建人
- admin
- 创建时间
- 2025-12-21 09:00:00
- 开始时间
- 2025-12-21 09:04:20
训练配置
- 训练轮数
- 3
- 批大小
- 4 x 8
- 学习率
- 0.0002
- Warmup
- 3%
- LoRA Rank
- 16
- LoRA Alpha
- 32
- LoRA Dropout
- 0.05
- 序列长度
- 4096
- 优化器
- paged_adamw_8bit
- 精度
- nf4
训练指标
- 训练 Loss
- 0.3456
- 验证 Loss
- 0.3678
- 当前学习率
- 1.56e-4
- 每轮耗时
- 2h 10m
目标模块
q_projk_projv_projo_projgate_projup_projdown_proj
[2025-12-21 09:00:15] 开始加载模型 DeepSeek-Coder-7B-Instruct...
[2025-12-21 09:02:30] 模型加载完成,应用 4-bit 量化
[2025-12-21 09:02:35] 应用 QLoRA 配置: rank=16, alpha=32
[2025-12-21 09:02:40] 可训练参数: 8,388,608 (0.11%)
[2025-12-21 09:03:00] 开始加载数据集...
[2025-12-21 09:04:15] 数据集加载完成: 训练集 90,000 条, 验证集 10,000 条
[2025-12-21 09:04:20] 开始训练...
[2025-12-21 09:04:20] Epoch 1/3
[2025-12-21 11:14:30] Epoch 1 完成 - train_loss: 0.5123, val_loss: 0.4892
[2025-12-21 11:14:35] Epoch 2/3
[2025-12-21 12:30:00] Step 8125/12500 - loss: 0.3456, lr: 1.56e-04