主要改进: • 新增Qwen3-7B模型配置支持 • 完善main.py模型类型验证和配置管理 • 新增--list-models参数显示所有可用模型 • 固定Evaluator使用gpt-oss:latest模型提升评估一致性 • 优化评估器历史记录处理逻辑 • 更新默认日志目录为results0905-2 🤖 Generated with [Claude Code](https://claude.ai/code) Co-Authored-By: Claude <noreply@anthropic.com>