重构：优化评价器模块并统一代码规范

主要变更： - 重命名PreDiagnosisEvaluation为Evaluator，统一术语 - 调整评分范围从-5到5改为0到5，优化评价标准 - 重构代码结构，按照disease_analyst标准实现 - 添加必需的run和build_prompt函数 - 更新配置文件，支持gpt-oss:latest模型 - 完善Claude指导文档和代理规范 🤖 Generated with [Claude Code](https://claude.ai/code) Co-Authored-By: Claude <noreply@anthropic.com>
2025-08-10 21:42:05 +08:00 · 2025-08-10 21:42:05 +08:00 · 4d08c52e53
commit 4d08c52e53
parent c89d6dd1c0
5 changed files with 468 additions and 5 deletions
--- a/CLAUDE.md
+++ b/CLAUDE.md
@ -1,7 +1,7 @@
 # Claude 指导文档

 ## 身份
-你的名字为ycz copilot
+你的名字为ycz copilot，你被定义为我的专属代码助手，专门帮助你开发和维护AIM智能体系统。

 ## 要求
 1. 所有的注释必须是中文
@ -14,4 +14,5 @@
 8. 你需要使用uv作为包管理器，虚拟环境为`.venv`
    - 你可以使用uv run xxx.py 来运行python程序
    - 你可以使用uv add xxx来添加依赖包
-9. 默认的
+9. agent的默认模型为ollama的gpt-oss:latest
+10. agent文件至少包含run函数和build_prompt函数，prompt文件只包含一个类，代码结构可以参考agent_system/disease_analyst
--- a/agent_system/evaluetor/agent.py
+++ b/agent_system/evaluetor/agent.py
@ -0,0 +1,260 @@
+from typing import Dict, Any, List
+from agent_system.base import BaseAgent
+from agent_system.evaluetor.prompt import EvaluatorPrompt
+from agent_system.evaluetor.response_model import EvaluatorResult
+
+
+class Evaluator(BaseAgent):
+    """
+    评价器Agent
+    
+    专门用于评价智能医疗系统的多维度评价工具。
+    从八个核心维度对智能医生的表现进行全面评价，
+    包括当前轮次的表现和结合所有轮次的累积表现。
+    
+    核心功能:
+    1. 临床问诊能力评价
+    2. 诊断推理能力评价
+    3. 沟通表达能力评价
+    4. 多轮一致性评价
+    5. 整体专业性评价
+    6. 现病史相似度评价
+    7. 既往史相似度评价
+    8. 主述相似度评价
+    
+    Attributes:
+        model_type (str): 使用的大语言模型类型，默认为 gpt-oss:latest
+        llm_config (dict): LLM模型配置参数
+    """
+    
+    def __init__(self, model_type: str = "gpt-oss:latest", llm_config: dict = None):
+        """
+        初始化评价器Agent
+        
+        Args:
+            model_type (str): 大语言模型类型，默认使用 gpt-oss:latest
+            llm_config (dict): LLM模型的配置参数，如果为None则使用默认配置
+        """
+        super().__init__(
+            model_type=model_type,
+            description=EvaluatorPrompt.description,
+            instructions=EvaluatorPrompt.instructions,
+            response_model=EvaluatorResult,
+            llm_config=llm_config or {},
+            structured_outputs=True,
+            markdown=False,
+            use_cache=False
+        )
+    
+    def run(self, patient_case: Dict[str, Any], current_round: int, 
+            all_rounds_data: List[Dict[str, Any]]) -> EvaluatorResult:
+        """
+        执行评价任务
+        
+        基于患者病例信息、当前轮次和所有轮次的对话数据，
+        对智能医疗系统进行多维度评价。
+        
+        Args:
+            patient_case (Dict[str, Any]): 患者病例信息
+            current_round (int): 当前轮次
+            all_rounds_data (List[Dict[str, Any]]): 所有轮次的数据
+            
+        Returns:
+            EvaluatorResult: 包含评价结果的结构化数据，包括：
+                - clinical_inquiry: 临床问诊能力评价
+                - diagnostic_reasoning: 诊断推理能力评价
+                - communication_quality: 沟通表达能力评价
+                - multi_round_consistency: 多轮一致性评价
+                - overall_professionalism: 整体专业性评价
+                - present_illness_similarity: 现病史相似度评价
+                - past_history_similarity: 既往史相似度评价
+                - chief_complaint_similarity: 主述相似度评价
+                - summary: 整体评价总结
+                - key_suggestions: 关键改进建议列表
+                
+        Raises:
+            Exception: 当LLM调用失败时，返回包含默认信息的EvaluatorResult
+        """
+        try:
+            # 构建评价提示词
+            prompt = self.build_prompt(patient_case, current_round, all_rounds_data)
+            
+            # 调用基类的run方法执行LLM推理
+            result = super().run(prompt)
+            
+            # 确保返回正确的类型并进行类型转换
+            return self._ensure_result_type(result)
+            
+        except Exception as e:
+            # 当评价失败时记录错误并返回默认结果
+            print(f"评价执行失败: {str(e)}")
+            return self._get_fallback_result()
+    
+    def build_prompt(self, patient_case: Dict[str, Any], current_round: int, 
+                     all_rounds_data: List[Dict[str, Any]]) -> str:
+        """
+        构建评价的提示词模板
+        
+        根据患者病例信息、当前轮次和所有轮次数据，构建简洁高效的评价提示词，
+        引导LLM进行专业的医疗系统评价。
+        
+        Args:
+            patient_case (Dict[str, Any]): 患者病例信息
+            current_round (int): 当前轮次
+            all_rounds_data (List[Dict[str, Any]]): 所有轮次的数据
+            
+        Returns:
+            str: 精简的评价提示词
+        """
+        # 格式化患者信息
+        patient_info = self._format_patient_info(patient_case)
+        
+        # 格式化真实病历信息
+        true_medical_info = self._format_true_medical_info(patient_case)
+        
+        # 格式化对话历史
+        conversation_history = self._format_conversation_history(all_rounds_data)
+        
+        # 获取示例输出格式
+        example_output = EvaluatorPrompt.get_example_output()
+        
+        prompt = f"""患者病例信息：
+{patient_info}
+
+真实病历信息（用于相似度比较）：
+{true_medical_info}
+
+对话历史（共{current_round}轮）：
+{conversation_history}
+
+请基于以上信息，从八个维度对医疗系统进行评价，严格按照JSON格式输出。
+
+输出格式示例：
+{example_output}
+
+请严格按照上述JSON格式输出评价结果。"""
+        
+        return prompt
+    
+    def _ensure_result_type(self, result: Any) -> EvaluatorResult:
+        """
+        确保返回结果为正确的类型
+        
+        Args:
+            result (Any): LLM返回的原始结果
+            
+        Returns:
+            EvaluatorResult: 转换后的结构化结果
+        """
+        if isinstance(result, EvaluatorResult):
+            return result
+        elif isinstance(result, dict):
+            return EvaluatorResult(**result)
+        else:
+            # 如果类型不匹配，返回默认结果
+            return self._get_fallback_result()
+    
+    def _get_fallback_result(self) -> EvaluatorResult:
+        """
+        生成评价失败时的默认结果
+        
+        Returns:
+            EvaluatorResult: 包含默认评价信息的结果
+        """
+        from agent_system.evaluetor.response_model import EvaluationDimension
+        
+        default_dimension = EvaluationDimension(
+            score=0.0, 
+            comment="评价失败：系统异常，无法完成评价"
+        )
+        
+        return EvaluatorResult(
+            clinical_inquiry=default_dimension,
+            diagnostic_reasoning=default_dimension,
+            communication_quality=default_dimension,
+            multi_round_consistency=default_dimension,
+            overall_professionalism=default_dimension,
+            present_illness_similarity=default_dimension,
+            past_history_similarity=default_dimension,
+            chief_complaint_similarity=default_dimension,
+            summary="评价失败：系统异常，无法完成评价",
+            key_suggestions=["系统需要调试和修复"]
+        )
+    
+    def _format_patient_info(self, patient_case: Dict[str, Any]) -> str:
+        """格式化患者信息"""
+        info_parts = []
+        
+        # 病案信息
+        if '病案介绍' in patient_case:
+            case_info = patient_case['病案介绍']
+            
+            if '基本信息' in case_info:
+                info_parts.append(f"**基本信息**: {case_info['基本信息']}")
+            
+            if '主诉' in case_info:
+                info_parts.append(f"**主诉**: {case_info['主诉']}")
+            
+            if '现病史' in case_info:
+                info_parts.append(f"**现病史**: {case_info['现病史']}")
+            
+            if '既往史' in case_info:
+                info_parts.append(f"**既往史**: {case_info['既往史']}")
+        
+        return '\n'.join(info_parts)
+    
+    def _format_true_medical_info(self, patient_case: Dict[str, Any]) -> str:
+        """格式化真实病历信息，用于相似度比较"""
+        info_parts = []
+        
+        # 病案信息
+        if '病案介绍' in patient_case:
+            case_info = patient_case['病案介绍']
+            
+            if '主诉' in case_info:
+                info_parts.append(f"**真实主诉**: {case_info['主诉']}")
+            
+            if '现病史' in case_info:
+                info_parts.append(f"**真实现病史**: {case_info['现病史']}")
+            
+            if '既往史' in case_info:
+                info_parts.append(f"**真实既往史**: {case_info['既往史']}")
+        
+        return '\n'.join(info_parts)
+    
+    def _format_conversation_history(self, all_rounds_data: List[Dict[str, Any]]) -> str:
+        """格式化对话历史"""
+        history_parts = []
+        
+        for i, round_data in enumerate(all_rounds_data, 1):
+            history_parts.append(f"### 第{i}轮对话")
+            
+            if 'patient_response' in round_data:
+                history_parts.append(f"**患者回答**: {round_data['patient_response']}")
+            
+            if 'doctor_inquiry' in round_data:
+                history_parts.append(f"**医生询问**: {round_data['doctor_inquiry']}")
+            
+            if 'HPI' in round_data:
+                history_parts.append(f"**现病史(HPI)**: {round_data['HPI']}")
+            
+            if 'PH' in round_data:
+                history_parts.append(f"**既往史(PH)**: {round_data['PH']}")
+            
+            history_parts.append("")  # 空行分隔
+        
+        return '\n'.join(history_parts)
+    
+    def evaluate_single_round(self, patient_case: Dict[str, Any], 
+                             round_data: Dict[str, Any]) -> EvaluatorResult:
+        """
+        评价单轮对话的便捷接口
+        
+        Args:
+            patient_case (Dict[str, Any]): 患者病例信息
+            round_data (Dict[str, Any]): 单轮对话数据
+            
+        Returns:
+            EvaluatorResult: 单轮评价结果
+        """
+        return self.run(patient_case, 1, [round_data])
--- a/agent_system/evaluetor/prompt.py
+++ b/agent_system/evaluetor/prompt.py
@ -0,0 +1,136 @@
+from agent_system.base import BasePrompt
+
+
+class EvaluatorPrompt(BasePrompt):
+    """
+    评价器提示词模板
+    
+    定义了评价器的角色、任务目标和执行指令，
+    确保智能体能够对医疗系统进行专业的多维度评价。
+    """
+    
+    # 智能体角色和目标描述
+    description = (
+        "你是一名专业的医疗系统评价专家，擅长对智能医疗系统进行全面、客观的多维度评价。"
+        "你的主要任务是基于医疗对话记录和真实病历信息，从八个核心维度对系统表现进行评价，"
+        "包括临床问诊能力、诊断推理能力、沟通表达能力、多轮一致性、整体专业性、"
+        "以及现病史、既往史、主述的相似度评价。"
+        "你的评价将为医疗系统的持续改进提供重要参考。"
+    )
+    
+    # 执行指令和注意事项
+    instructions = [
+        "## 核心评价任务",
+        "1. **临床问诊能力**: 评价医生的问诊技巧、信息收集能力和问题针对性",
+        "2. **诊断推理能力**: 评价临床思维、推理过程和鉴别诊断能力",
+        "3. **沟通表达能力**: 评价与患者的沟通质量、表达清晰度和专业性",
+        "4. **多轮一致性**: 评价多轮对话的连贯性、一致性和进步性",
+        "5. **整体专业性**: 评价整体的医学专业水平、风险识别和临床决策能力",
+        "6. **现病史相似度**: 比较生成的现病史与真实现病史的相似度和准确性",
+        "7. **既往史相似度**: 比较生成的既往史与真实既往史的相似度和准确性",
+        "8. **主述相似度**: 比较生成的主述与真实主述的相似度和准确性",
+        "",
+        "## 评价标准",
+        "- 评分范围：0到5分（0为非常差/无关/无法判断，5为非常好）",
+        "- 评分原则：严格按照评分标准，重点关注临床安全性、专业性和实用性",
+        "- 0分表示：表现非常差或本轮未涉及该维度或信息不足以评价",
+        "- 只有在表现确实优秀、无明显不足时才给4分以上",
+        "- 5分应该极少出现，只有在各方面都完美无缺时才给出",
+        "",
+        "## 输出要求",
+        "1. **格式要求**: 严格按照 EvaluatorResult 的 JSON 结构输出，不得省略任何必需字段",
+        "2. **内容质量**: 评价意见必须具体明确、具有建设性，明确指出问题和扣分原因",
+        "3. **医学专业性**: 基于临床医学知识和最佳实践进行评价",
+        "4. **客观公正**: 确保评价客观公正，既要指出不足也要认可优点",
+        "",
+        "## 示例输出格式（JSON）",
+        "{",
+        "  \"clinical_inquiry\": {",
+        "    \"score\": 3.0,",
+        "    \"comment\": \"问诊技巧良好，全面系统收集关键信息，问题高度针对性，符合临床最佳实践，仅有个别细节可提升。\"",
+        "  },",
+        "  \"diagnostic_reasoning\": {",
+        "    \"score\": 2.0,",
+        "    \"comment\": \"推理方向基本合理，考虑了主要可能性，但分析不够深入，缺乏对重要鉴别诊断的拓展。\"",
+        "  },",
+        "  \"communication_quality\": {",
+        "    \"score\": 4.0,",
+        "    \"comment\": \"表达规范，专业且通俗，沟通效果好，体现医学人文关怀，有细节可提升。\"",
+        "  },",
+        "  \"multi_round_consistency\": {",
+        "    \"score\": 0.0,",
+        "    \"comment\": \"当前仅1轮对话，无法评价多轮表现。\"",
+        "  },",
+        "  \"overall_professionalism\": {",
+        "    \"score\": 3.0,",
+        "    \"comment\": \"专业水平较高，风险识别能力强，决策合理，符合一般临床标准，但距离专家水平仍有差距。\"",
+        "  },",
+        "  \"present_illness_similarity\": {",
+        "    \"score\": 3.0,",
+        "    \"comment\": \"现病史记录基本准确，与真实现病史有一定相似度，但对病情发展过程的描述不够详细。\"",
+        "  },",
+        "  \"past_history_similarity\": {",
+        "    \"score\": 0.0,",
+        "    \"comment\": \"本轮未涉及既往史或信息不足以评价。\"",
+        "  },",
+        "  \"chief_complaint_similarity\": {",
+        "    \"score\": 4.0,",
+        "    \"comment\": \"主述记录较为准确，与真实主述相似度较高，基本涵盖主要症状，但有小偏差。\"",
+        "  },",
+        "  \"summary\": \"医生在问诊中表现基本合格，能够收集基本信息并进行初步整理，但在诊断推理深度、多轮对话连贯性等方面存在提升空间。\",",
+        "  \"key_suggestions\": [",
+        "    \"加强鉴别诊断思维的深度和广度\",",
+        "    \"提升多轮对话的连贯性和一致性\",",
+        "    \"完善现病史的详细记录和分析\"",
+        "  ]",
+        "}"
+    ]
+    
+    @staticmethod
+    def get_example_output() -> str:
+        """
+        获取示例输出格式，用于指导 LLM 生成符合要求的结构化输出
+        
+        Returns:
+            str: JSON 格式的示例输出
+        """
+        return """{
+  "clinical_inquiry": {
+    "score": 3.0,
+    "comment": "问诊技巧评价内容"
+  },
+  "diagnostic_reasoning": {
+    "score": 2.0,
+    "comment": "诊断推理能力评价内容"
+  },
+  "communication_quality": {
+    "score": 4.0,
+    "comment": "沟通表达能力评价内容"
+  },
+  "multi_round_consistency": {
+    "score": 0.0,
+    "comment": "多轮一致性评价内容"
+  },
+  "overall_professionalism": {
+    "score": 3.0,
+    "comment": "整体专业性评价内容"
+  },
+  "present_illness_similarity": {
+    "score": 3.0,
+    "comment": "现病史相似度评价内容"
+  },
+  "past_history_similarity": {
+    "score": 0.0,
+    "comment": "既往史相似度评价内容"
+  },
+  "chief_complaint_similarity": {
+    "score": 4.0,
+    "comment": "主述相似度评价内容"
+  },
+  "summary": "整体评价总结",
+  "key_suggestions": [
+    "改进建议1",
+    "改进建议2",
+    "改进建议3"
+  ]
+}"""
--- a/agent_system/evaluetor/response_model.py
+++ b/agent_system/evaluetor/response_model.py
@ -0,0 +1,65 @@
+from typing import List
+from pydantic import BaseModel, Field
+from agent_system.base import BaseResponseModel
+
+class EvaluationDimension(BaseModel):
+    """单个评价维度"""
+    score: float = Field(
+        ...,
+        description="该维度的评分(0-5分，0分最差，5分最好)",
+        ge=0.0,
+        le=5.0
+    )
+    comment: str = Field(
+        ..., 
+        description="该维度的详细评价和分析"
+    )
+
+class EvaluatorResult(BaseResponseModel):
+    """评价器评价结果"""
+    
+    # 基础评价维度（5个）
+    clinical_inquiry: EvaluationDimension = Field(
+        default=EvaluationDimension(score=0.0, comment="评价失败：临床问诊能力评价缺失"),
+        description="临床问诊能力评价"
+    )
+    diagnostic_reasoning: EvaluationDimension = Field(
+        default=EvaluationDimension(score=0.0, comment="评价失败：诊断推理能力评价缺失"),
+        description="诊断推理能力评价"
+    )
+    communication_quality: EvaluationDimension = Field(
+        default=EvaluationDimension(score=0.0, comment="评价失败：沟通表达能力评价缺失"),
+        description="沟通表达能力评价"
+    )
+    multi_round_consistency: EvaluationDimension = Field(
+        default=EvaluationDimension(score=0.0, comment="评价失败：多轮一致性评价缺失"),
+        description="多轮一致性评价"
+    )
+    overall_professionalism: EvaluationDimension = Field(
+        default=EvaluationDimension(score=0.0, comment="评价失败：整体专业性评价缺失"),
+        description="整体专业性评价"
+    )
+    
+    # 相似度评价维度（3个）
+    present_illness_similarity: EvaluationDimension = Field(
+        default=EvaluationDimension(score=0.0, comment="评价失败：现病史相似度评价缺失"),
+        description="现病史相似度评价"
+    )
+    past_history_similarity: EvaluationDimension = Field(
+        default=EvaluationDimension(score=0.0, comment="评价失败：既往史相似度评价缺失"),
+        description="既往史相似度评价"
+    )
+    chief_complaint_similarity: EvaluationDimension = Field(
+        default=EvaluationDimension(score=0.0, comment="评价失败：主述相似度评价缺失"),
+        description="主述相似度评价"
+    )
+    
+    # 总结和建议
+    summary: str = Field(
+        default="评价失败：整体评价总结缺失",
+        description="整体评价总结"
+    )
+    key_suggestions: List[str] = Field(
+        default=["评价失败：关键改进建议缺失"],
+        description="关键改进建议列表"
+    )
--- a/config.py
+++ b/config.py
@ -15,11 +15,12 @@ LLM_CONFIG = {
            "base_url": "https://api.deepseek.com"
        }
    },
-    "ollama": {
+    "gpt-oss:latest": {
        "class": "Ollama",
        "params": {
-            "id": "qwen2.5:latest",
-            "host": "127.0.0.1"
+            "id": "gpt-oss:latest",
+            "host": "192.168.31.228",
+            "options": {"think": False}  # 关闭思考模式
        }
    },
    "deepseek-v3": {