3 Commits

Author SHA1 Message Date
22c90728e5 feat: 优化PDF解析筛选逻辑,移除MIMIC关键词依赖并增加AI医学相关性判断
- 移除第一层MIMIC-IV关键词筛选,简化筛选流程
- 增强AI分析功能,同时判断医学相关性和任务类型
- 修改_analyze_research_task函数返回包含医学相关性和任务类型的完整结果
- 更新筛选条件:只有同时满足"医学相关"和"指定任务类型"的论文才通过筛选
- 优化相关注释和日志输出,提高代码可维护性
2025-08-26 23:06:48 +08:00
76c04eae4a feat: 优化信息提取系统并行处理和错误重试机制
- info_extractor.py: 添加文档并行处理线程数配置参数
- papers_crawler.py: 优化默认参数配置和数据文件路径
- src/crawler.py: 精确化MIMIC-IV关键词搜索和扩大爬取范围
- src/extractor.py: 实现并行文档处理、提取重试机制和内容预处理
- src/parse.py: 小幅优化解析逻辑

主要改进:
1. 支持多线程并行处理文档,提升提取效率
2. 增加API调用重试机制,提高稳定性
3. 优化论文内容预处理,去除无关信息
4. 完善进度跟踪和错误日志记录
2025-08-26 22:19:28 +08:00
099159dfb7 feat: 新增PDF解析功能模块
- pdf_parser.py: PDF解析主程序,支持命令行参数和并发处理
- src/parse.py: PDF解析核心模块,提供PDFParser类
  * 支持OCR API调用,将PDF转换为Markdown格式
  * 内置HTTP会话管理、连接池优化和重试机制
  * 支持并发处理和详细进度显示
  * 完善的错误处理和日志记录功能
2025-08-24 15:07:42 +08:00