MedResearcher

iomgaa/MedResearcher

Fork 0

Commit Graph

Author	SHA1	Message	Date
iomgaa	76c04eae4a	feat: 优化信息提取系统并行处理和错误重试机制 - info_extractor.py: 添加文档并行处理线程数配置参数 - papers_crawler.py: 优化默认参数配置和数据文件路径 - src/crawler.py: 精确化MIMIC-IV关键词搜索和扩大爬取范围 - src/extractor.py: 实现并行文档处理、提取重试机制和内容预处理 - src/parse.py: 小幅优化解析逻辑主要改进： 1. 支持多线程并行处理文档，提升提取效率 2. 增加API调用重试机制，提高稳定性 3. 优化论文内容预处理，去除无关信息 4. 完善进度跟踪和错误日志记录	2025-08-26 22:19:28 +08:00
iomgaa	c4037325ed	feat: 实现基于LangExtract框架的MIMIC论文信息提取系统 - 新增info_extractor.py主文件，支持命令行参数和测试模式 - 实现src/extractor.py核心MIMICLangExtractBuilder类 - 集成vllm API服务(OpenAI兼容格式)进行结构化信息提取 - 支持5大模块提取：数据集、模型、训练、评估、环境配置 - 实现源文本定位和交互式HTML可视化 - 添加langextract和httpx[socks]依赖 - 支持个性化论文子目录结果保存 - 清理过时的experiment_runner.py和number_extraction_models.py文件	2025-08-25 20:51:30 +08:00

Author

SHA1

Message

Date

iomgaa

76c04eae4a

feat: 优化信息提取系统并行处理和错误重试机制

- info_extractor.py: 添加文档并行处理线程数配置参数
- papers_crawler.py: 优化默认参数配置和数据文件路径
- src/crawler.py: 精确化MIMIC-IV关键词搜索和扩大爬取范围
- src/extractor.py: 实现并行文档处理、提取重试机制和内容预处理
- src/parse.py: 小幅优化解析逻辑

主要改进：
1. 支持多线程并行处理文档，提升提取效率
2. 增加API调用重试机制，提高稳定性
3. 优化论文内容预处理，去除无关信息
4. 完善进度跟踪和错误日志记录

2025-08-26 22:19:28 +08:00

iomgaa

c4037325ed

feat: 实现基于LangExtract框架的MIMIC论文信息提取系统

- 新增info_extractor.py主文件，支持命令行参数和测试模式
- 实现src/extractor.py核心MIMICLangExtractBuilder类
- 集成vllm API服务(OpenAI兼容格式)进行结构化信息提取
- 支持5大模块提取：数据集、模型、训练、评估、环境配置
- 实现源文本定位和交互式HTML可视化
- 添加langextract和httpx[socks]依赖
- 支持个性化论文子目录结果保存
- 清理过时的experiment_runner.py和number_extraction_models.py文件

2025-08-25 20:51:30 +08:00

2 Commits