- info_extractor.py: 添加文档并行处理线程数配置参数 - papers_crawler.py: 优化默认参数配置和数据文件路径 - src/crawler.py: 精确化MIMIC-IV关键词搜索和扩大爬取范围 - src/extractor.py: 实现并行文档处理、提取重试机制和内容预处理 - src/parse.py: 小幅优化解析逻辑 主要改进: 1. 支持多线程并行处理文档,提升提取效率 2. 增加API调用重试机制,提高稳定性 3. 优化论文内容预处理,去除无关信息 4. 完善进度跟踪和错误日志记录
The file is empty.
Description
Languages
Python
100%