5 Commits

Author SHA1 Message Date
76c04eae4a feat: 优化信息提取系统并行处理和错误重试机制
- info_extractor.py: 添加文档并行处理线程数配置参数
- papers_crawler.py: 优化默认参数配置和数据文件路径
- src/crawler.py: 精确化MIMIC-IV关键词搜索和扩大爬取范围
- src/extractor.py: 实现并行文档处理、提取重试机制和内容预处理
- src/parse.py: 小幅优化解析逻辑

主要改进:
1. 支持多线程并行处理文档,提升提取效率
2. 增加API调用重试机制,提高稳定性
3. 优化论文内容预处理,去除无关信息
4. 完善进度跟踪和错误日志记录
2025-08-26 22:19:28 +08:00
8d6d217c2f fix: 优化论文爬取功能
- papers_crawler.py: 优化CSV下载参数默认值为"yes",提升用户体验
- src/crawler.py:
  * 修复摘要字段换行符处理,确保数据清洁性
  * 增强MedRxiv PDF链接获取策略,支持多种URL格式和版本号
2025-08-24 15:07:34 +08:00
41e5fd1543 feat: 实现PDF下载功能
- 新增 download_pdfs_from_csv() 方法支持从CSV文件批量下载论文PDF
- 支持ArXiv和MedRxiv两种数据源的PDF链接解析和下载
- 实现并发下载控制、失败重试机制和PDF完整性验证
- 添加实时下载进度显示和详细的错误日志记录
- 更新命令行参数支持PDF下载测试功能
- 清理临时文件和更新.gitignore规则
2025-08-23 19:42:47 +08:00
27398dc890 feat: 实现论文爬取核心功能
- 新增src/crawler.py模块,实现PaperCrawler类
- 更新papers_crawler.py主文件,集成实际爬取逻辑
- 添加requests依赖支持HTTP请求
- 更新依赖锁定文件uv.lock
2025-08-23 16:33:36 +08:00
2b8cdaf742 feat: 添加论文爬取功能主文件
- 新增papers_crawler.py作为论文爬取主文件
- 实现论文信息获取和处理的核心功能
- 支持项目架构中定义的论文爬取需求
2025-08-23 12:28:45 +08:00