11 Commits

Author SHA1 Message Date
8d6d217c2f fix: 优化论文爬取功能
- papers_crawler.py: 优化CSV下载参数默认值为"yes",提升用户体验
- src/crawler.py:
  * 修复摘要字段换行符处理,确保数据清洁性
  * 增强MedRxiv PDF链接获取策略,支持多种URL格式和版本号
2025-08-24 15:07:34 +08:00
367696788b config: 更新开发环境配置
- .gitignore: 添加日志文件忽略规则(**/*.log)
- .vscode/launch.json: 为PDF解析器添加调试配置,支持不同参数测试
2025-08-24 15:07:26 +08:00
41e5fd1543 feat: 实现PDF下载功能
- 新增 download_pdfs_from_csv() 方法支持从CSV文件批量下载论文PDF
- 支持ArXiv和MedRxiv两种数据源的PDF链接解析和下载
- 实现并发下载控制、失败重试机制和PDF完整性验证
- 添加实时下载进度显示和详细的错误日志记录
- 更新命令行参数支持PDF下载测试功能
- 清理临时文件和更新.gitignore规则
2025-08-23 19:42:47 +08:00
802fe4b239 config: 更新.gitignore忽略macOS系统文件
- 添加.DS_Store到忽略列表
2025-08-23 16:33:51 +08:00
27398dc890 feat: 实现论文爬取核心功能
- 新增src/crawler.py模块,实现PaperCrawler类
- 更新papers_crawler.py主文件,集成实际爬取逻辑
- 添加requests依赖支持HTTP请求
- 更新依赖锁定文件uv.lock
2025-08-23 16:33:36 +08:00
6110251f05 style: 优化CSV工具文件代码格式
- 调整src/utils/csv_utils.py文件格式
- 统一代码风格,提升可读性
2025-08-23 12:29:49 +08:00
2b8cdaf742 feat: 添加论文爬取功能主文件
- 新增papers_crawler.py作为论文爬取主文件
- 实现论文信息获取和处理的核心功能
- 支持项目架构中定义的论文爬取需求
2025-08-23 12:28:45 +08:00
08a3f414b9 docs: 大幅更新开发规范和AI协作指导
- 添加绝对强制性规范声明和AI协作流程规范
- 详细完善编程规范,包含违反后果和理由说明
- 新增AI协作指导规范,定义4阶段工作流程
- 完善Memory Bank系统和工具使用原则
- 强化MVP项目特性,明确快速开发要求
2025-08-23 12:26:53 +08:00
a61fdc0437 config: 更新项目配置和依赖锁定文件
- 添加docs/CLAUDE*到.gitignore忽略列表
- 添加VS Code配置目录
- 添加uv.lock依赖锁定文件
2025-08-23 12:26:29 +08:00
6adf383f94 feat: 建立项目基础架构和开发规范
- 完善项目文档结构和开发规范
- 添加CSV数据处理工具模块
- 更新gitignore配置排除数据目录
- 建立完整的Memory Bank系统和AI协作流程
2025-08-23 11:34:46 +08:00
8213ae9a55 feat: 初始化MedResearcher项目
- 添加项目配置文件(pyproject.toml)
- 添加Python版本配置(.python-version)
- 添加项目文档(README.md, CLAUDE.md)
- 添加Git配置(.gitignore)
2025-08-23 00:20:41 +08:00