|
|
d1f7a27b1b
|
cleanup: 移除过时实验文件并更新依赖锁定文件
- 删除experiment_runner.py和number_extraction_models.py旧实验文件
- 更新uv.lock以反映新增的langextract和httpx[socks]依赖
|
2025-08-25 20:51:41 +08:00 |
|
|
|
c4037325ed
|
feat: 实现基于LangExtract框架的MIMIC论文信息提取系统
- 新增info_extractor.py主文件,支持命令行参数和测试模式
- 实现src/extractor.py核心MIMICLangExtractBuilder类
- 集成vllm API服务(OpenAI兼容格式)进行结构化信息提取
- 支持5大模块提取:数据集、模型、训练、评估、环境配置
- 实现源文本定位和交互式HTML可视化
- 添加langextract和httpx[socks]依赖
- 支持个性化论文子目录结果保存
- 清理过时的experiment_runner.py和number_extraction_models.py文件
|
2025-08-25 20:51:30 +08:00 |
|
|
|
1b652502d5
|
docs: 新增SubAgent系统完整示例和说明文档
- 添加详细的SubAgent使用指南(README.md)
- 创建完整的Pydantic模型示例(example_models.py)
- 实现基础使用示例,展示核心功能(basic_example.py)
- 构建复杂文本分析应用示例(text_analysis_example.py)
- 提供数字提取实验运行器作为参考示例
- 包含多Agent协作、批量处理、性能监控等高级功能
- 支持交互式演示和完整的错误处理机制
|
2025-08-25 17:33:20 +08:00 |
|
|
|
f7a06775ca
|
feat: 实现基于Agno框架的SubAgent系统
- 新增SubAgent核心类,支持多LLM提供商
- 实现动态prompt模板构建功能
- 添加JSON结构化输出和零容错解析
- 集成配置管理和模型工厂模式
- 提供完整的错误处理和日志系统
- 支持阿里云、DeepSeek、OpenAI等主流LLM服务
|
2025-08-25 17:33:11 +08:00 |
|
|
|
099159dfb7
|
feat: 新增PDF解析功能模块
- pdf_parser.py: PDF解析主程序,支持命令行参数和并发处理
- src/parse.py: PDF解析核心模块,提供PDFParser类
* 支持OCR API调用,将PDF转换为Markdown格式
* 内置HTTP会话管理、连接池优化和重试机制
* 支持并发处理和详细进度显示
* 完善的错误处理和日志记录功能
|
2025-08-24 15:07:42 +08:00 |
|
|
|
8d6d217c2f
|
fix: 优化论文爬取功能
- papers_crawler.py: 优化CSV下载参数默认值为"yes",提升用户体验
- src/crawler.py:
* 修复摘要字段换行符处理,确保数据清洁性
* 增强MedRxiv PDF链接获取策略,支持多种URL格式和版本号
|
2025-08-24 15:07:34 +08:00 |
|
|
|
367696788b
|
config: 更新开发环境配置
- .gitignore: 添加日志文件忽略规则(**/*.log)
- .vscode/launch.json: 为PDF解析器添加调试配置,支持不同参数测试
|
2025-08-24 15:07:26 +08:00 |
|
|
|
41e5fd1543
|
feat: 实现PDF下载功能
- 新增 download_pdfs_from_csv() 方法支持从CSV文件批量下载论文PDF
- 支持ArXiv和MedRxiv两种数据源的PDF链接解析和下载
- 实现并发下载控制、失败重试机制和PDF完整性验证
- 添加实时下载进度显示和详细的错误日志记录
- 更新命令行参数支持PDF下载测试功能
- 清理临时文件和更新.gitignore规则
|
2025-08-23 19:42:47 +08:00 |
|
|
|
802fe4b239
|
config: 更新.gitignore忽略macOS系统文件
- 添加.DS_Store到忽略列表
|
2025-08-23 16:33:51 +08:00 |
|
|
|
27398dc890
|
feat: 实现论文爬取核心功能
- 新增src/crawler.py模块,实现PaperCrawler类
- 更新papers_crawler.py主文件,集成实际爬取逻辑
- 添加requests依赖支持HTTP请求
- 更新依赖锁定文件uv.lock
|
2025-08-23 16:33:36 +08:00 |
|
|
|
6110251f05
|
style: 优化CSV工具文件代码格式
- 调整src/utils/csv_utils.py文件格式
- 统一代码风格,提升可读性
|
2025-08-23 12:29:49 +08:00 |
|
|
|
2b8cdaf742
|
feat: 添加论文爬取功能主文件
- 新增papers_crawler.py作为论文爬取主文件
- 实现论文信息获取和处理的核心功能
- 支持项目架构中定义的论文爬取需求
|
2025-08-23 12:28:45 +08:00 |
|
|
|
08a3f414b9
|
docs: 大幅更新开发规范和AI协作指导
- 添加绝对强制性规范声明和AI协作流程规范
- 详细完善编程规范,包含违反后果和理由说明
- 新增AI协作指导规范,定义4阶段工作流程
- 完善Memory Bank系统和工具使用原则
- 强化MVP项目特性,明确快速开发要求
|
2025-08-23 12:26:53 +08:00 |
|
|
|
a61fdc0437
|
config: 更新项目配置和依赖锁定文件
- 添加docs/CLAUDE*到.gitignore忽略列表
- 添加VS Code配置目录
- 添加uv.lock依赖锁定文件
|
2025-08-23 12:26:29 +08:00 |
|
|
|
6adf383f94
|
feat: 建立项目基础架构和开发规范
- 完善项目文档结构和开发规范
- 添加CSV数据处理工具模块
- 更新gitignore配置排除数据目录
- 建立完整的Memory Bank系统和AI协作流程
|
2025-08-23 11:34:46 +08:00 |
|
|
|
8213ae9a55
|
feat: 初始化MedResearcher项目
- 添加项目配置文件(pyproject.toml)
- 添加Python版本配置(.python-version)
- 添加项目文档(README.md, CLAUDE.md)
- 添加Git配置(.gitignore)
|
2025-08-23 00:20:41 +08:00 |
|