登录
注册
开源
企业版
高校版
搜索
帮助中心
使用条款
关于我们
开源
企业版
高校版
私有云
模力方舟
AI 队友
登录
注册
11月29日 Gitee Talk | 模力方舟 AI 沙龙深圳站:看懂算力到应用的下一个主战场!点击立即报名~
代码拉取完成,页面将自动刷新
捐赠
捐赠前请先登录
取消
前往登录
扫描微信二维码支付
取消
支付完成
支付提示
将跳转至支付宝完成支付
确定
取消
Watch
不关注
关注所有动态
仅关注版本发行动态
关注但不提醒动态
20
Star
6
Fork
17
openEuler
/
euler-copilot-rag
代码
Issues
2
Pull Requests
2
Wiki
统计
流水线
服务
JavaDoc
PHPDoc
质量分析
Jenkins for Gitee
腾讯云托管
腾讯云 Serverless
悬镜安全
阿里云 SAE
Codeblitz
SBOM
我知道了,不再自动展开
更新失败,请稍后重试!
移除标识
内容风险标识
本任务被
标识为内容中包含有代码安全 Bug 、隐私泄露等敏感信息,仓库外成员不可访问
开发路线图
待办的
#ICJVXR
任务
zxstty
成员
创建于
2025-07-04 09:50
### 版本【0.9.5】 - [X] 增加三种解析方法 - [X] general(敏捷解析方法,提取文档内表格和文字) - [X] 支持的文档种类 doc docx pdf html json yaml md md.zip pptx txt xlsx csv html - [X] ocr(提取文档内表格、文字和图片(文字内容 仅对pdf docx起效)) - [X] 支持的文档种类 doc docx pdf html json yaml md md.zip pptx txt xlsx csv html jpg jpeg png - [X] enhanced(提取文档内表格、文字和图片(文字内容并总结 仅对pdf docx起效)) - [X] 支持的文档种类 doc docx pdf html json yaml md md.zip pptx txt xlsx csv html jpg jpeg png - [X] 支持对文档解析结果分类 - [X] 表格 - [X] 文字 - [X] 图片 - [X] 支持 xlsx pdf docx txt ppt md doc html的解析 - [X] 支持以id形式使用资产库 - [X] 支持混合检索方法对文档进行检索 - [X] 支持通过脚本的方式对embedding模型进行微调 ### 版本【0.9.6】 - [X] 支持文档摘要 -[X] 在非enhanced直接使用全文的前256个字符作为文档的摘要 -[X] 在enhanced情况下基于文档内容进行总结,生成摘要。 - [X] 增强两种解析方法,增加两种解析方法 - [X] 强化 - [X] ocr(提取文档内表格、文字和图片(文字内容 仅对pdf docx md md.zip html pptx起效)) - [X] enhanced(提取文档内表格、文字和图片(文字内容并总结 仅对pdf docx md md.zip html pptx起效)) - [X] 增加 - [X] deep(轻量化pdf深度解析方法) - [X] 支持的文档种类 pdf - [X] 支持对md、md.zip和html文档进行树形解析 - [X] 支持将上诉几种文档解析为树,并且对于标题节点(h[1-6]和div等),会在enhanced模式下进行总结增加后续检索的召回率。 - [X] 支持8种检索增强方法 - [X] vector (基于向量的检索) - [X] keyword (基于严格(要求包含所有关键字)+非严格(要求包含部分关键字)关键字的检索) - [X] dynamic_weight_keyword (基于动态权重关键字的检索) - [X] keyword_and_vector (基于基于严格(&)+非严格(|)关键字+向量的检索) - [X] dynamic_weight_keyword_and_vector (基于动态权重关键字+向量的检索) - [X] doc2chunk (基于文档摘要和向量的检索,先基于向量化手段匹配到对应的文档候选集,接着再基于文档候选集进行解析结果的检索,此方法可以一定程度上区分同质化成都比较高的文档(例如openEuler 24.03 sp1和sp2的白皮书)) - [X] doc2chunk_bfs (基于文档摘要和向量的层次化检索,先基于向量化手段匹配到对应的(解析为树的)文档候选集,接着再基于文档候选集进行解析结果的按层(bfs)检索,此方法再区分同质化文档的情况下能一定成都区分同质化内容(例如一本安装手册中的某两个模块有一样的功能介绍)) - [X] enhanced_by_llm (基于大模型过滤的检索,基于大模型对检索内容进行过滤,可以区分同质化内容) - [X] query_extend (基于问题扩展的检索) - [X] 增加数据治理流水线 - [X] 数据集生成,支持基于文档解析结果,随机化生成问答对用于准确率测试 - [X] 支持在数据集创建限制条目 是否清洗数据集 是否关联上下文 - [X] 支持数据集导入和导出 - [X] 支持对单条测试数据内容进行调整 - [X] 支持基于生成的数据进行准确率测试 - [X] 基于解析完成的文档生成数据集 - [X] 支持在数据集生成的过程中进行数据清洗&评分 - [X] 支持xlsx、json和yaml形式的本地数据集导入 - [X] 支持手动调整数据集 - [X] 基于生成的数据集 - [X] 支持选择检索增强方法等基本测试参数进行测试 - [X] 支持通过 rag_as四项标准以及 最长公共子串、编辑距离和杰卡德距离进行测试结果评估 - [X] 支持测试报告下载 - [X] 增加简单团队功能 - [X] 支持团队创建和删除 - [X] 增加 csv png jpg md.zip yaml json 的解析 - [X] 作为(openEuler intelligence)工作流的知识库节点参数高度自定义 - [X] knowledge_base_ids 支持多个资产库 - [X] top_k 每个资产库选择top_k条数据 - [X] document_ids 限制检索的文档id - [X] search_method 建设增强的方法 - [X] is_related_surrounding 支持上下文关联 - [X] is_classify_by_doc 支持基于文档层面的片段整合 - [X] is_rerank 支持基于杰卡德距离的重排序 - [X] is_compress 支持token压缩 - [X] tokens_limit 支持token限制(与上下文关联配合使用) ### 版本【0.10.0】 - [X] 增加pdf深度解析方法 - [X] fine(pdf结构化解析方法,pdf->md->解析结果) - [X] 支持的文档种类 pdf - [X] 增加解析结果关联的文档及下载链接返回 ### 待进行 - [X] 增强团队管理及团队 加入 邀请 角色管理
### 版本【0.9.5】 - [X] 增加三种解析方法 - [X] general(敏捷解析方法,提取文档内表格和文字) - [X] 支持的文档种类 doc docx pdf html json yaml md md.zip pptx txt xlsx csv html - [X] ocr(提取文档内表格、文字和图片(文字内容 仅对pdf docx起效)) - [X] 支持的文档种类 doc docx pdf html json yaml md md.zip pptx txt xlsx csv html jpg jpeg png - [X] enhanced(提取文档内表格、文字和图片(文字内容并总结 仅对pdf docx起效)) - [X] 支持的文档种类 doc docx pdf html json yaml md md.zip pptx txt xlsx csv html jpg jpeg png - [X] 支持对文档解析结果分类 - [X] 表格 - [X] 文字 - [X] 图片 - [X] 支持 xlsx pdf docx txt ppt md doc html的解析 - [X] 支持以id形式使用资产库 - [X] 支持混合检索方法对文档进行检索 - [X] 支持通过脚本的方式对embedding模型进行微调 ### 版本【0.9.6】 - [X] 支持文档摘要 -[X] 在非enhanced直接使用全文的前256个字符作为文档的摘要 -[X] 在enhanced情况下基于文档内容进行总结,生成摘要。 - [X] 增强两种解析方法,增加两种解析方法 - [X] 强化 - [X] ocr(提取文档内表格、文字和图片(文字内容 仅对pdf docx md md.zip html pptx起效)) - [X] enhanced(提取文档内表格、文字和图片(文字内容并总结 仅对pdf docx md md.zip html pptx起效)) - [X] 增加 - [X] deep(轻量化pdf深度解析方法) - [X] 支持的文档种类 pdf - [X] 支持对md、md.zip和html文档进行树形解析 - [X] 支持将上诉几种文档解析为树,并且对于标题节点(h[1-6]和div等),会在enhanced模式下进行总结增加后续检索的召回率。 - [X] 支持8种检索增强方法 - [X] vector (基于向量的检索) - [X] keyword (基于严格(要求包含所有关键字)+非严格(要求包含部分关键字)关键字的检索) - [X] dynamic_weight_keyword (基于动态权重关键字的检索) - [X] keyword_and_vector (基于基于严格(&)+非严格(|)关键字+向量的检索) - [X] dynamic_weight_keyword_and_vector (基于动态权重关键字+向量的检索) - [X] doc2chunk (基于文档摘要和向量的检索,先基于向量化手段匹配到对应的文档候选集,接着再基于文档候选集进行解析结果的检索,此方法可以一定程度上区分同质化成都比较高的文档(例如openEuler 24.03 sp1和sp2的白皮书)) - [X] doc2chunk_bfs (基于文档摘要和向量的层次化检索,先基于向量化手段匹配到对应的(解析为树的)文档候选集,接着再基于文档候选集进行解析结果的按层(bfs)检索,此方法再区分同质化文档的情况下能一定成都区分同质化内容(例如一本安装手册中的某两个模块有一样的功能介绍)) - [X] enhanced_by_llm (基于大模型过滤的检索,基于大模型对检索内容进行过滤,可以区分同质化内容) - [X] query_extend (基于问题扩展的检索) - [X] 增加数据治理流水线 - [X] 数据集生成,支持基于文档解析结果,随机化生成问答对用于准确率测试 - [X] 支持在数据集创建限制条目 是否清洗数据集 是否关联上下文 - [X] 支持数据集导入和导出 - [X] 支持对单条测试数据内容进行调整 - [X] 支持基于生成的数据进行准确率测试 - [X] 基于解析完成的文档生成数据集 - [X] 支持在数据集生成的过程中进行数据清洗&评分 - [X] 支持xlsx、json和yaml形式的本地数据集导入 - [X] 支持手动调整数据集 - [X] 基于生成的数据集 - [X] 支持选择检索增强方法等基本测试参数进行测试 - [X] 支持通过 rag_as四项标准以及 最长公共子串、编辑距离和杰卡德距离进行测试结果评估 - [X] 支持测试报告下载 - [X] 增加简单团队功能 - [X] 支持团队创建和删除 - [X] 增加 csv png jpg md.zip yaml json 的解析 - [X] 作为(openEuler intelligence)工作流的知识库节点参数高度自定义 - [X] knowledge_base_ids 支持多个资产库 - [X] top_k 每个资产库选择top_k条数据 - [X] document_ids 限制检索的文档id - [X] search_method 建设增强的方法 - [X] is_related_surrounding 支持上下文关联 - [X] is_classify_by_doc 支持基于文档层面的片段整合 - [X] is_rerank 支持基于杰卡德距离的重排序 - [X] is_compress 支持token压缩 - [X] tokens_limit 支持token限制(与上下文关联配合使用) ### 版本【0.10.0】 - [X] 增加pdf深度解析方法 - [X] fine(pdf结构化解析方法,pdf->md->解析结果) - [X] 支持的文档种类 pdf - [X] 增加解析结果关联的文档及下载链接返回 ### 待进行 - [X] 增强团队管理及团队 加入 邀请 角色管理
评论 (
1
)
登录
后才可以发表评论
状态
待办的
待办的
进行中
已完成
已拒绝
负责人
未设置
标签
sig/sig-intelligence
未设置
项目
未立项任务
未立项任务
里程碑
未关联里程碑
未关联里程碑
Pull Requests
未关联
未关联
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
未关联
分支 (12)
标签 (1)
master
release-0.10.1
release-0.10.0
dev
release-0.9.6
release-0.9.5
release-0.9.4
release-0.4.2
release-0.9.1-i8n
release-0.9.3
release-0.9.1
release-0.4.1
v0.9.6
开始日期   -   截止日期
-
置顶选项
不置顶
置顶等级:高
置顶等级:中
置顶等级:低
优先级
不指定
严重
主要
次要
不重要
预计工期
(小时)
参与者(1)
1
https://gitee.com/openeuler/euler-copilot-rag.git
git@gitee.com:openeuler/euler-copilot-rag.git
openeuler
euler-copilot-rag
euler-copilot-rag
点此查找更多帮助
搜索帮助
Git 命令在线学习
如何在 Gitee 导入 GitHub 仓库
Git 仓库基础操作
企业版和社区版功能对比
SSH 公钥设置
如何处理代码冲突
仓库体积过大,如何减小?
如何找回被删除的仓库数据
Gitee 产品配额说明
GitHub仓库快速导入Gitee及同步更新
什么是 Release(发行版)
将 PHP 项目自动发布到 packagist.org
仓库举报
回到顶部
登录提示
该操作需登录 Gitee 帐号,请先登录后再操作。
立即登录
没有帐号,去注册