mirror of
https://git.mirrors.martin98.com/https://github.com/infiniflow/ragflow.git
synced 2025-08-14 13:55:56 +08:00
### What problem does this PR solve? feat: Add html to the description text of the parsing method general #336 ### Type of change - [x] New Feature (non-breaking change which adds functionality)
This commit is contained in:
parent
6a0702f55f
commit
deeb950e1c
@ -200,7 +200,7 @@ export default {
|
||||
We assume manual has hierarchical section structure. We use the lowest section titles as pivots to slice documents.
|
||||
So, the figures and tables in the same section will not be sliced apart, and chunk size might be large.
|
||||
</p>`,
|
||||
naive: `<p>Supported file formats are <b>DOCX, EXCEL, PPT, IMAGE, PDF, TXT, MD, JSON, EML</b>.</p>
|
||||
naive: `<p>Supported file formats are <b>DOCX, EXCEL, PPT, IMAGE, PDF, TXT, MD, JSON, EML, HTML</b>.</p>
|
||||
<p>This method apply the naive ways to chunk files: </p>
|
||||
<p>
|
||||
<li>Successive text will be sliced into pieces using vision detection model.</li>
|
||||
|
@ -191,7 +191,7 @@ export default {
|
||||
我們假設手冊具有分層部分結構。我們使用最低的部分標題作為對文檔進行切片的樞軸。
|
||||
因此,同一部分中的圖和表不會被分割,並且塊大小可能會很大。
|
||||
</p>`,
|
||||
naive: `<p>支持的文件格式為<b>DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML</b>。</p>
|
||||
naive: `<p>支持的文件格式為<b>DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML、HTML</b>。</p>
|
||||
<p>此方法將簡單的方法應用於塊文件:</p>
|
||||
<p>
|
||||
<li>系統將使用視覺檢測模型將連續文本分割成多個片段。</li>
|
||||
|
@ -192,7 +192,7 @@ export default {
|
||||
我们假设手册具有分层部分结构。 我们使用最低的部分标题作为对文档进行切片的枢轴。
|
||||
因此,同一部分中的图和表不会被分割,并且块大小可能会很大。
|
||||
</p>`,
|
||||
naive: `<p>支持的文件格式为<b>DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML</b>。</p>
|
||||
naive: `<p>支持的文件格式为<b>DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML、HTML</b>。</p>
|
||||
<p>此方法将简单的方法应用于块文件:</p>
|
||||
<p>
|
||||
<li>系统将使用视觉检测模型将连续文本分割成多个片段。</li>
|
||||
|
Loading…
x
Reference in New Issue
Block a user