From deeb950e1c75321e44d06771f39c98115cf2ef8a Mon Sep 17 00:00:00 2001
From: balibabu
Date: Sat, 14 Sep 2024 15:18:34 +0800
Subject: [PATCH] feat: Add html to the description text of the parsing method
general #336 (#2432)
### What problem does this PR solve?
feat: Add html to the description text of the parsing method general
#336
### Type of change
- [x] New Feature (non-breaking change which adds functionality)
---
web/src/locales/en.ts | 2 +-
web/src/locales/zh-traditional.ts | 2 +-
web/src/locales/zh.ts | 2 +-
3 files changed, 3 insertions(+), 3 deletions(-)
diff --git a/web/src/locales/en.ts b/web/src/locales/en.ts
index 41349292f..8f8970e59 100644
--- a/web/src/locales/en.ts
+++ b/web/src/locales/en.ts
@@ -200,7 +200,7 @@ export default {
We assume manual has hierarchical section structure. We use the lowest section titles as pivots to slice documents.
So, the figures and tables in the same section will not be sliced apart, and chunk size might be large.
`,
- naive: `Supported file formats are DOCX, EXCEL, PPT, IMAGE, PDF, TXT, MD, JSON, EML.
+ naive: `Supported file formats are DOCX, EXCEL, PPT, IMAGE, PDF, TXT, MD, JSON, EML, HTML.
This method apply the naive ways to chunk files:
Successive text will be sliced into pieces using vision detection model.
diff --git a/web/src/locales/zh-traditional.ts b/web/src/locales/zh-traditional.ts
index bce3fbb7b..b53df63e5 100644
--- a/web/src/locales/zh-traditional.ts
+++ b/web/src/locales/zh-traditional.ts
@@ -191,7 +191,7 @@ export default {
我們假設手冊具有分層部分結構。我們使用最低的部分標題作為對文檔進行切片的樞軸。
因此,同一部分中的圖和表不會被分割,並且塊大小可能會很大。
`,
- naive: `支持的文件格式為DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML。
+ naive: `支持的文件格式為DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML、HTML。
此方法將簡單的方法應用於塊文件:
系統將使用視覺檢測模型將連續文本分割成多個片段。
diff --git a/web/src/locales/zh.ts b/web/src/locales/zh.ts
index 7c818b6e1..634af1a03 100644
--- a/web/src/locales/zh.ts
+++ b/web/src/locales/zh.ts
@@ -192,7 +192,7 @@ export default {
我们假设手册具有分层部分结构。 我们使用最低的部分标题作为对文档进行切片的枢轴。
因此,同一部分中的图和表不会被分割,并且块大小可能会很大。
`,
- naive: `支持的文件格式为DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML。
+ naive: `支持的文件格式为DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML、HTML。
此方法将简单的方法应用于块文件:
系统将使用视觉检测模型将连续文本分割成多个片段。