From 30846c83b2929c0a5b09036aed7f34e003cb7b44 Mon Sep 17 00:00:00 2001
From: balibabu The supported file formats are PDF, PPTX.
Every page will be treated as a chunk. And the thumbnail of every page will be stored.
All the PPT files you uploaded will be chunked by using this method automatically, setting-up for every PPT file is not necessary. EXCEL and CSV/TXT files are supported.
- If the file is in excel format, there should be 2 columns question and answer without header.
- And question column is ahead of answer column.
- And it's O.K if it has multiple sheets as long as the columns are rightly composed.
-
- If it's in csv format, it should be UTF-8 encoded. Use TAB as delimiter to separate question and answer.
-
- All the deformed lines will be ignored.
- Every pair of Q&A will be treated as a chunk.
+ This chunk method supports EXCEL and CSV/TXT file formats.
+
+
+ Lines of texts that fail to follow the above rules will be ignored, and
+ each Q&A pair will be considered a distinct chunk.
+
+ The supported file formats are DOCX, PDF, TXT.
The résumé comes in a variety of formats, just like a person’s personality, but we often have to organize them into structured data that makes it easy to search.
diff --git a/web/src/locales/zh-traditional.ts b/web/src/locales/zh-traditional.ts
index 6ea310d81..f469759ca 100644
--- a/web/src/locales/zh-traditional.ts
+++ b/web/src/locales/zh-traditional.ts
@@ -144,12 +144,12 @@ export default {
languagePlaceholder: '請輸入語言',
permissions: '權限',
embeddingModel: '嵌入模型',
- chunkTokenNumber: '塊令牌數',
- chunkTokenNumberMessage: '塊令牌數是必填項',
+ chunkTokenNumber: '塊Token數',
+ chunkTokenNumberMessage: '塊Token數是必填項',
embeddingModelTip:
'用於嵌入塊的嵌入模型。一旦知識庫有了塊,它就無法更改。如果你想改變它,你需要刪除所有的塊。',
permissionsTip: '如果權限是“團隊”,則所有團隊成員都可以操作知識庫。',
- chunkTokenNumberTip: '它大致確定了一個塊的令牌數量。',
+ chunkTokenNumberTip: '它大致確定了一個塊的Token數量。',
chunkMethod: '解析方法',
chunkMethodTip: '說明位於右側。',
upload: '上傳',
@@ -163,7 +163,7 @@ export default {
cancel: '取消',
methodTitle: '分塊方法說明',
methodExamples: '示例',
- methodExamplesDescription: '這個視覺指南是為了讓您更容易理解。',
+ methodExamplesDescription: '提出以下屏幕截圖以促進理解。',
dialogueExamplesTitle: '對話示例',
methodEmpty: '這將顯示知識庫類別的可視化解釋',
book: ` 支持的文件格式為DOCX、PDF、TXT。
@@ -182,7 +182,7 @@ export default {
此方法將簡單的方法應用於塊文件:
僅支持PDF文件。
如果我們的模型運行良好,論文將按其部分進行切片,例如摘要、1.1、1.2等。
這樣做的好處是LLM可以更好的概括論文中相關章節的內容, @@ -192,15 +192,24 @@ export default { presentation: `
支持的文件格式為PDF、PPTX。
每個頁面都將被視為一個塊。並且每個頁面的縮略圖都會被存儲。
您上傳的所有PPT文件都會使用此方法自動分塊,無需為每個PPT文件進行設置。
`, - qa: `支持EXCEL和CSV/TXT文件。
- 如果文件是Excel格式,應該有2列問題和答案,沒有標題。 - 問題欄位於答案欄之前。 - 如果有多個工作表也沒關係,只要列的組合正確即可。
- - 如果是 csv 格式,則應採用 UTF-8 編碼。使用 TAB 作為分隔符來分隔問題和答案。
- - 所有變形的線都將被忽略。 - 每對問答都將被視為一個塊。
`, + qa: `+ 此塊方法支持 excel 和 csv/txt 文件格式。 +
++ + 未能遵循上述規則的文本行將被忽略,並且 + 每個問答對將被認為是一個獨特的部分。 + `, resume: `
支持的文件格式為DOCX、PDF、TXT。
簡歷有多種格式,就像一個人的個性一樣,但我們經常必須將它們組織成結構化數據,以便於搜索。 @@ -414,7 +423,7 @@ export default { 202: '一個請求已經進入後台排隊(異步任務)。', 204: '刪除數據成功。', 400: '發出的請求有錯誤,服務器沒有進行新建或修改數據的操作。', - 401: '用戶沒有權限(令牌、用戶名、密碼錯誤)。', + 401: '用戶沒有權限(Token、用戶名、密碼錯誤)。', 403: '用戶得到授權,但是訪問是被禁止的。', 404: '發出的請求針對的是不存在的記錄,服務器沒有進行操作。', 406: '請求的格式不可得。', diff --git a/web/src/locales/zh.ts b/web/src/locales/zh.ts index bf97cbf41..6d662342f 100644 --- a/web/src/locales/zh.ts +++ b/web/src/locales/zh.ts @@ -145,12 +145,12 @@ export default { languagePlaceholder: '请输入语言', permissions: '权限', embeddingModel: '嵌入模型', - chunkTokenNumber: '块令牌数', - chunkTokenNumberMessage: '块令牌数是必填项', + chunkTokenNumber: '块Token数', + chunkTokenNumberMessage: '块Token数是必填项', embeddingModelTip: '用于嵌入块的嵌入模型。 一旦知识库有了块,它就无法更改。 如果你想改变它,你需要删除所有的块。', permissionsTip: '如果权限是“团队”,则所有团队成员都可以操作知识库。', - chunkTokenNumberTip: '它大致确定了一个块的令牌数量。', + chunkTokenNumberTip: '它大致确定了一个块的Token数量。', chunkMethod: '解析方法', chunkMethodTip: '说明位于右侧。', upload: '上传', @@ -164,7 +164,7 @@ export default { cancel: '取消', methodTitle: '分块方法说明', methodExamples: '示例', - methodExamplesDescription: '这个视觉指南是为了让您更容易理解。', + methodExamplesDescription: '提出以下屏幕截图以促进理解。', dialogueExamplesTitle: '对话示例', methodEmpty: '这将显示知识库类别的可视化解释', book: `
支持的文件格式为DOCX、PDF、TXT。
@@ -183,7 +183,7 @@ export default {
此方法将简单的方法应用于块文件:
仅支持PDF文件。
如果我们的模型运行良好,论文将按其部分进行切片,例如摘要、1.1、1.2等。
这样做的好处是LLM可以更好的概括论文中相关章节的内容, @@ -193,15 +193,25 @@ export default { presentation: `
支持的文件格式为PDF、PPTX。
每个页面都将被视为一个块。 并且每个页面的缩略图都会被存储。
您上传的所有PPT文件都会使用此方法自动分块,无需为每个PPT文件进行设置。
`, - qa: `支持EXCEL和CSV/TXT文件。
- 如果文件是Excel格式,应该有2列问题和答案,没有标题。 - 问题栏位于答案栏之前。 - 如果有多个工作表也没关系,只要列的组合正确即可。
- - 如果是 csv 格式,则应采用 UTF-8 编码。 使用 TAB 作为分隔符来分隔问题和答案。
- - 所有变形的线都将被忽略。 - 每对问答都将被视为一个块。
`, + qa: `+ 此块方法支持 excel 和 csv/txt 文件格式。 +
++ + 未能遵循上述规则的文本行将被忽略,并且 + 每个问答对将被认为是一个独特的部分。 + +
`, resume: `支持的文件格式为DOCX、PDF、TXT。
简历有多种格式,就像一个人的个性一样,但我们经常必须将它们组织成结构化数据,以便于搜索。 @@ -430,7 +440,7 @@ export default { 202: '一个请求已经进入后台排队(异步任务)。', 204: '删除数据成功。', 400: '发出的请求有错误,服务器没有进行新建或修改数据的操作。', - 401: '用户没有权限(令牌、用户名、密码错误)。', + 401: '用户没有权限(Token、用户名、密码错误)。', 403: '用户得到授权,但是访问是被禁止的。', 404: '发出的请求针对的是不存在的记录,服务器没有进行操作。', 406: '请求的格式不可得。',