From 1d0dcddf6141341860132f0c6c95041da93588da Mon Sep 17 00:00:00 2001 From: writinwaters <93570324+writinwaters@users.noreply.github.com> Date: Thu, 15 May 2025 11:35:52 +0800 Subject: [PATCH] Docs: Miscellaneous UI updates (#7648) ### What problem does this PR solve? ### Type of change - [x] Documentation Update --- docs/guides/dataset/configure_knowledge_base.md | 8 ++++---- docs/release_notes.md | 2 +- web/src/locales/de.ts | 4 ++-- web/src/locales/en.ts | 8 ++++---- web/src/locales/es.ts | 2 +- web/src/locales/id.ts | 4 ++-- web/src/locales/ja.ts | 4 ++-- web/src/locales/pt-br.ts | 4 ++-- web/src/locales/vi.ts | 4 ++-- web/src/locales/zh-traditional.ts | 4 ++-- web/src/locales/zh.ts | 4 ++-- 11 files changed, 24 insertions(+), 24 deletions(-) diff --git a/docs/guides/dataset/configure_knowledge_base.md b/docs/guides/dataset/configure_knowledge_base.md index d0d686e27..d43798573 100644 --- a/docs/guides/dataset/configure_knowledge_base.md +++ b/docs/guides/dataset/configure_knowledge_base.md @@ -41,17 +41,17 @@ RAGFlow offers multiple chunking template to facilitate chunking files of differ | **Template** | Description | File format | |--------------|-----------------------------------------------------------------------|-----------------------------------------------------------------------------------------------| -| General | Files are consecutively chunked based on a preset chunk token number. | DOCX, XLSX, XLS (Excel97~2003), PPT, PDF, TXT, JPEG, JPG, PNG, TIF, GIF, CSV, JSON, EML, HTML | -| Q&A | | XLSX, XLS (Excel97~2003), CSV/TXT | +| General | Files are consecutively chunked based on a preset chunk token number. | DOCX, XLSX, XLS (Excel 97-2003), PPT, PDF, TXT, JPEG, JPG, PNG, TIF, GIF, CSV, JSON, EML, HTML | +| Q&A | | XLSX, XLS (Excel 97-2003), CSV/TXT | | Resume | Enterprise edition only. You can also try it out on demo.ragflow.io. | DOCX, PDF, TXT | | Manual | | PDF | -| Table | | XLSX, XLS (Excel97~2003), CSV/TXT | +| Table | | XLSX, XLS (Excel 97-2003), CSV/TXT | | Paper | | PDF | | Book | | DOCX, PDF, TXT | | Laws | | DOCX, PDF, TXT | | Presentation | | PDF, PPTX | | Picture | | JPEG, JPG, PNG, TIF, GIF | -| One | Each document is chunked in its entirety (as one). | DOCX, XLSX, XLS (Excel97~2003), PDF, TXT | +| One | Each document is chunked in its entirety (as one). | DOCX, XLSX, XLS (Excel 97-2003), PDF, TXT | | Tag | The knowledge base functions as a tag set for the others. | XLSX, CSV/TXT | You can also change a file's chunking method on the **Datasets** page. diff --git a/docs/release_notes.md b/docs/release_notes.md index 140698a62..0d0c71cce 100644 --- a/docs/release_notes.md +++ b/docs/release_notes.md @@ -89,7 +89,7 @@ Released on March 11, 2025. - Improves English tokenization quality. - Improves the table extraction logic in Markdown document parsing. - Updates SiliconFlow's model list. -- Supports parsing XLS files (Excel97~2003) with improved corresponding error handling. +- Supports parsing XLS files (Excel 97-2003) with improved corresponding error handling. - Supports Huggingface rerank models. - Enables relative time expressions ("now", "yesterday", "last week", "next year", and more) in chat assistant and the **Rewrite** agent component. diff --git a/web/src/locales/de.ts b/web/src/locales/de.ts index 481b81a38..858bb4b0c 100644 --- a/web/src/locales/de.ts +++ b/web/src/locales/de.ts @@ -173,7 +173,7 @@ export default { 'Ein Trennzeichen oder Separator kann aus einem oder mehreren Sonderzeichen bestehen. Bei mehreren Zeichen stellen Sie sicher, dass sie in Backticks (` `) eingeschlossen sind. Wenn Sie beispielsweise Ihre Trennzeichen so konfigurieren: \\n`##`;, dann werden Ihre Texte an Zeilenumbrüchen, doppelten Rautenzeichen (##) oder Semikolons getrennt. Setzen Sie Trennzeichen nur nachdem Sie das Mechanismus der Textsegmentierung und -chunking verstanden haben.', html4excel: 'Excel zu HTML', html4excelTip: - 'Verwenden Sie dies zusammen mit der General-Schnittmethode. Wenn deaktiviert, werden Tabellenkalkulationsdateien (XLSX, XLS (Excel97~2003)) zeilenweise in Schlüssel-Wert-Paare analysiert. Wenn aktiviert, werden Tabellenkalkulationsdateien in HTML-Tabellen umgewandelt. Wenn die ursprüngliche Tabelle mehr als 12 Zeilen enthält, teilt das System sie automatisch alle 12 Zeilen in mehrere HTML-Tabellen auf. Für weitere Informationen siehe https://ragflow.io/docs/dev/enable_excel2html.', + 'Verwenden Sie dies zusammen mit der General-Schnittmethode. Wenn deaktiviert, werden Tabellenkalkulationsdateien (XLSX, XLS (Excel 97-2003)) zeilenweise in Schlüssel-Wert-Paare analysiert. Wenn aktiviert, werden Tabellenkalkulationsdateien in HTML-Tabellen umgewandelt. Wenn die ursprüngliche Tabelle mehr als 12 Zeilen enthält, teilt das System sie automatisch alle 12 Zeilen in mehrere HTML-Tabellen auf. Für weitere Informationen siehe https://ragflow.io/docs/dev/enable_excel2html.', autoKeywords: 'Auto-Schlüsselwort', autoKeywordsTip: 'Extrahieren Sie automatisch N Schlüsselwörter für jeden Abschnitt, um deren Ranking in Abfragen mit diesen Schlüsselwörtern zu verbessern. Beachten Sie, dass zusätzliche Tokens vom in den "Systemmodelleinstellungen" angegebenen Chat-Modell verbraucht werden. Sie können die hinzugefügten Schlüsselwörter eines Abschnitts in der Abschnittsliste überprüfen oder aktualisieren.', @@ -255,7 +255,7 @@ export default { manual: `
Nur PDF wird unterstützt.
Wir gehen davon aus, dass das Handbuch eine hierarchische Abschnittsstruktur aufweist und verwenden die Titel der untersten Abschnitte als Grundeinheit für die Aufteilung der Dokumente. Daher werden Abbildungen und Tabellen im selben Abschnitt nicht getrennt, was zu größeren Chunk-Größen führen kann.
`, - naive: `Unterstützte Dateiformate sind DOCX, XLSX, XLS (Excel97~2003), PPT, PDF, TXT, JPEG, JPG, PNG, TIF, GIF, CSV, JSON, EML, HTML.
+ naive: `Unterstützte Dateiformate sind DOCX, XLSX, XLS (Excel 97-2003), PPT, PDF, TXT, JPEG, JPG, PNG, TIF, GIF, CSV, JSON, EML, HTML.
Diese Methode teilt Dateien mit einer 'naiven' Methode auf:
Only PDF is supported.
We assume that the manual has a hierarchical section structure, using the lowest section titles as basic unit for chunking documents. Therefore, figures and tables in the same section will not be separated, which may result in larger chunk sizes.
`, - naive: `Supported file formats are DOCX, XLSX, XLS (Excel97~2003), PPT, PDF, TXT, JPEG, JPG, PNG, TIF, GIF, CSV, JSON, EML, HTML.
+ naive: `Supported file formats are DOCX, XLSX, XLS (Excel 97-2003), PPT, PDF, TXT, JPEG, JPG, PNG, TIF, GIF, CSV, JSON, EML, HTML.
This method chunks files using a 'naive' method:
Supported file formats are DOCX, XLSX, XLS (Excel97~2003), PDF, TXT. +
Supported file formats are DOCX, XLSX, XLS (Excel 97-2003), PDF, TXT.
This method treats each document in its entirety as a chunk.
diff --git a/web/src/locales/es.ts b/web/src/locales/es.ts index 9daa3f07f..57a8a1f3a 100644 --- a/web/src/locales/es.ts +++ b/web/src/locales/es.ts @@ -156,7 +156,7 @@ export default { topKTip: `Utilizado junto con el Rerank model, esta configuración define el número de fragmentos de texto que se enviarán al modelo reranking especificado.`, delimiter: `Delimitadores para segmentación de texto`, html4excel: 'Excel a HTML', - html4excelTip: `Usar junto con el método de fragmentación General. Cuando está desactivado, los archivos de hoja de cálculo (XLSX, XLS (Excel97~2003)) se analizan línea por línea como pares clave-valor. Cuando está activado, los archivos de hoja de cálculo se convierten en tablas HTML. Si la tabla original tiene más de 12 filas, el sistema la dividirá automáticamente en varias tablas HTML cada 12 filas. Para más información, consulte https://ragflow.io/docs/dev/enable_excel2html.`, + html4excelTip: `Usar junto con el método de fragmentación General. Cuando está desactivado, los archivos de hoja de cálculo (XLSX, XLS (Excel 97-2003)) se analizan línea por línea como pares clave-valor. Cuando está activado, los archivos de hoja de cálculo se convierten en tablas HTML. Si la tabla original tiene más de 12 filas, el sistema la dividirá automáticamente en varias tablas HTML cada 12 filas. Para más información, consulte https://ragflow.io/docs/dev/enable_excel2html.`, }, // Otros bloques de traducción diff --git a/web/src/locales/id.ts b/web/src/locales/id.ts index 040a0d7d5..dbd89561b 100644 --- a/web/src/locales/id.ts +++ b/web/src/locales/id.ts @@ -160,7 +160,7 @@ export default { topKTip: `Digunakan bersama dengan Rerank model, pengaturan ini menentukan jumlah potongan teks yang akan dikirim ke model reranking yang ditentukan.`, delimiter: `Pemisah untuk segmentasi teks`, html4excel: 'Excel ke HTML', - html4excelTip: `Gunakan bersama dengan metode pemotongan General. Ketika dinonaktifkan, file spreadsheet (XLSX, XLS (Excel97~2003)) akan dianalisis baris demi baris menjadi pasangan kunci-nilai. Ketika diaktifkan, file spreadsheet akan dianalisis menjadi tabel HTML. Jika tabel asli memiliki lebih dari 12 baris, sistem akan secara otomatis membagi menjadi beberapa tabel HTML setiap 12 baris. Untuk informasi lebih lanjut, lihat https://ragflow.io/docs/dev/enable_excel2html.`, + html4excelTip: `Gunakan bersama dengan metode pemotongan General. Ketika dinonaktifkan, file spreadsheet (XLSX, XLS (Excel 97-2003)) akan dianalisis baris demi baris menjadi pasangan kunci-nilai. Ketika diaktifkan, file spreadsheet akan dianalisis menjadi tabel HTML. Jika tabel asli memiliki lebih dari 12 baris, sistem akan secara otomatis membagi menjadi beberapa tabel HTML setiap 12 baris. Untuk informasi lebih lanjut, lihat https://ragflow.io/docs/dev/enable_excel2html.`, }, knowledgeConfiguration: { titleDescription: @@ -211,7 +211,7 @@ export default { Kami mengasumsikan manual memiliki struktur bagian hierarkis. Kami menggunakan judul bagian terendah sebagai poros untuk memotong dokumen. Jadi, gambar dan tabel dalam bagian yang sama tidak akan dipisahkan, dan ukuran potongan mungkin besar.
`, - naive: `Format file yang didukung adalah DOCX, XLSX, XLS (Excel97~2003), PPT, PDF, TXT, JPEG, JPG, PNG, TIF, GIF, CSV, JSON, EML, HTML.
+ naive: `Format file yang didukung adalah DOCX, XLSX, XLS (Excel 97-2003), PPT, PDF, TXT, JPEG, JPG, PNG, TIF, GIF, CSV, JSON, EML, HTML.
Metode ini menerapkan cara naif untuk memotong file:
対応するのはPDFのみです。
マニュアルは階層的なセクション構造を持つと仮定され、最下位のセクションタイトルを基にチャンク分割を行います。そのため、同じセクション内の図表は分割されませんが、大きなチャンクサイズになる可能性があります。
`, - naive: `対応ファイル形式はDOCX, XLSX, XLS (Excel97~2003), PPT, PDF, TXT, JPEG, JPG, PNG, TIF, GIF, CSV, JSON, EML, HTMLです。
+ naive: `対応ファイル形式はDOCX, XLSX, XLS (Excel 97-2003), PPT, PDF, TXT, JPEG, JPG, PNG, TIF, GIF, CSV, JSON, EML, HTMLです。
この方法では、'ナイーブ'な方法でファイルを分割します:
Apenas PDF é suportado.
Assumimos que o manual tem uma estrutura hierárquica de seções, usando os títulos das seções inferiores como unidade básica para fragmentação. Assim, figuras e tabelas na mesma seção não serão separadas, o que pode resultar em fragmentos maiores.
`, - naive: `Os formatos de arquivo suportados são DOCX, XLSX, XLS (Excel97~2003), PPT, PDF, TXT, JPEG, JPG, PNG, TIF, GIF, CSV, JSON, EML, HTML.
+ naive: `Os formatos de arquivo suportados são DOCX, XLSX, XLS (Excel 97-2003), PPT, PDF, TXT, JPEG, JPG, PNG, TIF, GIF, CSV, JSON, EML, HTML.
Este método fragmenta arquivos de maneira 'simples':
Các định dạng tệp được hỗ trợ là DOCX, XLSX, XLS (Excel97~2003), PPT, PDF, TXT, JPEG, JPG, PNG, TIF, GIF, CSV, JSON, EML, HTML.
`, +Các định dạng tệp được hỗ trợ là DOCX, XLSX, XLS (Excel 97-2003), PPT, PDF, TXT, JPEG, JPG, PNG, TIF, GIF, CSV, JSON, EML, HTML.
`, paper: `Chỉ hỗ trợ tệp PDF.
Bài báo sẽ được chia theo các phần, chẳng hạn như tóm tắt, 1.1, 1.2.
Cách tiếp cận này cho phép LLM tóm tắt bài báo hiệu quả hơn và cung cấp các phản hồi toàn diện, dễ hiểu hơn. diff --git a/web/src/locales/zh-traditional.ts b/web/src/locales/zh-traditional.ts index 6bd801b94..923a94b66 100644 --- a/web/src/locales/zh-traditional.ts +++ b/web/src/locales/zh-traditional.ts @@ -167,7 +167,7 @@ export default { delimiterTip: '支持多字符作為分隔符,多字符用兩個反引號 \\`\\` 分隔符包裹。若配置成:\\n`##`; 系統將首先使用換行符、兩個#號以及分號先對文本進行分割,隨後再對分得的小文本塊按照「建议文本块大小」設定的大小進行拼裝。在设置文本分段標識符之前,請確保您已理解上述文本分段切片機制。', html4excel: '表格轉HTML', - html4excelTip: `與 General 切片方法配合使用。未開啟狀態下,表格檔案(XLSX、XLS(Excel97~2003)會按行解析為鍵值對。開啟後,表格檔案會被解析為 HTML 表格。若原始表格超過 12 行,系統會自動按每 12 行拆分為多個 HTML 表格。欲了解更多資訊,請參閱 https://ragflow.io/docs/dev/enable_excel2html。`, + html4excelTip: `與 General 切片方法配合使用。未開啟狀態下,表格檔案(XLSX、XLS(Excel 97-2003)會按行解析為鍵值對。開啟後,表格檔案會被解析為 HTML 表格。若原始表格超過 12 行,系統會自動按每 12 行拆分為多個 HTML 表格。欲了解更多資訊,請參閱 https://ragflow.io/docs/dev/enable_excel2html。`, autoKeywords: '自動關鍵字', autoKeywordsTip: `自動為每個文字區塊中提取 N 個關鍵詞,以提升查詢精度。請注意:此功能採用「系統模型設定」中設定的預設聊天模型提取關鍵詞,因此也會產生更多 Token 消耗。此外,你也可以手動更新生成的關鍵詞。`, autoQuestions: '自動問題', @@ -246,7 +246,7 @@ export default { 我們假設手冊具有分層部分結構。我們使用最低的部分標題作為對文檔進行切片的樞軸。 因此,同一部分中的圖和表不會被分割,並且塊大小可能會很大。
`, - naive: `支持的文件格式為DOCX、XLSX、XLS (Excel97~2003)、PPT、PDF、TXT、JPEG、JPG、PNG、TIF、GIF、CSV、JSON、EML、HTML。
+ naive: `支持的文件格式為DOCX、XLSX、XLS (Excel 97-2003)、PPT、PDF、TXT、JPEG、JPG、PNG、TIF、GIF、CSV、JSON、EML、HTML。
此方法將簡單的方法應用於塊文件:
支持的文件格式为DOCX、XLSX、XLS (Excel97~2003)、PPT、PDF、TXT、JPEG、JPG、PNG、TIF、GIF、CSV、JSON、EML、HTML。
+ naive: `支持的文件格式为DOCX、XLSX、XLS (Excel 97-2003)、PPT、PDF、TXT、JPEG、JPG、PNG、TIF、GIF、CSV、JSON、EML、HTML。
此方法将简单的方法应用于块文件: