make language judgement robuster (#3287)

### What problem does this PR solve? ### Type of change - [x] Performance Improvement
2025-07-25 19:14:28 +08:00 · 2024-11-08 12:48:11 +08:00 · 2024-11-08 12:48:11 +08:00 · d88f0d43ea
commit d88f0d43ea
parent a2153d61ce
1 changed files with 2 additions and 1 deletions
--- a/rag/nlp/query.py
+++ b/rag/nlp/query.py
@ -63,9 +63,9 @@ class EsQueryer:
            rag_tokenizer.tradi2simp(
                rag_tokenizer.strQ2B(
                    txt.lower()))).strip()
-        txt = EsQueryer.rmWWW(txt)

        if not self.isChinese(txt):
+            txt = EsQueryer.rmWWW(txt)
            tks = rag_tokenizer.tokenize(txt).split(" ")
            tks_w = self.tw.weights(tks)
            tks_w = [(re.sub(r"[ \\\"'^]", "", tk), w) for tk, w in tks_w]
@ -89,6 +89,7 @@ class EsQueryer:
                return False
            return True

+        txt = EsQueryer.rmWWW(txt)
        qs, keywords = [], []
        for tt in self.tw.split(txt)[:256]:  # .split(" "):
            if not tt: