Update README.md

2025-08-14 04:15:51 +08:00 · 2025-05-14 03:15:39 +00:00 · 2025-05-14 03:15:39 +00:00 · 1522c8f912
commit 1522c8f912
parent 8995e34672
5 changed files with 12 additions and 303610 deletions
--- a/.gitattributes
+++ b/.gitattributes
@ -44,4 +44,7 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+
+assets/Skiing.mp4 filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
--- a/README.md
+++ b/README.md
@ -20,12 +20,14 @@ tags:
 - realtime speech conversation
 - asr
 - tts
+base_model:
+- openbmb/MiniCPM-o-2_6
 ---

 <h1>A GPT-4o Level MLLM for Vision, Speech and Multimodal Live Streaming on Your Phone</h1>

 ## MiniCPM-o 2.6 int4
-This is the int4 quantized version of [**MiniCPM-o 2.6**](https://modelscope.cn/models/OpenBMB/MiniCPM-o-2_6).   
+This is the int4 quantized version of [**MiniCPM-o 2.6**](https://huggingface.co/openbmb/MiniCPM-o-2_6).   
 Running with int4 version would use lower GPU memory (about 9GB).

 ### Prepare code and install AutoGPTQ
@ -66,4 +68,4 @@ model.init_tts()

 ```

-Usage reference [MiniCPM-o-2_6](https://modelscope.cn/models/OpenBMB/MiniCPM-o-2_6) Usage section.
+Usage reference [MiniCPM-o-2_6#usage](https://huggingface.co/openbmb/MiniCPM-o-2_6#usage)
--- a/assets/Skiing.mp4
+++ b/assets/Skiing.mp4
--- a/modeling_minicpmo.py
+++ b/modeling_minicpmo.py
@ -378,7 +378,7 @@ class MiniCPMO(MiniCPMOPreTrainedModel):
            vllm_embedding = self.llm.model.embed_tokens(data["input_ids"])

        new_vllm_embedding = vllm_embedding.clone()
-        
+
        vision_hidden_states = [
            i.type(vllm_embedding.dtype) if isinstance(i, torch.Tensor) else i for i in vision_hidden_states
        ]
--- a/tokenizer.json
+++ b/tokenizer.json