Create README.md
Browse files
README.md
ADDED
@@ -0,0 +1,124 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
license: apache-2.0
|
3 |
+
base_model: Qwen2.5-3B-Instruct
|
4 |
+
language:
|
5 |
+
- zh
|
6 |
+
- id
|
7 |
+
tags:
|
8 |
+
- gguf
|
9 |
+
- quantized
|
10 |
+
- text-generation
|
11 |
+
- llama
|
12 |
+
- q4_k_m
|
13 |
+
- efficient
|
14 |
+
model_type: llama
|
15 |
+
quantization: Q4_K_M
|
16 |
+
---
|
17 |
+
|
18 |
+
# Royal ZhTW-ID Q4_K_M - Quantized Translation Model
|
19 |
+
|
20 |
+
高效能量化版本的繁體中文↔印尼文雙向翻譯 GGUF 模型,基於 Llama 架構,採用 Q4_K_M 量化技術。
|
21 |
+
|
22 |
+
## 模型詳情
|
23 |
+
- **格式**: GGUF
|
24 |
+
- **量化**: Q4_K_M (混合精度量化)
|
25 |
+
- **架構**: Llama
|
26 |
+
- **大小**: ~4.36GB (相較原版 F16 減少約 69% 大小)
|
27 |
+
- **語言**: 繁體中文 (zh-TW) ↔ 印尼文 (ID) 雙向翻譯
|
28 |
+
- **原始模型**: roylin1003/royal-zhTW-ID-f16.gguf
|
29 |
+
- **量化工具**: llama-quantize (llama.cpp)
|
30 |
+
|
31 |
+
## 量化資訊
|
32 |
+
此模型使用 Q4_K_M 量化,提供:
|
33 |
+
- 大幅減少記憶體使用量
|
34 |
+
- 保持良好的模型品質
|
35 |
+
- 更快的推理速度
|
36 |
+
- 適合資源有限的環境
|
37 |
+
|
38 |
+
## 使用方式
|
39 |
+
|
40 |
+
### Ollama
|
41 |
+
```bash
|
42 |
+
ollama run roylin1003/royal-ZhTW-ID-q4_k_m.gguf
|
43 |
+
```
|
44 |
+
|
45 |
+
### llama.cpp
|
46 |
+
```bash
|
47 |
+
./main -m royal-ZhTW-ID-q4_k_m.gguf -p "Hello" -c 2048
|
48 |
+
```
|
49 |
+
|
50 |
+
### Python (llama-cpp-python)
|
51 |
+
```python
|
52 |
+
from llama_cpp import Llama
|
53 |
+
llm = Llama(
|
54 |
+
model_path="royal-ZhTW-ID-q4_k_m.gguf",
|
55 |
+
n_ctx=2048,
|
56 |
+
n_threads=8
|
57 |
+
)
|
58 |
+
```
|
59 |
+
|
60 |
+
### LM Studio
|
61 |
+
直接載入 GGUF 檔案即可使用
|
62 |
+
|
63 |
+
## 翻譯範例
|
64 |
+
|
65 |
+
### 繁體中文 → 印尼文
|
66 |
+
```
|
67 |
+
輸入: 請將以下繁體中文翻譯成印尼文
|
68 |
+
然而面臨到期債務壓力,可能影響其獲得補助的資格。
|
69 |
+
|
70 |
+
輸出: Namun, tekanan dari utang yang jatuh tempo dapat memengaruhi kelayakannya untuk menerima subsidi tersebut.
|
71 |
+
```
|
72 |
+
|
73 |
+
### 印尼文 → 繁體中文
|
74 |
+
```
|
75 |
+
輸入: 請將以下印尼文翻譯成繁體中文
|
76 |
+
Namun, tekanan dari utang yang jatuh tempo dapat memengaruhi kelayakannya untuk menerima subsidi tersebut.
|
77 |
+
|
78 |
+
輸出: 然而面臨到期債務壓力,可能影響其獲得補助的資格。
|
79 |
+
```
|
80 |
+
|
81 |
+
## 系統需求
|
82 |
+
- **RAM**: 最低 6GB,建議 8GB+
|
83 |
+
- **CPU**: 支援 AVX2 指令集
|
84 |
+
- **儲存**: 約 4.36GB 空間
|
85 |
+
|
86 |
+
## 效能比較
|
87 |
+
| 版本 | 大小 | 記憶體需求 | 推理速度 | 品質保持率 |
|
88 |
+
|------|------|------------|----------|------------|
|
89 |
+
| F16 | ~14GB| ~16GB | 基準 | 100% |
|
90 |
+
| Q4_K_M| ~4.36GB | ~6GB | 2-3x faster| ~95% |
|
91 |
+
|
92 |
+
## 兼容性
|
93 |
+
- ✅ llama.cpp
|
94 |
+
- ✅ Ollama
|
95 |
+
- ✅ text-generation-webui
|
96 |
+
- ✅ LM Studio
|
97 |
+
- ✅ KoboldCpp
|
98 |
+
- ✅ Jan
|
99 |
+
- ✅ GPT4All
|
100 |
+
|
101 |
+
## 量化技術
|
102 |
+
Q4_K_M 採用混合精度策略:
|
103 |
+
- 注意力機制使用較高精度
|
104 |
+
- FFN 層使用適中精度
|
105 |
+
- 平衡模型大小與品質
|
106 |
+
|
107 |
+
## 訓練資料
|
108 |
+
模型基於高品質的中文↔印尼文平行語料進行微調,涵蓋新聞、商務、學術等多種領域的翻譯對。
|
109 |
+
|
110 |
+
## 建議用途
|
111 |
+
- 繁體中文↔印尼文雙向翻譯
|
112 |
+
- 跨語言文檔處理
|
113 |
+
- 商務文件翻譯
|
114 |
+
- 新聞文章翻譯
|
115 |
+
- 學術文獻翻譯
|
116 |
+
|
117 |
+
## 授權
|
118 |
+
本模型採用 Apache 2.0 授權條款。
|
119 |
+
|
120 |
+
## 致謝
|
121 |
+
感謝 llama.cpp 團隊提供優秀的量化工具。
|
122 |
+
|
123 |
+
---
|
124 |
+
由 Roy Lin 創建 🚀 | Q4_K_M 量化版本
|