|
|
|
@ -45,7 +45,7 @@ Qwen-7B は、アリババクラウドが提唱する大規模言語モデルシ
|
|
|
|
|
一般的に、Qwen-7B は、MMLU、C-Eval、GSM8K、HumanEval、WMT22、CMMLU など、自然言語理解、数学的問題解決、コーディングなどに関するモデルの能力を評価する一連のベンチマークデータセットにおいて、同程度のモデルサイズのベースラインモデルを凌駕しており、さらには 13B 程度のパラメータを持つより大規模なモデルをも凌駕しています。以下の結果をご覧ください。
|
|
|
|
|
|
|
|
|
|
| Model | MMLU | C-Eval | GSM8K | HumanEval | WMT22 (en-zh) | CMMLU |
|
|
|
|
|
| :------------- | :--------: | :--------: | :--------: | :---------: | :-------------: | :--------: |
|
|
|
|
|
| :---------------- | :------------: | :------------: | :------------: | :------------: | :------------: |:------------: |
|
|
|
|
|
| LLaMA-7B | 35.1 | - | 11.0 | 10.5 | 8.7 | - |
|
|
|
|
|
| LLaMA 2-7B | 45.3 | - | 14.6 | 12.8 | 17.9 | - |
|
|
|
|
|
| Baichuan-7B | 42.3 | 42.8 | 9.7 | 9.2 | 26.6 | 44.4 |
|
|
|
|
|