diff --git a/README_JA.md b/README_JA.md index 63a5dee..7d68f7f 100644 --- a/README_JA.md +++ b/README_JA.md @@ -241,8 +241,8 @@ BF16の精度とInt4の量子化レベルの下で、それぞれ2048個と8192 | Quantization | Speed (2048 tokens) | Speed (8192 tokens) | | ------------- | :------------------:| :------------------:| -| BF16 | 30.53 | 28.51 | -| Int4 | 45.60 | 33.83 | +| BF16 | 30.34 | 29.32 | +| Int4 | 43.56 | 33.92 | 詳細には、プロファイリングの設定は、1コンテクスト・トークンで8192個の新しいトークンを生成している。プロファイリングは、PyTorch 2.0.1とCUDA 11.4を搭載したシングルA100-SXM4-80G GPUで実行される。推論速度は生成された8192個のトークンの平均値です。 @@ -252,8 +252,8 @@ BF16の精度とInt4の量子化レベルの下で、それぞれ2048個と8192 | Quantization Level | Peak Usage for Encoding 2048 Tokens | Peak Usage for Generating 8192 Tokens | | ------------------ | :---------------------------------: | :-----------------------------------: | -| BF16 | 18.99GB | 24.40GB | -| Int4 | 10.20GB | 15.61GB | +| BF16 | 17.66GB | 22.58GB | +| Int4 | 8.21GB | 13.62GB | 上記のスピードとメモリーのプロファイリングは、[このスクリプト](https://qianwen-res.oss-cn-beijing.aliyuncs.com/profile.py)を使用しています。