@ -249,7 +249,7 @@ response, history = model.chat(tokenizer, "Hi", history=None, generation_config=
BF16 の精度と Int4 の量子化レベルの下で、それぞれ 2048 個と 8192 個のトークンを生成する平均推論速度(tokens/s)を測定しました。
| Quantization | Speed (2048 tokens) | Speed (8192 tokens) |
| -------------- | :-------------------: | :-------------------: |
| ------------- | :------------------:| :------------------:|
| BF16 | 30.34 | 29.32 |
| Int4 | 43.56 | 33.92 |