main
曾仔建 1 year ago
parent cd3f839749
commit 5334ae94ac

@ -286,11 +286,11 @@ model = AutoModelForCausalLM.from_pretrained(
use_flash_attn=False use_flash_attn=False
) )
``` ```
注意当前该功能目前不支持与flash attn同时开启如果你开了kv cache量化的同时又开了flash attnuse_flash_attn=True use_cache_quantization=True, use_cache_kernel=True会默认将use flash attn关闭。 注意当前该功能目前不支持与flash attn同时开启如果你开了kv cache量化的同时又开了flash attnuse_flash_attn=True use_cache_quantization=True, use_cache_kernel=True会默认将use_flash_attn关闭。
### 结果对比 ### 结果对比
#### 效果 #### 效果
我们验证过int8 kvcache的使用对模型整体的精度指标基本无损。 我们验证过int8 kv-cache的使用对模型整体的精度指标基本无损。
#### 显存对比 #### 显存对比
本次评测运行于单张A100-SXM4-80G GPU模型默认使用BF16格式默认生成的seq-length=1024生成1024个token其中oom表示out of memory。 本次评测运行于单张A100-SXM4-80G GPU模型默认使用BF16格式默认生成的seq-length=1024生成1024个token其中oom表示out of memory。

Loading…
Cancel
Save