From 5334ae94ac132d15e9ed0c6d2a10aedcf768f937 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E6=9B=BE=E4=BB=94=E5=BB=BA?= <2119516028@qq.com> Date: Tue, 26 Sep 2023 10:56:05 +0800 Subject: [PATCH] typo --- README_CN.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/README_CN.md b/README_CN.md index 9e2285a..c99d329 100644 --- a/README_CN.md +++ b/README_CN.md @@ -286,11 +286,11 @@ model = AutoModelForCausalLM.from_pretrained( use_flash_attn=False ) ``` -注意:当前该功能目前不支持与flash attn同时开启,如果你开了kv cache量化的同时又开了flash attn(use_flash_attn=True, use_cache_quantization=True, use_cache_kernel=True),会默认将use flash attn关闭。 +注意:当前该功能目前不支持与flash attn同时开启,如果你开了kv cache量化的同时又开了flash attn(use_flash_attn=True, use_cache_quantization=True, use_cache_kernel=True),会默认将use_flash_attn关闭。 ### 结果对比 #### 效果 -我们验证过int8 kvcache的使用对模型整体的精度指标基本无损。 +我们验证过int8 kv-cache的使用对模型整体的精度指标基本无损。 #### 显存对比 本次评测运行于单张A100-SXM4-80G GPU,模型默认使用BF16格式,默认生成的seq-length=1024(生成1024个token),其中oom表示out of memory。