ai21labs
/

AI21-Jamba-Reasoning-3B

Text Generation

Model card Files Files and versions

EllaNeiman commited on Oct 8

Commit

eb2568c

·

verified ·

1 Parent(s): d40bdef

Update README.md

Files changed (1) hide show

README.md +3 -4

README.md CHANGED Viewed

@@ -64,10 +64,10 @@ Unlike most compact models, Jamba Reasoning 3B supports extremely long contexts.
 ### **Run the model with vLLM**
-For best results, we recommend using vLLM version 0.10.2 or higher and enabling `--mamba-ssm-cache-dtype=float32`
 ```bash
-pip install vllm>=0.10.2
 ```
 Using vllm in online server mode:
@@ -83,10 +83,9 @@ from vllm import LLM, SamplingParams
 from transformers import AutoTokenizer
 model = "ai21labs/AI21-Jamba-Reasoning-3B"
-number_gpus = 1
 llm = LLM(model=model,
-          tensor_parallel_size=number_gpus,
           mamba_ssm_cache_dtype="float32")
 tokenizer = AutoTokenizer.from_pretrained(model)

 ### **Run the model with vLLM**
+For best results, we recommend using vLLM version 0.11.0 or higher and enabling `--mamba-ssm-cache-dtype=float32`
 ```bash
+pip install vllm>=0.11.0
 ```
 Using vllm in online server mode:
 from transformers import AutoTokenizer
 model = "ai21labs/AI21-Jamba-Reasoning-3B"
 llm = LLM(model=model,
+          tensor_parallel_size=1,
           mamba_ssm_cache_dtype="float32")
 tokenizer = AutoTokenizer.from_pretrained(model)