iproskurina
/

bloom-3b-GPTQ-4bit-g128

@@ -113,4 +113,31 @@ tokenizer = AutoTokenizer.from_pretrained(pretrained_model_dir, use_fast=True)
 model = AutoGPTQForCausalLM.from_quantized(pretrained_model_dir, device="cuda:0", model_basename="model")
 pipeline = TextGenerationPipeline(model=model, tokenizer=tokenizer)
 print(pipeline("auto-gptq is")[0]["generated_text"])
-```

 model = AutoGPTQForCausalLM.from_quantized(pretrained_model_dir, device="cuda:0", model_basename="model")
 pipeline = TextGenerationPipeline(model=model, tokenizer=tokenizer)
 print(pipeline("auto-gptq is")[0]["generated_text"])
+```
+### Run the model with GPTQModel
+GPTQModel package: https://github.com/ModelCloud/GPTQModel
+```
+pip install -v gptqmodel=="1.8.0" --no-build-isolation
+from gptqmodel import GPTQModel
+model_id = 'iproskurina/bloom-3b-GPTQ-4bit-g128'
+model = GPTQModel.load(model_id)
+result = model.generate("Uncovering deep insights")[0] # tokens
+print(model.tokenizer.decode(result)) # string output
+```
+### Run the model with GPTQModel
+GPTQModel package: https://github.com/ModelCloud/GPTQModel
+```
+pip install -v gptqmodel=="1.8.0" --no-build-isolation
+from gptqmodel import GPTQModel
+model_id = 'iproskurina/bloom-3b-GPTQ-4bit-g128'
+model = GPTQModel.load(model_id)
+result = model.generate("Uncovering deep insights")[0] # tokens
+print(model.tokenizer.decode(result)) # string output
+```