nvidia
/

Mistral-Nemo-12B-Instruct-ONNX-INT4

Model card Files Files and versions

bpawar commited on Nov 15, 2024

Commit

1d8d991

·

verified ·

1 Parent(s): 1b438fb

Update README.md

Files changed (1) hide show

README.md +13 -2

README.md CHANGED Viewed

@@ -13,12 +13,23 @@ base_model:
 # Mistral-Nemo-12B-Instruct-ONNX-INT4
 ### Model Description
 Mistral-NeMo is a Large Language Model (LLM) composed of 12B parameters.  This model leads accuracy on popular benchmarks across common sense reasoning, coding, math, multilingual and multi-turn chat tasks; it significantly outperforms existing models smaller or similar in size.
-We downloaded Mistral Nemo 12B instruct model in Pytorch bfloat16 format from HuggingFace. We used Onnxruntime-GenAI to convert the model from Pytorch FP16 format to ONNX FP16 format. We used TensorRT Model Optimizer - Windows tool to convert the model from ONNX FP16 format to ONNX INT4  fomat.  We have posted the Mistral Nemo 12B ONNX INT4 model files here.
 This model is ready for commercial/non-commercial use.

 # Mistral-Nemo-12B-Instruct-ONNX-INT4
+## Model Developer : Mistral
 ### Model Description
 Mistral-NeMo is a Large Language Model (LLM) composed of 12B parameters.  This model leads accuracy on popular benchmarks across common sense reasoning, coding, math, multilingual and multi-turn chat tasks; it significantly outperforms existing models smaller or similar in size.
+The NVIDIA Mistral-Nemo-12B Instruct ONNX INT4 model is quantized with [TensorRT Model Optimizer](https://github.com/NVIDIA/TensorRT-Model-Optimizer).
+Steps followed to generate this quantized model:
+* 1. Download Mistral-Nemo-12B Instruct model in Pytorch bfloat16 format from HuggingFace.
+* 2. Convert PyTorch model to ONNX FP16 using onnxruntime-genai model builder.
+* 3. Quantize Mistral-Nemo-12B Instruct ONNX FP16 model to Mistral-Nemo-12B Instruct ONNX INT4 AWQ model using TensorRT Model Optimizer – Windows.
 This model is ready for commercial/non-commercial use.