naver-hyperclovax
/

HyperCLOVAX-SEED-Vision-Instruct-3B

@@ -85,7 +85,7 @@ from transformers import AutoModelForCausalLM, AutoProcessor, AutoTokenizer
 model_name = "naver-hyperclovax/HyperCLOVAX-SEED-Vision-Instruct-3B"
 model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True).to(device="cuda")
-preprocessor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 # LLM Example
@@ -106,7 +106,7 @@ llm_chat = [
 model_inputs = processor.apply_chat_template(
         llm_chat, tokenize=True, return_dict=True, return_tensors="pt", add_generation_prompt=True
 )
-model_inputs = model_inputs.to(device=DEVICE)
 # Please adjust parameters like top_p appropriately for your use case.
 output_ids = model.generate(
@@ -165,8 +165,8 @@ vlm_chat = [
 model_inputs = processor.apply_chat_template(
         vlm_chat, tokenize=True, return_dict=True, return_tensors="pt", add_generation_prompt=True,
 )
-model_inputs = model_inputs.to(device=DEVICE)
-        output_ids = model.generate(
         **model_inputs,
         max_new_tokens=64,
         do_sample=True,

 model_name = "naver-hyperclovax/HyperCLOVAX-SEED-Vision-Instruct-3B"
 model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True).to(device="cuda")
+processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 # LLM Example
 model_inputs = processor.apply_chat_template(
         llm_chat, tokenize=True, return_dict=True, return_tensors="pt", add_generation_prompt=True
 )
+model_inputs = model_inputs.to(device="cuda")
 # Please adjust parameters like top_p appropriately for your use case.
 output_ids = model.generate(
 model_inputs = processor.apply_chat_template(
         vlm_chat, tokenize=True, return_dict=True, return_tensors="pt", add_generation_prompt=True,
 )
+model_inputs = model_inputs.to(device="cuda")
+output_ids = model.generate(
         **model_inputs,
         max_new_tokens=64,
         do_sample=True,

processing_hyperclovax.py CHANGED Viewed

@@ -136,17 +136,6 @@ class HCXProcessor(ProcessorMixin):
         # vllm needs vision_query_lengths, but we don't need it
         del model_inputs["vision_query_lengths_images"]
         del model_inputs["vision_query_lengths_videos"]
-        # # vllm 호환성을 위해 이곳에서 token 을 vision_query_length만큼 늘리기 처리
-        # if "input_ids" in model_inputs:
-        #     # self.image_token 모두 찾기
-        #     input_ids = self.repeat_dummy_tokens(
-        #         model_inputs["input_ids"], self.image_token_id, model_inputs["vision_query_lengths_images"]
-        #     )
-        #     input_ids = self.repeat_dummy_tokens(
-        #         input_ids, self.video_token_id, model_inputs["vision_query_lengths_videos"]
-        #     )
-        #     model_inputs["input_ids"] = input_ids
         return model_inputs
@@ -439,10 +428,7 @@ class HCXProcessor(ProcessorMixin):
             def _replacer(match_obj):
                 # return self.image_token
                 num_query_tokens = next(_iterator)
-                return "".join(
-                    [_target_token for _ in range(num_query_tokens)]
-                )  # vision_query_legnth 만큼 image token 을 복제
             return _replacer
         text_inputs = {}

         # vllm needs vision_query_lengths, but we don't need it
         del model_inputs["vision_query_lengths_images"]
         del model_inputs["vision_query_lengths_videos"]
         return model_inputs
             def _replacer(match_obj):
                 # return self.image_token
                 num_query_tokens = next(_iterator)
+                return "".join([_target_token for _ in range(num_query_tokens)])
             return _replacer
         text_inputs = {}