Model Card for EXAONE-3.5-7.8B-Instruct-KoCulture-fulltrain-transformers
이 모델은 LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct 모델을 Hugging Face KREW의 한국어 신조어 대화 데이터셋 v2로 파인튜닝한 것입니다. 최신 한국어 신조어, 유행어, 밈을 사용하여 보다 자연스럽고 현실적인 한국어 대화를 생성하는 것을 목표로 합니다.
Model Details
Model Description
이 모델은 LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct를 기반으로, 한국의 최신 언어 문화(신조어, 밈 등)를 더 잘 이해하고 생성하도록 특화된 대규모 언어 모델입니다. Hugging Face의 trl 라이브러리를 사용한 SFT(Supervised Fine-tuning) 방식으로 학습되었습니다. 학습 데이터에는 친구와 대화하는 상황을 가정하여, 특정 질문에 대해 밈과 유행어를 활용해 답하는 형식으로 구성된 대화 쌍이 사용되었습니다.
- Developed by: Hugging Face KREW (Yongsang Yoo, Harheem Kim, Sungmin Oh)
- Model type: Causal Language Model (Decoder-only Transformer)
- Language(s) (NLP): Korean (ko)
- License: The license for this model is based on the base model's license, 'exaone'. The training dataset,
huggingface-KREW/KoCulture-Dialogues-v2, is available under the CC BY-NC-SA 4.0 license. - Finetuned from model: LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct
Model Sources
- Repository: https://huggingface.co/Yongsang/EXAONE-3.5-7.8B-Instruct-KoCulture-fulltrain-transformers
- Paper: 추가될 예정
- Demo: 추가될 예정
Uses
이 모델은 한국어 신조어와 밈이 포함된 비공식적이고 구어적인 텍스트를 생성하도록 설계되었습니다.
Direct Use
모델은 주어진 질문이나 문맥에 대해 친구와 대화하듯 최신 유행어를 사용하여 응답을 생성할 수 있습니다. 챗봇이나 가상 비서와 같은 대화형 AI에 직접 적용하여 사용자의 재미와 경험을 향상시키는 데 활용될 수 있습니다.
Out-of-Scope Use
- 본 모델은 CC BY-NC-SA 4.0 라이선스를 따르는 데이터셋으로 학습되었으므로, 영리적 목적으로 사용될 수 없습니다.
- 모델이 유해하거나 차별적인 콘텐츠(공격적 언어, 혐오 발언 등)를 생성하거나 확산하는 데 사용되어서는 안 됩니다.
- 모델의 생성물은 사실이 아닐 수 있으며, 사실 확인이 필요한 중요한 정보 제공 목적으로 사용해서는 안 됩니다.
Bias, Risks, and Limitations
- Bias: 학습 데이터는 주로 온라인 커뮤니티와 미디어에서 유래한 신조어 및 유행어를 중심으로 구성되어 있어, 특정 연령대(예: 젊은 세대)나 특정 온라인 문화에 편향된 언어 사용을 반영할 수 있습니다.
- Risks: 신조어와 유행어는 시의성이 매우 강하여 시간이 지남에 따라 의미가 변하거나 사용되지 않게 될 수 있습니다(데이터 노후화). 필터링 노력에도 불구하고, 맥락에 따라 부적절하거나 공격적으로 해석될 수 있는 내용이 포함될 위험이 있습니다.
- Limitations: 이 모델은 한국어 신조어의 전체 범위를 포괄하지 못하며, 특정 시점까지 수집된 내용을 기반으로 합니다. 데이터셋의 크기가 비교적 작기 때문에 모든 상황에 대해 완벽하게 자연스러운 답변을 생성하지 못할 수 있습니다.
Recommendations
사용자는 모델이 생성하는 결과물의 편향 가능성과 시의성을 인지하고 주의 깊게 사용해야 합니다. 비영리적 목적으로만 사용해야 하며, 출처(Hugging Face KREW 및 원본 데이터 제공처)를 명확히 밝혀야 합니다.
How to Get Started with the Model
아래 코드를 사용하여 모델 추론을 시작할 수 있습니다.
이 모델은 transformers 라이브러리 버전 4.51.3 이상이 필요합니다. 원활한 사용을 위해 라이브러리 버전을 확인하고 필요시 업그레이드해 주세요.
!pip install "transformers>=4.51.3"
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
# Hugging Face Hub에서 토크나이저와 모델 로드
model_id = "huggingface_KREW/EXAONE-3.5-7.8B-Instruct-KoCulture-fulltrain-transformers"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
# 추론을 위한 입력 텍스트 준비
# 학습 시 사용된 프롬프트 형식을 따릅니다.
PREFIX = "친구와 채팅을 하고 있다고 가정하고 다음 질문에 밈과 유행어를 활용하여 대답하세요."
question = "너 어제 회식 때 왜 혼자만 조용히 있었어?"
input_text = f"{PREFIX}: {question}"
# 대화 템플릿 적용
messages = [{'role': 'user', 'content': input_text}]
chat_input = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=False
)
# 모델 입력 생성
inputs = tokenizer(chat_input, return_tensors="pt").to(model.device)
# 텍스트 생성
outputs = self.model.generate(
**inputs,
max_new_tokens=256,
temperature=0.7,
top_p=0.8,
top_k=20,
min_p=0,
repetition_penalty=1.15,
do_sample=True,
pad_token_id=tokenizer.eos_token_id
)
# 결과 디코딩 및 출력
response_ids = outputs[0][len(inputs.input_ids[0]):]
answer = tokenizer.decode(response_ids, skip_special_tokens=True)
# 생성된 답변만 추출
print(f"질문: {question}")
print(f"답변: {answer}")
# 예상 출력:
# 질문: 저는 사진 찍는 걸 좋아해요.
# 답변: 사진작가님 어서오고 ㅋㅋㅋ 삼각대 꼭 쓰세요!
Training Details
Training Data
이 모델은 huggingface-KREW/KoCulture-Dialogues-v2 데이터셋을 사용하여 학습되었습니다. 이 데이터셋은 최신 한국어 신조어, 유행어, 밈을 포함하는 대화 쌍으로 구성되어 있습니다. 데이터는 title(유행어), question(질문 맥락), answer(유행어를 사용한 답변)의 세 가지 필드로 이루어져 있습니다.
Training Procedure
Preprocessing
학습 데이터는 다음 과정을 거쳐 처리되었습니다.
- 각
question항목 앞에"친구와 채팅을 하고 있다고 가정하고 다음 질문에 밈과 유행어를 활용하여 대답하세요.: "라는 프롬프트(PREFIX)가 추가됩니다. - 수정된
question과answer는user와assistant역할을 갖는 대화 형식으로 변환됩니다. tokenizer.apply_chat_template함수를 사용하여 모델이 학습할 수 있는 최종 텍스트 형식으로 포맷팅됩니다.
Training Hyperparameters
- Training regime: bf16 mixed precision
model_name:LGAI-EXAONE/EXAONE-3.5-7.8B-Instructmax_seq_length: 512num_epochs: 3per_device_train_batch_size: 1gradient_accumulation_steps: 64learning_rate: 6e-5lr_scheduler_type:linearoptim:adamw_8bitwarmup_ratio: 0.05weight_decay: 0.01
Evaluation
Testing Data & Metrics
Testing Data
별도의 검증 데이터 파일을 사용하여 학습 전후 모델의 응답을 정성적으로 비교했습니다.
meme_sample_with_question.txtusage_question.txt
Summary
주목할 점은, 이번에 평가된 EXAONE, kanana, Qwen3 모델들은 파인튜닝 이전 단계와 증강된 데이터셋을 사용하기 전에서는 신조어 사용률이 0%에 가까웠다는 것입니다. 따라서 현재 측정된 신조어 사용 능력은 온전히 KoCulture 파인튜닝을 통해 얻어진 성과라 할 수 있으며, 이는 모델이 한국 문화의 트렌디한 언어 사용을 효과적으로 학습했음을 보여줍니다.
- EXAONE-3.5-7.8B-Instruct-KoCulture-fulltrain-transformers: (우수) 높은 사용률과 함께 실제 사용 예시와 유사한 자연스러운 맥락에서 신조어를 창의적으로 활용하는 능력이 돋보입니다.
- kanana-1.5-8b-instruct-2505-KoCulture-fulltrain-transformers: (우수) 높은 사용률을 보이며, 다양한 상황에 맞는 신조어를 정확하고 자연스럽게 구사하여 실제 사용자 같은 말투를 보여줍니다.
- Qwen3-8B-KoCulture-fulltrain-transformers: (개선 필요) 사용률이 가장 낮으며, 신조어 사용 시 문맥을 제대로 파악하지 못하거나 부자연스러운 표현을 생성하는 경우가 많아 개선이 필요합니다.
- gpt-4o: (보통) 가장 낮은 사용률을 보였으며, 신조어를 이해하고는 있으나 다소 과장되고 작위적인 방식으로 사용하여 자연스러움이 떨어지는 경향이 있습니다.
Generation Examples
| 모델명 | 질문 | 답변 |
|---|---|---|
| EXAONE-3.5-7.8B | 나 이번 주말에 봉사활동 가기로 했어. | 헐 진짜? 멋있다! 차카니 몇 개 먹은 거야? |
| 요즘 너무 잠이 안 와서 힘들어. | 헐 불면증인가? 숙면 꿀팁 araboja | |
| 커피를 직접 내려마시는 것을 좋아해. | 오 그럼 이번엔 내가 말아주는 드립커피 어때? | |
| 오늘 영화를 보러 갔어. | 근데!!! 팝콘을 안 샀음. 하지만!!! ... 영화는 재밌었음. 진짜... 우리 관크 없던 거면 더 좋았겠다! | |
| Qwen3-8B | 죽은 반려동물이 너무 그리워. 그곳에서는 잘 지내고 있겠지? | 그 반려동물을 떠올리니까 갑자기 엉엉슨... 진짜 영원히 기억할게요. 안녕하세요, 우리 볼만한 날씨가 왔어요. |
| 나는 왜 항상 선택을 잘못하는 걸까? | 그건 닝바닝이지. 상황마다 다 다르고, 너만의 고유한 선택방식이 있을 수도 있어 ㅋㅋㅋ 그냥 나랑 비교하지 말자 | |
| 요즘 스트레스 때문에 잠이 안 와서 힘들어. | 그럴 땐 '행집욕부'가 답이지. 행복에 집중해보는 거 어떨래? | |
| 오늘 엄마랑 저녁 데이트 할건데 메뉴 뭐가 좋을까? | 엄마한테는 '엄마의 향기' 어때요~ 그르륵 갉 감성 모르시면 나가세요ㅋㅋㅋㅋ | |
| kanana-1.5-8b | 마스크 때문에 트러블이 너무 심해 ㅠㅠ | 그거 진짜...? 나도 전에 마기꾼라고 생각했는데 내 친구 중에도 그런 애 있음ㅋㅋㅋ |
| 오늘 저녁 뭐 먹으면 잘 먹었다고 소문날까? | 치킨 가시죠. 무조건 겉바속촉 인정될 집들이 있음. 제가 픽 해드림ㅋ | |
| 아이와 더 잘 소통하고 싶어. | 아이의 눈높이에서 생각해봐. 진짜 쉽지 않음ㅋㅋㅋ | |
| 최근에 주식에 대해 공부하고 있어. | 야수의 심장으로 들어오세요. 이거는 진짜 위험할 수 있음ㅋㅋ | |
| gpt-4o | 저는 사진 찍는 걸 좋아해요. | 오, 사진 찍는 걸 좋아한다고? 그럼 "찰칵찰칵"을 멈출 수 없겠네! 📸 너의 인생은 인스타그램 피드처럼 화려하겠어! #사진덕후 #인생샷장인 😄 |
| 요즘 꿈에 대한 동기부여가 필요해요. | "꿈은 이루어진다는데, 나도 이참에 꿈을 잡으러 가볼까? 'Just Do It!'처럼 말이야. 실패할까봐 걱정된다면, 'YOLO' 정신으로 한 번 도전해보자! 어차피 인생은 한 번뿐이니까!" 🚀✨ | |
| 오늘 내가 좋아하는 사람이 나에게 고백했어! | 우와, 레벨 업 하셨네요! 🎉 이제 당신은 사랑이라는 퀘스트에 진입했습니다. 🕹️ "심쿵" 버튼 누르셨나요? 😆✨ | |
| 진짜 너무 행복해! 요즘 다이어트 성공해서 기분이 좋아. | 와우! 그럼 이제 "헬창" 클럽 가입인가요? 😆 이제 다이어트는 "성공적"이고 자신감은 레벨 업! "갓생" 사는 중이네! 🎉 몸도 마음도 모두 "힐링" 되는 기분이겠어! 🙌 Keep going, 친구! 💪✨ |
Citation [optional]
BibTeX:
학습 데이터셋에 대한 인용 정보입니다.
@misc{huggingface_krew_korean_neologism_2025, title={{한국어 신조어 데이터셋 (Korean Neologism Dataset)}}, author={{Hugging Face KREW} and Yoo, Yongsang and Kim, Harheem and Oh, Sungmin}, year={2025}, publisher={Hugging Face KREW}, howpublished={\url{https://huggingface.co/datasets/huggingface-KREW/KoCulture-Dialogues}} }
More Information
- Hugging Face KREW Discord: https://discord.gg/bKh5M7xsXP
- Project Repository: https://github.com/Pseudo-Lab/Hugging-Face-Hub-Garden
Model Card Authors
- Yongsang Yoo (유용상)
- Harheem Kim (김하림)
- Sungmin Oh (오성민)
Model Card Contact
https://github.com/Pseudo-Lab/Hugging-Face-Hub-Garden/issues
- Downloads last month
- 2