CrossEncoder based on klue/roberta-small
This is a Cross Encoder model finetuned from klue/roberta-small using the sentence-transformers library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
Model Details
Model Description
- Model Type: Cross Encoder
- Base model: klue/roberta-small
- Maximum Sequence Length: 512 tokens
- Number of Output Labels: 1 label
Model Sources
- Documentation: Sentence Transformers Documentation
- Documentation: Cross Encoder Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Cross Encoders on Hugging Face
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import CrossEncoder
# Download from the ๐ค Hub
model = CrossEncoder("cross_encoder_model_id")
# Get scores for pairs of texts
pairs = [
['๊นํํ์ด ๋ฐ๋ฐํ ์ฌ๋์ ์ด๋ฆ์?', 'ํด์ผ๊ทผ๋ก๋ฅผ ์ฐ์ฅ๊ทผ๋ก์ ํฌํจํ๊ณ ์ฃผ๋น ์ต์ฅ ๊ทผ๋ก์๊ฐ์ ํํ 68์๊ฐ(๋ฒ์ ๊ทผ๋ก 40+์ฐ์ฅ๊ทผ๋ก 12+ํด์ผ๊ทผ๋ก 16)์์ 52์๊ฐ(๋ฒ์ ๊ทผ๋ก 40+์ฐ์ฅ๊ทผ๋ก 12)์ผ๋ก ๋จ์ถํ๋ ๋ด์ฉ์ โ๊ทผ๋ก๊ธฐ์ค๋ฒ ๊ฐ์ ์ ์ด์โ์ด ๋์๋ค. ๊ตญํ ํ๊ฒฝ๋
ธ๋์์ํ ๋
ธ์ฌ์ ์์๋ 9์ผ ๊ณต์ฒญํ๋ฅผ ์ด๊ณ ์ด๋ค ๊ณต๋ฐฉ์ ๋ฒ์๋ค. ์ด์ฒ ์ ์์ธ๋ ๋ฒํ์ ๋ฌธ๋ํ์ ๊ต์(์์ ์ง์๋จ ์์)๋ ๋ฐ์ ์์ โ๊ทผ๋ก์๊ฐ์ ๊ธฐ์ค์ด ๋๋ 1์ฃผ์ ๋จ์๋ 7์ผ์ด๊ณ , 40+12 ์ ๋๋ฅผ ์ ์งํจ์ผ๋ก์จ ์ฃผ 40์๊ฐ์ ์์น์ ์ฌํ์ธํ๋ ๋ด์ฉโ์ด๋ผ๊ณ ์ค๋ช
ํ๋ค. 1์๊ณผ 2์์ผ๋ก ๊ตฌ๋ถํ ์ด์์ ํต์ฌ ๋ด์ฉ์ ํด์ผ๊ทผ๋ก๋ฅผ ์ฐ์ฅ๊ทผ๋ก์ ํฌํจํ๋ ๊ฒ์ด๋ค. ๋ค๋ง 1์์ ์ฐ์ฅ๊ทผ๋ก์ ์ ํ์ ๋ํ ์์ธ ๊ท์ ์ ๋๊ณ ์๋ค. ๋ฒ์ ๊ทผ๋ก์๊ฐ ์ธ์ 1์ฃผ๋น 8์๊ฐ์ ์ถ๊ฐ๋ก ์ผํ ์ ์๋๋ก โํน๋ณ๊ทผ๋ก์๊ฐโ ์กฐํญ์ ๋๋ค. 2์์ ์ฐ์ฅยทํด์ผยท์ผ๊ฐ ๊ฐ์ฐ์๊ธ ์ค๋ณตํ ์ฆ์ ๋ฒ์ ๋ช
์ํด์ผ ํ๋ค๊ณ ๊ถ๊ณ ํ๋ค. ์ด์ ํจ๊ป ๊ทผ๋ก์๊ฐ์ ์๋ฐํ ์ฌ์
์ฃผ์ ๋ํด์๋ ์๋ฒ ์ฌํญ์ ๋ฉด์ ํด์ฃผ๋ ์ด๋ฅธ๋ฐ โ๋ฉด๋ฒ ์กฐํญโ์ ๋๋ค. ํ ๋ก ์์๋ ๊ทผ๋ก์๊ฐ ๋จ์ถ์ด๋ผ๋ ํฐ ํ์๋ ๋์ฒด๋ก ๊ณต๊ฐํ์ง๋ง, ๊ตฌ์ฒด์ ์ธ ๋ฐฉ์์ ๋๊ณ ๋
ธยท์ฌยท์ ๊ฐ ์
์ฅ์ด ๊ทน๋ช
ํ๊ฒ ๊ฐ๋ ธ๋ค. ์ด์์ ์๋๋ฆฌ๋น ์์์ โ๋
ธ๋๊ณ์์๋ ๊ทผ๋ก์๊ฐ์ด ๋จ์ถ๋๋๋ผ๊ณ ์๊ธ์ ๋ณด์ ํด์ผ ํ๋ค๊ณ ์ฃผ์ฅํ๋๋ฐ ๋์์ด ์๋์ง ๊ถ๊ธํ๋คโ๊ณ ๋งํ๋ค. ์ด์ ๋ํด ๊นํํ ๋ฏผ์ฃผ๋
ธ์ด ์ ์ฑ
์ฐ๊ตฌ์์ฅ์ โ๊ทผ๋ก์๊ฐ์ด ์กฐ๊ธ์ฉ ์ค์ด๋๋ ๋์ ์๊ธ์ด ๋ณด์ ๋ ๊ฒ์ ๊ฒฝ์์๊ฐ ์๋ ๊ทผ๋ก์๋ค์ ์์ฐ์ฑ ํฅ์์ด ์์๊ธฐ ๋๋ฌธโ์ด๋ผ๊ณ ๋ฐ๋ฐํ๋ค.์์๋ฏธ ์์ ์น๋ฏผ์ฃผ์ฐํฉ ์์์ โ๊ทผ๋ก์๊ฐ ๋จ์ถ์ 2๋
๊ฐ ์ ์ํ๊ณ 6๋
๊ฐ ๋จ๊ณ์ ์ผ๋ก ์ ์ฐฉ์ํค๊ฒ ๋ค๋ ์ ๋ถ์์ ํ๊ตญ ๋
ธ๋์ฌ์ ์ฌ๋ณ์ด ๋ ๊ฒโ์ด๋ผ๊ณ ์ฃผ์ฅํ๋ค. ๊ฐ๋ํ ์ค์๊ธฐ์
์ค์ํ ๋
ธ๋์ธ๋ ฅ๋ถ๊ณผ์์์ฅ์ โ์ธ๋ ฅ๋์ ์๋ฌ๋ฆฌ๋ ์ค์๊ธฐ์
๋ค์ ์ฃฝ์ด๋ ค๋ฉด ์ด ๋ฒ์ ํต๊ณผ์ํค๋ผโ๊ณ ๋งํ๋ค.'],
['๋ณด์ด์์ ์ต์๋จ์๋ ๋ฌด์์ด ๊ทธ๋ ค์ ธ์๋๊ฐ?', 'ํนํ ๋ณ๊ณ๋์ ์กฐ์ ์๋ ๋์ ํ์ 20๋
์ง๋ธ ๋น๋ ์ต๊ณ ์ ํ๋ฌธ ๊ถ์์๋ค. ๊ถ๋ ฅ์ด๋ ์ด๊ถํ๊ณ ๋ ๋ฌด๊ดํ ํ๋ฌธ์ ๋ค๋ฃจ๋ ์ต๊ณ ์ง์ฑ
๋์ ํ์ ๋ช
์๋ฅผ ์ค์์ํ๋ ์ฌ๋๋ถ๋ค์ ์ ๋ง์ ๋์์ผ๋ก โ์ ์น 10๋ช
์ด ๋์ ํ ํ ๋ช
๋ง ๋ชปํ๋คโ๋ผ๋ ๋ง์ ๋จ๊ฒผ๋ค. ๋์ ํ์ โํ๋ฌธ์ ์ ์ธ์งํ์ฌ ์ฌ๋ฐ๋ฅด๊ฒ ํ๊ฐํ๋คโ๊ณ ํ์ผ๋ฉฐ ํ๋ฌธ๊ณผ ๊ด๋ จ๋๋ ๋ชจ๋ ๊ด์ง์ ๊ฑฐ์น ๋๊ณผ ๊ธ์ ์๋ง ์ค๋ฅผ ์ ์์๋ค. ํ๊ณ๋ ์ 2ํ์ผ๋ก ํ์์ ๋๊ธ์ด์ง๋ง ์ ์น์ด๋ ํ์๋ณด๋ค ๋๊ฒ ๋์ฐ ๋ฐ์๋ค. ๋์ ํ์ ์ค๋๋ ๊ด์ง์์ผ๋ก ๊ต์ก๋ถ ์ฅ๊ด์ ํด๋น๋๋, ๊ณต์ ์ผ๋ก ์ฒ ์ ํ ๊ฒ์ฆ๋ ๋๊ณผ๊ธ์ ์์ ํํด์ ์ ์น์ ๊ฒฝ๋ฅ์ ๊ฐ์ถ๊ณ ํ๋ฌธ์ ์ผ๋ก๋ ๋น๋์ ์ต๊ณ ์ ์ฑ๋ฆฌํ์๋ก ๊ณต์ธ๋ ์ธ๋ฌผ๋ง์ด ์๋ช
๋ ์ ์๋ค๋ ์ ์์ ์ต๊ณ ์ ๋ช
์๋ก์ด ๊ด์ง์ด์๋ค. ๊ด์ง์์ผ๋ก๋ ์ผ์ธ์งํ๋ง์ธ์ง์(ไธไบบไนไธ่ฌไบบไนไธ)์ ์์์ , ์ข์์ , ์ฐ์์ ์ ์ง๋ธ ์ธ๋ฌผ ๊ฐ์ด๋ฐ์์๋ ๋์ ํ์ ์ง๋ธ ์ธ๋ฌผ์ด ์์๋ผ๋ ๊ฒ์ ์ ์น์ ๋๋ ๊ด๋ฃ์ ์ฑ๊ฒฉ์ด ์ฐ์ ์ด ์๋๋ผ ์ฑ๋ฆฌํ์ ํ๋ฌธ์ฑ์ ์ฐ์ ํ๋ค๋ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ๋์ ํ๊ณผ ์ฐ์์ , ์ข์์ , ์์์ ์ ์ง๋ธ ์ธ๋ฌผ์ ๊ฐ๋ฌธ์ ๋ช
๋ฌธ ๊ฐ๋ฌธ ์ค์ ๋ช
๋ฌธ ๊ฐ๋ฌธ์ผ๋ก ์กด์คํ๋ค.\n\n๋ณ๊ณ๋์ ํ๋ฌธ์ ๋ช
๋๋ผ์ ์ฌ๋์ธ๊ต ํ๋๋ฐ, ์ ๊ต์ฌํ๋ฅผ ๊ฑด์คํ๊ณ ์กฐ์ ์ ์ด๋
์ ์ ํํ๋๋ฐ ์ฐ์๋ค. ์ธ์ข
์ ์งํ์ ํ์ฌ ์ค์์ โ์์ผ๋ก๋ ๋ณธ์ (์ฌ๋ฌด์ค)์ ์ถ๊ทผํ์ง ๋ง๊ณ ์ค๋ก์ง ์ง์์ ๊ธ์ ์ฝ์ด๋ผโ๊ณ ๋ช
ํ๋ค. ํ ๊ฐ์ง ์กฐ๊ฑด์, ์ธ ์ฌ๋์ด ๊ธ์ ์ฝ๋ ๊ท๋ฒ์ ๋ณ๊ณ๋์ ์ง๋๋ฅผ ๋ฐ์์ผ ํ๋ค๋ ๊ฒ์ด์๋ค.'],
['์ค ๋ชจ์จ์ ์ฑ ์ ๋ ์ํน๊ณผ ์ฐ๋ฃจ๋ ์ฌ๊ฑด์ด ๋ฐ์ํ ์ง์ญ์?', '์๋๊ฐ๋ ํ๋ผ๋ค์ ๊ธฐ์ธ๊ฐ ํํ ๊บพ์๋ค. ํ๋ผ๋ค๋ ์ง๋ 2~4์๊น์ง 2014๋
๋ 1๋ถ๊ธฐ ์์ต์ด ์ง๋ํด ๊ฐ์ ๊ธฐ๊ฐ๋ณด๋ค 24% ๊ธ๊ฐํ 1์ต530๋ง์ ๋ก(์ฝ 1474์ต์)์ ๊ทธ์ณค๋ค๊ณ 5์ผ(ํ์ง์๊ฐ) ๋ฐํํ๋ค.๋งค์ถ๋ 0.6% ์ค์ด๋ 10์ต6000๋ง๋ฌ๋ฌ(์ฝ 1์กฐ8000์ต์)์ ๊ทธ์ณค๋ค. 2010๋
์ดํ ๋ถ๊ธฐ ๋งค์ถ์ด ์ฒ์ ์ค์ด๋ ๊ฐ์ฅ ํฐ ์ด์ ๋ ์ง๋ํด 29%๋ ์ฆ๊ฐํ๋ ๊ฐ์ฃฝ์ ํ ํ๋งค๊ฐ 1๋ถ๊ธฐ์ 3% ์ค์ด๋ ํ์ด๋ค. ํ๋ผ๋ค๋ ๊ฐ์ฃฝ์ ํ ๋ถ์ผ์์ ๋ช
ํ์
์ฒด ๊ฐ ๊ฒฝ์์ด ์ฌํ๋๋ฉด์ ํ๋งค๋์ด ์ค์ด๋ค์๋ค๊ณ ์ค๋ช
ํ๋ค. ๋ฃจ์ด๋นํต ๋ฑ์ด ๋ธ๋๋ ๋ก๊ณ ๊ฐ ํฌ๊ฒ ์๊ฒจ์ง ์บ๋ฒ์ค๋ฐฑ ์ ํ์ ์ง์คํ๋ค๊ฐ ์ด๋ ค์์ ๊ฒช๋ ์ฌ์ด ํ๋ผ๋ค๋ ๋ก๊ณ ๋ฅผ ์๊ฒ ์ด ๊ฐ์ฃฝ๊ฐ๋ฐฉ์ ํ๋งคํด ์ฑ์ฅํ์ง๋ง ์ต๊ทผ ๋ค์ด ์์ฅ ์ํฉ์ด ๋ฌ๋ผ์ง ๊ฒ. ๋ฃจ์นด ์์นด BNPํ๋ฆฌ๋ฐ ๋ช
ํ๋ด๋น ์ ๋๋ฆฌ์คํธ๋ โํ๋ผ๋ค ๋ธ๋๋๋ ๋ ์ด์ ๋ช
ํ ์์ฅ์ ์ค์ฌ์ด ์๋๋คโ๋ฉฐ โ๊ฐ๊ฒฉ์ ์ฌ๋ ค ๊ณ ๊ธ ์ ํ์ผ๋ก ๋ณด์ด๋ ๊ฒ ์ธ์ ์๋ก์ด ๋งค๋ ฅ์ ์๋น์์๊ฒ ๋ณด์ฌ์ค์ผ ์๊ธฐ๋ฅผ ํ๊ฐํ ์ ์์ ๊ฒโ์ด๋ผ๊ณ ์ง์ ํ๋ค. ๋๋งค ๋ถ๋ฌธ ํ๋งค ๊ฐ์์ ์ ๋กํ ๊ฐ์ธ ๋ฑ ํ์จ ๋ณ๋์ฑ์ด ์ฌํด์ง ๊ฒ๋ ๋งค์ถ์ ์ํฅ์ ๋ฏธ์ณค๋ค. ํ๋ผ๋ค๋ ๊ฐ๊ฒฉ ํต์ ๊ฐ ์ฝ๊ณ ๋ธ๋๋ ์ด๋ฏธ์ง ์ ์ง์๋ ๋์์ด ๋๋ค๊ณ ํ๋จํด ๋๋งค๋ณด๋ค๋ ์์ฒด ์๋งค์ ์ ํตํ ํ๋งค ์ ๋ต์ ํด๊ณ ์๋ค. ํ์ง๋ง ์ฌ ๋ค์ด ๋๋งค ํ๋งค๊ฐ 25% ์ค์ด๋๋ ๋์ ์๋งค ๋ถ๋ฌธ์ 3% ์ฆ๊ฐํ๋ ๋ฐ ๊ทธ์ณค๋ค. ์์์ ์์ฅ์์์ ๋ถ์ง๋ ํ ์ด์ ๋ค. ์์คํธ๋ฆฌํธ์ ๋์ โ์ค๊ตญ์ด ๋ถํจ์ฒ๊ฒฐ์ ๋์๋ฉด์ ์ฌ์นํ ์๋น์ ๋ํ ๋จ์์ด ์ฌํด์ง ๊ฒ๋ ํ๋งค์ ๋ถ์ ์ ์ธ ์ํฅ์ ์คฌ๋คโ๊ณ ์ค๋ช
ํ๋ค.'],
['๋ดํ์
์ 1998๋
6์ ๋ฉฐ์น ์ ์ฒ์์ผ๋ก ๋ฐํ๋์๋๊ฐ?', '๋ค์๋ฌ์ ํ๋
์ ๋นํด ๋ ์ด๋ฅธ ๋ฌด๋์๊ฐ ๊ธฐ์น์ ๋ถ๋ฆด ์ ๋ง์ด๋ค. 8์์๋ ๋๊ธฐ๋ถ์์ ๊ณผ ์ ๊ธฐ์์ ์ํฅ์ผ๋ก ๋ง์ ๋น๊ฐ ๋ด๋ฆฌ๊ฒ ๋ค.๊ธฐ์์ฒญ์ 22์ผ โ3๊ฐ์ ๋ ์จ ์ ๋งโ์์ ๋ค์๋ฌ์ ์ด๋์ฑ ๊ณ ๊ธฐ์๊ณผ ์์ธต ํ๊ธฐ์ ์ํฅ์ผ๋ก ๊ธฐ์จ ๋ณํ๊ฐ ํฌ๊ฒ ๊ณ ๊ธฐ์จ์ ๋์ฒด๋ก ํ๋
๋ณด๋ค ๋์ ๊ฒ์ด๋ผ๊ณ ์๋ณดํ๋ค. ์ ๊ธฐ์์ ์ํฅ์ผ๋ก ๋จ๋ถ์ง๋ฐฉ์ ์ค์ฌ์ผ๋ก ๋ค์ ๋ง์ ๋น๊ฐ ์ฌ ๋๊ฐ ์๊ฒ ๋ค.7์์ ๋จ์ชฝ์ ์ง๋๋ ์ ๊ธฐ์์ ์ํฅ์ ์ฃผ๊ธฐ์ ์ผ๋ก ๋ฐ์ ํ๋ฆฐ ๋ ์ด ๋ง๊ฒ ๊ณ ๋จ๋ถ์ง๋ฐฉ์ ์ค์ฌ์ผ๋ก ๋ง์ ๋น๊ฐ ๋ด๋ฆด ์ ๋ง์ด๋ค. ์ฅ๋ง๊ฐ ๋๋๊ณ ๋ณธ๊ฒฉ์ ์ธ ๋ฌด๋์๊ฐ ์ฐพ์์ค๋ 8์์๋ ํ๋
์ ๋นํด โ๋ ๋ฅ๊ณ ๋น๊ฐ ๋ง์ด ๋ด๋ฆฌ๋โ ๋ ์จ๊ฐ ์ด์ด์ง๊ฒ ๋ค. ๊ธฐ์์ฒญ์ ์์ธต์ ์ฐฌ ๊ณต๊ธฐ๊ฐ ํ์ธต์ ๋จ๊ฑฐ์ด ๊ณต๊ธฐ์ ๋ง๋ ๋ฐ์ํ๋ ๋๊ธฐ๋ถ์์ ๋ฐ ๋ฐ๋ฌํ ์ ๊ธฐ์์ ์ํฅ์ผ๋ก ๋ง์ ๋น๊ฐ ์ฌ ๋๊ฐ ์๊ฒ ๋ค๊ณ ๋ด๋ค๋ดค๋ค. ํ๊ท ๊ธฐ์จ์ ์ต๊ทผ 30๋
๋ ํ๋
(25.1๋)๋ณด๋ค ๋น์ทํ๊ฑฐ๋ ๋ฎ๊ฒ ๊ณ , ๊ฐ์ฐ๋์ ํ๋
(274.9ใ)๊ณผ ๋น์ทํ๊ฑฐ๋ ๋ง๊ฒ ๋ค.์ฌ์ฌ๋ฆ์๋ ํ๋
๋ณด๋ค ๊ฐํ ํํ์ด ๋ง์ด ๋ฐ์ํ ๊ฒ์ผ๋ก ์ ๋ง๋๋ค. ๊ธฐ์์ฒญ์ ์๋๋จ์ ์ ๋์ํ์ ๊ฐํ์ ๋ฐ๋ผ ํํ์ด ํ๋
์ ๋นํด ๋จ๋์ชฝ์์ ๋ฐ์ํ๊ฒ ์ผ๋ฉฐ, ํํ์ ํ๋๊ธฐ๊ฐ์ด ๊ธธ์ด์ง ๊ฒ์ผ๋ก ๊ด์ธกํ๋ค.์ด๋ฒ ์ฃผ๋ง์ ์ด์ด ์๊ฐํ์ ์ผ์ธ 25์ผ์๋ ์ ๊ตญ์ ํ๋
์ ๋นํด ๋ฌด๋์ด ๋ ์จ๊ฐ ์ด์ด์ง๊ฒ ๋ค. ๊ธฐ์์ฒญ์ 26์ผ ์์ธ์ ๋ฎ ์ต๊ณ ๊ธฐ์จ์ด 30๋๊น์ง ์น์์ ์ฌ ๋ค์ด ๊ฐ์ฅ ๋์ ๊ธฐ์จ์ ๊ธฐ๋กํ ๊ฒ์ผ๋ก ๋ด๋ค๋ดค๋ค.'],
['ํ๋์๋์ฐจ์ ์ ์ฅ๋ถํ ๊ณต๊ธ์ฌ๊ฐ ์ ๊ธฐ์ฐจ ์์ ํ์ ์ ๋ณด์ธ ํด๋?', '์ต๊ทผ ํ ๋ฌ๊ฐ ์ฃผ์๊ตญ ํตํ ๋๋น ์ํ์ ๋ณ๋ํญ์ด ๊ฐ์ฅ ์ปธ๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋ค. ๊ทธ๋ฆฌ์ค ์๊ธฐ์ ์ด์ด ์ค๊ตญ์ ๊ธฐ์ต์ ์ธ ์์ํ ์ ํ ๋ฑ ๋์ธ ๋ถ์ ์์ธ์ด ์ฆํญ๋ ๊ฐ์ด๋ฐ ์ธ๊ตญ์ธ์ ํฌ์์๊ธ ์ดํ์ด ์ํ ๊ฐ์น ๋ณ๋์ ๋ถ์ฑ์งํ ๊ฒ์ด๋ ๋ถ์์ด๋ค.14์ผ ํ๊ตญ์ํ ๊ฒฝ์ ํต๊ณ์์คํ
(ECOS)์ ๋ฏธ๊ตญ ๋ฌ๋ฌํ ๋๋น ์ฃผ์๊ตญ ํตํ ํ์จ ๋ณํ ์ถ์ด ์๋ฃ์ ๋ฐ๋ฅด๋ฉด ์ง๋ 7์ ์ด ์ดํ ์ด๋ฌ 13์ผ ์ฌ์ด์ ๋ฌ๋ฌํ ๋๋น ์ํ ๋ณ๋ํญ์ 6.8%์ ๋ฌํ๋ค. ์ด๋ ํ๊ตญ ๋ฐํธ(4.3%), ์ฑ๊ฐํฌ๋ฅด๋ฌ๋ฌ(3.9%), ์ธ๋๋ค์์ ๋ฃจํผ์(3.4%), ์ค๊ตญ ์์(3.0%), ์ธ๋ ๋ฃจํผ(1.8%) ๋ฑ ๋ค๋ฅธ ์์์๊ถ ์ ํฅ๊ตญ ํตํ๋ณด๋ค ๋ ํฐ ๋ณ๋ํญ์ด๋ค. ํนํ ์ค๊ตญ์ ์์ํ ์ ํ ๋ฐํ ์งํ ์ํ๋ ๊ทน์ฌํ ๋ณ๋์ฑ์ ๋ณด์๋ค. ์์ ์ ์ธํ์ํ ์ฐ๊ตฌ์์ โํ๊ตญ ์ฃผ์์์ฅ์ ํฌ์ํ ์ธ๊ตญ์ธ๋ค์ ์๊ธ์ดํ์ด ์ํ์ ๋ณ๋ํญ์ ํค์ด ์ฃผ ์์ธโ์ด๋ผ๋ฉฐ โ์ยท๋ฌ๋ฌ ํ์จ์ ์ถ๊ฐ ์์น ๊ฐ๋ฅ์ฑ์ด ์ธ๊ตญ์ธ ํฌ์์์ ํ์ฐจ์์ ๋์ฑ ํ๋ํ ์ ์๋ค๋ ์ฐ๋ ค๊ฐ ๊ตญ๋ด ์ฆ์์์ ์๊ธ ์ ์ถ ์์ธ์ด ๋ ์ ์ ํฅํ ์ํ ๊ฐ์น ํ๋ฝ์ ๊ฐ์์ํฌ ์ ์๋คโ๊ณ ๋งํ๋ค.์์ํ ์ ํ ์ฌํ ์ดํ ์ํ ๊ฐ์น์ ๋ณ๋์ฑ์ด ํ์ธต ์ปค์ง๋ฉด์ ์ธํ๋น๊ตญ์ ๊ด๋ณต์ ์ฐํด ๊ธฐ๊ฐ์๋ 24์๊ฐ ์ ๊ฒ์ฒด์ ๋ฅผ ์ ์งํ๊ณ ์๋ค. ํ์์ ์ฐํด ๋ค์๋ ์ธ 17์ผ ์ค์ ๋์ฑ
๋ฐ ํ์๋ฅผ ๋ค์ ์ฐ๋ค.'],
]
scores = model.predict(pairs)
print(scores.shape)
# (5,)
# Or rank different texts based on similarity to a single text
ranks = model.rank(
'๊นํํ์ด ๋ฐ๋ฐํ ์ฌ๋์ ์ด๋ฆ์?',
[
'ํด์ผ๊ทผ๋ก๋ฅผ ์ฐ์ฅ๊ทผ๋ก์ ํฌํจํ๊ณ ์ฃผ๋น ์ต์ฅ ๊ทผ๋ก์๊ฐ์ ํํ 68์๊ฐ(๋ฒ์ ๊ทผ๋ก 40+์ฐ์ฅ๊ทผ๋ก 12+ํด์ผ๊ทผ๋ก 16)์์ 52์๊ฐ(๋ฒ์ ๊ทผ๋ก 40+์ฐ์ฅ๊ทผ๋ก 12)์ผ๋ก ๋จ์ถํ๋ ๋ด์ฉ์ โ๊ทผ๋ก๊ธฐ์ค๋ฒ ๊ฐ์ ์ ์ด์โ์ด ๋์๋ค. ๊ตญํ ํ๊ฒฝ๋
ธ๋์์ํ ๋
ธ์ฌ์ ์์๋ 9์ผ ๊ณต์ฒญํ๋ฅผ ์ด๊ณ ์ด๋ค ๊ณต๋ฐฉ์ ๋ฒ์๋ค. ์ด์ฒ ์ ์์ธ๋ ๋ฒํ์ ๋ฌธ๋ํ์ ๊ต์(์์ ์ง์๋จ ์์)๋ ๋ฐ์ ์์ โ๊ทผ๋ก์๊ฐ์ ๊ธฐ์ค์ด ๋๋ 1์ฃผ์ ๋จ์๋ 7์ผ์ด๊ณ , 40+12 ์ ๋๋ฅผ ์ ์งํจ์ผ๋ก์จ ์ฃผ 40์๊ฐ์ ์์น์ ์ฌํ์ธํ๋ ๋ด์ฉโ์ด๋ผ๊ณ ์ค๋ช
ํ๋ค. 1์๊ณผ 2์์ผ๋ก ๊ตฌ๋ถํ ์ด์์ ํต์ฌ ๋ด์ฉ์ ํด์ผ๊ทผ๋ก๋ฅผ ์ฐ์ฅ๊ทผ๋ก์ ํฌํจํ๋ ๊ฒ์ด๋ค. ๋ค๋ง 1์์ ์ฐ์ฅ๊ทผ๋ก์ ์ ํ์ ๋ํ ์์ธ ๊ท์ ์ ๋๊ณ ์๋ค. ๋ฒ์ ๊ทผ๋ก์๊ฐ ์ธ์ 1์ฃผ๋น 8์๊ฐ์ ์ถ๊ฐ๋ก ์ผํ ์ ์๋๋ก โํน๋ณ๊ทผ๋ก์๊ฐโ ์กฐํญ์ ๋๋ค. 2์์ ์ฐ์ฅยทํด์ผยท์ผ๊ฐ ๊ฐ์ฐ์๊ธ ์ค๋ณตํ ์ฆ์ ๋ฒ์ ๋ช
์ํด์ผ ํ๋ค๊ณ ๊ถ๊ณ ํ๋ค. ์ด์ ํจ๊ป ๊ทผ๋ก์๊ฐ์ ์๋ฐํ ์ฌ์
์ฃผ์ ๋ํด์๋ ์๋ฒ ์ฌํญ์ ๋ฉด์ ํด์ฃผ๋ ์ด๋ฅธ๋ฐ โ๋ฉด๋ฒ ์กฐํญโ์ ๋๋ค. ํ ๋ก ์์๋ ๊ทผ๋ก์๊ฐ ๋จ์ถ์ด๋ผ๋ ํฐ ํ์๋ ๋์ฒด๋ก ๊ณต๊ฐํ์ง๋ง, ๊ตฌ์ฒด์ ์ธ ๋ฐฉ์์ ๋๊ณ ๋
ธยท์ฌยท์ ๊ฐ ์
์ฅ์ด ๊ทน๋ช
ํ๊ฒ ๊ฐ๋ ธ๋ค. ์ด์์ ์๋๋ฆฌ๋น ์์์ โ๋
ธ๋๊ณ์์๋ ๊ทผ๋ก์๊ฐ์ด ๋จ์ถ๋๋๋ผ๊ณ ์๊ธ์ ๋ณด์ ํด์ผ ํ๋ค๊ณ ์ฃผ์ฅํ๋๋ฐ ๋์์ด ์๋์ง ๊ถ๊ธํ๋คโ๊ณ ๋งํ๋ค. ์ด์ ๋ํด ๊นํํ ๋ฏผ์ฃผ๋
ธ์ด ์ ์ฑ
์ฐ๊ตฌ์์ฅ์ โ๊ทผ๋ก์๊ฐ์ด ์กฐ๊ธ์ฉ ์ค์ด๋๋ ๋์ ์๊ธ์ด ๋ณด์ ๋ ๊ฒ์ ๊ฒฝ์์๊ฐ ์๋ ๊ทผ๋ก์๋ค์ ์์ฐ์ฑ ํฅ์์ด ์์๊ธฐ ๋๋ฌธโ์ด๋ผ๊ณ ๋ฐ๋ฐํ๋ค.์์๋ฏธ ์์ ์น๋ฏผ์ฃผ์ฐํฉ ์์์ โ๊ทผ๋ก์๊ฐ ๋จ์ถ์ 2๋
๊ฐ ์ ์ํ๊ณ 6๋
๊ฐ ๋จ๊ณ์ ์ผ๋ก ์ ์ฐฉ์ํค๊ฒ ๋ค๋ ์ ๋ถ์์ ํ๊ตญ ๋
ธ๋์ฌ์ ์ฌ๋ณ์ด ๋ ๊ฒโ์ด๋ผ๊ณ ์ฃผ์ฅํ๋ค. ๊ฐ๋ํ ์ค์๊ธฐ์
์ค์ํ ๋
ธ๋์ธ๋ ฅ๋ถ๊ณผ์์์ฅ์ โ์ธ๋ ฅ๋์ ์๋ฌ๋ฆฌ๋ ์ค์๊ธฐ์
๋ค์ ์ฃฝ์ด๋ ค๋ฉด ์ด ๋ฒ์ ํต๊ณผ์ํค๋ผโ๊ณ ๋งํ๋ค.',
'ํนํ ๋ณ๊ณ๋์ ์กฐ์ ์๋ ๋์ ํ์ 20๋
์ง๋ธ ๋น๋ ์ต๊ณ ์ ํ๋ฌธ ๊ถ์์๋ค. ๊ถ๋ ฅ์ด๋ ์ด๊ถํ๊ณ ๋ ๋ฌด๊ดํ ํ๋ฌธ์ ๋ค๋ฃจ๋ ์ต๊ณ ์ง์ฑ
๋์ ํ์ ๋ช
์๋ฅผ ์ค์์ํ๋ ์ฌ๋๋ถ๋ค์ ์ ๋ง์ ๋์์ผ๋ก โ์ ์น 10๋ช
์ด ๋์ ํ ํ ๋ช
๋ง ๋ชปํ๋คโ๋ผ๋ ๋ง์ ๋จ๊ฒผ๋ค. ๋์ ํ์ โํ๋ฌธ์ ์ ์ธ์งํ์ฌ ์ฌ๋ฐ๋ฅด๊ฒ ํ๊ฐํ๋คโ๊ณ ํ์ผ๋ฉฐ ํ๋ฌธ๊ณผ ๊ด๋ จ๋๋ ๋ชจ๋ ๊ด์ง์ ๊ฑฐ์น ๋๊ณผ ๊ธ์ ์๋ง ์ค๋ฅผ ์ ์์๋ค. ํ๊ณ๋ ์ 2ํ์ผ๋ก ํ์์ ๋๊ธ์ด์ง๋ง ์ ์น์ด๋ ํ์๋ณด๋ค ๋๊ฒ ๋์ฐ ๋ฐ์๋ค. ๋์ ํ์ ์ค๋๋ ๊ด์ง์์ผ๋ก ๊ต์ก๋ถ ์ฅ๊ด์ ํด๋น๋๋, ๊ณต์ ์ผ๋ก ์ฒ ์ ํ ๊ฒ์ฆ๋ ๋๊ณผ๊ธ์ ์์ ํํด์ ์ ์น์ ๊ฒฝ๋ฅ์ ๊ฐ์ถ๊ณ ํ๋ฌธ์ ์ผ๋ก๋ ๋น๋์ ์ต๊ณ ์ ์ฑ๋ฆฌํ์๋ก ๊ณต์ธ๋ ์ธ๋ฌผ๋ง์ด ์๋ช
๋ ์ ์๋ค๋ ์ ์์ ์ต๊ณ ์ ๋ช
์๋ก์ด ๊ด์ง์ด์๋ค. ๊ด์ง์์ผ๋ก๋ ์ผ์ธ์งํ๋ง์ธ์ง์(ไธไบบไนไธ่ฌไบบไนไธ)์ ์์์ , ์ข์์ , ์ฐ์์ ์ ์ง๋ธ ์ธ๋ฌผ ๊ฐ์ด๋ฐ์์๋ ๋์ ํ์ ์ง๋ธ ์ธ๋ฌผ์ด ์์๋ผ๋ ๊ฒ์ ์ ์น์ ๋๋ ๊ด๋ฃ์ ์ฑ๊ฒฉ์ด ์ฐ์ ์ด ์๋๋ผ ์ฑ๋ฆฌํ์ ํ๋ฌธ์ฑ์ ์ฐ์ ํ๋ค๋ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ๋์ ํ๊ณผ ์ฐ์์ , ์ข์์ , ์์์ ์ ์ง๋ธ ์ธ๋ฌผ์ ๊ฐ๋ฌธ์ ๋ช
๋ฌธ ๊ฐ๋ฌธ ์ค์ ๋ช
๋ฌธ ๊ฐ๋ฌธ์ผ๋ก ์กด์คํ๋ค.\n\n๋ณ๊ณ๋์ ํ๋ฌธ์ ๋ช
๋๋ผ์ ์ฌ๋์ธ๊ต ํ๋๋ฐ, ์ ๊ต์ฌํ๋ฅผ ๊ฑด์คํ๊ณ ์กฐ์ ์ ์ด๋
์ ์ ํํ๋๋ฐ ์ฐ์๋ค. ์ธ์ข
์ ์งํ์ ํ์ฌ ์ค์์ โ์์ผ๋ก๋ ๋ณธ์ (์ฌ๋ฌด์ค)์ ์ถ๊ทผํ์ง ๋ง๊ณ ์ค๋ก์ง ์ง์์ ๊ธ์ ์ฝ์ด๋ผโ๊ณ ๋ช
ํ๋ค. ํ ๊ฐ์ง ์กฐ๊ฑด์, ์ธ ์ฌ๋์ด ๊ธ์ ์ฝ๋ ๊ท๋ฒ์ ๋ณ๊ณ๋์ ์ง๋๋ฅผ ๋ฐ์์ผ ํ๋ค๋ ๊ฒ์ด์๋ค.',
'์๋๊ฐ๋ ํ๋ผ๋ค์ ๊ธฐ์ธ๊ฐ ํํ ๊บพ์๋ค. ํ๋ผ๋ค๋ ์ง๋ 2~4์๊น์ง 2014๋
๋ 1๋ถ๊ธฐ ์์ต์ด ์ง๋ํด ๊ฐ์ ๊ธฐ๊ฐ๋ณด๋ค 24% ๊ธ๊ฐํ 1์ต530๋ง์ ๋ก(์ฝ 1474์ต์)์ ๊ทธ์ณค๋ค๊ณ 5์ผ(ํ์ง์๊ฐ) ๋ฐํํ๋ค.๋งค์ถ๋ 0.6% ์ค์ด๋ 10์ต6000๋ง๋ฌ๋ฌ(์ฝ 1์กฐ8000์ต์)์ ๊ทธ์ณค๋ค. 2010๋
์ดํ ๋ถ๊ธฐ ๋งค์ถ์ด ์ฒ์ ์ค์ด๋ ๊ฐ์ฅ ํฐ ์ด์ ๋ ์ง๋ํด 29%๋ ์ฆ๊ฐํ๋ ๊ฐ์ฃฝ์ ํ ํ๋งค๊ฐ 1๋ถ๊ธฐ์ 3% ์ค์ด๋ ํ์ด๋ค. ํ๋ผ๋ค๋ ๊ฐ์ฃฝ์ ํ ๋ถ์ผ์์ ๋ช
ํ์
์ฒด ๊ฐ ๊ฒฝ์์ด ์ฌํ๋๋ฉด์ ํ๋งค๋์ด ์ค์ด๋ค์๋ค๊ณ ์ค๋ช
ํ๋ค. ๋ฃจ์ด๋นํต ๋ฑ์ด ๋ธ๋๋ ๋ก๊ณ ๊ฐ ํฌ๊ฒ ์๊ฒจ์ง ์บ๋ฒ์ค๋ฐฑ ์ ํ์ ์ง์คํ๋ค๊ฐ ์ด๋ ค์์ ๊ฒช๋ ์ฌ์ด ํ๋ผ๋ค๋ ๋ก๊ณ ๋ฅผ ์๊ฒ ์ด ๊ฐ์ฃฝ๊ฐ๋ฐฉ์ ํ๋งคํด ์ฑ์ฅํ์ง๋ง ์ต๊ทผ ๋ค์ด ์์ฅ ์ํฉ์ด ๋ฌ๋ผ์ง ๊ฒ. ๋ฃจ์นด ์์นด BNPํ๋ฆฌ๋ฐ ๋ช
ํ๋ด๋น ์ ๋๋ฆฌ์คํธ๋ โํ๋ผ๋ค ๋ธ๋๋๋ ๋ ์ด์ ๋ช
ํ ์์ฅ์ ์ค์ฌ์ด ์๋๋คโ๋ฉฐ โ๊ฐ๊ฒฉ์ ์ฌ๋ ค ๊ณ ๊ธ ์ ํ์ผ๋ก ๋ณด์ด๋ ๊ฒ ์ธ์ ์๋ก์ด ๋งค๋ ฅ์ ์๋น์์๊ฒ ๋ณด์ฌ์ค์ผ ์๊ธฐ๋ฅผ ํ๊ฐํ ์ ์์ ๊ฒโ์ด๋ผ๊ณ ์ง์ ํ๋ค. ๋๋งค ๋ถ๋ฌธ ํ๋งค ๊ฐ์์ ์ ๋กํ ๊ฐ์ธ ๋ฑ ํ์จ ๋ณ๋์ฑ์ด ์ฌํด์ง ๊ฒ๋ ๋งค์ถ์ ์ํฅ์ ๋ฏธ์ณค๋ค. ํ๋ผ๋ค๋ ๊ฐ๊ฒฉ ํต์ ๊ฐ ์ฝ๊ณ ๋ธ๋๋ ์ด๋ฏธ์ง ์ ์ง์๋ ๋์์ด ๋๋ค๊ณ ํ๋จํด ๋๋งค๋ณด๋ค๋ ์์ฒด ์๋งค์ ์ ํตํ ํ๋งค ์ ๋ต์ ํด๊ณ ์๋ค. ํ์ง๋ง ์ฌ ๋ค์ด ๋๋งค ํ๋งค๊ฐ 25% ์ค์ด๋๋ ๋์ ์๋งค ๋ถ๋ฌธ์ 3% ์ฆ๊ฐํ๋ ๋ฐ ๊ทธ์ณค๋ค. ์์์ ์์ฅ์์์ ๋ถ์ง๋ ํ ์ด์ ๋ค. ์์คํธ๋ฆฌํธ์ ๋์ โ์ค๊ตญ์ด ๋ถํจ์ฒ๊ฒฐ์ ๋์๋ฉด์ ์ฌ์นํ ์๋น์ ๋ํ ๋จ์์ด ์ฌํด์ง ๊ฒ๋ ํ๋งค์ ๋ถ์ ์ ์ธ ์ํฅ์ ์คฌ๋คโ๊ณ ์ค๋ช
ํ๋ค.',
'๋ค์๋ฌ์ ํ๋
์ ๋นํด ๋ ์ด๋ฅธ ๋ฌด๋์๊ฐ ๊ธฐ์น์ ๋ถ๋ฆด ์ ๋ง์ด๋ค. 8์์๋ ๋๊ธฐ๋ถ์์ ๊ณผ ์ ๊ธฐ์์ ์ํฅ์ผ๋ก ๋ง์ ๋น๊ฐ ๋ด๋ฆฌ๊ฒ ๋ค.๊ธฐ์์ฒญ์ 22์ผ โ3๊ฐ์ ๋ ์จ ์ ๋งโ์์ ๋ค์๋ฌ์ ์ด๋์ฑ ๊ณ ๊ธฐ์๊ณผ ์์ธต ํ๊ธฐ์ ์ํฅ์ผ๋ก ๊ธฐ์จ ๋ณํ๊ฐ ํฌ๊ฒ ๊ณ ๊ธฐ์จ์ ๋์ฒด๋ก ํ๋
๋ณด๋ค ๋์ ๊ฒ์ด๋ผ๊ณ ์๋ณดํ๋ค. ์ ๊ธฐ์์ ์ํฅ์ผ๋ก ๋จ๋ถ์ง๋ฐฉ์ ์ค์ฌ์ผ๋ก ๋ค์ ๋ง์ ๋น๊ฐ ์ฌ ๋๊ฐ ์๊ฒ ๋ค.7์์ ๋จ์ชฝ์ ์ง๋๋ ์ ๊ธฐ์์ ์ํฅ์ ์ฃผ๊ธฐ์ ์ผ๋ก ๋ฐ์ ํ๋ฆฐ ๋ ์ด ๋ง๊ฒ ๊ณ ๋จ๋ถ์ง๋ฐฉ์ ์ค์ฌ์ผ๋ก ๋ง์ ๋น๊ฐ ๋ด๋ฆด ์ ๋ง์ด๋ค. ์ฅ๋ง๊ฐ ๋๋๊ณ ๋ณธ๊ฒฉ์ ์ธ ๋ฌด๋์๊ฐ ์ฐพ์์ค๋ 8์์๋ ํ๋
์ ๋นํด โ๋ ๋ฅ๊ณ ๋น๊ฐ ๋ง์ด ๋ด๋ฆฌ๋โ ๋ ์จ๊ฐ ์ด์ด์ง๊ฒ ๋ค. ๊ธฐ์์ฒญ์ ์์ธต์ ์ฐฌ ๊ณต๊ธฐ๊ฐ ํ์ธต์ ๋จ๊ฑฐ์ด ๊ณต๊ธฐ์ ๋ง๋ ๋ฐ์ํ๋ ๋๊ธฐ๋ถ์์ ๋ฐ ๋ฐ๋ฌํ ์ ๊ธฐ์์ ์ํฅ์ผ๋ก ๋ง์ ๋น๊ฐ ์ฌ ๋๊ฐ ์๊ฒ ๋ค๊ณ ๋ด๋ค๋ดค๋ค. ํ๊ท ๊ธฐ์จ์ ์ต๊ทผ 30๋
๋ ํ๋
(25.1๋)๋ณด๋ค ๋น์ทํ๊ฑฐ๋ ๋ฎ๊ฒ ๊ณ , ๊ฐ์ฐ๋์ ํ๋
(274.9ใ)๊ณผ ๋น์ทํ๊ฑฐ๋ ๋ง๊ฒ ๋ค.์ฌ์ฌ๋ฆ์๋ ํ๋
๋ณด๋ค ๊ฐํ ํํ์ด ๋ง์ด ๋ฐ์ํ ๊ฒ์ผ๋ก ์ ๋ง๋๋ค. ๊ธฐ์์ฒญ์ ์๋๋จ์ ์ ๋์ํ์ ๊ฐํ์ ๋ฐ๋ผ ํํ์ด ํ๋
์ ๋นํด ๋จ๋์ชฝ์์ ๋ฐ์ํ๊ฒ ์ผ๋ฉฐ, ํํ์ ํ๋๊ธฐ๊ฐ์ด ๊ธธ์ด์ง ๊ฒ์ผ๋ก ๊ด์ธกํ๋ค.์ด๋ฒ ์ฃผ๋ง์ ์ด์ด ์๊ฐํ์ ์ผ์ธ 25์ผ์๋ ์ ๊ตญ์ ํ๋
์ ๋นํด ๋ฌด๋์ด ๋ ์จ๊ฐ ์ด์ด์ง๊ฒ ๋ค. ๊ธฐ์์ฒญ์ 26์ผ ์์ธ์ ๋ฎ ์ต๊ณ ๊ธฐ์จ์ด 30๋๊น์ง ์น์์ ์ฌ ๋ค์ด ๊ฐ์ฅ ๋์ ๊ธฐ์จ์ ๊ธฐ๋กํ ๊ฒ์ผ๋ก ๋ด๋ค๋ดค๋ค.',
'์ต๊ทผ ํ ๋ฌ๊ฐ ์ฃผ์๊ตญ ํตํ ๋๋น ์ํ์ ๋ณ๋ํญ์ด ๊ฐ์ฅ ์ปธ๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋ค. ๊ทธ๋ฆฌ์ค ์๊ธฐ์ ์ด์ด ์ค๊ตญ์ ๊ธฐ์ต์ ์ธ ์์ํ ์ ํ ๋ฑ ๋์ธ ๋ถ์ ์์ธ์ด ์ฆํญ๋ ๊ฐ์ด๋ฐ ์ธ๊ตญ์ธ์ ํฌ์์๊ธ ์ดํ์ด ์ํ ๊ฐ์น ๋ณ๋์ ๋ถ์ฑ์งํ ๊ฒ์ด๋ ๋ถ์์ด๋ค.14์ผ ํ๊ตญ์ํ ๊ฒฝ์ ํต๊ณ์์คํ
(ECOS)์ ๋ฏธ๊ตญ ๋ฌ๋ฌํ ๋๋น ์ฃผ์๊ตญ ํตํ ํ์จ ๋ณํ ์ถ์ด ์๋ฃ์ ๋ฐ๋ฅด๋ฉด ์ง๋ 7์ ์ด ์ดํ ์ด๋ฌ 13์ผ ์ฌ์ด์ ๋ฌ๋ฌํ ๋๋น ์ํ ๋ณ๋ํญ์ 6.8%์ ๋ฌํ๋ค. ์ด๋ ํ๊ตญ ๋ฐํธ(4.3%), ์ฑ๊ฐํฌ๋ฅด๋ฌ๋ฌ(3.9%), ์ธ๋๋ค์์ ๋ฃจํผ์(3.4%), ์ค๊ตญ ์์(3.0%), ์ธ๋ ๋ฃจํผ(1.8%) ๋ฑ ๋ค๋ฅธ ์์์๊ถ ์ ํฅ๊ตญ ํตํ๋ณด๋ค ๋ ํฐ ๋ณ๋ํญ์ด๋ค. ํนํ ์ค๊ตญ์ ์์ํ ์ ํ ๋ฐํ ์งํ ์ํ๋ ๊ทน์ฌํ ๋ณ๋์ฑ์ ๋ณด์๋ค. ์์ ์ ์ธํ์ํ ์ฐ๊ตฌ์์ โํ๊ตญ ์ฃผ์์์ฅ์ ํฌ์ํ ์ธ๊ตญ์ธ๋ค์ ์๊ธ์ดํ์ด ์ํ์ ๋ณ๋ํญ์ ํค์ด ์ฃผ ์์ธโ์ด๋ผ๋ฉฐ โ์ยท๋ฌ๋ฌ ํ์จ์ ์ถ๊ฐ ์์น ๊ฐ๋ฅ์ฑ์ด ์ธ๊ตญ์ธ ํฌ์์์ ํ์ฐจ์์ ๋์ฑ ํ๋ํ ์ ์๋ค๋ ์ฐ๋ ค๊ฐ ๊ตญ๋ด ์ฆ์์์ ์๊ธ ์ ์ถ ์์ธ์ด ๋ ์ ์ ํฅํ ์ํ ๊ฐ์น ํ๋ฝ์ ๊ฐ์์ํฌ ์ ์๋คโ๊ณ ๋งํ๋ค.์์ํ ์ ํ ์ฌํ ์ดํ ์ํ ๊ฐ์น์ ๋ณ๋์ฑ์ด ํ์ธต ์ปค์ง๋ฉด์ ์ธํ๋น๊ตญ์ ๊ด๋ณต์ ์ฐํด ๊ธฐ๊ฐ์๋ 24์๊ฐ ์ ๊ฒ์ฒด์ ๋ฅผ ์ ์งํ๊ณ ์๋ค. ํ์์ ์ฐํด ๋ค์๋ ์ธ 17์ผ ์ค์ ๋์ฑ
๋ฐ ํ์๋ฅผ ๋ค์ ์ฐ๋ค.',
]
)
# [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
Evaluation
Metrics
Cross Encoder Correlation
- Evaluated with
CECorrelationEvaluator
| Metric | Value |
|---|---|
| pearson | 0.9722 |
| spearman | 0.8654 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 35,108 training samples
- Columns:
sentence_0,sentence_1, andlabel - Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1 label type string string int details - min: 12 characters
- mean: 28.66 characters
- max: 64 characters
- min: 505 characters
- mean: 1001.86 characters
- max: 2034 characters
- 0: ~49.70%
- 1: ~50.30%
- Samples:
sentence_0 sentence_1 label ๊นํํ์ด ๋ฐ๋ฐํ ์ฌ๋์ ์ด๋ฆ์?ํด์ผ๊ทผ๋ก๋ฅผ ์ฐ์ฅ๊ทผ๋ก์ ํฌํจํ๊ณ ์ฃผ๋น ์ต์ฅ ๊ทผ๋ก์๊ฐ์ ํํ 68์๊ฐ(๋ฒ์ ๊ทผ๋ก 40+์ฐ์ฅ๊ทผ๋ก 12+ํด์ผ๊ทผ๋ก 16)์์ 52์๊ฐ(๋ฒ์ ๊ทผ๋ก 40+์ฐ์ฅ๊ทผ๋ก 12)์ผ๋ก ๋จ์ถํ๋ ๋ด์ฉ์ โ๊ทผ๋ก๊ธฐ์ค๋ฒ ๊ฐ์ ์ ์ด์โ์ด ๋์๋ค. ๊ตญํ ํ๊ฒฝ๋ ธ๋์์ํ ๋ ธ์ฌ์ ์์๋ 9์ผ ๊ณต์ฒญํ๋ฅผ ์ด๊ณ ์ด๋ค ๊ณต๋ฐฉ์ ๋ฒ์๋ค. ์ด์ฒ ์ ์์ธ๋ ๋ฒํ์ ๋ฌธ๋ํ์ ๊ต์(์์ ์ง์๋จ ์์)๋ ๋ฐ์ ์์ โ๊ทผ๋ก์๊ฐ์ ๊ธฐ์ค์ด ๋๋ 1์ฃผ์ ๋จ์๋ 7์ผ์ด๊ณ , 40+12 ์ ๋๋ฅผ ์ ์งํจ์ผ๋ก์จ ์ฃผ 40์๊ฐ์ ์์น์ ์ฌํ์ธํ๋ ๋ด์ฉโ์ด๋ผ๊ณ ์ค๋ช ํ๋ค. 1์๊ณผ 2์์ผ๋ก ๊ตฌ๋ถํ ์ด์์ ํต์ฌ ๋ด์ฉ์ ํด์ผ๊ทผ๋ก๋ฅผ ์ฐ์ฅ๊ทผ๋ก์ ํฌํจํ๋ ๊ฒ์ด๋ค. ๋ค๋ง 1์์ ์ฐ์ฅ๊ทผ๋ก์ ์ ํ์ ๋ํ ์์ธ ๊ท์ ์ ๋๊ณ ์๋ค. ๋ฒ์ ๊ทผ๋ก์๊ฐ ์ธ์ 1์ฃผ๋น 8์๊ฐ์ ์ถ๊ฐ๋ก ์ผํ ์ ์๋๋ก โํน๋ณ๊ทผ๋ก์๊ฐโ ์กฐํญ์ ๋๋ค. 2์์ ์ฐ์ฅยทํด์ผยท์ผ๊ฐ ๊ฐ์ฐ์๊ธ ์ค๋ณตํ ์ฆ์ ๋ฒ์ ๋ช ์ํด์ผ ํ๋ค๊ณ ๊ถ๊ณ ํ๋ค. ์ด์ ํจ๊ป ๊ทผ๋ก์๊ฐ์ ์๋ฐํ ์ฌ์ ์ฃผ์ ๋ํด์๋ ์๋ฒ ์ฌํญ์ ๋ฉด์ ํด์ฃผ๋ ์ด๋ฅธ๋ฐ โ๋ฉด๋ฒ ์กฐํญโ์ ๋๋ค. ํ ๋ก ์์๋ ๊ทผ๋ก์๊ฐ ๋จ์ถ์ด๋ผ๋ ํฐ ํ์๋ ๋์ฒด๋ก ๊ณต๊ฐํ์ง๋ง, ๊ตฌ์ฒด์ ์ธ ๋ฐฉ์์ ๋๊ณ ๋ ธยท์ฌยท์ ๊ฐ ์ ์ฅ์ด ๊ทน๋ช ํ๊ฒ ๊ฐ๋ ธ๋ค. ์ด์์ ์๋๋ฆฌ๋น ์์์ โ๋ ธ๋๊ณ์์๋ ๊ทผ๋ก์๊ฐ์ด ๋จ์ถ๋๋๋ผ๊ณ ์๊ธ์ ๋ณด์ ํด์ผ ํ๋ค๊ณ ์ฃผ์ฅํ๋๋ฐ ๋์์ด ์๋์ง ๊ถ๊ธํ๋คโ๊ณ ๋งํ๋ค. ์ด์ ๋ํด ๊นํํ ๋ฏผ์ฃผ๋ ธ์ด ์ ์ฑ ์ฐ๊ตฌ์์ฅ์ โ๊ทผ๋ก์๊ฐ์ด ์กฐ๊ธ์ฉ ์ค์ด๋๋ ๋์ ์๊ธ์ด ๋ณด์ ๋ ๊ฒ์ ๊ฒฝ์์๊ฐ ์๋ ๊ทผ๋ก์๋ค์ ์์ฐ์ฑ ํฅ์์ด ์์๊ธฐ ๋๋ฌธโ์ด๋ผ๊ณ ๋ฐ๋ฐํ๋ค.์์๋ฏธ ์์ ์น๋ฏผ์ฃผ์ฐํฉ ์์์ โ๊ทผ๋ก์๊ฐ ๋จ์ถ์ 2๋ ๊ฐ ์ ์ํ๊ณ 6๋ ๊ฐ ๋จ๊ณ์ ์ผ๋ก ์ ์ฐฉ์ํค๊ฒ ๋ค๋ ์ ๋ถ์์ ํ๊ตญ ๋ ธ๋์ฌ์ ์ฌ๋ณ์ด ๋ ๊ฒโ์ด๋ผ๊ณ ์ฃผ์ฅํ๋ค. ๊ฐ๋ํ ์ค์๊ธฐ์ ์ค์ํ ๋ ธ๋์ธ๋ ฅ๋ถ๊ณผ์์์ฅ์ โ์ธ๋ ฅ๋์ ์๋ฌ๋ฆฌ๋ ์ค์๊ธฐ์ ๋ค์ ์ฃฝ์ด๋ ค๋ฉด ์ด ๋ฒ์ ํต๊ณผ์ํค๋ผโ๊ณ ๋งํ๋ค.1๋ณด์ด์์ ์ต์๋จ์๋ ๋ฌด์์ด ๊ทธ๋ ค์ ธ์๋๊ฐ?ํนํ ๋ณ๊ณ๋์ ์กฐ์ ์๋ ๋์ ํ์ 20๋ ์ง๋ธ ๋น๋ ์ต๊ณ ์ ํ๋ฌธ ๊ถ์์๋ค. ๊ถ๋ ฅ์ด๋ ์ด๊ถํ๊ณ ๋ ๋ฌด๊ดํ ํ๋ฌธ์ ๋ค๋ฃจ๋ ์ต๊ณ ์ง์ฑ ๋์ ํ์ ๋ช ์๋ฅผ ์ค์์ํ๋ ์ฌ๋๋ถ๋ค์ ์ ๋ง์ ๋์์ผ๋ก โ์ ์น 10๋ช ์ด ๋์ ํ ํ ๋ช ๋ง ๋ชปํ๋คโ๋ผ๋ ๋ง์ ๋จ๊ฒผ๋ค. ๋์ ํ์ โํ๋ฌธ์ ์ ์ธ์งํ์ฌ ์ฌ๋ฐ๋ฅด๊ฒ ํ๊ฐํ๋คโ๊ณ ํ์ผ๋ฉฐ ํ๋ฌธ๊ณผ ๊ด๋ จ๋๋ ๋ชจ๋ ๊ด์ง์ ๊ฑฐ์น ๋๊ณผ ๊ธ์ ์๋ง ์ค๋ฅผ ์ ์์๋ค. ํ๊ณ๋ ์ 2ํ์ผ๋ก ํ์์ ๋๊ธ์ด์ง๋ง ์ ์น์ด๋ ํ์๋ณด๋ค ๋๊ฒ ๋์ฐ ๋ฐ์๋ค. ๋์ ํ์ ์ค๋๋ ๊ด์ง์์ผ๋ก ๊ต์ก๋ถ ์ฅ๊ด์ ํด๋น๋๋, ๊ณต์ ์ผ๋ก ์ฒ ์ ํ ๊ฒ์ฆ๋ ๋๊ณผ๊ธ์ ์์ ํํด์ ์ ์น์ ๊ฒฝ๋ฅ์ ๊ฐ์ถ๊ณ ํ๋ฌธ์ ์ผ๋ก๋ ๋น๋์ ์ต๊ณ ์ ์ฑ๋ฆฌํ์๋ก ๊ณต์ธ๋ ์ธ๋ฌผ๋ง์ด ์๋ช ๋ ์ ์๋ค๋ ์ ์์ ์ต๊ณ ์ ๋ช ์๋ก์ด ๊ด์ง์ด์๋ค. ๊ด์ง์์ผ๋ก๋ ์ผ์ธ์งํ๋ง์ธ์ง์(ไธไบบไนไธ่ฌไบบไนไธ)์ ์์์ , ์ข์์ , ์ฐ์์ ์ ์ง๋ธ ์ธ๋ฌผ ๊ฐ์ด๋ฐ์์๋ ๋์ ํ์ ์ง๋ธ ์ธ๋ฌผ์ด ์์๋ผ๋ ๊ฒ์ ์ ์น์ ๋๋ ๊ด๋ฃ์ ์ฑ๊ฒฉ์ด ์ฐ์ ์ด ์๋๋ผ ์ฑ๋ฆฌํ์ ํ๋ฌธ์ฑ์ ์ฐ์ ํ๋ค๋ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ๋์ ํ๊ณผ ์ฐ์์ , ์ข์์ , ์์์ ์ ์ง๋ธ ์ธ๋ฌผ์ ๊ฐ๋ฌธ์ ๋ช ๋ฌธ ๊ฐ๋ฌธ ์ค์ ๋ช ๋ฌธ ๊ฐ๋ฌธ์ผ๋ก ์กด์คํ๋ค.
๋ณ๊ณ๋์ ํ๋ฌธ์ ๋ช ๋๋ผ์ ์ฌ๋์ธ๊ต ํ๋๋ฐ, ์ ๊ต์ฌํ๋ฅผ ๊ฑด์คํ๊ณ ์กฐ์ ์ ์ด๋ ์ ์ ํํ๋๋ฐ ์ฐ์๋ค. ์ธ์ข ์ ์งํ์ ํ์ฌ ์ค์์ โ์์ผ๋ก๋ ๋ณธ์ (์ฌ๋ฌด์ค)์ ์ถ๊ทผํ์ง ๋ง๊ณ ์ค๋ก์ง ์ง์์ ๊ธ์ ์ฝ์ด๋ผโ๊ณ ๋ช ํ๋ค. ํ ๊ฐ์ง ์กฐ๊ฑด์, ์ธ ์ฌ๋์ด ๊ธ์ ์ฝ๋ ๊ท๋ฒ์ ๋ณ๊ณ๋์ ์ง๋๋ฅผ ๋ฐ์์ผ ํ๋ค๋ ๊ฒ์ด์๋ค.0์ค ๋ชจ์จ์ ์ฑ ์ ๋ ์ํน๊ณผ ์ฐ๋ฃจ๋ ์ฌ๊ฑด์ด ๋ฐ์ํ ์ง์ญ์?์๋๊ฐ๋ ํ๋ผ๋ค์ ๊ธฐ์ธ๊ฐ ํํ ๊บพ์๋ค. ํ๋ผ๋ค๋ ์ง๋ 2~4์๊น์ง 2014๋ ๋ 1๋ถ๊ธฐ ์์ต์ด ์ง๋ํด ๊ฐ์ ๊ธฐ๊ฐ๋ณด๋ค 24% ๊ธ๊ฐํ 1์ต530๋ง์ ๋ก(์ฝ 1474์ต์)์ ๊ทธ์ณค๋ค๊ณ 5์ผ(ํ์ง์๊ฐ) ๋ฐํํ๋ค.๋งค์ถ๋ 0.6% ์ค์ด๋ 10์ต6000๋ง๋ฌ๋ฌ(์ฝ 1์กฐ8000์ต์)์ ๊ทธ์ณค๋ค. 2010๋ ์ดํ ๋ถ๊ธฐ ๋งค์ถ์ด ์ฒ์ ์ค์ด๋ ๊ฐ์ฅ ํฐ ์ด์ ๋ ์ง๋ํด 29%๋ ์ฆ๊ฐํ๋ ๊ฐ์ฃฝ์ ํ ํ๋งค๊ฐ 1๋ถ๊ธฐ์ 3% ์ค์ด๋ ํ์ด๋ค. ํ๋ผ๋ค๋ ๊ฐ์ฃฝ์ ํ ๋ถ์ผ์์ ๋ช ํ์ ์ฒด ๊ฐ ๊ฒฝ์์ด ์ฌํ๋๋ฉด์ ํ๋งค๋์ด ์ค์ด๋ค์๋ค๊ณ ์ค๋ช ํ๋ค. ๋ฃจ์ด๋นํต ๋ฑ์ด ๋ธ๋๋ ๋ก๊ณ ๊ฐ ํฌ๊ฒ ์๊ฒจ์ง ์บ๋ฒ์ค๋ฐฑ ์ ํ์ ์ง์คํ๋ค๊ฐ ์ด๋ ค์์ ๊ฒช๋ ์ฌ์ด ํ๋ผ๋ค๋ ๋ก๊ณ ๋ฅผ ์๊ฒ ์ด ๊ฐ์ฃฝ๊ฐ๋ฐฉ์ ํ๋งคํด ์ฑ์ฅํ์ง๋ง ์ต๊ทผ ๋ค์ด ์์ฅ ์ํฉ์ด ๋ฌ๋ผ์ง ๊ฒ. ๋ฃจ์นด ์์นด BNPํ๋ฆฌ๋ฐ ๋ช ํ๋ด๋น ์ ๋๋ฆฌ์คํธ๋ โํ๋ผ๋ค ๋ธ๋๋๋ ๋ ์ด์ ๋ช ํ ์์ฅ์ ์ค์ฌ์ด ์๋๋คโ๋ฉฐ โ๊ฐ๊ฒฉ์ ์ฌ๋ ค ๊ณ ๊ธ ์ ํ์ผ๋ก ๋ณด์ด๋ ๊ฒ ์ธ์ ์๋ก์ด ๋งค๋ ฅ์ ์๋น์์๊ฒ ๋ณด์ฌ์ค์ผ ์๊ธฐ๋ฅผ ํ๊ฐํ ์ ์์ ๊ฒโ์ด๋ผ๊ณ ์ง์ ํ๋ค. ๋๋งค ๋ถ๋ฌธ ํ๋งค ๊ฐ์์ ์ ๋กํ ๊ฐ์ธ ๋ฑ ํ์จ ๋ณ๋์ฑ์ด ์ฌํด์ง ๊ฒ๋ ๋งค์ถ์ ์ํฅ์ ๋ฏธ์ณค๋ค. ํ๋ผ๋ค๋ ๊ฐ๊ฒฉ ํต์ ๊ฐ ์ฝ๊ณ ๋ธ๋๋ ์ด๋ฏธ์ง ์ ์ง์๋ ๋์์ด ๋๋ค๊ณ ํ๋จํด ๋๋งค๋ณด๋ค๋ ์์ฒด ์๋งค์ ์ ํตํ ํ๋งค ์ ๋ต์ ํด๊ณ ์๋ค. ํ์ง๋ง ์ฌ ๋ค์ด ๋๋งค ํ๋งค๊ฐ 25% ์ค์ด๋๋ ๋์ ์๋งค ๋ถ๋ฌธ์ 3% ์ฆ๊ฐํ๋ ๋ฐ ๊ทธ์ณค๋ค. ์์์ ์์ฅ์์์ ๋ถ์ง๋ ํ ์ด์ ๋ค. ์์คํธ๋ฆฌํธ์ ๋์ โ์ค๊ตญ์ด ๋ถํจ์ฒ๊ฒฐ์ ๋์๋ฉด์ ์ฌ์นํ ์๋น์ ๋ํ ๋จ์์ด ์ฌํด์ง ๊ฒ๋ ํ๋งค์ ๋ถ์ ์ ์ธ ์ํฅ์ ์คฌ๋คโ๊ณ ์ค๋ช ํ๋ค.0 - Loss:
BinaryCrossEntropyLosswith these parameters:{ "activation_fn": "torch.nn.modules.linear.Identity", "pos_weight": null }
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size: 16per_device_eval_batch_size: 16num_train_epochs: 1
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 16per_device_eval_batch_size: 16per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedeepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torch_fusedoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthproject: huggingfacetrackio_space_id: trackioddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: noneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Trueprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}
Training Logs
| Epoch | Step | Training Loss | spearman |
|---|---|---|---|
| -1 | -1 | - | 0.0902 |
| 0.2278 | 500 | 0.2132 | - |
| 0.4556 | 1000 | 0.0743 | - |
| 0.6834 | 1500 | 0.0618 | - |
| 0.9112 | 2000 | 0.0586 | - |
| -1 | -1 | - | 0.8654 |
Framework Versions
- Python: 3.12.12
- Sentence Transformers: 5.1.1
- Transformers: 4.57.0
- PyTorch: 2.8.0+cu126
- Accelerate: 1.10.1
- Datasets: 4.0.0
- Tokenizers: 0.22.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
- Downloads last month
- 13
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
๐
Ask for provider support
Model tree for Ttonio/klue-roberta-small-cross-encoder
Base model
klue/roberta-smallEvaluation results
- Pearson on Unknownself-reported0.972
- Spearman on Unknownself-reported0.865