A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions
			Paper
			•
			2312.08578
			•
			Published
				
			•
				
				20
			
Note 提出了一个数据集用于评估VLM对于image-text pair的理解程度。该数据集由图片和caption组成,其中包含图片不同region的子caption。