microsoft
/

beit-large-finetuned-ade-640-640

Image Segmentation

Model card Files Files and versions

nielsr HF Staff commited on Feb 22, 2022

Commit

db2221b

·

1 Parent(s): a86abdc

Update README.md

Files changed (1) hide show

README.md +9 -4

README.md CHANGED Viewed

@@ -1,15 +1,20 @@
 ---
 license: apache-2.0
 tags:
-- semantic-segmentation
 - vision
 datasets:
-- ade20k
 ---
 # BEiT (large-sized model, fine-tuned on ADE20k)
-BEiT model pre-trained in a self-supervised fashion on ImageNet-21k (14 million images, 21,841 classes) at resolution 224x224, and fine-tuned on [ADE20k]() (an important benchmark for semantic segmentation of images) at resolution 640x640. It was introduced in the paper [BEIT: BERT Pre-Training of Image Transformers](https://arxiv.org/abs/2106.08254) by Hangbo Bao, Li Dong and Furu Wei and first released in [this repository](https://github.com/microsoft/unilm/tree/master/beit).
 Disclaimer: The team releasing BEiT did not write a model card for this model so this model card has been written by the Hugging Face team.
@@ -39,7 +44,7 @@ from PIL import Image
 ds = load_dataset("hf-internal-testing/fixtures_ade20k", split="test")
 feature_extractor = BeitFeatureExtractor.from_pretrained('microsoft/beit-large-finetuned-ade-640-640')
-model = BeitForImageClassification.from_pretrained('microsoft/beit-large-finetuned-ade-640-640')
 inputs = feature_extractor(images=image, return_tensors="pt")
 outputs = model(**inputs)

 ---
 license: apache-2.0
 tags:
 - vision
+- image-segmentation
 datasets:
+- scene_parse_150
+widget:
+- src: https://huggingface.co/datasets/hf-internal-testing/fixtures_ade20k/resolve/main/ADE_val_00000001.jpg
+  example_title: House
+- src: https://huggingface.co/datasets/hf-internal-testing/fixtures_ade20k/resolve/main/ADE_val_00000002.jpg
+  example_title: Castle
 ---
 # BEiT (large-sized model, fine-tuned on ADE20k)
+BEiT model pre-trained in a self-supervised fashion on ImageNet-21k (14 million images, 21,841 classes) at resolution 224x224, and fine-tuned on [ADE20k](https://huggingface.co/datasets/scene_parse_150) (an important benchmark for semantic segmentation of images) at resolution 640x640. It was introduced in the paper [BEIT: BERT Pre-Training of Image Transformers](https://arxiv.org/abs/2106.08254) by Hangbo Bao, Li Dong and Furu Wei and first released in [this repository](https://github.com/microsoft/unilm/tree/master/beit).
 Disclaimer: The team releasing BEiT did not write a model card for this model so this model card has been written by the Hugging Face team.
 ds = load_dataset("hf-internal-testing/fixtures_ade20k", split="test")
 feature_extractor = BeitFeatureExtractor.from_pretrained('microsoft/beit-large-finetuned-ade-640-640')
+model = BeitForSemanticSegmentation.from_pretrained('microsoft/beit-large-finetuned-ade-640-640')
 inputs = feature_extractor(images=image, return_tensors="pt")
 outputs = model(**inputs)