Update model config and README

Browse files

Files changed (3) hide show

README.md +25 -21
config.json +1 -1
model.safetensors +3 -0

README.md CHANGED Viewed

@@ -2,17 +2,17 @@
 tags:
 - image-classification
 - timm
-library_tag: timm
 license: apache-2.0
 datasets:
 - imagenet-12k
 ---
-# Model card for coatnet_3_rw_224.in12k
 A timm specific CoAtNet image classification model. Trained in `timm` on ImageNet-12k (a 11821 class subset of full ImageNet-22k) by Ross Wightman.
-### Model Variants in [maxxvit.py](https://github.com/rwightman/pytorch-image-models/blob/main/timm/models/maxxvit.py)
 MaxxViT covers a number of related model architectures that share a common structure including:
 - CoAtNet - Combining MBConv (depthwise-separable) convolutional blocks in early stages with self-attention transformer blocks in later stages.
@@ -42,10 +42,11 @@ from urllib.request import urlopen
 from PIL import Image
 import timm
-img = Image.open(
-    urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
-model = timm.create_model('coatnet_3_rw_224.in12k', pretrained=True)
 model = model.eval()
 # get model specific transforms (normalization, resize)
@@ -63,11 +64,12 @@ from urllib.request import urlopen
 from PIL import Image
 import timm
-img = Image.open(
-    urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
 model = timm.create_model(
-    'coatnet_3_rw_224.in12k',
     pretrained=True,
     features_only=True,
 )
@@ -81,12 +83,13 @@ output = model(transforms(img).unsqueeze(0))  # unsqueeze single image into batc
 for o in output:
     # print shape of each feature map in output
-    # e.g.:
-    #  torch.Size([1, 128, 192, 192])
-    #  torch.Size([1, 128, 96, 96])
-    #  torch.Size([1, 256, 48, 48])
-    #  torch.Size([1, 512, 24, 24])
-    #  torch.Size([1, 1024, 12, 12])
     print(o.shape)
 ```
@@ -96,11 +99,12 @@ from urllib.request import urlopen
 from PIL import Image
 import timm
-img = Image.open(
-    urlopen('https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'))
 model = timm.create_model(
-    'coatnet_3_rw_224.in12k',
     pretrained=True,
     num_classes=0,  # remove classifier nn.Linear
 )
@@ -115,10 +119,10 @@ output = model(transforms(img).unsqueeze(0))  # output is (batch_size, num_featu
 # or equivalently (without needing to set num_classes=0)
 output = model.forward_features(transforms(img).unsqueeze(0))
-# output is unpooled (ie.e a (batch_size, num_features, H, W) tensor
 output = model.forward_head(output, pre_logits=True)
-# output is (batch_size, num_features) tensor
 ```
 ## Model Comparison
@@ -226,7 +230,7 @@ output = model.forward_head(output, pre_logits=True)
   publisher = {GitHub},
   journal = {GitHub repository},
   doi = {10.5281/zenodo.4414861},
-  howpublished = {\url{https://github.com/rwightman/pytorch-image-models}}
 }
 ```
 ```bibtex

 tags:
 - image-classification
 - timm
+library_name: timm
 license: apache-2.0
 datasets:
 - imagenet-12k
 ---
+# Model card for coatnet_3_rw_224.sw_in12k
 A timm specific CoAtNet image classification model. Trained in `timm` on ImageNet-12k (a 11821 class subset of full ImageNet-22k) by Ross Wightman.
+### Model Variants in [maxxvit.py](https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/maxxvit.py)
 MaxxViT covers a number of related model architectures that share a common structure including:
 - CoAtNet - Combining MBConv (depthwise-separable) convolutional blocks in early stages with self-attention transformer blocks in later stages.
 from PIL import Image
 import timm
+img = Image.open(urlopen(
+    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
+))
+model = timm.create_model('coatnet_3_rw_224.sw_in12k', pretrained=True)
 model = model.eval()
 # get model specific transforms (normalization, resize)
 from PIL import Image
 import timm
+img = Image.open(urlopen(
+    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
+))
 model = timm.create_model(
+    'coatnet_3_rw_224.sw_in12k',
     pretrained=True,
     features_only=True,
 )
 for o in output:
     # print shape of each feature map in output
+    # e.g.:
+    #  torch.Size([1, 192, 112, 112])
+    #  torch.Size([1, 192, 56, 56])
+    #  torch.Size([1, 384, 28, 28])
+    #  torch.Size([1, 768, 14, 14])
+    #  torch.Size([1, 1536, 7, 7])
     print(o.shape)
 ```
 from PIL import Image
 import timm
+img = Image.open(urlopen(
+    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
+))
 model = timm.create_model(
+    'coatnet_3_rw_224.sw_in12k',
     pretrained=True,
     num_classes=0,  # remove classifier nn.Linear
 )
 # or equivalently (without needing to set num_classes=0)
 output = model.forward_features(transforms(img).unsqueeze(0))
+# output is unpooled, a (1, 1536, 7, 7) shaped tensor
 output = model.forward_head(output, pre_logits=True)
+# output is a (1, num_features) shaped tensor
 ```
 ## Model Comparison
   publisher = {GitHub},
   journal = {GitHub repository},
   doi = {10.5281/zenodo.4414861},
+  howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
 }
 ```
 ```bibtex

config.json CHANGED Viewed

@@ -4,7 +4,7 @@
   "num_features": 1536,
   "global_pool": "avg",
   "pretrained_cfg": {
-    "tag": "in12k",
     "custom_load": false,
     "input_size": [
       3,

   "num_features": 1536,
   "global_pool": "avg",
   "pretrained_cfg": {
+    "tag": "sw_in12k",
     "custom_load": false,
     "input_size": [
       3,

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a014b72581b872ec0e55dc463fbfc25d02cc10f014565fd58d87bb13eaa6718
+size 727446832