bad-autoencoding / README.md

ivnle

Upload README.md with huggingface_hub

942beb7 verified 9 days ago

preview code

raw

history blame

2.24 kB

metadata

license: apache-2.0
tags:
  - vision
  - ocr
  - compression
  - autoencoding

Bad Autoencoding - Model Checkpoints

Checkpoints for the paper: "Optical Context Compression Is Just (Bad) Autoencoding"

Ivan Lee, Cheng Yang, Taylor Berg-Kirkpatrick

Available Checkpoints

Vision (base, 768x768)

Checkpoint	Objective	Training	CR	PPL
`vision_base_h0_recon`	Reconstruction	-	3.60	1.03
`vision_base_h0_lm`	LM	Direct	3.60	5.08
`vision_base_h0_lm_recon-init`	LM	From recon	3.60	5.06

Meanpool (w4s4)

Checkpoint	Objective	Hybrid	Training	CR	PPL
`meanpool_w4s4_h0_recon`	Reconstruction	0	-	3.97	1.04
`meanpool_w4s4_h0_lm_recon-init`	LM	0	From recon	3.97	5.02

Naming Convention

{regime}_{config}_h{N}_{objective}[_recon-init]

Field	Values	Description
regime	vision, conv1d, meanpool, text	Compression architecture
config	base/small/tiny/large, t500/t250, w4s4/w10s10, ctx525	Regime-specific config
h{N}	h0, h100	Hybrid text tokens (0 = pure vision/compression)
objective	recon, lm	Training objective
recon-init	(optional)	LM initialized from reconstruction checkpoint

Model Details

Architecture: DeepSeek-OCR with trainable vision encoder
Encoder Status: Trained (not frozen)
Dataset: 510k samples from FineWiki

Usage

from huggingface_hub import hf_hub_download

# Download a specific checkpoint
checkpoint_path = hf_hub_download(
    repo_id="ivnle/bad-autoencoding",
    filename="vision_base_h0_lm/model.pt",
    repo_type="model"
)

Citation

@article{lee2024optical,
  title={Optical Context Compression Is Just (Bad) Autoencoding},
  author={Lee, Ivan and Yang, Cheng and Berg-Kirkpatrick, Taylor},
  journal={arXiv preprint arXiv:2512.03643},
  year={2024}
}

ivnle
/

bad-autoencoding