Mechanistic Interpretability - a Purusharth Collection

Purusharth 's Collections

Mechanistic Interpretability

Mechanistic Interpretability

updated Apr 14

SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs

Paper • 2504.08192 • Published Apr 11 • 3