ntua-slp
/

CultureMERT-95M

Audio Classification

feature-extraction

Model card Files Files and versions

akanatas commited on Jun 14

Commit

1983889

·

verified ·

1 Parent(s): d2c3896

Update README.md

Files changed (1) hide show

README.md +2 -1

README.md CHANGED Viewed

@@ -23,7 +23,7 @@ pipeline_tag: audio-classification
 - **Architecture**: 12-layer Transformer encoder (768-dim) with a 7-layer 1D CNN frontend
 - **Input**: Raw mono audio at 24kHz
 - **Training Context Length**: 5 seconds
-- **Pretraining Objective**: MLM-style multi-task masked prediction of discrete [EnCodec](https://huggingface.co/facebook/encodec_24khz) acoustic tokens and continuous constant-Q transform (CQT) spectrogram reconstruction at a 75Hz feature rate
 ---
@@ -51,6 +51,7 @@ We evaluate **CultureMERT-95M** via probing on both Western and non-Western auto
 - **mAP** (Mean Average Precision)
 - **Micro-F1** and **Macro-F1**
 Evaluation follows the [MARBLE](https://github.com/a43992899/MARBLE) protocol under constrained settings. We use standardized train/test splits from [ccml](https://github.com/pxaris/ccml) for continual pre-training and probing-based evaluation.

 - **Architecture**: 12-layer Transformer encoder (768-dim) with a 7-layer 1D CNN frontend
 - **Input**: Raw mono audio at 24kHz
 - **Training Context Length**: 5 seconds
+- **Pretraining Objective**: MLM-style multi-task masked prediction of discrete [EnCodec](https://huggingface.co/facebook/encodec_24khz) acoustic tokens and continuous constant-Q transform (CQT) spectrogram reconstruction at a 75 Hz feature rate
 ---
 - **mAP** (Mean Average Precision)
 - **Micro-F1** and **Macro-F1**
 Evaluation follows the [MARBLE](https://github.com/a43992899/MARBLE) protocol under constrained settings. We use standardized train/test splits from [ccml](https://github.com/pxaris/ccml) for continual pre-training and probing-based evaluation.