diff --git "a/training_logs/fresh_training_aug29.log" "b/training_logs/fresh_training_aug29.log"
new file mode 100644--- /dev/null
+++ "b/training_logs/fresh_training_aug29.log"
@@ -0,0 +1,4132 @@
+nohup: ignoring input
+/data2/edwardsun/flow_home/amp_flow_training_single_gpu_full_data.py:70: FutureWarning: `torch.cuda.amp.GradScaler(args...)` is deprecated. Please use `torch.amp.GradScaler('cuda', args...)` instead.
+  self.scaler = GradScaler()
+/data2/edwardsun/flow_home/amp_flow_training_single_gpu_full_data.py:116: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  self.embeddings = torch.load(combined_path, map_location=self.device)
+/data2/edwardsun/flow_home/amp_flow_training_single_gpu_full_data.py:180: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  self.compressor.load_state_dict(torch.load('final_compressor_model.pth', map_location=self.device))
+/data2/edwardsun/flow_home/amp_flow_training_single_gpu_full_data.py:181: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  self.decompressor.load_state_dict(torch.load('final_decompressor_model.pth', map_location=self.device))
+/data2/edwardsun/flow_home/cfg_dataset.py:253: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
+  self.embeddings = torch.load(combined_path, map_location='cpu')
+Starting optimized training with batch_size=512, epochs=2000
+Using GPU 0 for optimized H100 training
+Mixed precision: True
+Batch size: 512
+Target epochs: 2000
+Learning rate: 0.0008 -> 0.0004
+✓ Mixed precision training enabled (BF16)
+Loading ALL AMP embeddings from /data2/edwardsun/flow_project/peptide_embeddings/...
+Loading combined embeddings from /data2/edwardsun/flow_project/peptide_embeddings/all_peptide_embeddings.pt...
+✓ Loaded ALL embeddings: torch.Size([17968, 50, 1280])
+Computing preprocessing statistics...
+✓ Statistics computed and saved:
+  Total embeddings: 17,968
+  Mean: -0.0005 ± 0.0897
+  Std: 0.0869 ± 0.1168
+  Range: [-9.1738, 3.2894]
+Initializing models...
+✓ Model compiled with torch.compile for speedup
+✓ Models initialized:
+  Compressor parameters: 78,817,360
+  Decompressor parameters: 39,458,720
+  Flow model parameters: 50,779,584
+Initializing datasets with FULL data...
+Loading AMP embeddings from /data2/edwardsun/flow_project/peptide_embeddings/...
+Loading combined embeddings from /data2/edwardsun/flow_project/peptide_embeddings/all_peptide_embeddings.pt (FULL DATA)...
+✓ Loaded ALL embeddings: torch.Size([17968, 50, 1280])
+Loading CFG data from FASTA: /home/edwardsun/flow/combined_final.fasta...
+Parsing FASTA file: /home/edwardsun/flow/combined_final.fasta
+Label assignment: >AP = AMP (0), >sp = Non-AMP (1)
+✓ Parsed 6983 valid sequences from FASTA
+  AMP sequences: 3306
+  Non-AMP sequences: 3677
+  Masked for CFG: 698
+Loaded 6983 CFG sequences
+Label distribution: [3306 3677]
+Masked 698 labels for CFG training
+Aligning AMP embeddings with CFG data...
+Aligned 6983 samples
+CFG Flow Dataset initialized:
+  AMP embeddings: torch.Size([17968, 50, 1280])
+  CFG labels: 6983
+  Aligned samples: 6983
+✓ Dataset initialized with FULL data:
+  Total samples: 6,983
+  Batch size: 512
+  Batches per epoch: 14
+  Total training steps: 28,000
+  Validation every: 5,000 steps
+Initializing optimizer and scheduler...
+✓ Optimizer initialized:
+  Base LR: 0.0008
+  Min LR: 0.0004
+  Warmup steps: 4000
+  Weight decay: 0.01
+  Gradient clip norm: 0.5
+✓ Optimized Single GPU training setup complete with FULL DATA!
+🚀 Starting Optimized Single GPU Flow Matching Training with FULL DATA
+GPU: 0
+Total iterations: 2000
+Batch size: 512
+Total samples: 6,983
+Mixed precision: True
+Estimated time: ~8-10 hours (overnight training with ALL data)
+============================================================
+Training Flow Model:   0%|          | 0/2000 [00:00<?, ?it/s]/data2/edwardsun/flow_home/amp_flow_training_single_gpu_full_data.py:392: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast(dtype=torch.bfloat16):
+/data2/edwardsun/flow_home/amp_flow_training_single_gpu_full_data.py:392: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast(dtype=torch.bfloat16):
+/data2/edwardsun/flow_home/amp_flow_training_single_gpu_full_data.py:392: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast(dtype=torch.bfloat16):
+Training Flow Model:   0%|          | 1/2000 [00:24<13:52:05, 24.98s/it]Epoch    0 | Step      1/ 28000 | Loss: 2.358654 | LR: 8.02e-05 | Speed: 0.1 steps/s | ETA: 87.4h
+Epoch    0 | Avg Loss: 1.151303 | LR: 8.25e-05 | Time: 25.0s | Samples: 6,983
+/data2/edwardsun/flow_home/amp_flow_training_single_gpu_full_data.py:392: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast(dtype=torch.bfloat16):
+/data2/edwardsun/flow_home/amp_flow_training_single_gpu_full_data.py:392: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast(dtype=torch.bfloat16):
+Training Flow Model:   0%|          | 2/2000 [00:30<7:22:57, 13.30s/it] Epoch    1 | Step     15/ 28000 | Loss: 1.008672 | LR: 8.27e-05 | Speed: 0.5 steps/s | ETA: 14.3h
+Epoch    1 | Avg Loss: 0.976241 | LR: 8.50e-05 | Time: 5.1s | Samples: 6,983
+/data2/edwardsun/flow_home/amp_flow_training_single_gpu_full_data.py:392: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast(dtype=torch.bfloat16):
+Training Flow Model:   0%|          | 3/2000 [00:33<4:58:04,  8.96s/it]Epoch    2 | Step     29/ 28000 | Loss: 0.894591 | LR: 8.52e-05 | Speed: 0.9 steps/s | ETA: 8.7h
+Epoch    2 | Avg Loss: 0.794316 | LR: 8.76e-05 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   0%|          | 4/2000 [00:37<3:53:28,  7.02s/it]Epoch    3 | Step     43/ 28000 | Loss: 0.684022 | LR: 8.77e-05 | Speed: 1.2 steps/s | ETA: 6.6h
+Epoch    3 | Avg Loss: 0.611801 | LR: 9.01e-05 | Time: 4.0s | Samples: 6,983
+Training Flow Model:   0%|          | 5/2000 [00:41<3:15:32,  5.88s/it]Epoch    4 | Step     57/ 28000 | Loss: 0.526394 | LR: 9.03e-05 | Speed: 1.4 steps/s | ETA: 5.5h
+Epoch    4 | Avg Loss: 0.466893 | LR: 9.26e-05 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   0%|          | 6/2000 [00:45<2:50:58,  5.14s/it]Epoch    5 | Step     71/ 28000 | Loss: 0.406390 | LR: 9.28e-05 | Speed: 1.6 steps/s | ETA: 4.8h
+Epoch    5 | Avg Loss: 0.354116 | LR: 9.51e-05 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   0%|          | 7/2000 [00:49<2:35:38,  4.69s/it]Epoch    6 | Step     85/ 28000 | Loss: 0.325146 | LR: 9.53e-05 | Speed: 1.8 steps/s | ETA: 4.4h
+Epoch    6 | Avg Loss: 0.276433 | LR: 9.76e-05 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   0%|          | 8/2000 [00:53<2:27:03,  4.43s/it]Epoch    7 | Step     99/ 28000 | Loss: 0.248234 | LR: 9.78e-05 | Speed: 1.9 steps/s | ETA: 4.1h
+Epoch    7 | Avg Loss: 0.228743 | LR: 1.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   0%|          | 9/2000 [00:56<2:20:37,  4.24s/it]Epoch    8 | Step    113/ 28000 | Loss: 0.222329 | LR: 1.00e-04 | Speed: 2.0 steps/s | ETA: 3.8h
+Epoch    8 | Avg Loss: 0.198865 | LR: 1.03e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   0%|          | 10/2000 [01:00<2:17:06,  4.13s/it]Epoch    9 | Step    127/ 28000 | Loss: 0.190877 | LR: 1.03e-04 | Speed: 2.1 steps/s | ETA: 3.6h
+Epoch    9 | Avg Loss: 0.180037 | LR: 1.05e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   1%|          | 11/2000 [01:04<2:12:18,  3.99s/it]Epoch   10 | Step    141/ 28000 | Loss: 0.155331 | LR: 1.05e-04 | Speed: 2.2 steps/s | ETA: 3.5h
+Epoch   10 | Avg Loss: 0.165263 | LR: 1.08e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   1%|          | 12/2000 [01:08<2:09:32,  3.91s/it]Epoch   11 | Step    155/ 28000 | Loss: 0.122999 | LR: 1.08e-04 | Speed: 2.3 steps/s | ETA: 3.3h
+Epoch   11 | Avg Loss: 0.145856 | LR: 1.10e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   1%|          | 13/2000 [01:11<2:07:14,  3.84s/it]Epoch   12 | Step    169/ 28000 | Loss: 0.157822 | LR: 1.10e-04 | Speed: 2.4 steps/s | ETA: 3.2h
+Epoch   12 | Avg Loss: 0.140870 | LR: 1.13e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   1%|          | 14/2000 [01:15<2:05:22,  3.79s/it]Epoch   13 | Step    183/ 28000 | Loss: 0.132933 | LR: 1.13e-04 | Speed: 2.5 steps/s | ETA: 3.1h
+Epoch   13 | Avg Loss: 0.130345 | LR: 1.15e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   1%|          | 15/2000 [01:19<2:04:05,  3.75s/it]Epoch   14 | Step    197/ 28000 | Loss: 0.122886 | LR: 1.15e-04 | Speed: 2.5 steps/s | ETA: 3.1h
+Epoch   14 | Avg Loss: 0.124754 | LR: 1.18e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   1%|          | 16/2000 [01:22<2:03:07,  3.72s/it]Epoch   15 | Step    211/ 28000 | Loss: 0.113852 | LR: 1.18e-04 | Speed: 2.6 steps/s | ETA: 3.0h
+Epoch   15 | Avg Loss: 0.117246 | LR: 1.20e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   1%|          | 17/2000 [01:26<2:02:20,  3.70s/it]Epoch   16 | Step    225/ 28000 | Loss: 0.116344 | LR: 1.20e-04 | Speed: 2.6 steps/s | ETA: 2.9h
+Epoch   16 | Avg Loss: 0.109750 | LR: 1.23e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   1%|          | 18/2000 [01:30<2:02:41,  3.71s/it]Epoch   17 | Step    239/ 28000 | Loss: 0.107077 | LR: 1.23e-04 | Speed: 2.7 steps/s | ETA: 2.9h
+Epoch   17 | Avg Loss: 0.107339 | LR: 1.25e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   1%|          | 19/2000 [01:34<2:03:07,  3.73s/it]Epoch   18 | Step    253/ 28000 | Loss: 0.103541 | LR: 1.26e-04 | Speed: 2.7 steps/s | ETA: 2.8h
+Epoch   18 | Avg Loss: 0.102800 | LR: 1.28e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   1%|          | 20/2000 [01:38<2:05:07,  3.79s/it]Epoch   19 | Step    267/ 28000 | Loss: 0.096035 | LR: 1.28e-04 | Speed: 2.8 steps/s | ETA: 2.8h
+Epoch   19 | Avg Loss: 0.099643 | LR: 1.30e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   1%|          | 21/2000 [01:41<2:04:11,  3.77s/it]Epoch   20 | Step    281/ 28000 | Loss: 0.118106 | LR: 1.31e-04 | Speed: 2.8 steps/s | ETA: 2.8h
+Epoch   20 | Avg Loss: 0.096329 | LR: 1.33e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   1%|          | 22/2000 [01:45<2:04:52,  3.79s/it]Epoch   21 | Step    295/ 28000 | Loss: 0.076309 | LR: 1.33e-04 | Speed: 2.8 steps/s | ETA: 2.7h
+Epoch   21 | Avg Loss: 0.091570 | LR: 1.35e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   1%|          | 23/2000 [01:49<2:05:49,  3.82s/it]Epoch   22 | Step    309/ 28000 | Loss: 0.085414 | LR: 1.36e-04 | Speed: 2.9 steps/s | ETA: 2.7h
+Epoch   22 | Avg Loss: 0.087958 | LR: 1.38e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   1%|          | 24/2000 [01:53<2:04:53,  3.79s/it]Epoch   23 | Step    323/ 28000 | Loss: 0.077609 | LR: 1.38e-04 | Speed: 2.9 steps/s | ETA: 2.7h
+Epoch   23 | Avg Loss: 0.088214 | LR: 1.40e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   1%|▏         | 25/2000 [01:57<2:05:37,  3.82s/it]Epoch   24 | Step    337/ 28000 | Loss: 0.080059 | LR: 1.41e-04 | Speed: 2.9 steps/s | ETA: 2.6h
+Epoch   24 | Avg Loss: 0.081265 | LR: 1.43e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   1%|▏         | 26/2000 [02:00<2:04:42,  3.79s/it]Epoch   25 | Step    351/ 28000 | Loss: 0.070614 | LR: 1.43e-04 | Speed: 2.9 steps/s | ETA: 2.6h
+Epoch   25 | Avg Loss: 0.078121 | LR: 1.46e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   1%|▏         | 27/2000 [02:04<2:04:11,  3.78s/it]Epoch   26 | Step    365/ 28000 | Loss: 0.076460 | LR: 1.46e-04 | Speed: 3.0 steps/s | ETA: 2.6h
+Epoch   26 | Avg Loss: 0.080191 | LR: 1.48e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   1%|▏         | 28/2000 [02:08<2:03:33,  3.76s/it]Epoch   27 | Step    379/ 28000 | Loss: 0.085178 | LR: 1.48e-04 | Speed: 3.0 steps/s | ETA: 2.6h
+Epoch   27 | Avg Loss: 0.076449 | LR: 1.51e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   1%|▏         | 29/2000 [02:11<2:02:32,  3.73s/it]Epoch   28 | Step    393/ 28000 | Loss: 0.075239 | LR: 1.51e-04 | Speed: 3.0 steps/s | ETA: 2.5h
+Epoch   28 | Avg Loss: 0.076483 | LR: 1.53e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   2%|▏         | 30/2000 [02:15<2:02:35,  3.73s/it]Epoch   29 | Step    407/ 28000 | Loss: 0.070908 | LR: 1.53e-04 | Speed: 3.0 steps/s | ETA: 2.5h
+Epoch   29 | Avg Loss: 0.074065 | LR: 1.56e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   2%|▏         | 31/2000 [02:19<2:03:49,  3.77s/it]Epoch   30 | Step    421/ 28000 | Loss: 0.085428 | LR: 1.56e-04 | Speed: 3.0 steps/s | ETA: 2.5h
+Epoch   30 | Avg Loss: 0.069292 | LR: 1.58e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   2%|▏         | 32/2000 [02:23<2:04:36,  3.80s/it]Epoch   31 | Step    435/ 28000 | Loss: 0.065438 | LR: 1.58e-04 | Speed: 3.1 steps/s | ETA: 2.5h
+Epoch   31 | Avg Loss: 0.068783 | LR: 1.61e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   2%|▏         | 33/2000 [02:27<2:03:14,  3.76s/it]Epoch   32 | Step    449/ 28000 | Loss: 0.070638 | LR: 1.61e-04 | Speed: 3.1 steps/s | ETA: 2.5h
+Epoch   32 | Avg Loss: 0.065022 | LR: 1.63e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   2%|▏         | 34/2000 [02:30<2:03:30,  3.77s/it]Epoch   33 | Step    463/ 28000 | Loss: 0.061532 | LR: 1.63e-04 | Speed: 3.1 steps/s | ETA: 2.5h
+Epoch   33 | Avg Loss: 0.064269 | LR: 1.66e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   2%|▏         | 35/2000 [02:34<2:03:46,  3.78s/it]Epoch   34 | Step    477/ 28000 | Loss: 0.053134 | LR: 1.66e-04 | Speed: 3.1 steps/s | ETA: 2.5h
+Epoch   34 | Avg Loss: 0.065397 | LR: 1.68e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   2%|▏         | 36/2000 [02:38<2:03:12,  3.76s/it]Epoch   35 | Step    491/ 28000 | Loss: 0.066646 | LR: 1.68e-04 | Speed: 3.1 steps/s | ETA: 2.4h
+Epoch   35 | Avg Loss: 0.064674 | LR: 1.71e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   2%|▏         | 37/2000 [02:42<2:02:33,  3.75s/it]Epoch   36 | Step    505/ 28000 | Loss: 0.054678 | LR: 1.71e-04 | Speed: 3.1 steps/s | ETA: 2.4h
+Epoch   36 | Avg Loss: 0.059097 | LR: 1.73e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   2%|▏         | 38/2000 [02:45<2:01:43,  3.72s/it]Epoch   37 | Step    519/ 28000 | Loss: 0.072676 | LR: 1.73e-04 | Speed: 3.2 steps/s | ETA: 2.4h
+Epoch   37 | Avg Loss: 0.061098 | LR: 1.76e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   2%|▏         | 39/2000 [02:49<2:02:12,  3.74s/it]Epoch   38 | Step    533/ 28000 | Loss: 0.059405 | LR: 1.76e-04 | Speed: 3.2 steps/s | ETA: 2.4h
+Epoch   38 | Avg Loss: 0.059843 | LR: 1.78e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   2%|▏         | 40/2000 [02:53<2:04:48,  3.82s/it]Epoch   39 | Step    547/ 28000 | Loss: 0.056273 | LR: 1.78e-04 | Speed: 3.2 steps/s | ETA: 2.4h
+Epoch   39 | Avg Loss: 0.058360 | LR: 1.81e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:   2%|▏         | 41/2000 [02:57<2:03:41,  3.79s/it]Epoch   40 | Step    561/ 28000 | Loss: 0.047168 | LR: 1.81e-04 | Speed: 3.2 steps/s | ETA: 2.4h
+Epoch   40 | Avg Loss: 0.054960 | LR: 1.83e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   2%|▏         | 42/2000 [03:01<2:03:45,  3.79s/it]Epoch   41 | Step    575/ 28000 | Loss: 0.070242 | LR: 1.83e-04 | Speed: 3.2 steps/s | ETA: 2.4h
+Epoch   41 | Avg Loss: 0.056657 | LR: 1.86e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   2%|▏         | 43/2000 [03:04<2:03:19,  3.78s/it]Epoch   42 | Step    589/ 28000 | Loss: 0.049086 | LR: 1.86e-04 | Speed: 3.2 steps/s | ETA: 2.4h
+Epoch   42 | Avg Loss: 0.051795 | LR: 1.88e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   2%|▏         | 44/2000 [03:08<2:02:30,  3.76s/it]Epoch   43 | Step    603/ 28000 | Loss: 0.056748 | LR: 1.89e-04 | Speed: 3.2 steps/s | ETA: 2.4h
+Epoch   43 | Avg Loss: 0.055434 | LR: 1.91e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   2%|▏         | 45/2000 [03:12<2:01:43,  3.74s/it]Epoch   44 | Step    617/ 28000 | Loss: 0.056804 | LR: 1.91e-04 | Speed: 3.2 steps/s | ETA: 2.4h
+Epoch   44 | Avg Loss: 0.053655 | LR: 1.93e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   2%|▏         | 46/2000 [03:16<2:04:36,  3.83s/it]Epoch   45 | Step    631/ 28000 | Loss: 0.061831 | LR: 1.94e-04 | Speed: 3.2 steps/s | ETA: 2.3h
+Epoch   45 | Avg Loss: 0.049462 | LR: 1.96e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:   2%|▏         | 47/2000 [03:19<2:02:55,  3.78s/it]Epoch   46 | Step    645/ 28000 | Loss: 0.045448 | LR: 1.96e-04 | Speed: 3.2 steps/s | ETA: 2.3h
+Epoch   46 | Avg Loss: 0.050666 | LR: 1.98e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   2%|▏         | 48/2000 [03:23<2:01:41,  3.74s/it]Epoch   47 | Step    659/ 28000 | Loss: 0.048400 | LR: 1.99e-04 | Speed: 3.3 steps/s | ETA: 2.3h
+Epoch   47 | Avg Loss: 0.051831 | LR: 2.01e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   2%|▏         | 49/2000 [03:27<2:01:57,  3.75s/it]Epoch   48 | Step    673/ 28000 | Loss: 0.044664 | LR: 2.01e-04 | Speed: 3.3 steps/s | ETA: 2.3h
+Epoch   48 | Avg Loss: 0.050234 | LR: 2.03e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   2%|▎         | 50/2000 [03:31<2:02:26,  3.77s/it]Epoch   49 | Step    687/ 28000 | Loss: 0.051821 | LR: 2.04e-04 | Speed: 3.3 steps/s | ETA: 2.3h
+Epoch   49 | Avg Loss: 0.051670 | LR: 2.06e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   3%|▎         | 51/2000 [03:34<2:01:39,  3.75s/it]Epoch   50 | Step    701/ 28000 | Loss: 0.061823 | LR: 2.06e-04 | Speed: 3.3 steps/s | ETA: 2.3h
+Epoch   50 | Avg Loss: 0.050659 | LR: 2.09e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   3%|▎         | 52/2000 [03:38<2:01:14,  3.73s/it]Epoch   51 | Step    715/ 28000 | Loss: 0.042372 | LR: 2.09e-04 | Speed: 3.3 steps/s | ETA: 2.3h
+Epoch   51 | Avg Loss: 0.047135 | LR: 2.11e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   3%|▎         | 53/2000 [03:42<2:02:07,  3.76s/it]Epoch   52 | Step    729/ 28000 | Loss: 0.050860 | LR: 2.11e-04 | Speed: 3.3 steps/s | ETA: 2.3h
+Epoch   52 | Avg Loss: 0.049608 | LR: 2.14e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   3%|▎         | 54/2000 [03:46<2:01:47,  3.76s/it]Epoch   53 | Step    743/ 28000 | Loss: 0.046157 | LR: 2.14e-04 | Speed: 3.3 steps/s | ETA: 2.3h
+Epoch   53 | Avg Loss: 0.047925 | LR: 2.16e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   3%|▎         | 55/2000 [03:49<2:01:13,  3.74s/it]Epoch   54 | Step    757/ 28000 | Loss: 0.053741 | LR: 2.16e-04 | Speed: 3.3 steps/s | ETA: 2.3h
+Epoch   54 | Avg Loss: 0.047591 | LR: 2.19e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   3%|▎         | 56/2000 [03:53<2:00:08,  3.71s/it]Epoch   55 | Step    771/ 28000 | Loss: 0.047496 | LR: 2.19e-04 | Speed: 3.3 steps/s | ETA: 2.3h
+Epoch   55 | Avg Loss: 0.046504 | LR: 2.21e-04 | Time: 3.6s | Samples: 6,983
+Training Flow Model:   3%|▎         | 57/2000 [03:57<2:00:21,  3.72s/it]Epoch   56 | Step    785/ 28000 | Loss: 0.048559 | LR: 2.21e-04 | Speed: 3.3 steps/s | ETA: 2.3h
+Epoch   56 | Avg Loss: 0.048704 | LR: 2.24e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   3%|▎         | 58/2000 [04:01<2:03:05,  3.80s/it]Epoch   57 | Step    799/ 28000 | Loss: 0.052062 | LR: 2.24e-04 | Speed: 3.3 steps/s | ETA: 2.3h
+Epoch   57 | Avg Loss: 0.044396 | LR: 2.26e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:   3%|▎         | 59/2000 [04:05<2:04:11,  3.84s/it]Epoch   58 | Step    813/ 28000 | Loss: 0.051373 | LR: 2.26e-04 | Speed: 3.3 steps/s | ETA: 2.3h
+Epoch   58 | Avg Loss: 0.043745 | LR: 2.29e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   3%|▎         | 60/2000 [04:08<2:03:41,  3.83s/it]Epoch   59 | Step    827/ 28000 | Loss: 0.040102 | LR: 2.29e-04 | Speed: 3.3 steps/s | ETA: 2.3h
+Epoch   59 | Avg Loss: 0.044505 | LR: 2.31e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   3%|▎         | 61/2000 [04:12<2:02:17,  3.78s/it]Epoch   60 | Step    841/ 28000 | Loss: 0.040815 | LR: 2.31e-04 | Speed: 3.3 steps/s | ETA: 2.3h
+Epoch   60 | Avg Loss: 0.044669 | LR: 2.34e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   3%|▎         | 62/2000 [04:16<2:02:12,  3.78s/it]Epoch   61 | Step    855/ 28000 | Loss: 0.038871 | LR: 2.34e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   61 | Avg Loss: 0.044980 | LR: 2.36e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   3%|▎         | 63/2000 [04:20<2:01:00,  3.75s/it]Epoch   62 | Step    869/ 28000 | Loss: 0.046587 | LR: 2.36e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   62 | Avg Loss: 0.044978 | LR: 2.39e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   3%|▎         | 64/2000 [04:23<2:02:01,  3.78s/it]Epoch   63 | Step    883/ 28000 | Loss: 0.038525 | LR: 2.39e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   63 | Avg Loss: 0.041749 | LR: 2.41e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   3%|▎         | 65/2000 [04:27<2:00:53,  3.75s/it]Epoch   64 | Step    897/ 28000 | Loss: 0.042897 | LR: 2.41e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   64 | Avg Loss: 0.042451 | LR: 2.44e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   3%|▎         | 66/2000 [04:31<2:02:54,  3.81s/it]Epoch   65 | Step    911/ 28000 | Loss: 0.047490 | LR: 2.44e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   65 | Avg Loss: 0.042047 | LR: 2.46e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:   3%|▎         | 67/2000 [04:35<2:03:02,  3.82s/it]Epoch   66 | Step    925/ 28000 | Loss: 0.038066 | LR: 2.46e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   66 | Avg Loss: 0.042944 | LR: 2.49e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   3%|▎         | 68/2000 [04:39<2:02:02,  3.79s/it]Epoch   67 | Step    939/ 28000 | Loss: 0.041367 | LR: 2.49e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   67 | Avg Loss: 0.040410 | LR: 2.51e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   3%|▎         | 69/2000 [04:42<2:01:38,  3.78s/it]Epoch   68 | Step    953/ 28000 | Loss: 0.035680 | LR: 2.52e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   68 | Avg Loss: 0.041827 | LR: 2.54e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   4%|▎         | 70/2000 [04:46<2:01:53,  3.79s/it]Epoch   69 | Step    967/ 28000 | Loss: 0.051790 | LR: 2.54e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   69 | Avg Loss: 0.043674 | LR: 2.56e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   4%|▎         | 71/2000 [04:50<2:03:28,  3.84s/it]Epoch   70 | Step    981/ 28000 | Loss: 0.039121 | LR: 2.57e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   70 | Avg Loss: 0.040167 | LR: 2.59e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:   4%|▎         | 72/2000 [04:54<2:02:54,  3.82s/it]Epoch   71 | Step    995/ 28000 | Loss: 0.043477 | LR: 2.59e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   71 | Avg Loss: 0.041984 | LR: 2.61e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   4%|▎         | 73/2000 [04:58<2:04:25,  3.87s/it]Epoch   72 | Step   1009/ 28000 | Loss: 0.039360 | LR: 2.62e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   72 | Avg Loss: 0.039563 | LR: 2.64e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:   4%|▎         | 74/2000 [05:02<2:03:44,  3.85s/it]Epoch   73 | Step   1023/ 28000 | Loss: 0.033817 | LR: 2.64e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   73 | Avg Loss: 0.036572 | LR: 2.66e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   4%|▍         | 75/2000 [05:05<2:02:19,  3.81s/it]Epoch   74 | Step   1037/ 28000 | Loss: 0.038546 | LR: 2.67e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   74 | Avg Loss: 0.039034 | LR: 2.69e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   4%|▍         | 76/2000 [05:09<2:03:25,  3.85s/it]Epoch   75 | Step   1051/ 28000 | Loss: 0.038192 | LR: 2.69e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   75 | Avg Loss: 0.038486 | LR: 2.72e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   4%|▍         | 77/2000 [05:13<2:01:41,  3.80s/it]Epoch   76 | Step   1065/ 28000 | Loss: 0.037379 | LR: 2.72e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   76 | Avg Loss: 0.036617 | LR: 2.74e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   4%|▍         | 78/2000 [05:17<2:01:14,  3.78s/it]Epoch   77 | Step   1079/ 28000 | Loss: 0.039465 | LR: 2.74e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   77 | Avg Loss: 0.037836 | LR: 2.77e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   4%|▍         | 79/2000 [05:21<2:01:38,  3.80s/it]Epoch   78 | Step   1093/ 28000 | Loss: 0.038461 | LR: 2.77e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   78 | Avg Loss: 0.036302 | LR: 2.79e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   4%|▍         | 80/2000 [05:24<2:01:24,  3.79s/it]Epoch   79 | Step   1107/ 28000 | Loss: 0.036717 | LR: 2.79e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   79 | Avg Loss: 0.037378 | LR: 2.82e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   4%|▍         | 81/2000 [05:28<2:00:35,  3.77s/it]Epoch   80 | Step   1121/ 28000 | Loss: 0.031265 | LR: 2.82e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   80 | Avg Loss: 0.037169 | LR: 2.84e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   4%|▍         | 82/2000 [05:32<1:59:54,  3.75s/it]Epoch   81 | Step   1135/ 28000 | Loss: 0.039628 | LR: 2.84e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   81 | Avg Loss: 0.037281 | LR: 2.87e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   4%|▍         | 83/2000 [05:36<2:00:28,  3.77s/it]Epoch   82 | Step   1149/ 28000 | Loss: 0.036316 | LR: 2.87e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   82 | Avg Loss: 0.035407 | LR: 2.89e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   4%|▍         | 84/2000 [05:39<2:00:10,  3.76s/it]Epoch   83 | Step   1163/ 28000 | Loss: 0.030458 | LR: 2.89e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   83 | Avg Loss: 0.035443 | LR: 2.92e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   4%|▍         | 85/2000 [05:43<1:59:37,  3.75s/it]Epoch   84 | Step   1177/ 28000 | Loss: 0.036607 | LR: 2.92e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   84 | Avg Loss: 0.038912 | LR: 2.94e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   4%|▍         | 86/2000 [05:47<1:59:00,  3.73s/it]Epoch   85 | Step   1191/ 28000 | Loss: 0.035583 | LR: 2.94e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   85 | Avg Loss: 0.038640 | LR: 2.97e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   4%|▍         | 87/2000 [05:51<1:59:11,  3.74s/it]Epoch   86 | Step   1205/ 28000 | Loss: 0.037822 | LR: 2.97e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   86 | Avg Loss: 0.036139 | LR: 2.99e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   4%|▍         | 88/2000 [05:54<2:00:47,  3.79s/it]Epoch   87 | Step   1219/ 28000 | Loss: 0.040459 | LR: 2.99e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   87 | Avg Loss: 0.035299 | LR: 3.02e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   4%|▍         | 89/2000 [05:58<2:02:44,  3.85s/it]Epoch   88 | Step   1233/ 28000 | Loss: 0.039542 | LR: 3.02e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   88 | Avg Loss: 0.035663 | LR: 3.04e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:   4%|▍         | 90/2000 [06:02<2:01:53,  3.83s/it]Epoch   89 | Step   1247/ 28000 | Loss: 0.033865 | LR: 3.04e-04 | Speed: 3.5 steps/s | ETA: 2.2h
+Epoch   89 | Avg Loss: 0.034305 | LR: 3.07e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   5%|▍         | 91/2000 [06:06<2:03:45,  3.89s/it]Epoch   90 | Step   1261/ 28000 | Loss: 0.032965 | LR: 3.07e-04 | Speed: 3.5 steps/s | ETA: 2.2h
+Epoch   90 | Avg Loss: 0.035090 | LR: 3.09e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:   5%|▍         | 92/2000 [06:10<2:02:32,  3.85s/it]Epoch   91 | Step   1275/ 28000 | Loss: 0.038316 | LR: 3.09e-04 | Speed: 3.5 steps/s | ETA: 2.1h
+Epoch   91 | Avg Loss: 0.034124 | LR: 3.12e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   5%|▍         | 93/2000 [06:15<2:09:02,  4.06s/it]Epoch   92 | Step   1289/ 28000 | Loss: 0.037080 | LR: 3.12e-04 | Speed: 3.5 steps/s | ETA: 2.1h
+Epoch   92 | Avg Loss: 0.035488 | LR: 3.14e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:   5%|▍         | 94/2000 [06:19<2:15:11,  4.26s/it]Epoch   93 | Step   1303/ 28000 | Loss: 0.021309 | LR: 3.15e-04 | Speed: 3.5 steps/s | ETA: 2.1h
+Epoch   93 | Avg Loss: 0.032907 | LR: 3.17e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:   5%|▍         | 95/2000 [06:24<2:17:13,  4.32s/it]Epoch   94 | Step   1317/ 28000 | Loss: 0.035673 | LR: 3.17e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   94 | Avg Loss: 0.034783 | LR: 3.19e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:   5%|▍         | 96/2000 [06:28<2:19:28,  4.40s/it]Epoch   95 | Step   1331/ 28000 | Loss: 0.034429 | LR: 3.20e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   95 | Avg Loss: 0.032835 | LR: 3.22e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:   5%|▍         | 97/2000 [06:33<2:22:24,  4.49s/it]Epoch   96 | Step   1345/ 28000 | Loss: 0.032807 | LR: 3.22e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   96 | Avg Loss: 0.034606 | LR: 3.24e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:   5%|▍         | 98/2000 [06:38<2:22:46,  4.50s/it]Epoch   97 | Step   1359/ 28000 | Loss: 0.033539 | LR: 3.25e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   97 | Avg Loss: 0.032916 | LR: 3.27e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:   5%|▍         | 99/2000 [06:42<2:22:39,  4.50s/it]Epoch   98 | Step   1373/ 28000 | Loss: 0.042475 | LR: 3.27e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   98 | Avg Loss: 0.032685 | LR: 3.29e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:   5%|▌         | 100/2000 [06:47<2:22:24,  4.50s/it]Epoch   99 | Step   1387/ 28000 | Loss: 0.039448 | LR: 3.30e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch   99 | Avg Loss: 0.033200 | LR: 3.32e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:   5%|▌         | 101/2000 [06:51<2:22:45,  4.51s/it]Epoch  100 | Step   1401/ 28000 | Loss: 0.034702 | LR: 3.32e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  100 | Avg Loss: 0.033381 | LR: 3.35e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:   5%|▌         | 102/2000 [06:56<2:24:12,  4.56s/it]Epoch  101 | Step   1415/ 28000 | Loss: 0.027838 | LR: 3.35e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  101 | Avg Loss: 0.032984 | LR: 3.37e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:   5%|▌         | 103/2000 [07:00<2:23:27,  4.54s/it]Epoch  102 | Step   1429/ 28000 | Loss: 0.032587 | LR: 3.37e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  102 | Avg Loss: 0.036700 | LR: 3.40e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:   5%|▌         | 104/2000 [07:05<2:21:57,  4.49s/it]Epoch  103 | Step   1443/ 28000 | Loss: 0.026145 | LR: 3.40e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  103 | Avg Loss: 0.030934 | LR: 3.42e-04 | Time: 4.4s | Samples: 6,983
+Training Flow Model:   5%|▌         | 105/2000 [07:09<2:23:34,  4.55s/it]Epoch  104 | Step   1457/ 28000 | Loss: 0.040734 | LR: 3.42e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  104 | Avg Loss: 0.034330 | LR: 3.45e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:   5%|▌         | 106/2000 [07:14<2:22:27,  4.51s/it]Epoch  105 | Step   1471/ 28000 | Loss: 0.029921 | LR: 3.45e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  105 | Avg Loss: 0.033711 | LR: 3.47e-04 | Time: 4.4s | Samples: 6,983
+Training Flow Model:   5%|▌         | 107/2000 [07:18<2:22:44,  4.52s/it]Epoch  106 | Step   1485/ 28000 | Loss: 0.034491 | LR: 3.47e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  106 | Avg Loss: 0.033309 | LR: 3.50e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:   5%|▌         | 108/2000 [07:23<2:21:49,  4.50s/it]Epoch  107 | Step   1499/ 28000 | Loss: 0.031060 | LR: 3.50e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  107 | Avg Loss: 0.031634 | LR: 3.52e-04 | Time: 4.4s | Samples: 6,983
+Training Flow Model:   5%|▌         | 109/2000 [07:27<2:22:08,  4.51s/it]Epoch  108 | Step   1513/ 28000 | Loss: 0.027502 | LR: 3.52e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  108 | Avg Loss: 0.032764 | LR: 3.55e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:   6%|▌         | 110/2000 [07:32<2:22:50,  4.53s/it]Epoch  109 | Step   1527/ 28000 | Loss: 0.031202 | LR: 3.55e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  109 | Avg Loss: 0.031314 | LR: 3.57e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:   6%|▌         | 111/2000 [07:36<2:22:42,  4.53s/it]Epoch  110 | Step   1541/ 28000 | Loss: 0.035558 | LR: 3.57e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  110 | Avg Loss: 0.028982 | LR: 3.60e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:   6%|▌         | 112/2000 [07:41<2:23:03,  4.55s/it]Epoch  111 | Step   1555/ 28000 | Loss: 0.043899 | LR: 3.60e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  111 | Avg Loss: 0.033536 | LR: 3.62e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:   6%|▌         | 113/2000 [07:46<2:24:12,  4.59s/it]Epoch  112 | Step   1569/ 28000 | Loss: 0.035769 | LR: 3.62e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  112 | Avg Loss: 0.029270 | LR: 3.65e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:   6%|▌         | 114/2000 [07:50<2:23:30,  4.57s/it]Epoch  113 | Step   1583/ 28000 | Loss: 0.038819 | LR: 3.65e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  113 | Avg Loss: 0.031556 | LR: 3.67e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:   6%|▌         | 115/2000 [07:55<2:24:32,  4.60s/it]Epoch  114 | Step   1597/ 28000 | Loss: 0.033644 | LR: 3.67e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  114 | Avg Loss: 0.030605 | LR: 3.70e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:   6%|▌         | 116/2000 [08:00<2:25:20,  4.63s/it]Epoch  115 | Step   1611/ 28000 | Loss: 0.037355 | LR: 3.70e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  115 | Avg Loss: 0.031737 | LR: 3.72e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:   6%|▌         | 117/2000 [08:04<2:24:20,  4.60s/it]Epoch  116 | Step   1625/ 28000 | Loss: 0.028874 | LR: 3.72e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  116 | Avg Loss: 0.030189 | LR: 3.75e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:   6%|▌         | 118/2000 [08:08<2:18:02,  4.40s/it]Epoch  117 | Step   1639/ 28000 | Loss: 0.032550 | LR: 3.75e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  117 | Avg Loss: 0.030018 | LR: 3.77e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   6%|▌         | 119/2000 [08:12<2:14:31,  4.29s/it]Epoch  118 | Step   1653/ 28000 | Loss: 0.032597 | LR: 3.78e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  118 | Avg Loss: 0.031337 | LR: 3.80e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:   6%|▌         | 120/2000 [08:16<2:11:03,  4.18s/it]Epoch  119 | Step   1667/ 28000 | Loss: 0.033254 | LR: 3.80e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  119 | Avg Loss: 0.030698 | LR: 3.82e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   6%|▌         | 121/2000 [08:20<2:09:29,  4.13s/it]Epoch  120 | Step   1681/ 28000 | Loss: 0.029162 | LR: 3.83e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  120 | Avg Loss: 0.028982 | LR: 3.85e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:   6%|▌         | 122/2000 [08:24<2:08:03,  4.09s/it]Epoch  121 | Step   1695/ 28000 | Loss: 0.026940 | LR: 3.85e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  121 | Avg Loss: 0.031694 | LR: 3.87e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:   6%|▌         | 123/2000 [08:29<2:13:59,  4.28s/it]Epoch  122 | Step   1709/ 28000 | Loss: 0.035917 | LR: 3.88e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  122 | Avg Loss: 0.032021 | LR: 3.90e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:   6%|▌         | 124/2000 [08:33<2:17:11,  4.39s/it]Epoch  123 | Step   1723/ 28000 | Loss: 0.034632 | LR: 3.90e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  123 | Avg Loss: 0.029860 | LR: 3.92e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:   6%|▋         | 125/2000 [08:38<2:17:53,  4.41s/it]Epoch  124 | Step   1737/ 28000 | Loss: 0.030441 | LR: 3.93e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  124 | Avg Loss: 0.030208 | LR: 3.95e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:   6%|▋         | 126/2000 [08:42<2:17:36,  4.41s/it]Epoch  125 | Step   1751/ 28000 | Loss: 0.026468 | LR: 3.95e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  125 | Avg Loss: 0.028265 | LR: 3.98e-04 | Time: 4.4s | Samples: 6,983
+Training Flow Model:   6%|▋         | 127/2000 [08:47<2:16:55,  4.39s/it]Epoch  126 | Step   1765/ 28000 | Loss: 0.024805 | LR: 3.98e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  126 | Avg Loss: 0.029385 | LR: 4.00e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:   6%|▋         | 128/2000 [08:51<2:18:18,  4.43s/it]Epoch  127 | Step   1779/ 28000 | Loss: 0.031075 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  127 | Avg Loss: 0.029544 | LR: 4.03e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:   6%|▋         | 129/2000 [08:56<2:18:27,  4.44s/it]Epoch  128 | Step   1793/ 28000 | Loss: 0.029608 | LR: 4.03e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  128 | Avg Loss: 0.031214 | LR: 4.05e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:   6%|▋         | 130/2000 [09:00<2:18:38,  4.45s/it]Epoch  129 | Step   1807/ 28000 | Loss: 0.031628 | LR: 4.05e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  129 | Avg Loss: 0.033152 | LR: 4.08e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:   7%|▋         | 131/2000 [09:05<2:21:04,  4.53s/it]Epoch  130 | Step   1821/ 28000 | Loss: 0.036368 | LR: 4.08e-04 | Speed: 3.4 steps/s | ETA: 2.2h
+Epoch  130 | Avg Loss: 0.030481 | LR: 4.10e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:   7%|▋         | 132/2000 [09:10<2:24:40,  4.65s/it]Epoch  131 | Step   1835/ 28000 | Loss: 0.041563 | LR: 4.10e-04 | Speed: 3.3 steps/s | ETA: 2.2h
+Epoch  131 | Avg Loss: 0.029538 | LR: 4.13e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:   7%|▋         | 133/2000 [09:15<2:26:46,  4.72s/it]Epoch  132 | Step   1849/ 28000 | Loss: 0.031345 | LR: 4.13e-04 | Speed: 3.3 steps/s | ETA: 2.2h
+Epoch  132 | Avg Loss: 0.030107 | LR: 4.15e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:   7%|▋         | 134/2000 [09:19<2:28:22,  4.77s/it]Epoch  133 | Step   1863/ 28000 | Loss: 0.028372 | LR: 4.15e-04 | Speed: 3.3 steps/s | ETA: 2.2h
+Epoch  133 | Avg Loss: 0.031045 | LR: 4.18e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:   7%|▋         | 135/2000 [09:24<2:30:47,  4.85s/it]Epoch  134 | Step   1877/ 28000 | Loss: 0.034868 | LR: 4.18e-04 | Speed: 3.3 steps/s | ETA: 2.2h
+Epoch  134 | Avg Loss: 0.029103 | LR: 4.20e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:   7%|▋         | 136/2000 [09:29<2:32:06,  4.90s/it]Epoch  135 | Step   1891/ 28000 | Loss: 0.033411 | LR: 4.20e-04 | Speed: 3.3 steps/s | ETA: 2.2h
+Epoch  135 | Avg Loss: 0.029507 | LR: 4.23e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:   7%|▋         | 137/2000 [09:34<2:32:13,  4.90s/it]Epoch  136 | Step   1905/ 28000 | Loss: 0.040592 | LR: 4.23e-04 | Speed: 3.3 steps/s | ETA: 2.2h
+Epoch  136 | Avg Loss: 0.030336 | LR: 4.25e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:   7%|▋         | 138/2000 [09:38<2:21:59,  4.58s/it]Epoch  137 | Step   1919/ 28000 | Loss: 0.027753 | LR: 4.25e-04 | Speed: 3.3 steps/s | ETA: 2.2h
+Epoch  137 | Avg Loss: 0.029366 | LR: 4.28e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   7%|▋         | 139/2000 [09:42<2:15:22,  4.36s/it]Epoch  138 | Step   1933/ 28000 | Loss: 0.024079 | LR: 4.28e-04 | Speed: 3.3 steps/s | ETA: 2.2h
+Epoch  138 | Avg Loss: 0.031362 | LR: 4.30e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   7%|▋         | 140/2000 [09:46<2:10:40,  4.22s/it]Epoch  139 | Step   1947/ 28000 | Loss: 0.030628 | LR: 4.30e-04 | Speed: 3.3 steps/s | ETA: 2.2h
+Epoch  139 | Avg Loss: 0.029078 | LR: 4.33e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   7%|▋         | 141/2000 [09:50<2:06:34,  4.09s/it]Epoch  140 | Step   1961/ 28000 | Loss: 0.028076 | LR: 4.33e-04 | Speed: 3.3 steps/s | ETA: 2.2h
+Epoch  140 | Avg Loss: 0.029967 | LR: 4.35e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   7%|▋         | 142/2000 [09:53<2:02:51,  3.97s/it]Epoch  141 | Step   1975/ 28000 | Loss: 0.031633 | LR: 4.35e-04 | Speed: 3.3 steps/s | ETA: 2.2h
+Epoch  141 | Avg Loss: 0.030414 | LR: 4.38e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   7%|▋         | 143/2000 [09:57<2:01:32,  3.93s/it]Epoch  142 | Step   1989/ 28000 | Loss: 0.025507 | LR: 4.38e-04 | Speed: 3.3 steps/s | ETA: 2.2h
+Epoch  142 | Avg Loss: 0.028305 | LR: 4.40e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   7%|▋         | 144/2000 [10:01<1:59:10,  3.85s/it]Epoch  143 | Step   2003/ 28000 | Loss: 0.033705 | LR: 4.41e-04 | Speed: 3.3 steps/s | ETA: 2.2h
+Epoch  143 | Avg Loss: 0.029389 | LR: 4.43e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   7%|▋         | 145/2000 [10:05<1:59:08,  3.85s/it]Epoch  144 | Step   2017/ 28000 | Loss: 0.028814 | LR: 4.43e-04 | Speed: 3.3 steps/s | ETA: 2.2h
+Epoch  144 | Avg Loss: 0.030136 | LR: 4.45e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   7%|▋         | 146/2000 [10:09<1:57:57,  3.82s/it]Epoch  145 | Step   2031/ 28000 | Loss: 0.037588 | LR: 4.46e-04 | Speed: 3.3 steps/s | ETA: 2.2h
+Epoch  145 | Avg Loss: 0.028350 | LR: 4.48e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   7%|▋         | 147/2000 [10:12<1:57:32,  3.81s/it]Epoch  146 | Step   2045/ 28000 | Loss: 0.032506 | LR: 4.48e-04 | Speed: 3.3 steps/s | ETA: 2.2h
+Epoch  146 | Avg Loss: 0.028754 | LR: 4.50e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   7%|▋         | 148/2000 [10:16<1:56:01,  3.76s/it]Epoch  147 | Step   2059/ 28000 | Loss: 0.030028 | LR: 4.51e-04 | Speed: 3.3 steps/s | ETA: 2.2h
+Epoch  147 | Avg Loss: 0.029591 | LR: 4.53e-04 | Time: 3.6s | Samples: 6,983
+Training Flow Model:   7%|▋         | 149/2000 [10:20<1:56:07,  3.76s/it]Epoch  148 | Step   2073/ 28000 | Loss: 0.026277 | LR: 4.53e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  148 | Avg Loss: 0.028085 | LR: 4.55e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   8%|▊         | 150/2000 [10:23<1:54:57,  3.73s/it]Epoch  149 | Step   2087/ 28000 | Loss: 0.034625 | LR: 4.56e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  149 | Avg Loss: 0.028983 | LR: 4.58e-04 | Time: 3.6s | Samples: 6,983
+Training Flow Model:   8%|▊         | 151/2000 [10:27<1:54:00,  3.70s/it]Epoch  150 | Step   2101/ 28000 | Loss: 0.035288 | LR: 4.58e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  150 | Avg Loss: 0.027855 | LR: 4.61e-04 | Time: 3.6s | Samples: 6,983
+Training Flow Model:   8%|▊         | 152/2000 [10:31<1:53:59,  3.70s/it]Epoch  151 | Step   2115/ 28000 | Loss: 0.031995 | LR: 4.61e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  151 | Avg Loss: 0.027883 | LR: 4.63e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   8%|▊         | 153/2000 [10:34<1:53:51,  3.70s/it]Epoch  152 | Step   2129/ 28000 | Loss: 0.027308 | LR: 4.63e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  152 | Avg Loss: 0.030486 | LR: 4.66e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   8%|▊         | 154/2000 [10:38<1:54:47,  3.73s/it]Epoch  153 | Step   2143/ 28000 | Loss: 0.026617 | LR: 4.66e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  153 | Avg Loss: 0.027650 | LR: 4.68e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   8%|▊         | 155/2000 [10:42<1:55:45,  3.76s/it]Epoch  154 | Step   2157/ 28000 | Loss: 0.017869 | LR: 4.68e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  154 | Avg Loss: 0.029066 | LR: 4.71e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   8%|▊         | 156/2000 [10:46<1:55:43,  3.77s/it]Epoch  155 | Step   2171/ 28000 | Loss: 0.022542 | LR: 4.71e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  155 | Avg Loss: 0.026916 | LR: 4.73e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   8%|▊         | 157/2000 [10:49<1:54:13,  3.72s/it]Epoch  156 | Step   2185/ 28000 | Loss: 0.032667 | LR: 4.73e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  156 | Avg Loss: 0.027490 | LR: 4.76e-04 | Time: 3.6s | Samples: 6,983
+Training Flow Model:   8%|▊         | 158/2000 [10:53<1:55:05,  3.75s/it]Epoch  157 | Step   2199/ 28000 | Loss: 0.028837 | LR: 4.76e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  157 | Avg Loss: 0.029304 | LR: 4.78e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   8%|▊         | 159/2000 [10:57<1:54:32,  3.73s/it]Epoch  158 | Step   2213/ 28000 | Loss: 0.034612 | LR: 4.78e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  158 | Avg Loss: 0.028940 | LR: 4.81e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   8%|▊         | 160/2000 [11:01<1:54:21,  3.73s/it]Epoch  159 | Step   2227/ 28000 | Loss: 0.029048 | LR: 4.81e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  159 | Avg Loss: 0.027369 | LR: 4.83e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   8%|▊         | 161/2000 [11:04<1:53:57,  3.72s/it]Epoch  160 | Step   2241/ 28000 | Loss: 0.025874 | LR: 4.83e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  160 | Avg Loss: 0.028109 | LR: 4.86e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   8%|▊         | 162/2000 [11:08<1:54:26,  3.74s/it]Epoch  161 | Step   2255/ 28000 | Loss: 0.034249 | LR: 4.86e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  161 | Avg Loss: 0.029069 | LR: 4.88e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   8%|▊         | 163/2000 [11:12<1:54:29,  3.74s/it]Epoch  162 | Step   2269/ 28000 | Loss: 0.028238 | LR: 4.88e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  162 | Avg Loss: 0.028475 | LR: 4.91e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   8%|▊         | 164/2000 [11:16<1:54:25,  3.74s/it]Epoch  163 | Step   2283/ 28000 | Loss: 0.030981 | LR: 4.91e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  163 | Avg Loss: 0.028629 | LR: 4.93e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   8%|▊         | 165/2000 [11:19<1:54:39,  3.75s/it]Epoch  164 | Step   2297/ 28000 | Loss: 0.031472 | LR: 4.93e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  164 | Avg Loss: 0.026889 | LR: 4.96e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   8%|▊         | 166/2000 [11:23<1:55:21,  3.77s/it]Epoch  165 | Step   2311/ 28000 | Loss: 0.026522 | LR: 4.96e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  165 | Avg Loss: 0.028062 | LR: 4.98e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   8%|▊         | 167/2000 [11:27<1:56:00,  3.80s/it]Epoch  166 | Step   2325/ 28000 | Loss: 0.028234 | LR: 4.98e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  166 | Avg Loss: 0.028263 | LR: 5.01e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   8%|▊         | 168/2000 [11:31<1:55:22,  3.78s/it]Epoch  167 | Step   2339/ 28000 | Loss: 0.024681 | LR: 5.01e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  167 | Avg Loss: 0.028084 | LR: 5.03e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   8%|▊         | 169/2000 [11:34<1:54:00,  3.74s/it]Epoch  168 | Step   2353/ 28000 | Loss: 0.024508 | LR: 5.04e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  168 | Avg Loss: 0.025524 | LR: 5.06e-04 | Time: 3.6s | Samples: 6,983
+Training Flow Model:   8%|▊         | 170/2000 [11:38<1:53:36,  3.72s/it]Epoch  169 | Step   2367/ 28000 | Loss: 0.035998 | LR: 5.06e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  169 | Avg Loss: 0.028908 | LR: 5.08e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   9%|▊         | 171/2000 [11:42<1:53:57,  3.74s/it]Epoch  170 | Step   2381/ 28000 | Loss: 0.026759 | LR: 5.09e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  170 | Avg Loss: 0.028498 | LR: 5.11e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   9%|▊         | 172/2000 [11:46<1:53:59,  3.74s/it]Epoch  171 | Step   2395/ 28000 | Loss: 0.028135 | LR: 5.11e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  171 | Avg Loss: 0.029443 | LR: 5.13e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   9%|▊         | 173/2000 [11:49<1:53:58,  3.74s/it]Epoch  172 | Step   2409/ 28000 | Loss: 0.027476 | LR: 5.14e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  172 | Avg Loss: 0.026858 | LR: 5.16e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   9%|▊         | 174/2000 [11:53<1:53:01,  3.71s/it]Epoch  173 | Step   2423/ 28000 | Loss: 0.028367 | LR: 5.16e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  173 | Avg Loss: 0.028840 | LR: 5.18e-04 | Time: 3.6s | Samples: 6,983
+Training Flow Model:   9%|▉         | 175/2000 [11:57<1:53:42,  3.74s/it]Epoch  174 | Step   2437/ 28000 | Loss: 0.034154 | LR: 5.19e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  174 | Avg Loss: 0.029576 | LR: 5.21e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   9%|▉         | 176/2000 [12:01<1:53:56,  3.75s/it]Epoch  175 | Step   2451/ 28000 | Loss: 0.026569 | LR: 5.21e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  175 | Avg Loss: 0.028394 | LR: 5.24e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   9%|▉         | 177/2000 [12:04<1:54:23,  3.77s/it]Epoch  176 | Step   2465/ 28000 | Loss: 0.022570 | LR: 5.24e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  176 | Avg Loss: 0.024570 | LR: 5.26e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   9%|▉         | 178/2000 [12:08<1:54:03,  3.76s/it]Epoch  177 | Step   2479/ 28000 | Loss: 0.023408 | LR: 5.26e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  177 | Avg Loss: 0.026878 | LR: 5.29e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   9%|▉         | 179/2000 [12:12<1:53:52,  3.75s/it]Epoch  178 | Step   2493/ 28000 | Loss: 0.025053 | LR: 5.29e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  178 | Avg Loss: 0.027440 | LR: 5.31e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   9%|▉         | 180/2000 [12:16<1:53:34,  3.74s/it]Epoch  179 | Step   2507/ 28000 | Loss: 0.023622 | LR: 5.31e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  179 | Avg Loss: 0.027926 | LR: 5.34e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   9%|▉         | 181/2000 [12:19<1:53:18,  3.74s/it]Epoch  180 | Step   2521/ 28000 | Loss: 0.023388 | LR: 5.34e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  180 | Avg Loss: 0.026626 | LR: 5.36e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   9%|▉         | 182/2000 [12:23<1:53:31,  3.75s/it]Epoch  181 | Step   2535/ 28000 | Loss: 0.026016 | LR: 5.36e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  181 | Avg Loss: 0.024871 | LR: 5.39e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   9%|▉         | 183/2000 [12:27<1:54:15,  3.77s/it]Epoch  182 | Step   2549/ 28000 | Loss: 0.023908 | LR: 5.39e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  182 | Avg Loss: 0.026145 | LR: 5.41e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   9%|▉         | 184/2000 [12:31<1:54:07,  3.77s/it]Epoch  183 | Step   2563/ 28000 | Loss: 0.030929 | LR: 5.41e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  183 | Avg Loss: 0.028917 | LR: 5.44e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:   9%|▉         | 185/2000 [12:35<1:54:57,  3.80s/it]Epoch  184 | Step   2577/ 28000 | Loss: 0.027231 | LR: 5.44e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  184 | Avg Loss: 0.027549 | LR: 5.46e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   9%|▉         | 186/2000 [12:38<1:53:48,  3.76s/it]Epoch  185 | Step   2591/ 28000 | Loss: 0.030390 | LR: 5.46e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  185 | Avg Loss: 0.028438 | LR: 5.49e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   9%|▉         | 187/2000 [12:42<1:54:46,  3.80s/it]Epoch  186 | Step   2605/ 28000 | Loss: 0.028791 | LR: 5.49e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  186 | Avg Loss: 0.027467 | LR: 5.51e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:   9%|▉         | 188/2000 [12:46<1:54:06,  3.78s/it]Epoch  187 | Step   2619/ 28000 | Loss: 0.026144 | LR: 5.51e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  187 | Avg Loss: 0.028316 | LR: 5.54e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:   9%|▉         | 189/2000 [12:50<1:54:15,  3.79s/it]Epoch  188 | Step   2633/ 28000 | Loss: 0.030143 | LR: 5.54e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  188 | Avg Loss: 0.027779 | LR: 5.56e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  10%|▉         | 190/2000 [12:54<1:54:42,  3.80s/it]Epoch  189 | Step   2647/ 28000 | Loss: 0.028505 | LR: 5.56e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  189 | Avg Loss: 0.028019 | LR: 5.59e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  10%|▉         | 191/2000 [12:57<1:54:15,  3.79s/it]Epoch  190 | Step   2661/ 28000 | Loss: 0.023838 | LR: 5.59e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  190 | Avg Loss: 0.026385 | LR: 5.61e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  10%|▉         | 192/2000 [13:01<1:53:51,  3.78s/it]Epoch  191 | Step   2675/ 28000 | Loss: 0.029678 | LR: 5.61e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  191 | Avg Loss: 0.028148 | LR: 5.64e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  10%|▉         | 193/2000 [13:05<1:55:17,  3.83s/it]Epoch  192 | Step   2689/ 28000 | Loss: 0.029370 | LR: 5.64e-04 | Speed: 3.4 steps/s | ETA: 2.1h
+Epoch  192 | Avg Loss: 0.027226 | LR: 5.66e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  10%|▉         | 194/2000 [13:09<1:54:33,  3.81s/it]Epoch  193 | Step   2703/ 28000 | Loss: 0.031592 | LR: 5.67e-04 | Speed: 3.4 steps/s | ETA: 2.0h
+Epoch  193 | Avg Loss: 0.030016 | LR: 5.69e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  10%|▉         | 195/2000 [13:12<1:53:50,  3.78s/it]Epoch  194 | Step   2717/ 28000 | Loss: 0.027989 | LR: 5.69e-04 | Speed: 3.4 steps/s | ETA: 2.0h
+Epoch  194 | Avg Loss: 0.027034 | LR: 5.71e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  10%|▉         | 196/2000 [13:16<1:52:54,  3.75s/it]Epoch  195 | Step   2731/ 28000 | Loss: 0.027296 | LR: 5.72e-04 | Speed: 3.4 steps/s | ETA: 2.0h
+Epoch  195 | Avg Loss: 0.027655 | LR: 5.74e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  10%|▉         | 197/2000 [13:20<1:52:53,  3.76s/it]Epoch  196 | Step   2745/ 28000 | Loss: 0.028922 | LR: 5.74e-04 | Speed: 3.4 steps/s | ETA: 2.0h
+Epoch  196 | Avg Loss: 0.029555 | LR: 5.76e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  10%|▉         | 198/2000 [13:24<1:53:12,  3.77s/it]Epoch  197 | Step   2759/ 28000 | Loss: 0.034705 | LR: 5.77e-04 | Speed: 3.4 steps/s | ETA: 2.0h
+Epoch  197 | Avg Loss: 0.028811 | LR: 5.79e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  10%|▉         | 199/2000 [13:28<1:53:51,  3.79s/it]Epoch  198 | Step   2773/ 28000 | Loss: 0.032358 | LR: 5.79e-04 | Speed: 3.4 steps/s | ETA: 2.0h
+Epoch  198 | Avg Loss: 0.029200 | LR: 5.81e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  10%|█         | 200/2000 [13:31<1:53:12,  3.77s/it]Epoch  199 | Step   2787/ 28000 | Loss: 0.026213 | LR: 5.82e-04 | Speed: 3.4 steps/s | ETA: 2.0h
+Epoch  199 | Avg Loss: 0.026654 | LR: 5.84e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  10%|█         | 201/2000 [13:35<1:53:17,  3.78s/it]Epoch  200 | Step   2801/ 28000 | Loss: 0.025011 | LR: 5.84e-04 | Speed: 3.4 steps/s | ETA: 2.0h
+Epoch  200 | Avg Loss: 0.024416 | LR: 5.87e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  10%|█         | 202/2000 [13:39<1:52:42,  3.76s/it]Epoch  201 | Step   2815/ 28000 | Loss: 0.027177 | LR: 5.87e-04 | Speed: 3.4 steps/s | ETA: 2.0h
+Epoch  201 | Avg Loss: 0.025016 | LR: 5.89e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  10%|█         | 203/2000 [13:43<1:55:06,  3.84s/it]Epoch  202 | Step   2829/ 28000 | Loss: 0.023491 | LR: 5.89e-04 | Speed: 3.4 steps/s | ETA: 2.0h
+Epoch  202 | Avg Loss: 0.025066 | LR: 5.92e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  10%|█         | 204/2000 [13:47<1:54:45,  3.83s/it]Epoch  203 | Step   2843/ 28000 | Loss: 0.024007 | LR: 5.92e-04 | Speed: 3.4 steps/s | ETA: 2.0h
+Epoch  203 | Avg Loss: 0.027150 | LR: 5.94e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  10%|█         | 205/2000 [13:50<1:53:23,  3.79s/it]Epoch  204 | Step   2857/ 28000 | Loss: 0.041077 | LR: 5.94e-04 | Speed: 3.4 steps/s | ETA: 2.0h
+Epoch  204 | Avg Loss: 0.027482 | LR: 5.97e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  10%|█         | 206/2000 [13:54<1:52:52,  3.78s/it]Epoch  205 | Step   2871/ 28000 | Loss: 0.032908 | LR: 5.97e-04 | Speed: 3.4 steps/s | ETA: 2.0h
+Epoch  205 | Avg Loss: 0.027430 | LR: 5.99e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  10%|█         | 207/2000 [13:58<1:52:50,  3.78s/it]Epoch  206 | Step   2885/ 28000 | Loss: 0.029702 | LR: 5.99e-04 | Speed: 3.4 steps/s | ETA: 2.0h
+Epoch  206 | Avg Loss: 0.027684 | LR: 6.02e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  10%|█         | 208/2000 [14:02<1:52:24,  3.76s/it]Epoch  207 | Step   2899/ 28000 | Loss: 0.030933 | LR: 6.02e-04 | Speed: 3.4 steps/s | ETA: 2.0h
+Epoch  207 | Avg Loss: 0.029291 | LR: 6.04e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  10%|█         | 209/2000 [14:05<1:52:48,  3.78s/it]Epoch  208 | Step   2913/ 28000 | Loss: 0.028146 | LR: 6.04e-04 | Speed: 3.4 steps/s | ETA: 2.0h
+Epoch  208 | Avg Loss: 0.026429 | LR: 6.07e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  10%|█         | 210/2000 [14:09<1:52:38,  3.78s/it]Epoch  209 | Step   2927/ 28000 | Loss: 0.035403 | LR: 6.07e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  209 | Avg Loss: 0.027610 | LR: 6.09e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  11%|█         | 211/2000 [14:13<1:54:52,  3.85s/it]Epoch  210 | Step   2941/ 28000 | Loss: 0.027742 | LR: 6.09e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  210 | Avg Loss: 0.026444 | LR: 6.12e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  11%|█         | 212/2000 [14:17<1:54:01,  3.83s/it]Epoch  211 | Step   2955/ 28000 | Loss: 0.030433 | LR: 6.12e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  211 | Avg Loss: 0.030131 | LR: 6.14e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  11%|█         | 213/2000 [14:21<1:52:44,  3.79s/it]Epoch  212 | Step   2969/ 28000 | Loss: 0.032721 | LR: 6.14e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  212 | Avg Loss: 0.026655 | LR: 6.17e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  11%|█         | 214/2000 [14:24<1:52:43,  3.79s/it]Epoch  213 | Step   2983/ 28000 | Loss: 0.028933 | LR: 6.17e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  213 | Avg Loss: 0.028811 | LR: 6.19e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  11%|█         | 215/2000 [14:28<1:52:57,  3.80s/it]Epoch  214 | Step   2997/ 28000 | Loss: 0.034275 | LR: 6.19e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  214 | Avg Loss: 0.027001 | LR: 6.22e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  11%|█         | 216/2000 [14:32<1:52:18,  3.78s/it]Epoch  215 | Step   3011/ 28000 | Loss: 0.024270 | LR: 6.22e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  215 | Avg Loss: 0.027762 | LR: 6.24e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  11%|█         | 217/2000 [14:36<1:52:32,  3.79s/it]Epoch  216 | Step   3025/ 28000 | Loss: 0.023408 | LR: 6.24e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  216 | Avg Loss: 0.028673 | LR: 6.27e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  11%|█         | 218/2000 [14:40<1:52:07,  3.78s/it]Epoch  217 | Step   3039/ 28000 | Loss: 0.032191 | LR: 6.27e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  217 | Avg Loss: 0.026365 | LR: 6.29e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  11%|█         | 219/2000 [14:43<1:52:24,  3.79s/it]Epoch  218 | Step   3053/ 28000 | Loss: 0.033286 | LR: 6.30e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  218 | Avg Loss: 0.026261 | LR: 6.32e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  11%|█         | 220/2000 [14:47<1:51:35,  3.76s/it]Epoch  219 | Step   3067/ 28000 | Loss: 0.032007 | LR: 6.32e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  219 | Avg Loss: 0.029938 | LR: 6.34e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  11%|█         | 221/2000 [14:51<1:50:26,  3.72s/it]Epoch  220 | Step   3081/ 28000 | Loss: 0.024645 | LR: 6.35e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  220 | Avg Loss: 0.026202 | LR: 6.37e-04 | Time: 3.6s | Samples: 6,983
+Training Flow Model:  11%|█         | 222/2000 [14:55<1:51:06,  3.75s/it]Epoch  221 | Step   3095/ 28000 | Loss: 0.025356 | LR: 6.37e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  221 | Avg Loss: 0.026633 | LR: 6.39e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  11%|█         | 223/2000 [14:58<1:51:23,  3.76s/it]Epoch  222 | Step   3109/ 28000 | Loss: 0.030173 | LR: 6.40e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  222 | Avg Loss: 0.028751 | LR: 6.42e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  11%|█         | 224/2000 [15:02<1:51:12,  3.76s/it]Epoch  223 | Step   3123/ 28000 | Loss: 0.028024 | LR: 6.42e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  223 | Avg Loss: 0.026174 | LR: 6.44e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  11%|█▏        | 225/2000 [15:06<1:52:25,  3.80s/it]Epoch  224 | Step   3137/ 28000 | Loss: 0.034762 | LR: 6.45e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  224 | Avg Loss: 0.025912 | LR: 6.47e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  11%|█▏        | 226/2000 [15:10<1:51:53,  3.78s/it]Epoch  225 | Step   3151/ 28000 | Loss: 0.020959 | LR: 6.47e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  225 | Avg Loss: 0.024941 | LR: 6.50e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  11%|█▏        | 227/2000 [15:13<1:51:15,  3.77s/it]Epoch  226 | Step   3165/ 28000 | Loss: 0.035876 | LR: 6.50e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  226 | Avg Loss: 0.029608 | LR: 6.52e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  11%|█▏        | 228/2000 [15:17<1:53:48,  3.85s/it]Epoch  227 | Step   3179/ 28000 | Loss: 0.026482 | LR: 6.52e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  227 | Avg Loss: 0.026086 | LR: 6.55e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  11%|█▏        | 229/2000 [15:21<1:53:11,  3.83s/it]Epoch  228 | Step   3193/ 28000 | Loss: 0.026247 | LR: 6.55e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  228 | Avg Loss: 0.026541 | LR: 6.57e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 230/2000 [15:25<1:53:27,  3.85s/it]Epoch  229 | Step   3207/ 28000 | Loss: 0.022939 | LR: 6.57e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  229 | Avg Loss: 0.029100 | LR: 6.60e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 231/2000 [15:29<1:53:50,  3.86s/it]Epoch  230 | Step   3221/ 28000 | Loss: 0.023840 | LR: 6.60e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  230 | Avg Loss: 0.027065 | LR: 6.62e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 232/2000 [15:33<1:53:14,  3.84s/it]Epoch  231 | Step   3235/ 28000 | Loss: 0.024032 | LR: 6.62e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  231 | Avg Loss: 0.027453 | LR: 6.65e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 233/2000 [15:37<1:52:25,  3.82s/it]Epoch  232 | Step   3249/ 28000 | Loss: 0.030219 | LR: 6.65e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  232 | Avg Loss: 0.027013 | LR: 6.67e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 234/2000 [15:40<1:51:41,  3.79s/it]Epoch  233 | Step   3263/ 28000 | Loss: 0.027014 | LR: 6.67e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  233 | Avg Loss: 0.025947 | LR: 6.70e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 235/2000 [15:44<1:50:50,  3.77s/it]Epoch  234 | Step   3277/ 28000 | Loss: 0.027508 | LR: 6.70e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  234 | Avg Loss: 0.026844 | LR: 6.72e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 236/2000 [15:48<1:51:15,  3.78s/it]Epoch  235 | Step   3291/ 28000 | Loss: 0.033723 | LR: 6.72e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  235 | Avg Loss: 0.028029 | LR: 6.75e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 237/2000 [15:52<1:50:39,  3.77s/it]Epoch  236 | Step   3305/ 28000 | Loss: 0.032620 | LR: 6.75e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  236 | Avg Loss: 0.026563 | LR: 6.77e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 238/2000 [15:55<1:50:34,  3.77s/it]Epoch  237 | Step   3319/ 28000 | Loss: 0.024839 | LR: 6.77e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  237 | Avg Loss: 0.027674 | LR: 6.80e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 239/2000 [15:59<1:49:45,  3.74s/it]Epoch  238 | Step   3333/ 28000 | Loss: 0.022683 | LR: 6.80e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  238 | Avg Loss: 0.027055 | LR: 6.82e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 240/2000 [16:03<1:49:19,  3.73s/it]Epoch  239 | Step   3347/ 28000 | Loss: 0.023157 | LR: 6.82e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  239 | Avg Loss: 0.028552 | LR: 6.85e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 241/2000 [16:07<1:56:40,  3.98s/it]Epoch  240 | Step   3361/ 28000 | Loss: 0.032396 | LR: 6.85e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  240 | Avg Loss: 0.027929 | LR: 6.87e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 242/2000 [16:11<1:54:55,  3.92s/it]Epoch  241 | Step   3375/ 28000 | Loss: 0.020875 | LR: 6.87e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  241 | Avg Loss: 0.025024 | LR: 6.90e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 243/2000 [16:15<1:53:02,  3.86s/it]Epoch  242 | Step   3389/ 28000 | Loss: 0.033749 | LR: 6.90e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  242 | Avg Loss: 0.027624 | LR: 6.92e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 244/2000 [16:19<1:52:13,  3.83s/it]Epoch  243 | Step   3403/ 28000 | Loss: 0.028375 | LR: 6.93e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  243 | Avg Loss: 0.026531 | LR: 6.95e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 245/2000 [16:22<1:51:07,  3.80s/it]Epoch  244 | Step   3417/ 28000 | Loss: 0.033050 | LR: 6.95e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  244 | Avg Loss: 0.030680 | LR: 6.97e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 246/2000 [16:26<1:51:50,  3.83s/it]Epoch  245 | Step   3431/ 28000 | Loss: 0.031014 | LR: 6.98e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  245 | Avg Loss: 0.028980 | LR: 7.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 247/2000 [16:30<1:52:10,  3.84s/it]Epoch  246 | Step   3445/ 28000 | Loss: 0.029790 | LR: 7.00e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  246 | Avg Loss: 0.027463 | LR: 7.02e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 248/2000 [16:34<1:51:03,  3.80s/it]Epoch  247 | Step   3459/ 28000 | Loss: 0.023297 | LR: 7.03e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  247 | Avg Loss: 0.026606 | LR: 7.05e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  12%|█▏        | 249/2000 [16:37<1:49:48,  3.76s/it]Epoch  248 | Step   3473/ 28000 | Loss: 0.024548 | LR: 7.05e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  248 | Avg Loss: 0.025613 | LR: 7.07e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  12%|█▎        | 250/2000 [16:41<1:51:08,  3.81s/it]Epoch  249 | Step   3487/ 28000 | Loss: 0.030698 | LR: 7.08e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  249 | Avg Loss: 0.025811 | LR: 7.10e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 251/2000 [16:45<1:51:15,  3.82s/it]Epoch  250 | Step   3501/ 28000 | Loss: 0.027590 | LR: 7.10e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  250 | Avg Loss: 0.025407 | LR: 7.13e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 252/2000 [16:49<1:50:45,  3.80s/it]Epoch  251 | Step   3515/ 28000 | Loss: 0.029142 | LR: 7.13e-04 | Speed: 3.5 steps/s | ETA: 2.0h
+Epoch  251 | Avg Loss: 0.027654 | LR: 7.15e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 253/2000 [16:53<1:50:21,  3.79s/it]Epoch  252 | Step   3529/ 28000 | Loss: 0.025125 | LR: 7.15e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  252 | Avg Loss: 0.025513 | LR: 7.18e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 254/2000 [16:56<1:49:12,  3.75s/it]Epoch  253 | Step   3543/ 28000 | Loss: 0.022277 | LR: 7.18e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  253 | Avg Loss: 0.025578 | LR: 7.20e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 255/2000 [17:00<1:48:46,  3.74s/it]Epoch  254 | Step   3557/ 28000 | Loss: 0.020656 | LR: 7.20e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  254 | Avg Loss: 0.026276 | LR: 7.23e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 256/2000 [17:04<1:49:19,  3.76s/it]Epoch  255 | Step   3571/ 28000 | Loss: 0.020860 | LR: 7.23e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  255 | Avg Loss: 0.025263 | LR: 7.25e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 257/2000 [17:08<1:47:57,  3.72s/it]Epoch  256 | Step   3585/ 28000 | Loss: 0.027769 | LR: 7.25e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  256 | Avg Loss: 0.028669 | LR: 7.28e-04 | Time: 3.6s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 258/2000 [17:11<1:49:14,  3.76s/it]Epoch  257 | Step   3599/ 28000 | Loss: 0.026192 | LR: 7.28e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  257 | Avg Loss: 0.029357 | LR: 7.30e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 259/2000 [17:15<1:49:53,  3.79s/it]Epoch  258 | Step   3613/ 28000 | Loss: 0.038787 | LR: 7.30e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  258 | Avg Loss: 0.027152 | LR: 7.33e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 260/2000 [17:19<1:49:48,  3.79s/it]Epoch  259 | Step   3627/ 28000 | Loss: 0.025331 | LR: 7.33e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  259 | Avg Loss: 0.026203 | LR: 7.35e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 261/2000 [17:23<1:49:28,  3.78s/it]Epoch  260 | Step   3641/ 28000 | Loss: 0.023306 | LR: 7.35e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  260 | Avg Loss: 0.025478 | LR: 7.38e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 262/2000 [17:26<1:48:24,  3.74s/it]Epoch  261 | Step   3655/ 28000 | Loss: 0.021393 | LR: 7.38e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  261 | Avg Loss: 0.027265 | LR: 7.40e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 263/2000 [17:30<1:49:10,  3.77s/it]Epoch  262 | Step   3669/ 28000 | Loss: 0.024878 | LR: 7.40e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  262 | Avg Loss: 0.027421 | LR: 7.43e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 264/2000 [17:34<1:49:14,  3.78s/it]Epoch  263 | Step   3683/ 28000 | Loss: 0.035670 | LR: 7.43e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  263 | Avg Loss: 0.027519 | LR: 7.45e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 265/2000 [17:38<1:49:08,  3.77s/it]Epoch  264 | Step   3697/ 28000 | Loss: 0.024651 | LR: 7.45e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  264 | Avg Loss: 0.026046 | LR: 7.48e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 266/2000 [17:42<1:49:02,  3.77s/it]Epoch  265 | Step   3711/ 28000 | Loss: 0.029973 | LR: 7.48e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  265 | Avg Loss: 0.027810 | LR: 7.50e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 267/2000 [17:45<1:49:10,  3.78s/it]Epoch  266 | Step   3725/ 28000 | Loss: 0.030268 | LR: 7.50e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  266 | Avg Loss: 0.028879 | LR: 7.53e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 268/2000 [17:49<1:48:20,  3.75s/it]Epoch  267 | Step   3739/ 28000 | Loss: 0.025230 | LR: 7.53e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  267 | Avg Loss: 0.028530 | LR: 7.55e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  13%|█▎        | 269/2000 [17:53<1:49:04,  3.78s/it]Epoch  268 | Step   3753/ 28000 | Loss: 0.035098 | LR: 7.56e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  268 | Avg Loss: 0.029607 | LR: 7.58e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  14%|█▎        | 270/2000 [17:57<1:48:12,  3.75s/it]Epoch  269 | Step   3767/ 28000 | Loss: 0.032710 | LR: 7.58e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  269 | Avg Loss: 0.025024 | LR: 7.60e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  14%|█▎        | 271/2000 [18:00<1:47:15,  3.72s/it]Epoch  270 | Step   3781/ 28000 | Loss: 0.035093 | LR: 7.61e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  270 | Avg Loss: 0.027720 | LR: 7.63e-04 | Time: 3.6s | Samples: 6,983
+Training Flow Model:  14%|█▎        | 272/2000 [18:04<1:46:53,  3.71s/it]Epoch  271 | Step   3795/ 28000 | Loss: 0.028308 | LR: 7.63e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  271 | Avg Loss: 0.025927 | LR: 7.65e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  14%|█▎        | 273/2000 [18:08<1:47:01,  3.72s/it]Epoch  272 | Step   3809/ 28000 | Loss: 0.020935 | LR: 7.66e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  272 | Avg Loss: 0.024992 | LR: 7.68e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  14%|█▎        | 274/2000 [18:11<1:46:37,  3.71s/it]Epoch  273 | Step   3823/ 28000 | Loss: 0.020307 | LR: 7.68e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  273 | Avg Loss: 0.025671 | LR: 7.70e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  14%|█▍        | 275/2000 [18:15<1:46:52,  3.72s/it]Epoch  274 | Step   3837/ 28000 | Loss: 0.023998 | LR: 7.71e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  274 | Avg Loss: 0.024550 | LR: 7.73e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  14%|█▍        | 276/2000 [18:19<1:47:20,  3.74s/it]Epoch  275 | Step   3851/ 28000 | Loss: 0.027758 | LR: 7.73e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  275 | Avg Loss: 0.025688 | LR: 7.76e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  14%|█▍        | 277/2000 [18:23<1:46:37,  3.71s/it]Epoch  276 | Step   3865/ 28000 | Loss: 0.024930 | LR: 7.76e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  276 | Avg Loss: 0.027456 | LR: 7.78e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  14%|█▍        | 278/2000 [18:26<1:45:56,  3.69s/it]Epoch  277 | Step   3879/ 28000 | Loss: 0.028506 | LR: 7.78e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  277 | Avg Loss: 0.024284 | LR: 7.81e-04 | Time: 3.6s | Samples: 6,983
+Training Flow Model:  14%|█▍        | 279/2000 [18:30<1:46:53,  3.73s/it]Epoch  278 | Step   3893/ 28000 | Loss: 0.024122 | LR: 7.81e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  278 | Avg Loss: 0.027029 | LR: 7.83e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  14%|█▍        | 280/2000 [18:34<1:46:58,  3.73s/it]Epoch  279 | Step   3907/ 28000 | Loss: 0.031903 | LR: 7.83e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  279 | Avg Loss: 0.028653 | LR: 7.86e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  14%|█▍        | 281/2000 [18:38<1:48:20,  3.78s/it]Epoch  280 | Step   3921/ 28000 | Loss: 0.025864 | LR: 7.86e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  280 | Avg Loss: 0.025651 | LR: 7.88e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  14%|█▍        | 282/2000 [18:42<1:50:51,  3.87s/it]Epoch  281 | Step   3935/ 28000 | Loss: 0.025397 | LR: 7.88e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  281 | Avg Loss: 0.025976 | LR: 7.91e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  14%|█▍        | 283/2000 [18:46<1:50:27,  3.86s/it]Epoch  282 | Step   3949/ 28000 | Loss: 0.025917 | LR: 7.91e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  282 | Avg Loss: 0.023503 | LR: 7.93e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  14%|█▍        | 284/2000 [18:49<1:50:46,  3.87s/it]Epoch  283 | Step   3963/ 28000 | Loss: 0.024869 | LR: 7.93e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  283 | Avg Loss: 0.023275 | LR: 7.96e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  14%|█▍        | 285/2000 [18:53<1:50:52,  3.88s/it]Epoch  284 | Step   3977/ 28000 | Loss: 0.028137 | LR: 7.96e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  284 | Avg Loss: 0.026219 | LR: 7.98e-04 | Time: 3.9s | Samples: 6,983
+/home/edwardsun/miniconda3/envs/flow/lib/python3.9/site-packages/torch/optim/lr_scheduler.py:240: UserWarning: The epoch parameter in `scheduler.step()` was not necessary and is being deprecated where possible. Please use `scheduler.step()` to step the scheduler. During the deprecation, if epoch is different from None, the closed form is used instead of the new chainable form, where available. Please open an issue if you are unable to replicate your use case: https://github.com/pytorch/pytorch/issues/new/choose.
+  warnings.warn(EPOCH_DEPRECATION_WARNING, UserWarning)
+Training Flow Model:  14%|█▍        | 286/2000 [18:57<1:51:31,  3.90s/it]Epoch  285 | Step   3991/ 28000 | Loss: 0.029557 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  285 | Avg Loss: 0.027296 | LR: 8.00e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  14%|█▍        | 287/2000 [19:01<1:49:46,  3.85s/it]Epoch  286 | Step   4005/ 28000 | Loss: 0.029139 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  286 | Avg Loss: 0.027237 | LR: 8.00e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  14%|█▍        | 288/2000 [19:05<1:48:53,  3.82s/it]Epoch  287 | Step   4019/ 28000 | Loss: 0.024727 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  287 | Avg Loss: 0.029145 | LR: 8.00e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  14%|█▍        | 289/2000 [19:08<1:48:03,  3.79s/it]Epoch  288 | Step   4033/ 28000 | Loss: 0.030527 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  288 | Avg Loss: 0.024671 | LR: 8.00e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  14%|█▍        | 290/2000 [19:12<1:48:16,  3.80s/it]Epoch  289 | Step   4047/ 28000 | Loss: 0.036466 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  289 | Avg Loss: 0.026640 | LR: 8.00e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  15%|█▍        | 291/2000 [19:16<1:50:04,  3.86s/it]Epoch  290 | Step   4061/ 28000 | Loss: 0.024487 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  290 | Avg Loss: 0.026003 | LR: 8.00e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  15%|█▍        | 292/2000 [19:20<1:49:30,  3.85s/it]Epoch  291 | Step   4075/ 28000 | Loss: 0.023640 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  291 | Avg Loss: 0.025544 | LR: 8.00e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  15%|█▍        | 293/2000 [19:24<1:52:05,  3.94s/it]Epoch  292 | Step   4089/ 28000 | Loss: 0.039760 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  292 | Avg Loss: 0.028866 | LR: 8.00e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  15%|█▍        | 294/2000 [19:28<1:51:31,  3.92s/it]Epoch  293 | Step   4103/ 28000 | Loss: 0.037001 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  293 | Avg Loss: 0.027767 | LR: 8.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  15%|█▍        | 295/2000 [19:33<1:56:25,  4.10s/it]Epoch  294 | Step   4117/ 28000 | Loss: 0.024751 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  294 | Avg Loss: 0.026029 | LR: 8.00e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:  15%|█▍        | 296/2000 [19:37<1:59:53,  4.22s/it]Epoch  295 | Step   4131/ 28000 | Loss: 0.023973 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  295 | Avg Loss: 0.027133 | LR: 8.00e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:  15%|█▍        | 297/2000 [19:42<2:02:24,  4.31s/it]Epoch  296 | Step   4145/ 28000 | Loss: 0.030807 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  296 | Avg Loss: 0.027533 | LR: 8.00e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:  15%|█▍        | 298/2000 [19:46<2:04:23,  4.38s/it]Epoch  297 | Step   4159/ 28000 | Loss: 0.029221 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  297 | Avg Loss: 0.026505 | LR: 8.00e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:  15%|█▍        | 299/2000 [19:51<2:06:13,  4.45s/it]Epoch  298 | Step   4173/ 28000 | Loss: 0.030412 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  298 | Avg Loss: 0.025572 | LR: 8.00e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:  15%|█▌        | 300/2000 [19:59<2:33:29,  5.42s/it]Epoch  299 | Step   4187/ 28000 | Loss: 0.023822 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  299 | Avg Loss: 0.024221 | LR: 8.00e-04 | Time: 4.6s | Samples: 6,983
+✓ Checkpoint saved: /data2/edwardsun/flow_checkpoints/amp_flow_model_final_optimized.pth (loss: 0.024221, step: 4200)
+Training Flow Model:  15%|█▌        | 301/2000 [20:03<2:25:29,  5.14s/it]Epoch  300 | Step   4201/ 28000 | Loss: 0.021556 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  300 | Avg Loss: 0.027077 | LR: 8.00e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:  15%|█▌        | 302/2000 [20:08<2:19:55,  4.94s/it]Epoch  301 | Step   4215/ 28000 | Loss: 0.027933 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  301 | Avg Loss: 0.027415 | LR: 8.00e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:  15%|█▌        | 303/2000 [20:12<2:19:09,  4.92s/it]Epoch  302 | Step   4229/ 28000 | Loss: 0.022367 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  302 | Avg Loss: 0.025825 | LR: 8.00e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  15%|█▌        | 304/2000 [20:17<2:15:53,  4.81s/it]Epoch  303 | Step   4243/ 28000 | Loss: 0.026716 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  303 | Avg Loss: 0.026574 | LR: 8.00e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:  15%|█▌        | 305/2000 [20:22<2:14:17,  4.75s/it]Epoch  304 | Step   4257/ 28000 | Loss: 0.030709 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  304 | Avg Loss: 0.027411 | LR: 8.00e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:  15%|█▌        | 306/2000 [20:26<2:12:50,  4.70s/it]Epoch  305 | Step   4271/ 28000 | Loss: 0.020980 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  305 | Avg Loss: 0.025999 | LR: 8.00e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:  15%|█▌        | 307/2000 [20:31<2:12:05,  4.68s/it]Epoch  306 | Step   4285/ 28000 | Loss: 0.030510 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  306 | Avg Loss: 0.026560 | LR: 8.00e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:  15%|█▌        | 308/2000 [20:35<2:09:20,  4.59s/it]Epoch  307 | Step   4299/ 28000 | Loss: 0.030731 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  307 | Avg Loss: 0.023653 | LR: 8.00e-04 | Time: 4.4s | Samples: 6,983
+Training Flow Model:  15%|█▌        | 309/2000 [20:40<2:08:47,  4.57s/it]Epoch  308 | Step   4313/ 28000 | Loss: 0.031070 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  308 | Avg Loss: 0.024935 | LR: 8.00e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:  16%|█▌        | 310/2000 [20:44<2:07:50,  4.54s/it]Epoch  309 | Step   4327/ 28000 | Loss: 0.021381 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  309 | Avg Loss: 0.028093 | LR: 8.00e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:  16%|█▌        | 311/2000 [20:49<2:08:04,  4.55s/it]Epoch  310 | Step   4341/ 28000 | Loss: 0.023816 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  310 | Avg Loss: 0.025152 | LR: 8.00e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:  16%|█▌        | 312/2000 [20:53<2:07:59,  4.55s/it]Epoch  311 | Step   4355/ 28000 | Loss: 0.026543 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  311 | Avg Loss: 0.024039 | LR: 8.00e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:  16%|█▌        | 313/2000 [20:58<2:08:49,  4.58s/it]Epoch  312 | Step   4369/ 28000 | Loss: 0.028497 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  312 | Avg Loss: 0.023685 | LR: 8.00e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  16%|█▌        | 314/2000 [21:03<2:09:02,  4.59s/it]Epoch  313 | Step   4383/ 28000 | Loss: 0.030480 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  313 | Avg Loss: 0.024189 | LR: 8.00e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:  16%|█▌        | 315/2000 [21:07<2:07:58,  4.56s/it]Epoch  314 | Step   4397/ 28000 | Loss: 0.027743 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  314 | Avg Loss: 0.029225 | LR: 8.00e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:  16%|█▌        | 316/2000 [21:12<2:07:58,  4.56s/it]Epoch  315 | Step   4411/ 28000 | Loss: 0.027189 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  315 | Avg Loss: 0.026131 | LR: 8.00e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:  16%|█▌        | 317/2000 [21:16<2:07:59,  4.56s/it]Epoch  316 | Step   4425/ 28000 | Loss: 0.018651 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  316 | Avg Loss: 0.023343 | LR: 8.00e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:  16%|█▌        | 318/2000 [21:21<2:06:15,  4.50s/it]Epoch  317 | Step   4439/ 28000 | Loss: 0.029456 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  317 | Avg Loss: 0.023737 | LR: 8.00e-04 | Time: 4.4s | Samples: 6,983
+Training Flow Model:  16%|█▌        | 319/2000 [21:25<2:02:53,  4.39s/it]Epoch  318 | Step   4453/ 28000 | Loss: 0.022959 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  318 | Avg Loss: 0.026690 | LR: 8.00e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  16%|█▌        | 320/2000 [21:29<1:58:38,  4.24s/it]Epoch  319 | Step   4467/ 28000 | Loss: 0.025438 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  319 | Avg Loss: 0.026429 | LR: 8.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  16%|█▌        | 321/2000 [21:33<1:57:21,  4.19s/it]Epoch  320 | Step   4481/ 28000 | Loss: 0.023547 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  320 | Avg Loss: 0.022362 | LR: 8.00e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  16%|█▌        | 322/2000 [21:36<1:54:06,  4.08s/it]Epoch  321 | Step   4495/ 28000 | Loss: 0.026457 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  321 | Avg Loss: 0.024972 | LR: 8.00e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  16%|█▌        | 323/2000 [21:40<1:51:45,  4.00s/it]Epoch  322 | Step   4509/ 28000 | Loss: 0.028323 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  322 | Avg Loss: 0.025501 | LR: 8.00e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  16%|█▌        | 324/2000 [21:45<1:57:16,  4.20s/it]Epoch  323 | Step   4523/ 28000 | Loss: 0.022713 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  323 | Avg Loss: 0.023558 | LR: 8.00e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  16%|█▋        | 325/2000 [21:50<2:01:58,  4.37s/it]Epoch  324 | Step   4537/ 28000 | Loss: 0.026835 | LR: 8.00e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  324 | Avg Loss: 0.023450 | LR: 7.99e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  16%|█▋        | 326/2000 [21:55<2:06:52,  4.55s/it]Epoch  325 | Step   4551/ 28000 | Loss: 0.018588 | LR: 7.99e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  325 | Avg Loss: 0.022886 | LR: 7.99e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  16%|█▋        | 327/2000 [22:00<2:10:13,  4.67s/it]Epoch  326 | Step   4565/ 28000 | Loss: 0.025638 | LR: 7.99e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  326 | Avg Loss: 0.023891 | LR: 7.99e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  16%|█▋        | 328/2000 [22:04<2:11:28,  4.72s/it]Epoch  327 | Step   4579/ 28000 | Loss: 0.015831 | LR: 7.99e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  327 | Avg Loss: 0.025368 | LR: 7.99e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  16%|█▋        | 329/2000 [22:09<2:13:41,  4.80s/it]Epoch  328 | Step   4593/ 28000 | Loss: 0.028102 | LR: 7.99e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  328 | Avg Loss: 0.025805 | LR: 7.99e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  16%|█▋        | 330/2000 [22:14<2:14:06,  4.82s/it]Epoch  329 | Step   4607/ 28000 | Loss: 0.022056 | LR: 7.99e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  329 | Avg Loss: 0.023518 | LR: 7.99e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 331/2000 [22:19<2:12:34,  4.77s/it]Epoch  330 | Step   4621/ 28000 | Loss: 0.019903 | LR: 7.99e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  330 | Avg Loss: 0.020737 | LR: 7.99e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 332/2000 [22:24<2:11:25,  4.73s/it]Epoch  331 | Step   4635/ 28000 | Loss: 0.019843 | LR: 7.99e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  331 | Avg Loss: 0.023058 | LR: 7.99e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 333/2000 [22:28<2:09:20,  4.66s/it]Epoch  332 | Step   4649/ 28000 | Loss: 0.026918 | LR: 7.99e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  332 | Avg Loss: 0.025072 | LR: 7.99e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 334/2000 [22:32<2:07:10,  4.58s/it]Epoch  333 | Step   4663/ 28000 | Loss: 0.023132 | LR: 7.99e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  333 | Avg Loss: 0.023252 | LR: 7.99e-04 | Time: 4.4s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 335/2000 [22:37<2:06:46,  4.57s/it]Epoch  334 | Step   4677/ 28000 | Loss: 0.027363 | LR: 7.99e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  334 | Avg Loss: 0.022800 | LR: 7.99e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 336/2000 [22:42<2:08:13,  4.62s/it]Epoch  335 | Step   4691/ 28000 | Loss: 0.021899 | LR: 7.99e-04 | Speed: 3.4 steps/s | ETA: 1.9h
+Epoch  335 | Avg Loss: 0.020569 | LR: 7.99e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 337/2000 [22:47<2:11:08,  4.73s/it]Epoch  336 | Step   4705/ 28000 | Loss: 0.017821 | LR: 7.99e-04 | Speed: 3.4 steps/s | ETA: 1.9h
+Epoch  336 | Avg Loss: 0.022581 | LR: 7.99e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 338/2000 [22:50<2:02:39,  4.43s/it]Epoch  337 | Step   4719/ 28000 | Loss: 0.024395 | LR: 7.99e-04 | Speed: 3.4 steps/s | ETA: 1.9h
+Epoch  337 | Avg Loss: 0.024237 | LR: 7.99e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 339/2000 [22:54<1:58:30,  4.28s/it]Epoch  338 | Step   4733/ 28000 | Loss: 0.020533 | LR: 7.99e-04 | Speed: 3.4 steps/s | ETA: 1.9h
+Epoch  338 | Avg Loss: 0.021810 | LR: 7.99e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 340/2000 [22:58<1:56:42,  4.22s/it]Epoch  339 | Step   4747/ 28000 | Loss: 0.017869 | LR: 7.99e-04 | Speed: 3.4 steps/s | ETA: 1.9h
+Epoch  339 | Avg Loss: 0.022001 | LR: 7.99e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 341/2000 [23:02<1:54:20,  4.14s/it]Epoch  340 | Step   4761/ 28000 | Loss: 0.029657 | LR: 7.99e-04 | Speed: 3.4 steps/s | ETA: 1.9h
+Epoch  340 | Avg Loss: 0.023517 | LR: 7.99e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 342/2000 [23:07<1:54:17,  4.14s/it]Epoch  341 | Step   4775/ 28000 | Loss: 0.022758 | LR: 7.99e-04 | Speed: 3.4 steps/s | ETA: 1.9h
+Epoch  341 | Avg Loss: 0.023359 | LR: 7.99e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 343/2000 [23:10<1:50:33,  4.00s/it]Epoch  342 | Step   4789/ 28000 | Loss: 0.017920 | LR: 7.99e-04 | Speed: 3.4 steps/s | ETA: 1.9h
+Epoch  342 | Avg Loss: 0.024613 | LR: 7.99e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 344/2000 [23:14<1:48:34,  3.93s/it]Epoch  343 | Step   4803/ 28000 | Loss: 0.026216 | LR: 7.99e-04 | Speed: 3.4 steps/s | ETA: 1.9h
+Epoch  343 | Avg Loss: 0.024543 | LR: 7.99e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 345/2000 [23:18<1:46:25,  3.86s/it]Epoch  344 | Step   4817/ 28000 | Loss: 0.023308 | LR: 7.99e-04 | Speed: 3.4 steps/s | ETA: 1.9h
+Epoch  344 | Avg Loss: 0.025565 | LR: 7.99e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 346/2000 [23:22<1:46:00,  3.85s/it]Epoch  345 | Step   4831/ 28000 | Loss: 0.028968 | LR: 7.99e-04 | Speed: 3.4 steps/s | ETA: 1.9h
+Epoch  345 | Avg Loss: 0.022894 | LR: 7.99e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 347/2000 [23:25<1:45:26,  3.83s/it]Epoch  346 | Step   4845/ 28000 | Loss: 0.019233 | LR: 7.99e-04 | Speed: 3.4 steps/s | ETA: 1.9h
+Epoch  346 | Avg Loss: 0.022662 | LR: 7.99e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 348/2000 [23:29<1:45:01,  3.81s/it]Epoch  347 | Step   4859/ 28000 | Loss: 0.020928 | LR: 7.99e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  347 | Avg Loss: 0.023260 | LR: 7.99e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  17%|█▋        | 349/2000 [23:33<1:44:41,  3.80s/it]Epoch  348 | Step   4873/ 28000 | Loss: 0.022184 | LR: 7.99e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  348 | Avg Loss: 0.023640 | LR: 7.99e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  18%|█▊        | 350/2000 [23:37<1:47:46,  3.92s/it]Epoch  349 | Step   4887/ 28000 | Loss: 0.023448 | LR: 7.99e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  349 | Avg Loss: 0.025826 | LR: 7.99e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  18%|█▊        | 351/2000 [23:41<1:46:01,  3.86s/it]Epoch  350 | Step   4901/ 28000 | Loss: 0.022304 | LR: 7.99e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  350 | Avg Loss: 0.022879 | LR: 7.99e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  18%|█▊        | 352/2000 [23:45<1:45:07,  3.83s/it]Epoch  351 | Step   4915/ 28000 | Loss: 0.023960 | LR: 7.99e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  351 | Avg Loss: 0.024070 | LR: 7.99e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  18%|█▊        | 353/2000 [23:48<1:43:57,  3.79s/it]Epoch  352 | Step   4929/ 28000 | Loss: 0.023939 | LR: 7.99e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  352 | Avg Loss: 0.024090 | LR: 7.98e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  18%|█▊        | 354/2000 [23:52<1:43:08,  3.76s/it]Epoch  353 | Step   4943/ 28000 | Loss: 0.024295 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  353 | Avg Loss: 0.022613 | LR: 7.98e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  18%|█▊        | 355/2000 [23:56<1:42:18,  3.73s/it]Epoch  354 | Step   4957/ 28000 | Loss: 0.029843 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  354 | Avg Loss: 0.022738 | LR: 7.98e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  18%|█▊        | 356/2000 [23:59<1:42:08,  3.73s/it]Epoch  355 | Step   4971/ 28000 | Loss: 0.031193 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.9h
+Epoch  355 | Avg Loss: 0.025310 | LR: 7.98e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  18%|█▊        | 357/2000 [24:03<1:41:57,  3.72s/it]Epoch  356 | Step   4985/ 28000 | Loss: 0.017252 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  356 | Avg Loss: 0.024239 | LR: 7.98e-04 | Time: 3.7s | Samples: 6,983
+/data2/edwardsun/flow_home/cfg_dataset.py:360: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor).
+  'index': torch.tensor(idx, dtype=torch.long)
+/data2/edwardsun/flow_home/cfg_dataset.py:360: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor).
+  'index': torch.tensor(idx, dtype=torch.long)
+/data2/edwardsun/flow_home/amp_flow_training_single_gpu_full_data.py:392: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast(dtype=torch.bfloat16):
+/data2/edwardsun/flow_home/amp_flow_training_single_gpu_full_data.py:392: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast(dtype=torch.bfloat16):
+/data2/edwardsun/flow_home/amp_flow_training_single_gpu_full_data.py:392: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast(dtype=torch.bfloat16):
+Training Flow Model:  18%|█▊        | 358/2000 [24:09<2:04:10,  4.54s/it]Epoch  357 | Step   4999/ 28000 | Loss: 0.021603 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Validation at step 5000: Loss = 0.021476
+✓ Checkpoint saved: /data2/edwardsun/flow_checkpoints/amp_flow_model_best_optimized.pth (loss: 0.021476, step: 5000)
+Epoch  357 | Avg Loss: 0.023784 | LR: 7.98e-04 | Time: 6.4s | Samples: 6,983
+Training Flow Model:  18%|█▊        | 359/2000 [24:14<2:04:57,  4.57s/it]Epoch  358 | Step   5013/ 28000 | Loss: 0.021615 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  358 | Avg Loss: 0.023757 | LR: 7.98e-04 | Time: 4.6s | Samples: 6,983
+/data2/edwardsun/flow_home/amp_flow_training_single_gpu_full_data.py:392: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast(dtype=torch.bfloat16):
+Training Flow Model:  18%|█▊        | 360/2000 [24:18<1:59:29,  4.37s/it]Epoch  359 | Step   5027/ 28000 | Loss: 0.023283 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  359 | Avg Loss: 0.022103 | LR: 7.98e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  18%|█▊        | 361/2000 [24:22<1:56:17,  4.26s/it]Epoch  360 | Step   5041/ 28000 | Loss: 0.024117 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  360 | Avg Loss: 0.024035 | LR: 7.98e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  18%|█▊        | 362/2000 [24:26<1:56:05,  4.25s/it]Epoch  361 | Step   5055/ 28000 | Loss: 0.027872 | LR: 7.98e-04 | Speed: 3.4 steps/s | ETA: 1.8h
+Epoch  361 | Avg Loss: 0.023367 | LR: 7.98e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  18%|█▊        | 363/2000 [24:30<1:53:17,  4.15s/it]Epoch  362 | Step   5069/ 28000 | Loss: 0.019515 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  362 | Avg Loss: 0.022084 | LR: 7.98e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  18%|��▊        | 364/2000 [24:34<1:51:23,  4.09s/it]Epoch  363 | Step   5083/ 28000 | Loss: 0.017577 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  363 | Avg Loss: 0.021828 | LR: 7.98e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  18%|█▊        | 365/2000 [24:38<1:50:36,  4.06s/it]Epoch  364 | Step   5097/ 28000 | Loss: 0.027938 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  364 | Avg Loss: 0.026189 | LR: 7.98e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  18%|█▊        | 366/2000 [24:42<1:49:56,  4.04s/it]Epoch  365 | Step   5111/ 28000 | Loss: 0.032634 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  365 | Avg Loss: 0.022606 | LR: 7.98e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  18%|█▊        | 367/2000 [24:46<1:49:00,  4.01s/it]Epoch  366 | Step   5125/ 28000 | Loss: 0.022677 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  366 | Avg Loss: 0.025314 | LR: 7.98e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  18%|█▊        | 368/2000 [24:50<1:48:39,  3.99s/it]Epoch  367 | Step   5139/ 28000 | Loss: 0.021117 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  367 | Avg Loss: 0.025029 | LR: 7.98e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  18%|█▊        | 369/2000 [24:54<1:48:41,  4.00s/it]Epoch  368 | Step   5153/ 28000 | Loss: 0.025067 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  368 | Avg Loss: 0.020513 | LR: 7.98e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  18%|█▊        | 370/2000 [24:58<1:48:00,  3.98s/it]Epoch  369 | Step   5167/ 28000 | Loss: 0.019175 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  369 | Avg Loss: 0.022170 | LR: 7.98e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  19%|█▊        | 371/2000 [25:02<1:47:05,  3.94s/it]Epoch  370 | Step   5181/ 28000 | Loss: 0.022985 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  370 | Avg Loss: 0.020765 | LR: 7.98e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  19%|█▊        | 372/2000 [25:06<1:48:25,  4.00s/it]Epoch  371 | Step   5195/ 28000 | Loss: 0.021593 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  371 | Avg Loss: 0.020422 | LR: 7.98e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  19%|█▊        | 373/2000 [25:10<1:47:58,  3.98s/it]Epoch  372 | Step   5209/ 28000 | Loss: 0.023548 | LR: 7.98e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  372 | Avg Loss: 0.021965 | LR: 7.97e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  19%|█▊        | 374/2000 [25:14<1:46:46,  3.94s/it]Epoch  373 | Step   5223/ 28000 | Loss: 0.018304 | LR: 7.97e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  373 | Avg Loss: 0.020974 | LR: 7.97e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  19%|█▉        | 375/2000 [25:18<1:47:49,  3.98s/it]Epoch  374 | Step   5237/ 28000 | Loss: 0.021720 | LR: 7.97e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  374 | Avg Loss: 0.023601 | LR: 7.97e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  19%|█▉        | 376/2000 [25:22<1:47:46,  3.98s/it]Epoch  375 | Step   5251/ 28000 | Loss: 0.019886 | LR: 7.97e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  375 | Avg Loss: 0.021015 | LR: 7.97e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  19%|█▉        | 377/2000 [25:26<1:49:52,  4.06s/it]Epoch  376 | Step   5265/ 28000 | Loss: 0.025658 | LR: 7.97e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  376 | Avg Loss: 0.023757 | LR: 7.97e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  19%|█▉        | 378/2000 [25:30<1:48:40,  4.02s/it]Epoch  377 | Step   5279/ 28000 | Loss: 0.031412 | LR: 7.97e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  377 | Avg Loss: 0.024978 | LR: 7.97e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  19%|█▉        | 379/2000 [25:34<1:47:44,  3.99s/it]Epoch  378 | Step   5293/ 28000 | Loss: 0.019429 | LR: 7.97e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  378 | Avg Loss: 0.024377 | LR: 7.97e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  19%|█▉        | 380/2000 [25:38<1:47:17,  3.97s/it]Epoch  379 | Step   5307/ 28000 | Loss: 0.021074 | LR: 7.97e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  379 | Avg Loss: 0.021693 | LR: 7.97e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  19%|█▉        | 381/2000 [25:42<1:46:46,  3.96s/it]Epoch  380 | Step   5321/ 28000 | Loss: 0.020752 | LR: 7.97e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  380 | Avg Loss: 0.024341 | LR: 7.97e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  19%|█▉        | 382/2000 [25:46<1:46:39,  3.96s/it]Epoch  381 | Step   5335/ 28000 | Loss: 0.018688 | LR: 7.97e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  381 | Avg Loss: 0.021881 | LR: 7.97e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  19%|█▉        | 383/2000 [25:50<1:49:36,  4.07s/it]Epoch  382 | Step   5349/ 28000 | Loss: 0.019143 | LR: 7.97e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  382 | Avg Loss: 0.021921 | LR: 7.97e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  19%|█▉        | 384/2000 [25:54<1:49:39,  4.07s/it]Epoch  383 | Step   5363/ 28000 | Loss: 0.022642 | LR: 7.97e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  383 | Avg Loss: 0.023714 | LR: 7.97e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  19%|█▉        | 385/2000 [25:58<1:49:24,  4.06s/it]Epoch  384 | Step   5377/ 28000 | Loss: 0.018434 | LR: 7.97e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  384 | Avg Loss: 0.023933 | LR: 7.97e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  19%|█▉        | 386/2000 [26:02<1:49:36,  4.07s/it]Epoch  385 | Step   5391/ 28000 | Loss: 0.027881 | LR: 7.97e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  385 | Avg Loss: 0.021799 | LR: 7.97e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  19%|█▉        | 387/2000 [26:06<1:49:19,  4.07s/it]Epoch  386 | Step   5405/ 28000 | Loss: 0.022993 | LR: 7.97e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  386 | Avg Loss: 0.021725 | LR: 7.97e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  19%|█▉        | 388/2000 [26:10<1:48:20,  4.03s/it]Epoch  387 | Step   5419/ 28000 | Loss: 0.021582 | LR: 7.97e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  387 | Avg Loss: 0.023915 | LR: 7.96e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  19%|█▉        | 389/2000 [26:14<1:47:53,  4.02s/it]Epoch  388 | Step   5433/ 28000 | Loss: 0.025148 | LR: 7.96e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  388 | Avg Loss: 0.022592 | LR: 7.96e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  20%|█▉        | 390/2000 [26:18<1:47:36,  4.01s/it]Epoch  389 | Step   5447/ 28000 | Loss: 0.022414 | LR: 7.96e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  389 | Avg Loss: 0.023087 | LR: 7.96e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  20%|█▉        | 391/2000 [26:22<1:49:08,  4.07s/it]Epoch  390 | Step   5461/ 28000 | Loss: 0.031409 | LR: 7.96e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  390 | Avg Loss: 0.022670 | LR: 7.96e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  20%|█▉        | 392/2000 [26:26<1:47:22,  4.01s/it]Epoch  391 | Step   5475/ 28000 | Loss: 0.017044 | LR: 7.96e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  391 | Avg Loss: 0.022201 | LR: 7.96e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  20%|█▉        | 393/2000 [26:30<1:47:25,  4.01s/it]Epoch  392 | Step   5489/ 28000 | Loss: 0.020368 | LR: 7.96e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  392 | Avg Loss: 0.021013 | LR: 7.96e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  20%|█▉        | 394/2000 [26:34<1:45:59,  3.96s/it]Epoch  393 | Step   5503/ 28000 | Loss: 0.022381 | LR: 7.96e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  393 | Avg Loss: 0.019403 | LR: 7.96e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  20%|█▉        | 395/2000 [26:38<1:48:06,  4.04s/it]Epoch  394 | Step   5517/ 28000 | Loss: 0.026362 | LR: 7.96e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  394 | Avg Loss: 0.023869 | LR: 7.96e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  20%|█▉        | 396/2000 [26:42<1:46:39,  3.99s/it]Epoch  395 | Step   5531/ 28000 | Loss: 0.024431 | LR: 7.96e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  395 | Avg Loss: 0.022861 | LR: 7.96e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  20%|█▉        | 397/2000 [26:46<1:46:38,  3.99s/it]Epoch  396 | Step   5545/ 28000 | Loss: 0.021504 | LR: 7.96e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  396 | Avg Loss: 0.020535 | LR: 7.96e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  20%|█▉        | 398/2000 [26:50<1:46:52,  4.00s/it]Epoch  397 | Step   5559/ 28000 | Loss: 0.020215 | LR: 7.96e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  397 | Avg Loss: 0.021704 | LR: 7.96e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  20%|█▉        | 399/2000 [26:54<1:46:55,  4.01s/it]Epoch  398 | Step   5573/ 28000 | Loss: 0.016359 | LR: 7.96e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  398 | Avg Loss: 0.022198 | LR: 7.96e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  20%|██        | 400/2000 [26:58<1:46:27,  3.99s/it]Epoch  399 | Step   5587/ 28000 | Loss: 0.023096 | LR: 7.96e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  399 | Avg Loss: 0.022162 | LR: 7.96e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  20%|██        | 401/2000 [27:02<1:46:25,  3.99s/it]Epoch  400 | Step   5601/ 28000 | Loss: 0.023653 | LR: 7.96e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  400 | Avg Loss: 0.022110 | LR: 7.96e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  20%|██        | 402/2000 [27:06<1:45:53,  3.98s/it]Epoch  401 | Step   5615/ 28000 | Loss: 0.017425 | LR: 7.96e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  401 | Avg Loss: 0.019701 | LR: 7.95e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  20%|██        | 403/2000 [27:10<1:45:31,  3.96s/it]Epoch  402 | Step   5629/ 28000 | Loss: 0.030005 | LR: 7.95e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  402 | Avg Loss: 0.021187 | LR: 7.95e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  20%|██        | 404/2000 [27:14<1:44:19,  3.92s/it]Epoch  403 | Step   5643/ 28000 | Loss: 0.029748 | LR: 7.95e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  403 | Avg Loss: 0.020421 | LR: 7.95e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  20%|██        | 405/2000 [27:18<1:46:36,  4.01s/it]Epoch  404 | Step   5657/ 28000 | Loss: 0.019395 | LR: 7.95e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  404 | Avg Loss: 0.021391 | LR: 7.95e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  20%|██        | 406/2000 [27:22<1:46:38,  4.01s/it]Epoch  405 | Step   5671/ 28000 | Loss: 0.027932 | LR: 7.95e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  405 | Avg Loss: 0.025014 | LR: 7.95e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  20%|██        | 407/2000 [27:26<1:46:31,  4.01s/it]Epoch  406 | Step   5685/ 28000 | Loss: 0.024244 | LR: 7.95e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  406 | Avg Loss: 0.021444 | LR: 7.95e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  20%|██        | 408/2000 [27:30<1:45:26,  3.97s/it]Epoch  407 | Step   5699/ 28000 | Loss: 0.021973 | LR: 7.95e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  407 | Avg Loss: 0.023121 | LR: 7.95e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  20%|██        | 409/2000 [27:34<1:45:23,  3.97s/it]Epoch  408 | Step   5713/ 28000 | Loss: 0.028212 | LR: 7.95e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  408 | Avg Loss: 0.022304 | LR: 7.95e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  20%|██        | 410/2000 [27:38<1:44:55,  3.96s/it]Epoch  409 | Step   5727/ 28000 | Loss: 0.023463 | LR: 7.95e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  409 | Avg Loss: 0.020185 | LR: 7.95e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  21%|██        | 411/2000 [27:42<1:45:27,  3.98s/it]Epoch  410 | Step   5741/ 28000 | Loss: 0.017522 | LR: 7.95e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  410 | Avg Loss: 0.020222 | LR: 7.95e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  21%|██        | 412/2000 [27:46<1:44:14,  3.94s/it]Epoch  411 | Step   5755/ 28000 | Loss: 0.021020 | LR: 7.95e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  411 | Avg Loss: 0.019226 | LR: 7.95e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  21%|██        | 413/2000 [27:50<1:44:09,  3.94s/it]Epoch  412 | Step   5769/ 28000 | Loss: 0.015550 | LR: 7.95e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  412 | Avg Loss: 0.023600 | LR: 7.95e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  21%|██        | 414/2000 [27:54<1:45:00,  3.97s/it]Epoch  413 | Step   5783/ 28000 | Loss: 0.018893 | LR: 7.95e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  413 | Avg Loss: 0.022125 | LR: 7.94e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  21%|██        | 415/2000 [27:58<1:47:17,  4.06s/it]Epoch  414 | Step   5797/ 28000 | Loss: 0.024799 | LR: 7.94e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  414 | Avg Loss: 0.020929 | LR: 7.94e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  21%|██        | 416/2000 [28:02<1:46:01,  4.02s/it]Epoch  415 | Step   5811/ 28000 | Loss: 0.025304 | LR: 7.94e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  415 | Avg Loss: 0.020926 | LR: 7.94e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  21%|██        | 417/2000 [28:06<1:46:15,  4.03s/it]Epoch  416 | Step   5825/ 28000 | Loss: 0.022492 | LR: 7.94e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  416 | Avg Loss: 0.022789 | LR: 7.94e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  21%|██        | 418/2000 [28:10<1:45:08,  3.99s/it]Epoch  417 | Step   5839/ 28000 | Loss: 0.017392 | LR: 7.94e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  417 | Avg Loss: 0.019866 | LR: 7.94e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  21%|██        | 419/2000 [28:14<1:45:11,  3.99s/it]Epoch  418 | Step   5853/ 28000 | Loss: 0.020026 | LR: 7.94e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  418 | Avg Loss: 0.018566 | LR: 7.94e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  21%|██        | 420/2000 [28:18<1:45:14,  4.00s/it]Epoch  419 | Step   5867/ 28000 | Loss: 0.014053 | LR: 7.94e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  419 | Avg Loss: 0.019194 | LR: 7.94e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  21%|██        | 421/2000 [28:22<1:45:49,  4.02s/it]Epoch  420 | Step   5881/ 28000 | Loss: 0.023508 | LR: 7.94e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  420 | Avg Loss: 0.022327 | LR: 7.94e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  21%|██        | 422/2000 [28:26<1:44:30,  3.97s/it]Epoch  421 | Step   5895/ 28000 | Loss: 0.022247 | LR: 7.94e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  421 | Avg Loss: 0.024045 | LR: 7.94e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  21%|██        | 423/2000 [28:30<1:43:48,  3.95s/it]Epoch  422 | Step   5909/ 28000 | Loss: 0.025445 | LR: 7.94e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  422 | Avg Loss: 0.020907 | LR: 7.94e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  21%|██        | 424/2000 [28:34<1:43:23,  3.94s/it]Epoch  423 | Step   5923/ 28000 | Loss: 0.020237 | LR: 7.94e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  423 | Avg Loss: 0.021927 | LR: 7.94e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  21%|██▏       | 425/2000 [28:38<1:43:02,  3.93s/it]Epoch  424 | Step   5937/ 28000 | Loss: 0.020929 | LR: 7.94e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  424 | Avg Loss: 0.022377 | LR: 7.94e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  21%|██▏       | 426/2000 [28:42<1:43:22,  3.94s/it]Epoch  425 | Step   5951/ 28000 | Loss: 0.026800 | LR: 7.94e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  425 | Avg Loss: 0.022332 | LR: 7.93e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  21%|██▏       | 427/2000 [28:46<1:44:24,  3.98s/it]Epoch  426 | Step   5965/ 28000 | Loss: 0.027338 | LR: 7.93e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  426 | Avg Loss: 0.023529 | LR: 7.93e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  21%|██▏       | 428/2000 [28:50<1:44:37,  3.99s/it]Epoch  427 | Step   5979/ 28000 | Loss: 0.029444 | LR: 7.93e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  427 | Avg Loss: 0.021347 | LR: 7.93e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  21%|██▏       | 429/2000 [28:54<1:44:52,  4.01s/it]Epoch  428 | Step   5993/ 28000 | Loss: 0.012378 | LR: 7.93e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  428 | Avg Loss: 0.022831 | LR: 7.93e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 430/2000 [28:58<1:44:31,  3.99s/it]Epoch  429 | Step   6007/ 28000 | Loss: 0.020095 | LR: 7.93e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  429 | Avg Loss: 0.022489 | LR: 7.93e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 431/2000 [29:02<1:45:01,  4.02s/it]Epoch  430 | Step   6021/ 28000 | Loss: 0.023001 | LR: 7.93e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  430 | Avg Loss: 0.022473 | LR: 7.93e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 432/2000 [29:06<1:44:09,  3.99s/it]Epoch  431 | Step   6035/ 28000 | Loss: 0.019266 | LR: 7.93e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  431 | Avg Loss: 0.020429 | LR: 7.93e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 433/2000 [29:10<1:43:51,  3.98s/it]Epoch  432 | Step   6049/ 28000 | Loss: 0.024726 | LR: 7.93e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  432 | Avg Loss: 0.022384 | LR: 7.93e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 434/2000 [29:14<1:44:36,  4.01s/it]Epoch  433 | Step   6063/ 28000 | Loss: 0.019167 | LR: 7.93e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  433 | Avg Loss: 0.020167 | LR: 7.93e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 435/2000 [29:18<1:44:43,  4.02s/it]Epoch  434 | Step   6077/ 28000 | Loss: 0.025879 | LR: 7.93e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  434 | Avg Loss: 0.023432 | LR: 7.93e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 436/2000 [29:22<1:44:02,  3.99s/it]Epoch  435 | Step   6091/ 28000 | Loss: 0.020492 | LR: 7.93e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  435 | Avg Loss: 0.021954 | LR: 7.92e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 437/2000 [29:25<1:43:07,  3.96s/it]Epoch  436 | Step   6105/ 28000 | Loss: 0.023894 | LR: 7.92e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  436 | Avg Loss: 0.022118 | LR: 7.92e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 438/2000 [29:30<1:44:29,  4.01s/it]Epoch  437 | Step   6119/ 28000 | Loss: 0.022214 | LR: 7.92e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  437 | Avg Loss: 0.020918 | LR: 7.92e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 439/2000 [29:34<1:43:59,  4.00s/it]Epoch  438 | Step   6133/ 28000 | Loss: 0.017607 | LR: 7.92e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  438 | Avg Loss: 0.020658 | LR: 7.92e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 440/2000 [29:38<1:44:27,  4.02s/it]Epoch  439 | Step   6147/ 28000 | Loss: 0.016094 | LR: 7.92e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  439 | Avg Loss: 0.020841 | LR: 7.92e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 441/2000 [29:42<1:43:12,  3.97s/it]Epoch  440 | Step   6161/ 28000 | Loss: 0.017750 | LR: 7.92e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  440 | Avg Loss: 0.018305 | LR: 7.92e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 442/2000 [29:46<1:43:58,  4.00s/it]Epoch  441 | Step   6175/ 28000 | Loss: 0.021415 | LR: 7.92e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  441 | Avg Loss: 0.019593 | LR: 7.92e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 443/2000 [29:49<1:42:56,  3.97s/it]Epoch  442 | Step   6189/ 28000 | Loss: 0.019591 | LR: 7.92e-04 | Speed: 3.5 steps/s | ETA: 1.8h
+Epoch  442 | Avg Loss: 0.022619 | LR: 7.92e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 444/2000 [29:53<1:41:55,  3.93s/it]Epoch  443 | Step   6203/ 28000 | Loss: 0.021177 | LR: 7.92e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  443 | Avg Loss: 0.024149 | LR: 7.92e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 445/2000 [29:57<1:42:49,  3.97s/it]Epoch  444 | Step   6217/ 28000 | Loss: 0.025407 | LR: 7.92e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  444 | Avg Loss: 0.023490 | LR: 7.92e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 446/2000 [30:01<1:41:56,  3.94s/it]Epoch  445 | Step   6231/ 28000 | Loss: 0.015623 | LR: 7.92e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  445 | Avg Loss: 0.021508 | LR: 7.91e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 447/2000 [30:05<1:42:57,  3.98s/it]Epoch  446 | Step   6245/ 28000 | Loss: 0.022727 | LR: 7.91e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  446 | Avg Loss: 0.023800 | LR: 7.91e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 448/2000 [30:09<1:42:17,  3.95s/it]Epoch  447 | Step   6259/ 28000 | Loss: 0.024170 | LR: 7.91e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  447 | Avg Loss: 0.020853 | LR: 7.91e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  22%|██▏       | 449/2000 [30:13<1:42:22,  3.96s/it]Epoch  448 | Step   6273/ 28000 | Loss: 0.019499 | LR: 7.91e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  448 | Avg Loss: 0.022298 | LR: 7.91e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  22%|██▎       | 450/2000 [30:17<1:42:41,  3.98s/it]Epoch  449 | Step   6287/ 28000 | Loss: 0.026065 | LR: 7.91e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  449 | Avg Loss: 0.021101 | LR: 7.91e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 451/2000 [30:21<1:43:05,  3.99s/it]Epoch  450 | Step   6301/ 28000 | Loss: 0.021949 | LR: 7.91e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  450 | Avg Loss: 0.021233 | LR: 7.91e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 452/2000 [30:25<1:42:15,  3.96s/it]Epoch  451 | Step   6315/ 28000 | Loss: 0.019647 | LR: 7.91e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  451 | Avg Loss: 0.020480 | LR: 7.91e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 453/2000 [30:29<1:41:39,  3.94s/it]Epoch  452 | Step   6329/ 28000 | Loss: 0.029937 | LR: 7.91e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  452 | Avg Loss: 0.023412 | LR: 7.91e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 454/2000 [30:33<1:41:43,  3.95s/it]Epoch  453 | Step   6343/ 28000 | Loss: 0.032078 | LR: 7.91e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  453 | Avg Loss: 0.023121 | LR: 7.91e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 455/2000 [30:37<1:42:30,  3.98s/it]Epoch  454 | Step   6357/ 28000 | Loss: 0.023514 | LR: 7.91e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  454 | Avg Loss: 0.024218 | LR: 7.90e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 456/2000 [30:41<1:42:59,  4.00s/it]Epoch  455 | Step   6371/ 28000 | Loss: 0.035100 | LR: 7.90e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  455 | Avg Loss: 0.023516 | LR: 7.90e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 457/2000 [30:45<1:41:30,  3.95s/it]Epoch  456 | Step   6385/ 28000 | Loss: 0.014753 | LR: 7.90e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  456 | Avg Loss: 0.021887 | LR: 7.90e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 458/2000 [30:49<1:42:55,  4.00s/it]Epoch  457 | Step   6399/ 28000 | Loss: 0.028466 | LR: 7.90e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  457 | Avg Loss: 0.022699 | LR: 7.90e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 459/2000 [30:53<1:44:21,  4.06s/it]Epoch  458 | Step   6413/ 28000 | Loss: 0.024538 | LR: 7.90e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  458 | Avg Loss: 0.019396 | LR: 7.90e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 460/2000 [30:57<1:45:32,  4.11s/it]Epoch  459 | Step   6427/ 28000 | Loss: 0.019279 | LR: 7.90e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  459 | Avg Loss: 0.021466 | LR: 7.90e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 461/2000 [31:02<1:45:14,  4.10s/it]Epoch  460 | Step   6441/ 28000 | Loss: 0.025357 | LR: 7.90e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  460 | Avg Loss: 0.022653 | LR: 7.90e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 462/2000 [31:06<1:44:52,  4.09s/it]Epoch  461 | Step   6455/ 28000 | Loss: 0.022770 | LR: 7.90e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  461 | Avg Loss: 0.024370 | LR: 7.90e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 463/2000 [31:10<1:44:20,  4.07s/it]Epoch  462 | Step   6469/ 28000 | Loss: 0.019483 | LR: 7.90e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  462 | Avg Loss: 0.020835 | LR: 7.90e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 464/2000 [31:14<1:44:36,  4.09s/it]Epoch  463 | Step   6483/ 28000 | Loss: 0.017139 | LR: 7.90e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  463 | Avg Loss: 0.019104 | LR: 7.89e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 465/2000 [31:18<1:43:13,  4.03s/it]Epoch  464 | Step   6497/ 28000 | Loss: 0.016200 | LR: 7.89e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  464 | Avg Loss: 0.019244 | LR: 7.89e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 466/2000 [31:22<1:42:42,  4.02s/it]Epoch  465 | Step   6511/ 28000 | Loss: 0.017697 | LR: 7.89e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  465 | Avg Loss: 0.021329 | LR: 7.89e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 467/2000 [31:26<1:42:19,  4.00s/it]Epoch  466 | Step   6525/ 28000 | Loss: 0.023010 | LR: 7.89e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  466 | Avg Loss: 0.021901 | LR: 7.89e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 468/2000 [31:30<1:41:56,  3.99s/it]Epoch  467 | Step   6539/ 28000 | Loss: 0.016628 | LR: 7.89e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  467 | Avg Loss: 0.021723 | LR: 7.89e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  23%|██▎       | 469/2000 [31:34<1:41:31,  3.98s/it]Epoch  468 | Step   6553/ 28000 | Loss: 0.016372 | LR: 7.89e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  468 | Avg Loss: 0.018937 | LR: 7.89e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  24%|██▎       | 470/2000 [31:38<1:42:33,  4.02s/it]Epoch  469 | Step   6567/ 28000 | Loss: 0.019618 | LR: 7.89e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  469 | Avg Loss: 0.020399 | LR: 7.89e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  24%|██▎       | 471/2000 [31:42<1:43:06,  4.05s/it]Epoch  470 | Step   6581/ 28000 | Loss: 0.018652 | LR: 7.89e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  470 | Avg Loss: 0.021316 | LR: 7.89e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  24%|██▎       | 472/2000 [31:46<1:42:19,  4.02s/it]Epoch  471 | Step   6595/ 28000 | Loss: 0.026461 | LR: 7.89e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  471 | Avg Loss: 0.023163 | LR: 7.88e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  24%|██▎       | 473/2000 [31:50<1:41:30,  3.99s/it]Epoch  472 | Step   6609/ 28000 | Loss: 0.032394 | LR: 7.88e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  472 | Avg Loss: 0.022807 | LR: 7.88e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  24%|██▎       | 474/2000 [31:54<1:40:51,  3.97s/it]Epoch  473 | Step   6623/ 28000 | Loss: 0.023084 | LR: 7.88e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  473 | Avg Loss: 0.021967 | LR: 7.88e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  24%|██▍       | 475/2000 [31:57<1:39:40,  3.92s/it]Epoch  474 | Step   6637/ 28000 | Loss: 0.018883 | LR: 7.88e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  474 | Avg Loss: 0.017944 | LR: 7.88e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  24%|██▍       | 476/2000 [32:01<1:40:13,  3.95s/it]Epoch  475 | Step   6651/ 28000 | Loss: 0.020103 | LR: 7.88e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  475 | Avg Loss: 0.023122 | LR: 7.88e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  24%|██▍       | 477/2000 [32:05<1:39:50,  3.93s/it]Epoch  476 | Step   6665/ 28000 | Loss: 0.019121 | LR: 7.88e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  476 | Avg Loss: 0.022637 | LR: 7.88e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  24%|██▍       | 478/2000 [32:09<1:39:57,  3.94s/it]Epoch  477 | Step   6679/ 28000 | Loss: 0.024983 | LR: 7.88e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  477 | Avg Loss: 0.024772 | LR: 7.88e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  24%|██▍       | 479/2000 [32:13<1:40:05,  3.95s/it]Epoch  478 | Step   6693/ 28000 | Loss: 0.028823 | LR: 7.88e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  478 | Avg Loss: 0.021829 | LR: 7.88e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  24%|██▍       | 480/2000 [32:17<1:40:28,  3.97s/it]Epoch  479 | Step   6707/ 28000 | Loss: 0.032618 | LR: 7.88e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  479 | Avg Loss: 0.025427 | LR: 7.87e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  24%|██▍       | 481/2000 [32:22<1:43:28,  4.09s/it]Epoch  480 | Step   6721/ 28000 | Loss: 0.023940 | LR: 7.87e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  480 | Avg Loss: 0.022850 | LR: 7.87e-04 | Time: 4.4s | Samples: 6,983
+Training Flow Model:  24%|██▍       | 482/2000 [32:26<1:42:34,  4.05s/it]Epoch  481 | Step   6735/ 28000 | Loss: 0.018293 | LR: 7.87e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  481 | Avg Loss: 0.019803 | LR: 7.87e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  24%|██▍       | 483/2000 [32:30<1:43:04,  4.08s/it]Epoch  482 | Step   6749/ 28000 | Loss: 0.018554 | LR: 7.87e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  482 | Avg Loss: 0.020142 | LR: 7.87e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  24%|██▍       | 484/2000 [32:34<1:44:01,  4.12s/it]Epoch  483 | Step   6763/ 28000 | Loss: 0.025250 | LR: 7.87e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  483 | Avg Loss: 0.022396 | LR: 7.87e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  24%|██▍       | 485/2000 [32:38<1:43:35,  4.10s/it]Epoch  484 | Step   6777/ 28000 | Loss: 0.019566 | LR: 7.87e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  484 | Avg Loss: 0.026447 | LR: 7.87e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  24%|██▍       | 486/2000 [32:42<1:42:59,  4.08s/it]Epoch  485 | Step   6791/ 28000 | Loss: 0.022695 | LR: 7.87e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  485 | Avg Loss: 0.024120 | LR: 7.87e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  24%|██▍       | 487/2000 [32:47<1:46:14,  4.21s/it]Epoch  486 | Step   6805/ 28000 | Loss: 0.019706 | LR: 7.87e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  486 | Avg Loss: 0.023885 | LR: 7.87e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:  24%|██▍       | 488/2000 [32:50<1:44:19,  4.14s/it]Epoch  487 | Step   6819/ 28000 | Loss: 0.024475 | LR: 7.87e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  487 | Avg Loss: 0.021146 | LR: 7.86e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  24%|██▍       | 489/2000 [32:56<1:51:01,  4.41s/it]Epoch  488 | Step   6833/ 28000 | Loss: 0.029900 | LR: 7.86e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  488 | Avg Loss: 0.027954 | LR: 7.86e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  24%|██▍       | 490/2000 [33:01<1:55:15,  4.58s/it]Epoch  489 | Step   6847/ 28000 | Loss: 0.024690 | LR: 7.86e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  489 | Avg Loss: 0.024219 | LR: 7.86e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  25%|██▍       | 491/2000 [33:05<1:57:34,  4.67s/it]Epoch  490 | Step   6861/ 28000 | Loss: 0.021203 | LR: 7.86e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  490 | Avg Loss: 0.024309 | LR: 7.86e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  25%|██▍       | 492/2000 [33:11<2:01:35,  4.84s/it]Epoch  491 | Step   6875/ 28000 | Loss: 0.021934 | LR: 7.86e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  491 | Avg Loss: 0.020425 | LR: 7.86e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  25%|██▍       | 493/2000 [33:16<2:02:04,  4.86s/it]Epoch  492 | Step   6889/ 28000 | Loss: 0.018131 | LR: 7.86e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  492 | Avg Loss: 0.021312 | LR: 7.86e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  25%|██▍       | 494/2000 [33:20<2:02:45,  4.89s/it]Epoch  493 | Step   6903/ 28000 | Loss: 0.020803 | LR: 7.86e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  493 | Avg Loss: 0.022233 | LR: 7.86e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  25%|██▍       | 495/2000 [33:26<2:05:02,  4.99s/it]Epoch  494 | Step   6917/ 28000 | Loss: 0.022481 | LR: 7.86e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  494 | Avg Loss: 0.023063 | LR: 7.85e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  25%|██▍       | 496/2000 [33:31<2:05:49,  5.02s/it]Epoch  495 | Step   6931/ 28000 | Loss: 0.016636 | LR: 7.85e-04 | Speed: 3.5 steps/s | ETA: 1.7h
+Epoch  495 | Avg Loss: 0.023559 | LR: 7.85e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  25%|██▍       | 497/2000 [33:36<2:06:03,  5.03s/it]Epoch  496 | Step   6945/ 28000 | Loss: 0.022413 | LR: 7.85e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  496 | Avg Loss: 0.023935 | LR: 7.85e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  25%|██▍       | 498/2000 [33:41<2:05:58,  5.03s/it]Epoch  497 | Step   6959/ 28000 | Loss: 0.022279 | LR: 7.85e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  497 | Avg Loss: 0.022387 | LR: 7.85e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  25%|██▍       | 499/2000 [33:46<2:06:02,  5.04s/it]Epoch  498 | Step   6973/ 28000 | Loss: 0.020108 | LR: 7.85e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  498 | Avg Loss: 0.023606 | LR: 7.85e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  25%|██▌       | 500/2000 [33:51<2:07:40,  5.11s/it]Epoch  499 | Step   6987/ 28000 | Loss: 0.024821 | LR: 7.85e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  499 | Avg Loss: 0.024439 | LR: 7.85e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  25%|██▌       | 501/2000 [33:56<2:06:47,  5.08s/it]Epoch  500 | Step   7001/ 28000 | Loss: 0.020930 | LR: 7.85e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  500 | Avg Loss: 0.021064 | LR: 7.85e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  25%|██▌       | 502/2000 [34:01<2:06:04,  5.05s/it]Epoch  501 | Step   7015/ 28000 | Loss: 0.022486 | LR: 7.85e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  501 | Avg Loss: 0.023443 | LR: 7.84e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  25%|██▌       | 503/2000 [34:06<2:06:17,  5.06s/it]Epoch  502 | Step   7029/ 28000 | Loss: 0.023023 | LR: 7.84e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  502 | Avg Loss: 0.023628 | LR: 7.84e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  25%|██▌       | 504/2000 [34:11<2:04:45,  5.00s/it]Epoch  503 | Step   7043/ 28000 | Loss: 0.022384 | LR: 7.84e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  503 | Avg Loss: 0.023991 | LR: 7.84e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  25%|██▌       | 505/2000 [34:17<2:07:20,  5.11s/it]Epoch  504 | Step   7057/ 28000 | Loss: 0.030707 | LR: 7.84e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  504 | Avg Loss: 0.026227 | LR: 7.84e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  25%|██▌       | 506/2000 [34:22<2:07:18,  5.11s/it]Epoch  505 | Step   7071/ 28000 | Loss: 0.024776 | LR: 7.84e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  505 | Avg Loss: 0.022761 | LR: 7.84e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  25%|██▌       | 507/2000 [34:27<2:07:33,  5.13s/it]Epoch  506 | Step   7085/ 28000 | Loss: 0.024491 | LR: 7.84e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  506 | Avg Loss: 0.024010 | LR: 7.84e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  25%|██▌       | 508/2000 [34:32<2:07:11,  5.12s/it]Epoch  507 | Step   7099/ 28000 | Loss: 0.025892 | LR: 7.84e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  507 | Avg Loss: 0.026402 | LR: 7.84e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  25%|██▌       | 509/2000 [34:37<2:06:17,  5.08s/it]Epoch  508 | Step   7113/ 28000 | Loss: 0.025467 | LR: 7.84e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  508 | Avg Loss: 0.023438 | LR: 7.83e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  26%|██▌       | 510/2000 [34:42<2:06:47,  5.11s/it]Epoch  509 | Step   7127/ 28000 | Loss: 0.024947 | LR: 7.83e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  509 | Avg Loss: 0.026821 | LR: 7.83e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  26%|██▌       | 511/2000 [34:47<2:05:20,  5.05s/it]Epoch  510 | Step   7141/ 28000 | Loss: 0.026768 | LR: 7.83e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  510 | Avg Loss: 0.026311 | LR: 7.83e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  26%|██▌       | 512/2000 [34:52<2:05:22,  5.06s/it]Epoch  511 | Step   7155/ 28000 | Loss: 0.026038 | LR: 7.83e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  511 | Avg Loss: 0.023248 | LR: 7.83e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  26%|██▌       | 513/2000 [34:57<2:07:25,  5.14s/it]Epoch  512 | Step   7169/ 28000 | Loss: 0.015877 | LR: 7.83e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  512 | Avg Loss: 0.021605 | LR: 7.83e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  26%|██▌       | 514/2000 [35:03<2:07:37,  5.15s/it]Epoch  513 | Step   7183/ 28000 | Loss: 0.025826 | LR: 7.83e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  513 | Avg Loss: 0.029476 | LR: 7.83e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  26%|██▌       | 515/2000 [35:07<1:59:34,  4.83s/it]Epoch  514 | Step   7197/ 28000 | Loss: 0.020661 | LR: 7.83e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  514 | Avg Loss: 0.028102 | LR: 7.83e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  26%|██▌       | 516/2000 [35:11<1:54:03,  4.61s/it]Epoch  515 | Step   7211/ 28000 | Loss: 0.031439 | LR: 7.83e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  515 | Avg Loss: 0.031569 | LR: 7.82e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  26%|██▌       | 517/2000 [35:15<1:48:44,  4.40s/it]Epoch  516 | Step   7225/ 28000 | Loss: 0.040152 | LR: 7.82e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  516 | Avg Loss: 0.032832 | LR: 7.82e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  26%|██▌       | 518/2000 [35:19<1:47:22,  4.35s/it]Epoch  517 | Step   7239/ 28000 | Loss: 0.039270 | LR: 7.82e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  517 | Avg Loss: 0.037149 | LR: 7.82e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  26%|██▌       | 519/2000 [35:23<1:48:17,  4.39s/it]Epoch  518 | Step   7253/ 28000 | Loss: 0.041937 | LR: 7.82e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  518 | Avg Loss: 0.040825 | LR: 7.82e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:  26%|██▌       | 520/2000 [35:28<1:53:22,  4.60s/it]Epoch  519 | Step   7267/ 28000 | Loss: 0.037047 | LR: 7.82e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  519 | Avg Loss: 0.037818 | LR: 7.82e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  26%|██▌       | 521/2000 [35:34<2:00:01,  4.87s/it]Epoch  520 | Step   7281/ 28000 | Loss: 0.031528 | LR: 7.82e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  520 | Avg Loss: 0.038196 | LR: 7.82e-04 | Time: 5.5s | Samples: 6,983
+Training Flow Model:  26%|██▌       | 522/2000 [35:39<2:03:06,  5.00s/it]Epoch  521 | Step   7295/ 28000 | Loss: 0.040258 | LR: 7.82e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  521 | Avg Loss: 0.038911 | LR: 7.82e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  26%|██▌       | 523/2000 [35:44<2:03:48,  5.03s/it]Epoch  522 | Step   7309/ 28000 | Loss: 0.033605 | LR: 7.82e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  522 | Avg Loss: 0.027455 | LR: 7.81e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  26%|██▌       | 524/2000 [35:49<2:03:08,  5.01s/it]Epoch  523 | Step   7323/ 28000 | Loss: 0.026675 | LR: 7.81e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  523 | Avg Loss: 0.029076 | LR: 7.81e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  26%|██▋       | 525/2000 [35:55<2:06:15,  5.14s/it]Epoch  524 | Step   7337/ 28000 | Loss: 0.036733 | LR: 7.81e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  524 | Avg Loss: 0.031722 | LR: 7.81e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  26%|██▋       | 526/2000 [36:00<2:07:57,  5.21s/it]Epoch  525 | Step   7351/ 28000 | Loss: 0.031472 | LR: 7.81e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  525 | Avg Loss: 0.030264 | LR: 7.81e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  26%|██▋       | 527/2000 [36:05<2:07:10,  5.18s/it]Epoch  526 | Step   7365/ 28000 | Loss: 0.021813 | LR: 7.81e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  526 | Avg Loss: 0.027314 | LR: 7.81e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  26%|██▋       | 528/2000 [36:11<2:08:08,  5.22s/it]Epoch  527 | Step   7379/ 28000 | Loss: 0.027264 | LR: 7.81e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  527 | Avg Loss: 0.036515 | LR: 7.81e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  26%|██▋       | 529/2000 [36:16<2:09:01,  5.26s/it]Epoch  528 | Step   7393/ 28000 | Loss: 0.038546 | LR: 7.81e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  528 | Avg Loss: 0.038917 | LR: 7.80e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  26%|██▋       | 530/2000 [36:21<2:11:15,  5.36s/it]Epoch  529 | Step   7407/ 28000 | Loss: 0.044259 | LR: 7.80e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  529 | Avg Loss: 0.039749 | LR: 7.80e-04 | Time: 5.6s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 531/2000 [36:27<2:10:19,  5.32s/it]Epoch  530 | Step   7421/ 28000 | Loss: 0.039241 | LR: 7.80e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  530 | Avg Loss: 0.035043 | LR: 7.80e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 532/2000 [36:32<2:07:19,  5.20s/it]Epoch  531 | Step   7435/ 28000 | Loss: 0.031406 | LR: 7.80e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  531 | Avg Loss: 0.035543 | LR: 7.80e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 533/2000 [36:37<2:08:23,  5.25s/it]Epoch  532 | Step   7449/ 28000 | Loss: 0.034486 | LR: 7.80e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  532 | Avg Loss: 0.037068 | LR: 7.80e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 534/2000 [36:42<2:09:58,  5.32s/it]Epoch  533 | Step   7463/ 28000 | Loss: 0.040876 | LR: 7.80e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  533 | Avg Loss: 0.040493 | LR: 7.80e-04 | Time: 5.5s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 535/2000 [36:48<2:09:20,  5.30s/it]Epoch  534 | Step   7477/ 28000 | Loss: 0.034678 | LR: 7.80e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  534 | Avg Loss: 0.037158 | LR: 7.79e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 536/2000 [36:53<2:11:40,  5.40s/it]Epoch  535 | Step   7491/ 28000 | Loss: 0.040109 | LR: 7.79e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  535 | Avg Loss: 0.033627 | LR: 7.79e-04 | Time: 5.6s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 537/2000 [36:59<2:10:39,  5.36s/it]Epoch  536 | Step   7505/ 28000 | Loss: 0.042368 | LR: 7.79e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  536 | Avg Loss: 0.038184 | LR: 7.79e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 538/2000 [37:04<2:13:03,  5.46s/it]Epoch  537 | Step   7519/ 28000 | Loss: 0.032988 | LR: 7.79e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  537 | Avg Loss: 0.034525 | LR: 7.79e-04 | Time: 5.7s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 539/2000 [37:10<2:12:17,  5.43s/it]Epoch  538 | Step   7533/ 28000 | Loss: 0.038974 | LR: 7.79e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  538 | Avg Loss: 0.040259 | LR: 7.79e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 540/2000 [37:14<2:06:03,  5.18s/it]Epoch  539 | Step   7547/ 28000 | Loss: 0.060722 | LR: 7.79e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  539 | Avg Loss: 0.055016 | LR: 7.79e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 541/2000 [37:18<1:58:22,  4.87s/it]Epoch  540 | Step   7561/ 28000 | Loss: 0.060455 | LR: 7.79e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  540 | Avg Loss: 0.045239 | LR: 7.79e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 542/2000 [37:23<1:52:56,  4.65s/it]Epoch  541 | Step   7575/ 28000 | Loss: 0.034559 | LR: 7.78e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  541 | Avg Loss: 0.036866 | LR: 7.78e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 543/2000 [37:27<1:49:22,  4.50s/it]Epoch  542 | Step   7589/ 28000 | Loss: 0.021576 | LR: 7.78e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  542 | Avg Loss: 0.035649 | LR: 7.78e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 544/2000 [37:31<1:46:51,  4.40s/it]Epoch  543 | Step   7603/ 28000 | Loss: 0.040472 | LR: 7.78e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  543 | Avg Loss: 0.033350 | LR: 7.78e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 545/2000 [37:35<1:44:49,  4.32s/it]Epoch  544 | Step   7617/ 28000 | Loss: 0.038097 | LR: 7.78e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  544 | Avg Loss: 0.037036 | LR: 7.78e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 546/2000 [37:39<1:42:04,  4.21s/it]Epoch  545 | Step   7631/ 28000 | Loss: 0.032133 | LR: 7.78e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  545 | Avg Loss: 0.033531 | LR: 7.78e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 547/2000 [37:43<1:40:50,  4.16s/it]Epoch  546 | Step   7645/ 28000 | Loss: 0.034545 | LR: 7.78e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  546 | Avg Loss: 0.033276 | LR: 7.78e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 548/2000 [37:47<1:39:57,  4.13s/it]Epoch  547 | Step   7659/ 28000 | Loss: 0.034166 | LR: 7.77e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  547 | Avg Loss: 0.037680 | LR: 7.77e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  27%|██▋       | 549/2000 [37:51<1:39:32,  4.12s/it]Epoch  548 | Step   7673/ 28000 | Loss: 0.032100 | LR: 7.77e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  548 | Avg Loss: 0.041304 | LR: 7.77e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 550/2000 [37:55<1:38:15,  4.07s/it]Epoch  549 | Step   7687/ 28000 | Loss: 0.044914 | LR: 7.77e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  549 | Avg Loss: 0.036130 | LR: 7.77e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 551/2000 [37:59<1:38:26,  4.08s/it]Epoch  550 | Step   7701/ 28000 | Loss: 0.038797 | LR: 7.77e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  550 | Avg Loss: 0.036923 | LR: 7.77e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 552/2000 [38:03<1:38:52,  4.10s/it]Epoch  551 | Step   7715/ 28000 | Loss: 0.032661 | LR: 7.77e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  551 | Avg Loss: 0.038577 | LR: 7.77e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 553/2000 [38:08<1:39:04,  4.11s/it]Epoch  552 | Step   7729/ 28000 | Loss: 0.034647 | LR: 7.77e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  552 | Avg Loss: 0.036684 | LR: 7.76e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 554/2000 [38:11<1:37:23,  4.04s/it]Epoch  553 | Step   7743/ 28000 | Loss: 0.045415 | LR: 7.76e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  553 | Avg Loss: 0.034935 | LR: 7.76e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 555/2000 [38:15<1:36:35,  4.01s/it]Epoch  554 | Step   7757/ 28000 | Loss: 0.031046 | LR: 7.76e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  554 | Avg Loss: 0.033878 | LR: 7.76e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 556/2000 [38:19<1:35:55,  3.99s/it]Epoch  555 | Step   7771/ 28000 | Loss: 0.035380 | LR: 7.76e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  555 | Avg Loss: 0.032178 | LR: 7.76e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 557/2000 [38:23<1:35:16,  3.96s/it]Epoch  556 | Step   7785/ 28000 | Loss: 0.036684 | LR: 7.76e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  556 | Avg Loss: 0.029989 | LR: 7.76e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 558/2000 [38:27<1:35:38,  3.98s/it]Epoch  557 | Step   7799/ 28000 | Loss: 0.032135 | LR: 7.76e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  557 | Avg Loss: 0.026492 | LR: 7.76e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 559/2000 [38:31<1:36:29,  4.02s/it]Epoch  558 | Step   7813/ 28000 | Loss: 0.029830 | LR: 7.76e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  558 | Avg Loss: 0.046508 | LR: 7.75e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 560/2000 [38:35<1:36:11,  4.01s/it]Epoch  559 | Step   7827/ 28000 | Loss: 0.039976 | LR: 7.75e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  559 | Avg Loss: 0.037964 | LR: 7.75e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 561/2000 [38:39<1:35:42,  3.99s/it]Epoch  560 | Step   7841/ 28000 | Loss: 0.042580 | LR: 7.75e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  560 | Avg Loss: 0.044357 | LR: 7.75e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 562/2000 [38:43<1:35:06,  3.97s/it]Epoch  561 | Step   7855/ 28000 | Loss: 0.043336 | LR: 7.75e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  561 | Avg Loss: 0.050875 | LR: 7.75e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 563/2000 [38:47<1:34:30,  3.95s/it]Epoch  562 | Step   7869/ 28000 | Loss: 0.058083 | LR: 7.75e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  562 | Avg Loss: 0.049090 | LR: 7.75e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 564/2000 [38:51<1:34:41,  3.96s/it]Epoch  563 | Step   7883/ 28000 | Loss: 0.044181 | LR: 7.75e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  563 | Avg Loss: 0.044262 | LR: 7.75e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 565/2000 [38:55<1:35:11,  3.98s/it]Epoch  564 | Step   7897/ 28000 | Loss: 0.066086 | LR: 7.75e-04 | Speed: 3.4 steps/s | ETA: 1.7h
+Epoch  564 | Avg Loss: 0.066410 | LR: 7.74e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 566/2000 [38:59<1:35:42,  4.00s/it]Epoch  565 | Step   7911/ 28000 | Loss: 0.055557 | LR: 7.74e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  565 | Avg Loss: 0.047951 | LR: 7.74e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 567/2000 [39:03<1:35:14,  3.99s/it]Epoch  566 | Step   7925/ 28000 | Loss: 0.032051 | LR: 7.74e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  566 | Avg Loss: 0.038468 | LR: 7.74e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 568/2000 [39:07<1:35:15,  3.99s/it]Epoch  567 | Step   7939/ 28000 | Loss: 0.034822 | LR: 7.74e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  567 | Avg Loss: 0.032659 | LR: 7.74e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 569/2000 [39:11<1:36:08,  4.03s/it]Epoch  568 | Step   7953/ 28000 | Loss: 0.030715 | LR: 7.74e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  568 | Avg Loss: 0.030621 | LR: 7.74e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  28%|██▊       | 570/2000 [39:15<1:35:47,  4.02s/it]Epoch  569 | Step   7967/ 28000 | Loss: 0.030226 | LR: 7.74e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  569 | Avg Loss: 0.028001 | LR: 7.73e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  29%|██▊       | 571/2000 [39:19<1:35:50,  4.02s/it]Epoch  570 | Step   7981/ 28000 | Loss: 0.032651 | LR: 7.73e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  570 | Avg Loss: 0.032864 | LR: 7.73e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  29%|██▊       | 572/2000 [39:23<1:34:51,  3.99s/it]Epoch  571 | Step   7995/ 28000 | Loss: 0.036390 | LR: 7.73e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  571 | Avg Loss: 0.028246 | LR: 7.73e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  29%|██▊       | 573/2000 [39:27<1:35:43,  4.03s/it]Epoch  572 | Step   8009/ 28000 | Loss: 0.020491 | LR: 7.73e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  572 | Avg Loss: 0.027551 | LR: 7.73e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  29%|██▊       | 574/2000 [39:31<1:35:22,  4.01s/it]Epoch  573 | Step   8023/ 28000 | Loss: 0.027804 | LR: 7.73e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  573 | Avg Loss: 0.028159 | LR: 7.73e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  29%|██▉       | 575/2000 [39:35<1:36:14,  4.05s/it]Epoch  574 | Step   8037/ 28000 | Loss: 0.026330 | LR: 7.73e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  574 | Avg Loss: 0.026395 | LR: 7.73e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  29%|██▉       | 576/2000 [39:39<1:35:34,  4.03s/it]Epoch  575 | Step   8051/ 28000 | Loss: 0.025344 | LR: 7.73e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  575 | Avg Loss: 0.027656 | LR: 7.72e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  29%|██▉       | 577/2000 [39:43<1:34:31,  3.99s/it]Epoch  576 | Step   8065/ 28000 | Loss: 0.032741 | LR: 7.72e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  576 | Avg Loss: 0.043579 | LR: 7.72e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  29%|██▉       | 578/2000 [39:47<1:35:28,  4.03s/it]Epoch  577 | Step   8079/ 28000 | Loss: 0.047306 | LR: 7.72e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  577 | Avg Loss: 0.041614 | LR: 7.72e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  29%|██▉       | 579/2000 [39:51<1:35:17,  4.02s/it]Epoch  578 | Step   8093/ 28000 | Loss: 0.047641 | LR: 7.72e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  578 | Avg Loss: 0.030929 | LR: 7.72e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  29%|██▉       | 580/2000 [39:56<1:36:34,  4.08s/it]Epoch  579 | Step   8107/ 28000 | Loss: 0.028630 | LR: 7.72e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  579 | Avg Loss: 0.025588 | LR: 7.72e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  29%|██▉       | 581/2000 [39:59<1:35:23,  4.03s/it]Epoch  580 | Step   8121/ 28000 | Loss: 0.022667 | LR: 7.72e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  580 | Avg Loss: 0.025760 | LR: 7.71e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  29%|██▉       | 582/2000 [40:03<1:35:02,  4.02s/it]Epoch  581 | Step   8135/ 28000 | Loss: 0.033556 | LR: 7.71e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  581 | Avg Loss: 0.026945 | LR: 7.71e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  29%|██▉       | 583/2000 [40:07<1:34:30,  4.00s/it]Epoch  582 | Step   8149/ 28000 | Loss: 0.025460 | LR: 7.71e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  582 | Avg Loss: 0.026664 | LR: 7.71e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  29%|██▉       | 584/2000 [40:11<1:34:04,  3.99s/it]Epoch  583 | Step   8163/ 28000 | Loss: 0.021847 | LR: 7.71e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  583 | Avg Loss: 0.027511 | LR: 7.71e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  29%|██▉       | 585/2000 [40:15<1:33:34,  3.97s/it]Epoch  584 | Step   8177/ 28000 | Loss: 0.032473 | LR: 7.71e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  584 | Avg Loss: 0.025782 | LR: 7.71e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  29%|██▉       | 586/2000 [40:19<1:32:56,  3.94s/it]Epoch  585 | Step   8191/ 28000 | Loss: 0.026661 | LR: 7.71e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  585 | Avg Loss: 0.026817 | LR: 7.70e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  29%|██▉       | 587/2000 [40:23<1:35:17,  4.05s/it]Epoch  586 | Step   8205/ 28000 | Loss: 0.027331 | LR: 7.70e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  586 | Avg Loss: 0.028233 | LR: 7.70e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  29%|██▉       | 588/2000 [40:28<1:35:04,  4.04s/it]Epoch  587 | Step   8219/ 28000 | Loss: 0.031640 | LR: 7.70e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  587 | Avg Loss: 0.029893 | LR: 7.70e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  29%|██▉       | 589/2000 [40:32<1:34:59,  4.04s/it]Epoch  588 | Step   8233/ 28000 | Loss: 0.032647 | LR: 7.70e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  588 | Avg Loss: 0.029722 | LR: 7.70e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  30%|██▉       | 590/2000 [40:36<1:35:49,  4.08s/it]Epoch  589 | Step   8247/ 28000 | Loss: 0.027315 | LR: 7.70e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  589 | Avg Loss: 0.030725 | LR: 7.70e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  30%|██▉       | 591/2000 [40:40<1:36:25,  4.11s/it]Epoch  590 | Step   8261/ 28000 | Loss: 0.030430 | LR: 7.70e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  590 | Avg Loss: 0.027584 | LR: 7.70e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  30%|██▉       | 592/2000 [40:44<1:35:21,  4.06s/it]Epoch  591 | Step   8275/ 28000 | Loss: 0.057650 | LR: 7.69e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  591 | Avg Loss: 0.099441 | LR: 7.69e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  30%|██▉       | 593/2000 [40:48<1:34:26,  4.03s/it]Epoch  592 | Step   8289/ 28000 | Loss: 0.243279 | LR: 7.69e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  592 | Avg Loss: 0.568133 | LR: 7.69e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  30%|██▉       | 594/2000 [40:52<1:35:18,  4.07s/it]Epoch  593 | Step   8303/ 28000 | Loss: 0.920053 | LR: 7.69e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  593 | Avg Loss: 1.205106 | LR: 7.69e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  30%|██▉       | 595/2000 [40:56<1:34:12,  4.02s/it]Epoch  594 | Step   8317/ 28000 | Loss: 1.322814 | LR: 7.69e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  594 | Avg Loss: 1.273790 | LR: 7.69e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  30%|██▉       | 596/2000 [41:00<1:34:27,  4.04s/it]Epoch  595 | Step   8331/ 28000 | Loss: 1.318264 | LR: 7.69e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  595 | Avg Loss: 1.317672 | LR: 7.69e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  30%|██▉       | 597/2000 [41:04<1:33:23,  3.99s/it]Epoch  596 | Step   8345/ 28000 | Loss: 1.315431 | LR: 7.69e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  596 | Avg Loss: 1.316031 | LR: 7.68e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  30%|██▉       | 598/2000 [41:08<1:33:59,  4.02s/it]Epoch  597 | Step   8359/ 28000 | Loss: 1.320328 | LR: 7.68e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  597 | Avg Loss: 1.316875 | LR: 7.68e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  30%|██▉       | 599/2000 [41:12<1:33:32,  4.01s/it]Epoch  598 | Step   8373/ 28000 | Loss: 1.317662 | LR: 7.68e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  598 | Avg Loss: 1.318153 | LR: 7.68e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  30%|███       | 600/2000 [41:19<1:55:31,  4.95s/it]Epoch  599 | Step   8387/ 28000 | Loss: 1.318352 | LR: 7.68e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  599 | Avg Loss: 1.317869 | LR: 7.68e-04 | Time: 3.9s | Samples: 6,983
+✓ Checkpoint saved: /data2/edwardsun/flow_checkpoints/amp_flow_model_final_optimized.pth (loss: 1.317869, step: 8400)
+Training Flow Model:  30%|███       | 601/2000 [41:23<1:48:48,  4.67s/it]Epoch  600 | Step   8401/ 28000 | Loss: 1.318932 | LR: 7.68e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  600 | Avg Loss: 1.316726 | LR: 7.68e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  30%|███       | 602/2000 [41:27<1:43:12,  4.43s/it]Epoch  601 | Step   8415/ 28000 | Loss: 1.315586 | LR: 7.68e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  601 | Avg Loss: 1.317582 | LR: 7.67e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  30%|███       | 603/2000 [41:31<1:39:04,  4.26s/it]Epoch  602 | Step   8429/ 28000 | Loss: 1.319186 | LR: 7.67e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  602 | Avg Loss: 1.317339 | LR: 7.67e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  30%|███       | 604/2000 [41:35<1:36:33,  4.15s/it]Epoch  603 | Step   8443/ 28000 | Loss: 1.315299 | LR: 7.67e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  603 | Avg Loss: 1.318025 | LR: 7.67e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  30%|███       | 605/2000 [41:39<1:34:43,  4.07s/it]Epoch  604 | Step   8457/ 28000 | Loss: 1.318421 | LR: 7.67e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  604 | Avg Loss: 1.317430 | LR: 7.67e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  30%|███       | 606/2000 [41:42<1:33:29,  4.02s/it]Epoch  605 | Step   8471/ 28000 | Loss: 1.317986 | LR: 7.67e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  605 | Avg Loss: 1.316872 | LR: 7.67e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  30%|███       | 607/2000 [41:46<1:32:19,  3.98s/it]Epoch  606 | Step   8485/ 28000 | Loss: 1.318849 | LR: 7.67e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  606 | Avg Loss: 1.317532 | LR: 7.66e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  30%|███       | 608/2000 [41:50<1:31:19,  3.94s/it]Epoch  607 | Step   8499/ 28000 | Loss: 1.316226 | LR: 7.66e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  607 | Avg Loss: 1.317460 | LR: 7.66e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  30%|███       | 609/2000 [41:54<1:30:47,  3.92s/it]Epoch  608 | Step   8513/ 28000 | Loss: 1.317121 | LR: 7.66e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  608 | Avg Loss: 1.317279 | LR: 7.66e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  30%|███       | 610/2000 [41:58<1:30:26,  3.90s/it]Epoch  609 | Step   8527/ 28000 | Loss: 1.317642 | LR: 7.66e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  609 | Avg Loss: 1.318077 | LR: 7.66e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  31%|███       | 611/2000 [42:02<1:30:34,  3.91s/it]Epoch  610 | Step   8541/ 28000 | Loss: 1.314879 | LR: 7.66e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  610 | Avg Loss: 1.317309 | LR: 7.66e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  31%|███       | 612/2000 [42:06<1:30:35,  3.92s/it]Epoch  611 | Step   8555/ 28000 | Loss: 1.318294 | LR: 7.65e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  611 | Avg Loss: 1.317974 | LR: 7.65e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  31%|███       | 613/2000 [42:10<1:31:08,  3.94s/it]Epoch  612 | Step   8569/ 28000 | Loss: 1.316918 | LR: 7.65e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  612 | Avg Loss: 1.316481 | LR: 7.65e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  31%|███       | 614/2000 [42:14<1:30:47,  3.93s/it]Epoch  613 | Step   8583/ 28000 | Loss: 1.317217 | LR: 7.65e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  613 | Avg Loss: 1.317574 | LR: 7.65e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  31%|███       | 615/2000 [42:18<1:30:58,  3.94s/it]Epoch  614 | Step   8597/ 28000 | Loss: 1.319177 | LR: 7.65e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  614 | Avg Loss: 1.317375 | LR: 7.65e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  31%|███       | 616/2000 [42:22<1:31:47,  3.98s/it]Epoch  615 | Step   8611/ 28000 | Loss: 1.316462 | LR: 7.65e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  615 | Avg Loss: 1.317238 | LR: 7.64e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  31%|███       | 617/2000 [42:26<1:31:25,  3.97s/it]Epoch  616 | Step   8625/ 28000 | Loss: 1.319991 | LR: 7.64e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  616 | Avg Loss: 1.317402 | LR: 7.64e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  31%|███       | 618/2000 [42:30<1:31:04,  3.95s/it]Epoch  617 | Step   8639/ 28000 | Loss: 1.317227 | LR: 7.64e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  617 | Avg Loss: 1.316615 | LR: 7.64e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  31%|███       | 619/2000 [42:34<1:31:29,  3.98s/it]Epoch  618 | Step   8653/ 28000 | Loss: 1.314007 | LR: 7.64e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  618 | Avg Loss: 1.317185 | LR: 7.64e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  31%|███       | 620/2000 [42:38<1:31:44,  3.99s/it]Epoch  619 | Step   8667/ 28000 | Loss: 1.315616 | LR: 7.64e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  619 | Avg Loss: 1.317654 | LR: 7.64e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  31%|███       | 621/2000 [42:42<1:31:09,  3.97s/it]Epoch  620 | Step   8681/ 28000 | Loss: 1.314654 | LR: 7.64e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  620 | Avg Loss: 1.317614 | LR: 7.63e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  31%|███       | 622/2000 [42:46<1:31:01,  3.96s/it]Epoch  621 | Step   8695/ 28000 | Loss: 1.315383 | LR: 7.63e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  621 | Avg Loss: 1.318430 | LR: 7.63e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  31%|███       | 623/2000 [42:50<1:31:10,  3.97s/it]Epoch  622 | Step   8709/ 28000 | Loss: 1.316342 | LR: 7.63e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  622 | Avg Loss: 1.317532 | LR: 7.63e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  31%|███       | 624/2000 [42:54<1:33:06,  4.06s/it]Epoch  623 | Step   8723/ 28000 | Loss: 1.314369 | LR: 7.63e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  623 | Avg Loss: 1.318083 | LR: 7.63e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  31%|███▏      | 625/2000 [42:58<1:32:47,  4.05s/it]Epoch  624 | Step   8737/ 28000 | Loss: 1.319386 | LR: 7.63e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  624 | Avg Loss: 1.317170 | LR: 7.63e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  31%|███▏      | 626/2000 [43:02<1:31:57,  4.02s/it]Epoch  625 | Step   8751/ 28000 | Loss: 1.316310 | LR: 7.63e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  625 | Avg Loss: 1.318458 | LR: 7.62e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  31%|███▏      | 627/2000 [43:06<1:31:22,  3.99s/it]Epoch  626 | Step   8765/ 28000 | Loss: 1.317512 | LR: 7.62e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  626 | Avg Loss: 1.317400 | LR: 7.62e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  31%|███▏      | 628/2000 [43:10<1:30:59,  3.98s/it]Epoch  627 | Step   8779/ 28000 | Loss: 1.320200 | LR: 7.62e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  627 | Avg Loss: 1.318401 | LR: 7.62e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  31%|███▏      | 629/2000 [43:14<1:30:20,  3.95s/it]Epoch  628 | Step   8793/ 28000 | Loss: 1.316791 | LR: 7.62e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  628 | Avg Loss: 1.316912 | LR: 7.62e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 630/2000 [43:17<1:29:29,  3.92s/it]Epoch  629 | Step   8807/ 28000 | Loss: 1.316055 | LR: 7.62e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  629 | Avg Loss: 1.317581 | LR: 7.61e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 631/2000 [43:21<1:28:43,  3.89s/it]Epoch  630 | Step   8821/ 28000 | Loss: 1.317490 | LR: 7.61e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  630 | Avg Loss: 1.318094 | LR: 7.61e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 632/2000 [43:25<1:29:26,  3.92s/it]Epoch  631 | Step   8835/ 28000 | Loss: 1.312670 | LR: 7.61e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  631 | Avg Loss: 1.316992 | LR: 7.61e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 633/2000 [43:29<1:29:38,  3.93s/it]Epoch  632 | Step   8849/ 28000 | Loss: 1.322544 | LR: 7.61e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  632 | Avg Loss: 1.316859 | LR: 7.61e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 634/2000 [43:33<1:29:49,  3.95s/it]Epoch  633 | Step   8863/ 28000 | Loss: 1.316954 | LR: 7.61e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  633 | Avg Loss: 1.317179 | LR: 7.61e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 635/2000 [43:37<1:29:19,  3.93s/it]Epoch  634 | Step   8877/ 28000 | Loss: 1.318495 | LR: 7.61e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  634 | Avg Loss: 1.317597 | LR: 7.60e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 636/2000 [43:41<1:30:34,  3.98s/it]Epoch  635 | Step   8891/ 28000 | Loss: 1.317681 | LR: 7.60e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  635 | Avg Loss: 1.317780 | LR: 7.60e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 637/2000 [43:45<1:32:31,  4.07s/it]Epoch  636 | Step   8905/ 28000 | Loss: 1.316701 | LR: 7.60e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  636 | Avg Loss: 1.317680 | LR: 7.60e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 638/2000 [43:49<1:30:20,  3.98s/it]Epoch  637 | Step   8919/ 28000 | Loss: 1.319845 | LR: 7.60e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  637 | Avg Loss: 1.317064 | LR: 7.60e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 639/2000 [43:53<1:29:28,  3.94s/it]Epoch  638 | Step   8933/ 28000 | Loss: 1.317670 | LR: 7.60e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  638 | Avg Loss: 1.317744 | LR: 7.60e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 640/2000 [43:57<1:29:45,  3.96s/it]Epoch  639 | Step   8947/ 28000 | Loss: 1.318168 | LR: 7.60e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  639 | Avg Loss: 1.316222 | LR: 7.59e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 641/2000 [44:01<1:28:52,  3.92s/it]Epoch  640 | Step   8961/ 28000 | Loss: 1.315900 | LR: 7.59e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  640 | Avg Loss: 1.316528 | LR: 7.59e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 642/2000 [44:05<1:29:14,  3.94s/it]Epoch  641 | Step   8975/ 28000 | Loss: 1.316669 | LR: 7.59e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  641 | Avg Loss: 1.317104 | LR: 7.59e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 643/2000 [44:09<1:28:37,  3.92s/it]Epoch  642 | Step   8989/ 28000 | Loss: 1.316646 | LR: 7.59e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  642 | Avg Loss: 1.318104 | LR: 7.59e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 644/2000 [44:13<1:29:02,  3.94s/it]Epoch  643 | Step   9003/ 28000 | Loss: 1.318410 | LR: 7.59e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  643 | Avg Loss: 1.317663 | LR: 7.58e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 645/2000 [44:17<1:29:06,  3.95s/it]Epoch  644 | Step   9017/ 28000 | Loss: 1.319957 | LR: 7.58e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  644 | Avg Loss: 1.317023 | LR: 7.58e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 646/2000 [44:21<1:29:08,  3.95s/it]Epoch  645 | Step   9031/ 28000 | Loss: 1.314446 | LR: 7.58e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  645 | Avg Loss: 1.318195 | LR: 7.58e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 647/2000 [44:25<1:28:55,  3.94s/it]Epoch  646 | Step   9045/ 28000 | Loss: 1.318122 | LR: 7.58e-04 | Speed: 3.4 steps/s | ETA: 1.6h
+Epoch  646 | Avg Loss: 1.317194 | LR: 7.58e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 648/2000 [44:28<1:28:41,  3.94s/it]Epoch  647 | Step   9059/ 28000 | Loss: 1.319098 | LR: 7.58e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  647 | Avg Loss: 1.317517 | LR: 7.58e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  32%|███▏      | 649/2000 [44:32<1:29:06,  3.96s/it]Epoch  648 | Step   9073/ 28000 | Loss: 1.316134 | LR: 7.58e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  648 | Avg Loss: 1.317267 | LR: 7.57e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  32%|███▎      | 650/2000 [44:36<1:29:00,  3.96s/it]Epoch  649 | Step   9087/ 28000 | Loss: 1.317311 | LR: 7.57e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  649 | Avg Loss: 1.317723 | LR: 7.57e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 651/2000 [44:40<1:27:57,  3.91s/it]Epoch  650 | Step   9101/ 28000 | Loss: 1.318938 | LR: 7.57e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  650 | Avg Loss: 1.316367 | LR: 7.57e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 652/2000 [44:44<1:27:40,  3.90s/it]Epoch  651 | Step   9115/ 28000 | Loss: 1.314981 | LR: 7.57e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  651 | Avg Loss: 1.317642 | LR: 7.57e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 653/2000 [44:48<1:27:10,  3.88s/it]Epoch  652 | Step   9129/ 28000 | Loss: 1.317440 | LR: 7.57e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  652 | Avg Loss: 1.318140 | LR: 7.56e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 654/2000 [44:52<1:27:19,  3.89s/it]Epoch  653 | Step   9143/ 28000 | Loss: 1.317709 | LR: 7.56e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  653 | Avg Loss: 1.317464 | LR: 7.56e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 655/2000 [44:56<1:27:43,  3.91s/it]Epoch  654 | Step   9157/ 28000 | Loss: 1.318782 | LR: 7.56e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  654 | Avg Loss: 1.316539 | LR: 7.56e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 656/2000 [45:00<1:28:04,  3.93s/it]Epoch  655 | Step   9171/ 28000 | Loss: 1.318017 | LR: 7.56e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  655 | Avg Loss: 1.317255 | LR: 7.56e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 657/2000 [45:04<1:28:20,  3.95s/it]Epoch  656 | Step   9185/ 28000 | Loss: 1.317311 | LR: 7.56e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  656 | Avg Loss: 1.316980 | LR: 7.55e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 658/2000 [45:08<1:29:24,  4.00s/it]Epoch  657 | Step   9199/ 28000 | Loss: 1.320732 | LR: 7.55e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  657 | Avg Loss: 1.317432 | LR: 7.55e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 659/2000 [45:12<1:28:29,  3.96s/it]Epoch  658 | Step   9213/ 28000 | Loss: 1.315557 | LR: 7.55e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  658 | Avg Loss: 1.317173 | LR: 7.55e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 660/2000 [45:16<1:27:44,  3.93s/it]Epoch  659 | Step   9227/ 28000 | Loss: 1.317907 | LR: 7.55e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  659 | Avg Loss: 1.316881 | LR: 7.55e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 661/2000 [45:20<1:28:17,  3.96s/it]Epoch  660 | Step   9241/ 28000 | Loss: 1.317060 | LR: 7.55e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  660 | Avg Loss: 1.317594 | LR: 7.55e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 662/2000 [45:24<1:27:41,  3.93s/it]Epoch  661 | Step   9255/ 28000 | Loss: 1.314786 | LR: 7.55e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  661 | Avg Loss: 1.316845 | LR: 7.54e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 663/2000 [45:28<1:28:40,  3.98s/it]Epoch  662 | Step   9269/ 28000 | Loss: 1.317013 | LR: 7.54e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  662 | Avg Loss: 1.316146 | LR: 7.54e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 664/2000 [45:31<1:27:47,  3.94s/it]Epoch  663 | Step   9283/ 28000 | Loss: 1.318684 | LR: 7.54e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  663 | Avg Loss: 1.318639 | LR: 7.54e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 665/2000 [45:35<1:26:49,  3.90s/it]Epoch  664 | Step   9297/ 28000 | Loss: 1.316881 | LR: 7.54e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  664 | Avg Loss: 1.317093 | LR: 7.54e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 666/2000 [45:39<1:27:45,  3.95s/it]Epoch  665 | Step   9311/ 28000 | Loss: 1.320258 | LR: 7.54e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  665 | Avg Loss: 1.316563 | LR: 7.53e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 667/2000 [45:43<1:28:31,  3.98s/it]Epoch  666 | Step   9325/ 28000 | Loss: 1.320814 | LR: 7.53e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  666 | Avg Loss: 1.317115 | LR: 7.53e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 668/2000 [45:47<1:27:43,  3.95s/it]Epoch  667 | Step   9339/ 28000 | Loss: 1.313540 | LR: 7.53e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  667 | Avg Loss: 1.317462 | LR: 7.53e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  33%|███▎      | 669/2000 [45:51<1:27:14,  3.93s/it]Epoch  668 | Step   9353/ 28000 | Loss: 1.317179 | LR: 7.53e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  668 | Avg Loss: 1.317525 | LR: 7.53e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  34%|███▎      | 670/2000 [45:55<1:29:05,  4.02s/it]Epoch  669 | Step   9367/ 28000 | Loss: 1.317531 | LR: 7.53e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  669 | Avg Loss: 1.317918 | LR: 7.52e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  34%|███▎      | 671/2000 [45:59<1:29:28,  4.04s/it]Epoch  670 | Step   9381/ 28000 | Loss: 1.313198 | LR: 7.52e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  670 | Avg Loss: 1.316313 | LR: 7.52e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  34%|███▎      | 672/2000 [46:04<1:29:50,  4.06s/it]Epoch  671 | Step   9395/ 28000 | Loss: 1.315666 | LR: 7.52e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  671 | Avg Loss: 1.317183 | LR: 7.52e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  34%|███▎      | 673/2000 [46:08<1:31:01,  4.12s/it]Epoch  672 | Step   9409/ 28000 | Loss: 1.316832 | LR: 7.52e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  672 | Avg Loss: 1.317132 | LR: 7.52e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  34%|███▎      | 674/2000 [46:12<1:30:14,  4.08s/it]Epoch  673 | Step   9423/ 28000 | Loss: 1.316286 | LR: 7.52e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  673 | Avg Loss: 1.316082 | LR: 7.51e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  34%|███▍      | 675/2000 [46:17<1:35:23,  4.32s/it]Epoch  674 | Step   9437/ 28000 | Loss: 1.319247 | LR: 7.51e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  674 | Avg Loss: 1.317216 | LR: 7.51e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  34%|███▍      | 676/2000 [46:22<1:38:56,  4.48s/it]Epoch  675 | Step   9451/ 28000 | Loss: 1.314637 | LR: 7.51e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  675 | Avg Loss: 1.316060 | LR: 7.51e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  34%|███▍      | 677/2000 [46:27<1:41:53,  4.62s/it]Epoch  676 | Step   9465/ 28000 | Loss: 1.318342 | LR: 7.51e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  676 | Avg Loss: 1.317255 | LR: 7.51e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  34%|███▍      | 678/2000 [46:31<1:43:23,  4.69s/it]Epoch  677 | Step   9479/ 28000 | Loss: 1.316106 | LR: 7.51e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  677 | Avg Loss: 1.318268 | LR: 7.51e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  34%|███▍      | 679/2000 [46:36<1:44:09,  4.73s/it]Epoch  678 | Step   9493/ 28000 | Loss: 1.314154 | LR: 7.50e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  678 | Avg Loss: 1.317038 | LR: 7.50e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  34%|███▍      | 680/2000 [46:41<1:45:41,  4.80s/it]Epoch  679 | Step   9507/ 28000 | Loss: 1.317441 | LR: 7.50e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  679 | Avg Loss: 1.317341 | LR: 7.50e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  34%|███▍      | 681/2000 [46:46<1:45:51,  4.82s/it]Epoch  680 | Step   9521/ 28000 | Loss: 1.316819 | LR: 7.50e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  680 | Avg Loss: 1.317751 | LR: 7.50e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  34%|███▍      | 682/2000 [46:51<1:46:01,  4.83s/it]Epoch  681 | Step   9535/ 28000 | Loss: 1.317124 | LR: 7.50e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  681 | Avg Loss: 1.318069 | LR: 7.50e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  34%|███▍      | 683/2000 [46:56<1:47:07,  4.88s/it]Epoch  682 | Step   9549/ 28000 | Loss: 1.315744 | LR: 7.50e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  682 | Avg Loss: 1.316590 | LR: 7.49e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  34%|███▍      | 684/2000 [47:01<1:47:00,  4.88s/it]Epoch  683 | Step   9563/ 28000 | Loss: 1.317013 | LR: 7.49e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  683 | Avg Loss: 1.317821 | LR: 7.49e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  34%|███▍      | 685/2000 [47:05<1:45:44,  4.82s/it]Epoch  684 | Step   9577/ 28000 | Loss: 1.319816 | LR: 7.49e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  684 | Avg Loss: 1.317661 | LR: 7.49e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  34%|███▍      | 686/2000 [47:10<1:46:13,  4.85s/it]Epoch  685 | Step   9591/ 28000 | Loss: 1.318968 | LR: 7.49e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  685 | Avg Loss: 1.316772 | LR: 7.49e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  34%|███▍      | 687/2000 [47:15<1:45:41,  4.83s/it]Epoch  686 | Step   9605/ 28000 | Loss: 1.315835 | LR: 7.49e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  686 | Avg Loss: 1.317061 | LR: 7.48e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  34%|███▍      | 688/2000 [47:20<1:48:21,  4.96s/it]Epoch  687 | Step   9619/ 28000 | Loss: 1.317840 | LR: 7.48e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  687 | Avg Loss: 1.317607 | LR: 7.48e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  34%|███▍      | 689/2000 [47:25<1:46:48,  4.89s/it]Epoch  688 | Step   9633/ 28000 | Loss: 1.315014 | LR: 7.48e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  688 | Avg Loss: 1.316726 | LR: 7.48e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  34%|███▍      | 690/2000 [47:30<1:47:26,  4.92s/it]Epoch  689 | Step   9647/ 28000 | Loss: 1.319790 | LR: 7.48e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  689 | Avg Loss: 1.317902 | LR: 7.48e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  35%|███▍      | 691/2000 [47:36<1:51:31,  5.11s/it]Epoch  690 | Step   9661/ 28000 | Loss: 1.317598 | LR: 7.48e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  690 | Avg Loss: 1.316757 | LR: 7.47e-04 | Time: 5.6s | Samples: 6,983
+Training Flow Model:  35%|███▍      | 692/2000 [47:40<1:48:48,  4.99s/it]Epoch  691 | Step   9675/ 28000 | Loss: 1.316794 | LR: 7.47e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  691 | Avg Loss: 1.318083 | LR: 7.47e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  35%|███▍      | 693/2000 [47:45<1:49:22,  5.02s/it]Epoch  692 | Step   9689/ 28000 | Loss: 1.319951 | LR: 7.47e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  692 | Avg Loss: 1.318405 | LR: 7.47e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  35%|███▍      | 694/2000 [47:50<1:47:53,  4.96s/it]Epoch  693 | Step   9703/ 28000 | Loss: 1.317594 | LR: 7.47e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  693 | Avg Loss: 1.317168 | LR: 7.47e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  35%|███▍      | 695/2000 [47:55<1:46:21,  4.89s/it]Epoch  694 | Step   9717/ 28000 | Loss: 1.317390 | LR: 7.47e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  694 | Avg Loss: 1.317212 | LR: 7.46e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  35%|███▍      | 696/2000 [48:00<1:46:48,  4.91s/it]Epoch  695 | Step   9731/ 28000 | Loss: 1.316931 | LR: 7.46e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  695 | Avg Loss: 1.317044 | LR: 7.46e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  35%|███▍      | 697/2000 [48:05<1:45:35,  4.86s/it]Epoch  696 | Step   9745/ 28000 | Loss: 1.317016 | LR: 7.46e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  696 | Avg Loss: 1.317449 | LR: 7.46e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  35%|███▍      | 698/2000 [48:10<1:45:59,  4.88s/it]Epoch  697 | Step   9759/ 28000 | Loss: 1.315688 | LR: 7.46e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  697 | Avg Loss: 1.317400 | LR: 7.46e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  35%|███▍      | 699/2000 [48:15<1:45:40,  4.87s/it]Epoch  698 | Step   9773/ 28000 | Loss: 1.317349 | LR: 7.46e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  698 | Avg Loss: 1.317813 | LR: 7.45e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  35%|███▌      | 700/2000 [48:19<1:45:39,  4.88s/it]Epoch  699 | Step   9787/ 28000 | Loss: 1.315240 | LR: 7.45e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  699 | Avg Loss: 1.316485 | LR: 7.45e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  35%|███▌      | 701/2000 [48:24<1:41:09,  4.67s/it]Epoch  700 | Step   9801/ 28000 | Loss: 1.317654 | LR: 7.45e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  700 | Avg Loss: 1.316906 | LR: 7.45e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  35%|███▌      | 702/2000 [48:28<1:38:10,  4.54s/it]Epoch  701 | Step   9815/ 28000 | Loss: 1.314415 | LR: 7.45e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  701 | Avg Loss: 1.316366 | LR: 7.45e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  35%|███▌      | 703/2000 [48:32<1:34:27,  4.37s/it]Epoch  702 | Step   9829/ 28000 | Loss: 1.316215 | LR: 7.45e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  702 | Avg Loss: 1.316691 | LR: 7.44e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  35%|███▌      | 704/2000 [48:36<1:31:17,  4.23s/it]Epoch  703 | Step   9843/ 28000 | Loss: 1.317803 | LR: 7.44e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  703 | Avg Loss: 1.316974 | LR: 7.44e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  35%|███▌      | 705/2000 [48:40<1:31:16,  4.23s/it]Epoch  704 | Step   9857/ 28000 | Loss: 1.311974 | LR: 7.44e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  704 | Avg Loss: 1.316833 | LR: 7.44e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  35%|███▌      | 706/2000 [48:45<1:39:14,  4.60s/it]Epoch  705 | Step   9871/ 28000 | Loss: 1.316789 | LR: 7.44e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  705 | Avg Loss: 1.317435 | LR: 7.44e-04 | Time: 5.5s | Samples: 6,983
+Training Flow Model:  35%|███▌      | 707/2000 [48:51<1:43:12,  4.79s/it]Epoch  706 | Step   9885/ 28000 | Loss: 1.319214 | LR: 7.44e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  706 | Avg Loss: 1.318349 | LR: 7.43e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  35%|███▌      | 708/2000 [48:55<1:43:06,  4.79s/it]Epoch  707 | Step   9899/ 28000 | Loss: 1.317212 | LR: 7.43e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  707 | Avg Loss: 1.317130 | LR: 7.43e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  35%|███▌      | 709/2000 [49:01<1:45:21,  4.90s/it]Epoch  708 | Step   9913/ 28000 | Loss: 1.317274 | LR: 7.43e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  708 | Avg Loss: 1.317530 | LR: 7.43e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  36%|███▌      | 710/2000 [49:06<1:48:14,  5.03s/it]Epoch  709 | Step   9927/ 28000 | Loss: 1.312857 | LR: 7.43e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  709 | Avg Loss: 1.317389 | LR: 7.43e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  36%|███▌      | 711/2000 [49:11<1:50:43,  5.15s/it]Epoch  710 | Step   9941/ 28000 | Loss: 1.315987 | LR: 7.43e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  710 | Avg Loss: 1.317534 | LR: 7.42e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  36%|███▌      | 712/2000 [49:16<1:49:07,  5.08s/it]Epoch  711 | Step   9955/ 28000 | Loss: 1.320186 | LR: 7.42e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  711 | Avg Loss: 1.317831 | LR: 7.42e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  36%|███▌      | 713/2000 [49:21<1:50:05,  5.13s/it]Epoch  712 | Step   9969/ 28000 | Loss: 1.315738 | LR: 7.42e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  712 | Avg Loss: 1.317058 | LR: 7.42e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  36%|███▌      | 714/2000 [49:27<1:52:14,  5.24s/it]Epoch  713 | Step   9983/ 28000 | Loss: 1.320737 | LR: 7.42e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  713 | Avg Loss: 1.317488 | LR: 7.41e-04 | Time: 5.5s | Samples: 6,983
+/data2/edwardsun/flow_home/cfg_dataset.py:360: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor).
+  'index': torch.tensor(idx, dtype=torch.long)
+/data2/edwardsun/flow_home/amp_flow_training_single_gpu_full_data.py:392: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast(dtype=torch.bfloat16):
+Training Flow Model:  36%|███▌      | 715/2000 [49:33<1:57:43,  5.50s/it]Epoch  714 | Step   9997/ 28000 | Loss: 1.320636 | LR: 7.41e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Validation at step 10000: Loss = 1.308089
+Epoch  714 | Avg Loss: 1.317836 | LR: 7.41e-04 | Time: 6.1s | Samples: 6,983
+Training Flow Model:  36%|███▌      | 716/2000 [49:38<1:56:16,  5.43s/it]Epoch  715 | Step  10011/ 28000 | Loss: 1.319055 | LR: 7.41e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  715 | Avg Loss: 1.317256 | LR: 7.41e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  36%|███▌      | 717/2000 [49:43<1:51:56,  5.24s/it]Epoch  716 | Step  10025/ 28000 | Loss: 1.314579 | LR: 7.41e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  716 | Avg Loss: 1.317699 | LR: 7.41e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  36%|███▌      | 718/2000 [49:48<1:52:02,  5.24s/it]Epoch  717 | Step  10039/ 28000 | Loss: 1.314701 | LR: 7.41e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  717 | Avg Loss: 1.318156 | LR: 7.40e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  36%|███▌      | 719/2000 [49:54<1:54:04,  5.34s/it]Epoch  718 | Step  10053/ 28000 | Loss: 1.314878 | LR: 7.40e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  718 | Avg Loss: 1.317842 | LR: 7.40e-04 | Time: 5.6s | Samples: 6,983
+Training Flow Model:  36%|███▌      | 720/2000 [49:59<1:52:14,  5.26s/it]Epoch  719 | Step  10067/ 28000 | Loss: 1.317935 | LR: 7.40e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  719 | Avg Loss: 1.316464 | LR: 7.40e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  36%|███▌      | 721/2000 [50:04<1:49:45,  5.15s/it]Epoch  720 | Step  10081/ 28000 | Loss: 1.315854 | LR: 7.40e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  720 | Avg Loss: 1.317813 | LR: 7.40e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  36%|███▌      | 722/2000 [50:09<1:50:08,  5.17s/it]Epoch  721 | Step  10095/ 28000 | Loss: 1.317036 | LR: 7.40e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  721 | Avg Loss: 1.317016 | LR: 7.39e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  36%|███▌      | 723/2000 [50:15<1:51:10,  5.22s/it]Epoch  722 | Step  10109/ 28000 | Loss: 1.320434 | LR: 7.39e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  722 | Avg Loss: 1.317754 | LR: 7.39e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  36%|███▌      | 724/2000 [50:20<1:50:16,  5.19s/it]Epoch  723 | Step  10123/ 28000 | Loss: 1.319304 | LR: 7.39e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  723 | Avg Loss: 1.317476 | LR: 7.39e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  36%|███▋      | 725/2000 [50:24<1:47:55,  5.08s/it]Epoch  724 | Step  10137/ 28000 | Loss: 1.316874 | LR: 7.39e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  724 | Avg Loss: 1.317071 | LR: 7.39e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  36%|███▋      | 726/2000 [50:30<1:50:04,  5.18s/it]Epoch  725 | Step  10151/ 28000 | Loss: 1.321362 | LR: 7.39e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  725 | Avg Loss: 1.317789 | LR: 7.38e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  36%|███▋      | 727/2000 [50:34<1:43:16,  4.87s/it]Epoch  726 | Step  10165/ 28000 | Loss: 1.322070 | LR: 7.38e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  726 | Avg Loss: 1.317735 | LR: 7.38e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  36%|███▋      | 728/2000 [50:38<1:39:12,  4.68s/it]Epoch  727 | Step  10179/ 28000 | Loss: 1.317166 | LR: 7.38e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  727 | Avg Loss: 1.317165 | LR: 7.38e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  36%|███▋      | 729/2000 [50:42<1:34:04,  4.44s/it]Epoch  728 | Step  10193/ 28000 | Loss: 1.317443 | LR: 7.38e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  728 | Avg Loss: 1.316243 | LR: 7.38e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  36%|███▋      | 730/2000 [50:46<1:30:59,  4.30s/it]Epoch  729 | Step  10207/ 28000 | Loss: 1.316391 | LR: 7.38e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  729 | Avg Loss: 1.316883 | LR: 7.37e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 731/2000 [50:50<1:28:14,  4.17s/it]Epoch  730 | Step  10221/ 28000 | Loss: 1.317350 | LR: 7.37e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  730 | Avg Loss: 1.317542 | LR: 7.37e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 732/2000 [50:54<1:26:45,  4.10s/it]Epoch  731 | Step  10235/ 28000 | Loss: 1.316833 | LR: 7.37e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  731 | Avg Loss: 1.318610 | LR: 7.37e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 733/2000 [50:58<1:26:54,  4.12s/it]Epoch  732 | Step  10249/ 28000 | Loss: 1.313769 | LR: 7.37e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  732 | Avg Loss: 1.315787 | LR: 7.36e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 734/2000 [51:02<1:25:28,  4.05s/it]Epoch  733 | Step  10263/ 28000 | Loss: 1.316306 | LR: 7.36e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  733 | Avg Loss: 1.317640 | LR: 7.36e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 735/2000 [51:06<1:26:12,  4.09s/it]Epoch  734 | Step  10277/ 28000 | Loss: 1.321400 | LR: 7.36e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  734 | Avg Loss: 1.317526 | LR: 7.36e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 736/2000 [51:10<1:25:24,  4.05s/it]Epoch  735 | Step  10291/ 28000 | Loss: 1.317423 | LR: 7.36e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  735 | Avg Loss: 1.317103 | LR: 7.36e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 737/2000 [51:14<1:24:18,  4.01s/it]Epoch  736 | Step  10305/ 28000 | Loss: 1.315767 | LR: 7.36e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  736 | Avg Loss: 1.317811 | LR: 7.35e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 738/2000 [51:18<1:23:39,  3.98s/it]Epoch  737 | Step  10319/ 28000 | Loss: 1.319105 | LR: 7.35e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  737 | Avg Loss: 1.317449 | LR: 7.35e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 739/2000 [51:22<1:23:25,  3.97s/it]Epoch  738 | Step  10333/ 28000 | Loss: 1.320497 | LR: 7.35e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  738 | Avg Loss: 1.318706 | LR: 7.35e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 740/2000 [51:26<1:22:58,  3.95s/it]Epoch  739 | Step  10347/ 28000 | Loss: 1.318826 | LR: 7.35e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  739 | Avg Loss: 1.317050 | LR: 7.35e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 741/2000 [51:30<1:22:59,  3.96s/it]Epoch  740 | Step  10361/ 28000 | Loss: 1.316553 | LR: 7.35e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  740 | Avg Loss: 1.317077 | LR: 7.34e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 742/2000 [51:34<1:22:38,  3.94s/it]Epoch  741 | Step  10375/ 28000 | Loss: 1.316881 | LR: 7.34e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  741 | Avg Loss: 1.316901 | LR: 7.34e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 743/2000 [51:38<1:22:18,  3.93s/it]Epoch  742 | Step  10389/ 28000 | Loss: 1.317515 | LR: 7.34e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  742 | Avg Loss: 1.317231 | LR: 7.34e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 744/2000 [51:42<1:23:19,  3.98s/it]Epoch  743 | Step  10403/ 28000 | Loss: 1.319978 | LR: 7.34e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  743 | Avg Loss: 1.317458 | LR: 7.34e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 745/2000 [51:46<1:22:34,  3.95s/it]Epoch  744 | Step  10417/ 28000 | Loss: 1.315110 | LR: 7.33e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  744 | Avg Loss: 1.317099 | LR: 7.33e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 746/2000 [51:49<1:22:41,  3.96s/it]Epoch  745 | Step  10431/ 28000 | Loss: 1.315873 | LR: 7.33e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  745 | Avg Loss: 1.317042 | LR: 7.33e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 747/2000 [51:53<1:22:39,  3.96s/it]Epoch  746 | Step  10445/ 28000 | Loss: 1.319307 | LR: 7.33e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  746 | Avg Loss: 1.317524 | LR: 7.33e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 748/2000 [51:57<1:22:22,  3.95s/it]Epoch  747 | Step  10459/ 28000 | Loss: 1.317151 | LR: 7.33e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  747 | Avg Loss: 1.317694 | LR: 7.32e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  37%|███▋      | 749/2000 [52:01<1:23:21,  4.00s/it]Epoch  748 | Step  10473/ 28000 | Loss: 1.316255 | LR: 7.32e-04 | Speed: 3.4 steps/s | ETA: 1.5h
+Epoch  748 | Avg Loss: 1.317544 | LR: 7.32e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 750/2000 [52:05<1:22:39,  3.97s/it]Epoch  749 | Step  10487/ 28000 | Loss: 1.316676 | LR: 7.32e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  749 | Avg Loss: 1.318481 | LR: 7.32e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 751/2000 [52:09<1:21:22,  3.91s/it]Epoch  750 | Step  10501/ 28000 | Loss: 1.320804 | LR: 7.32e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  750 | Avg Loss: 1.317397 | LR: 7.32e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 752/2000 [52:13<1:21:01,  3.90s/it]Epoch  751 | Step  10515/ 28000 | Loss: 1.320106 | LR: 7.32e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  751 | Avg Loss: 1.319079 | LR: 7.31e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 753/2000 [52:17<1:21:47,  3.94s/it]Epoch  752 | Step  10529/ 28000 | Loss: 1.316014 | LR: 7.31e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  752 | Avg Loss: 1.317105 | LR: 7.31e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 754/2000 [52:21<1:22:17,  3.96s/it]Epoch  753 | Step  10543/ 28000 | Loss: 1.318815 | LR: 7.31e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  753 | Avg Loss: 1.318451 | LR: 7.31e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 755/2000 [52:25<1:22:11,  3.96s/it]Epoch  754 | Step  10557/ 28000 | Loss: 1.317803 | LR: 7.31e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  754 | Avg Loss: 1.317147 | LR: 7.30e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 756/2000 [52:29<1:22:30,  3.98s/it]Epoch  755 | Step  10571/ 28000 | Loss: 1.314124 | LR: 7.30e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  755 | Avg Loss: 1.317423 | LR: 7.30e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 757/2000 [52:33<1:22:13,  3.97s/it]Epoch  756 | Step  10585/ 28000 | Loss: 1.319786 | LR: 7.30e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  756 | Avg Loss: 1.316677 | LR: 7.30e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 758/2000 [52:37<1:21:52,  3.96s/it]Epoch  757 | Step  10599/ 28000 | Loss: 1.317506 | LR: 7.30e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  757 | Avg Loss: 1.315893 | LR: 7.30e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 759/2000 [52:41<1:22:23,  3.98s/it]Epoch  758 | Step  10613/ 28000 | Loss: 1.316743 | LR: 7.30e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  758 | Avg Loss: 1.317651 | LR: 7.29e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 760/2000 [52:45<1:22:02,  3.97s/it]Epoch  759 | Step  10627/ 28000 | Loss: 1.316326 | LR: 7.29e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  759 | Avg Loss: 1.316834 | LR: 7.29e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 761/2000 [52:49<1:21:45,  3.96s/it]Epoch  760 | Step  10641/ 28000 | Loss: 1.319273 | LR: 7.29e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  760 | Avg Loss: 1.316783 | LR: 7.29e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 762/2000 [52:53<1:20:55,  3.92s/it]Epoch  761 | Step  10655/ 28000 | Loss: 1.318818 | LR: 7.29e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  761 | Avg Loss: 1.317258 | LR: 7.29e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 763/2000 [52:57<1:20:41,  3.91s/it]Epoch  762 | Step  10669/ 28000 | Loss: 1.320075 | LR: 7.29e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  762 | Avg Loss: 1.317680 | LR: 7.28e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 764/2000 [53:01<1:20:51,  3.93s/it]Epoch  763 | Step  10683/ 28000 | Loss: 1.320128 | LR: 7.28e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  763 | Avg Loss: 1.316553 | LR: 7.28e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 765/2000 [53:05<1:21:22,  3.95s/it]Epoch  764 | Step  10697/ 28000 | Loss: 1.316730 | LR: 7.28e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  764 | Avg Loss: 1.317496 | LR: 7.28e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 766/2000 [53:09<1:21:35,  3.97s/it]Epoch  765 | Step  10711/ 28000 | Loss: 1.314728 | LR: 7.28e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  765 | Avg Loss: 1.317593 | LR: 7.27e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 767/2000 [53:12<1:20:27,  3.92s/it]Epoch  766 | Step  10725/ 28000 | Loss: 1.318087 | LR: 7.27e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  766 | Avg Loss: 1.317244 | LR: 7.27e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 768/2000 [53:17<1:22:25,  4.01s/it]Epoch  767 | Step  10739/ 28000 | Loss: 1.319049 | LR: 7.27e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  767 | Avg Loss: 1.317988 | LR: 7.27e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 769/2000 [53:21<1:21:48,  3.99s/it]Epoch  768 | Step  10753/ 28000 | Loss: 1.318138 | LR: 7.27e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  768 | Avg Loss: 1.317633 | LR: 7.27e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  38%|███▊      | 770/2000 [53:24<1:21:28,  3.97s/it]Epoch  769 | Step  10767/ 28000 | Loss: 1.319481 | LR: 7.27e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  769 | Avg Loss: 1.316941 | LR: 7.26e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  39%|███▊      | 771/2000 [53:28<1:21:23,  3.97s/it]Epoch  770 | Step  10781/ 28000 | Loss: 1.318112 | LR: 7.26e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  770 | Avg Loss: 1.318218 | LR: 7.26e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  39%|███▊      | 772/2000 [53:32<1:21:22,  3.98s/it]Epoch  771 | Step  10795/ 28000 | Loss: 1.316181 | LR: 7.26e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  771 | Avg Loss: 1.317014 | LR: 7.26e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  39%|███▊      | 773/2000 [53:37<1:23:12,  4.07s/it]Epoch  772 | Step  10809/ 28000 | Loss: 1.315977 | LR: 7.26e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  772 | Avg Loss: 1.317523 | LR: 7.25e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  39%|███▊      | 774/2000 [53:41<1:22:18,  4.03s/it]Epoch  773 | Step  10823/ 28000 | Loss: 1.317889 | LR: 7.25e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  773 | Avg Loss: 1.317564 | LR: 7.25e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  39%|███▉      | 775/2000 [53:45<1:21:54,  4.01s/it]Epoch  774 | Step  10837/ 28000 | Loss: 1.317900 | LR: 7.25e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  774 | Avg Loss: 1.316433 | LR: 7.25e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  39%|███▉      | 776/2000 [53:48<1:20:31,  3.95s/it]Epoch  775 | Step  10851/ 28000 | Loss: 1.318726 | LR: 7.25e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  775 | Avg Loss: 1.318228 | LR: 7.25e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  39%|███▉      | 777/2000 [53:52<1:19:57,  3.92s/it]Epoch  776 | Step  10865/ 28000 | Loss: 1.313180 | LR: 7.25e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  776 | Avg Loss: 1.316966 | LR: 7.24e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  39%|███▉      | 778/2000 [53:56<1:20:31,  3.95s/it]Epoch  777 | Step  10879/ 28000 | Loss: 1.314241 | LR: 7.24e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  777 | Avg Loss: 1.316934 | LR: 7.24e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  39%|███▉      | 779/2000 [54:00<1:20:00,  3.93s/it]Epoch  778 | Step  10893/ 28000 | Loss: 1.315756 | LR: 7.24e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  778 | Avg Loss: 1.316876 | LR: 7.24e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  39%|███▉      | 780/2000 [54:04<1:21:38,  4.02s/it]Epoch  779 | Step  10907/ 28000 | Loss: 1.316524 | LR: 7.24e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  779 | Avg Loss: 1.317248 | LR: 7.23e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  39%|███▉      | 781/2000 [54:08<1:21:20,  4.00s/it]Epoch  780 | Step  10921/ 28000 | Loss: 1.317030 | LR: 7.23e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  780 | Avg Loss: 1.316352 | LR: 7.23e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  39%|███▉      | 782/2000 [54:12<1:20:40,  3.97s/it]Epoch  781 | Step  10935/ 28000 | Loss: 1.319566 | LR: 7.23e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  781 | Avg Loss: 1.317317 | LR: 7.23e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  39%|███▉      | 783/2000 [54:16<1:20:29,  3.97s/it]Epoch  782 | Step  10949/ 28000 | Loss: 1.317130 | LR: 7.23e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  782 | Avg Loss: 1.317484 | LR: 7.23e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  39%|███▉      | 784/2000 [54:20<1:19:52,  3.94s/it]Epoch  783 | Step  10963/ 28000 | Loss: 1.318295 | LR: 7.23e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  783 | Avg Loss: 1.316183 | LR: 7.22e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  39%|███▉      | 785/2000 [54:24<1:19:59,  3.95s/it]Epoch  784 | Step  10977/ 28000 | Loss: 1.317931 | LR: 7.22e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  784 | Avg Loss: 1.317493 | LR: 7.22e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  39%|███▉      | 786/2000 [54:28<1:20:51,  4.00s/it]Epoch  785 | Step  10991/ 28000 | Loss: 1.316658 | LR: 7.22e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  785 | Avg Loss: 1.317256 | LR: 7.22e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  39%|███▉      | 787/2000 [54:32<1:20:16,  3.97s/it]Epoch  786 | Step  11005/ 28000 | Loss: 1.315722 | LR: 7.22e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  786 | Avg Loss: 1.317856 | LR: 7.21e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  39%|███▉      | 788/2000 [54:36<1:20:19,  3.98s/it]Epoch  787 | Step  11019/ 28000 | Loss: 1.318389 | LR: 7.21e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  787 | Avg Loss: 1.317368 | LR: 7.21e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  39%|███▉      | 789/2000 [54:40<1:20:45,  4.00s/it]Epoch  788 | Step  11033/ 28000 | Loss: 1.315731 | LR: 7.21e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  788 | Avg Loss: 1.317140 | LR: 7.21e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  40%|███▉      | 790/2000 [54:44<1:20:18,  3.98s/it]Epoch  789 | Step  11047/ 28000 | Loss: 1.318860 | LR: 7.21e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  789 | Avg Loss: 1.318258 | LR: 7.21e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  40%|███▉      | 791/2000 [54:48<1:19:36,  3.95s/it]Epoch  790 | Step  11061/ 28000 | Loss: 1.313873 | LR: 7.20e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  790 | Avg Loss: 1.316902 | LR: 7.20e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  40%|███▉      | 792/2000 [54:52<1:19:48,  3.96s/it]Epoch  791 | Step  11075/ 28000 | Loss: 1.318048 | LR: 7.20e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  791 | Avg Loss: 1.316650 | LR: 7.20e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  40%|███▉      | 793/2000 [54:56<1:19:41,  3.96s/it]Epoch  792 | Step  11089/ 28000 | Loss: 1.317307 | LR: 7.20e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  792 | Avg Loss: 1.317447 | LR: 7.20e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  40%|███▉      | 794/2000 [55:00<1:18:56,  3.93s/it]Epoch  793 | Step  11103/ 28000 | Loss: 1.318377 | LR: 7.20e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  793 | Avg Loss: 1.316862 | LR: 7.19e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  40%|███▉      | 795/2000 [55:04<1:18:12,  3.89s/it]Epoch  794 | Step  11117/ 28000 | Loss: 1.317579 | LR: 7.19e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  794 | Avg Loss: 1.317707 | LR: 7.19e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  40%|███▉      | 796/2000 [55:08<1:19:09,  3.95s/it]Epoch  795 | Step  11131/ 28000 | Loss: 1.319761 | LR: 7.19e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  795 | Avg Loss: 1.317373 | LR: 7.19e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  40%|███▉      | 797/2000 [55:11<1:18:37,  3.92s/it]Epoch  796 | Step  11145/ 28000 | Loss: 1.318157 | LR: 7.19e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  796 | Avg Loss: 1.316201 | LR: 7.18e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  40%|███▉      | 798/2000 [55:15<1:18:18,  3.91s/it]Epoch  797 | Step  11159/ 28000 | Loss: 1.319230 | LR: 7.18e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  797 | Avg Loss: 1.317342 | LR: 7.18e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  40%|███▉      | 799/2000 [55:19<1:18:19,  3.91s/it]Epoch  798 | Step  11173/ 28000 | Loss: 1.314485 | LR: 7.18e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  798 | Avg Loss: 1.316821 | LR: 7.18e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  40%|████      | 800/2000 [55:23<1:18:50,  3.94s/it]Epoch  799 | Step  11187/ 28000 | Loss: 1.319948 | LR: 7.18e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  799 | Avg Loss: 1.318091 | LR: 7.18e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  40%|████      | 801/2000 [55:27<1:19:01,  3.95s/it]Epoch  800 | Step  11201/ 28000 | Loss: 1.318659 | LR: 7.18e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  800 | Avg Loss: 1.317593 | LR: 7.17e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  40%|████      | 802/2000 [55:31<1:18:08,  3.91s/it]Epoch  801 | Step  11215/ 28000 | Loss: 1.316820 | LR: 7.17e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  801 | Avg Loss: 1.317647 | LR: 7.17e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  40%|████      | 803/2000 [55:35<1:17:58,  3.91s/it]Epoch  802 | Step  11229/ 28000 | Loss: 1.319092 | LR: 7.17e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  802 | Avg Loss: 1.318330 | LR: 7.17e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  40%|████      | 804/2000 [55:39<1:17:17,  3.88s/it]Epoch  803 | Step  11243/ 28000 | Loss: 1.315756 | LR: 7.17e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  803 | Avg Loss: 1.316925 | LR: 7.16e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  40%|████      | 805/2000 [55:43<1:18:04,  3.92s/it]Epoch  804 | Step  11257/ 28000 | Loss: 1.317186 | LR: 7.16e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  804 | Avg Loss: 1.317326 | LR: 7.16e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  40%|████      | 806/2000 [55:47<1:17:02,  3.87s/it]Epoch  805 | Step  11271/ 28000 | Loss: 1.313874 | LR: 7.16e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  805 | Avg Loss: 1.316902 | LR: 7.16e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  40%|████      | 807/2000 [55:51<1:17:26,  3.90s/it]Epoch  806 | Step  11285/ 28000 | Loss: 1.315147 | LR: 7.16e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  806 | Avg Loss: 1.317832 | LR: 7.15e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  40%|████      | 808/2000 [55:55<1:18:01,  3.93s/it]Epoch  807 | Step  11299/ 28000 | Loss: 1.318382 | LR: 7.15e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  807 | Avg Loss: 1.318749 | LR: 7.15e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  40%|████      | 809/2000 [55:59<1:19:48,  4.02s/it]Epoch  808 | Step  11313/ 28000 | Loss: 1.315375 | LR: 7.15e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  808 | Avg Loss: 1.316906 | LR: 7.15e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  40%|████      | 810/2000 [56:03<1:19:21,  4.00s/it]Epoch  809 | Step  11327/ 28000 | Loss: 1.319259 | LR: 7.15e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  809 | Avg Loss: 1.318383 | LR: 7.15e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  41%|████      | 811/2000 [56:07<1:18:29,  3.96s/it]Epoch  810 | Step  11341/ 28000 | Loss: 1.316797 | LR: 7.15e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  810 | Avg Loss: 1.317826 | LR: 7.14e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  41%|████      | 812/2000 [56:11<1:20:32,  4.07s/it]Epoch  811 | Step  11355/ 28000 | Loss: 1.319965 | LR: 7.14e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  811 | Avg Loss: 1.317173 | LR: 7.14e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  41%|████      | 813/2000 [56:15<1:20:14,  4.06s/it]Epoch  812 | Step  11369/ 28000 | Loss: 1.313420 | LR: 7.14e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  812 | Avg Loss: 1.316429 | LR: 7.14e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  41%|████      | 814/2000 [56:19<1:20:13,  4.06s/it]Epoch  813 | Step  11383/ 28000 | Loss: 1.318015 | LR: 7.14e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  813 | Avg Loss: 1.317266 | LR: 7.13e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  41%|████      | 815/2000 [56:23<1:21:44,  4.14s/it]Epoch  814 | Step  11397/ 28000 | Loss: 1.315491 | LR: 7.13e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  814 | Avg Loss: 1.318055 | LR: 7.13e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  41%|████      | 816/2000 [56:27<1:20:03,  4.06s/it]Epoch  815 | Step  11411/ 28000 | Loss: 1.315832 | LR: 7.13e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  815 | Avg Loss: 1.317536 | LR: 7.13e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  41%|████      | 817/2000 [56:31<1:18:43,  3.99s/it]Epoch  816 | Step  11425/ 28000 | Loss: 1.320021 | LR: 7.13e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  816 | Avg Loss: 1.316785 | LR: 7.12e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  41%|████      | 818/2000 [56:35<1:17:51,  3.95s/it]Epoch  817 | Step  11439/ 28000 | Loss: 1.318794 | LR: 7.12e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  817 | Avg Loss: 1.317264 | LR: 7.12e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  41%|████      | 819/2000 [56:39<1:16:35,  3.89s/it]Epoch  818 | Step  11453/ 28000 | Loss: 1.319327 | LR: 7.12e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  818 | Avg Loss: 1.317743 | LR: 7.12e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  41%|████      | 820/2000 [56:43<1:16:36,  3.90s/it]Epoch  819 | Step  11467/ 28000 | Loss: 1.317450 | LR: 7.12e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  819 | Avg Loss: 1.316078 | LR: 7.12e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  41%|████      | 821/2000 [56:46<1:16:33,  3.90s/it]Epoch  820 | Step  11481/ 28000 | Loss: 1.321015 | LR: 7.12e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  820 | Avg Loss: 1.318836 | LR: 7.11e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  41%|████      | 822/2000 [56:50<1:16:25,  3.89s/it]Epoch  821 | Step  11495/ 28000 | Loss: 1.316926 | LR: 7.11e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  821 | Avg Loss: 1.317010 | LR: 7.11e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  41%|████      | 823/2000 [56:54<1:16:54,  3.92s/it]Epoch  822 | Step  11509/ 28000 | Loss: 1.321436 | LR: 7.11e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  822 | Avg Loss: 1.318639 | LR: 7.11e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  41%|████      | 824/2000 [56:58<1:18:10,  3.99s/it]Epoch  823 | Step  11523/ 28000 | Loss: 1.316668 | LR: 7.11e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  823 | Avg Loss: 1.317253 | LR: 7.10e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  41%|████▏     | 825/2000 [57:02<1:17:25,  3.95s/it]Epoch  824 | Step  11537/ 28000 | Loss: 1.317733 | LR: 7.10e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  824 | Avg Loss: 1.316320 | LR: 7.10e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  41%|████▏     | 826/2000 [57:06<1:16:56,  3.93s/it]Epoch  825 | Step  11551/ 28000 | Loss: 1.320269 | LR: 7.10e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  825 | Avg Loss: 1.316722 | LR: 7.10e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  41%|████▏     | 827/2000 [57:10<1:16:11,  3.90s/it]Epoch  826 | Step  11565/ 28000 | Loss: 1.317860 | LR: 7.10e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  826 | Avg Loss: 1.317235 | LR: 7.09e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  41%|████▏     | 828/2000 [57:14<1:15:48,  3.88s/it]Epoch  827 | Step  11579/ 28000 | Loss: 1.313377 | LR: 7.09e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  827 | Avg Loss: 1.317532 | LR: 7.09e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  41%|████▏     | 829/2000 [57:18<1:16:04,  3.90s/it]Epoch  828 | Step  11593/ 28000 | Loss: 1.315859 | LR: 7.09e-04 | Speed: 3.4 steps/s | ETA: 1.4h
+Epoch  828 | Avg Loss: 1.317225 | LR: 7.09e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 830/2000 [57:22<1:16:00,  3.90s/it]Epoch  829 | Step  11607/ 28000 | Loss: 1.316594 | LR: 7.09e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  829 | Avg Loss: 1.317572 | LR: 7.08e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 831/2000 [57:26<1:15:33,  3.88s/it]Epoch  830 | Step  11621/ 28000 | Loss: 1.318419 | LR: 7.08e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  830 | Avg Loss: 1.317348 | LR: 7.08e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 832/2000 [57:29<1:15:30,  3.88s/it]Epoch  831 | Step  11635/ 28000 | Loss: 1.316952 | LR: 7.08e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  831 | Avg Loss: 1.316542 | LR: 7.08e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 833/2000 [57:33<1:15:27,  3.88s/it]Epoch  832 | Step  11649/ 28000 | Loss: 1.318637 | LR: 7.08e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  832 | Avg Loss: 1.317324 | LR: 7.08e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 834/2000 [57:37<1:15:34,  3.89s/it]Epoch  833 | Step  11663/ 28000 | Loss: 1.315587 | LR: 7.08e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  833 | Avg Loss: 1.316566 | LR: 7.07e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 835/2000 [57:41<1:15:49,  3.91s/it]Epoch  834 | Step  11677/ 28000 | Loss: 1.316401 | LR: 7.07e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  834 | Avg Loss: 1.317988 | LR: 7.07e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 836/2000 [57:45<1:15:03,  3.87s/it]Epoch  835 | Step  11691/ 28000 | Loss: 1.318500 | LR: 7.07e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  835 | Avg Loss: 1.317252 | LR: 7.07e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 837/2000 [57:49<1:15:35,  3.90s/it]Epoch  836 | Step  11705/ 28000 | Loss: 1.315691 | LR: 7.07e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  836 | Avg Loss: 1.316520 | LR: 7.06e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 838/2000 [57:53<1:15:43,  3.91s/it]Epoch  837 | Step  11719/ 28000 | Loss: 1.316689 | LR: 7.06e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  837 | Avg Loss: 1.317361 | LR: 7.06e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 839/2000 [57:57<1:18:04,  4.03s/it]Epoch  838 | Step  11733/ 28000 | Loss: 1.312922 | LR: 7.06e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  838 | Avg Loss: 1.316535 | LR: 7.06e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 840/2000 [58:01<1:17:26,  4.01s/it]Epoch  839 | Step  11747/ 28000 | Loss: 1.317132 | LR: 7.06e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  839 | Avg Loss: 1.315855 | LR: 7.05e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 841/2000 [58:05<1:16:02,  3.94s/it]Epoch  840 | Step  11761/ 28000 | Loss: 1.316000 | LR: 7.05e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  840 | Avg Loss: 1.318404 | LR: 7.05e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 842/2000 [58:09<1:15:47,  3.93s/it]Epoch  841 | Step  11775/ 28000 | Loss: 1.316724 | LR: 7.05e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  841 | Avg Loss: 1.317778 | LR: 7.05e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 843/2000 [58:13<1:15:40,  3.92s/it]Epoch  842 | Step  11789/ 28000 | Loss: 1.322577 | LR: 7.05e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  842 | Avg Loss: 1.318747 | LR: 7.04e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 844/2000 [58:17<1:15:18,  3.91s/it]Epoch  843 | Step  11803/ 28000 | Loss: 1.316763 | LR: 7.04e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  843 | Avg Loss: 1.317046 | LR: 7.04e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 845/2000 [58:20<1:15:12,  3.91s/it]Epoch  844 | Step  11817/ 28000 | Loss: 1.316737 | LR: 7.04e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  844 | Avg Loss: 1.317580 | LR: 7.04e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 846/2000 [58:24<1:13:53,  3.84s/it]Epoch  845 | Step  11831/ 28000 | Loss: 1.317258 | LR: 7.04e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  845 | Avg Loss: 1.317614 | LR: 7.04e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 847/2000 [58:28<1:14:00,  3.85s/it]Epoch  846 | Step  11845/ 28000 | Loss: 1.316362 | LR: 7.03e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  846 | Avg Loss: 1.316640 | LR: 7.03e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 848/2000 [58:32<1:13:39,  3.84s/it]Epoch  847 | Step  11859/ 28000 | Loss: 1.316312 | LR: 7.03e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  847 | Avg Loss: 1.318012 | LR: 7.03e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  42%|████▏     | 849/2000 [58:36<1:13:58,  3.86s/it]Epoch  848 | Step  11873/ 28000 | Loss: 1.319130 | LR: 7.03e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  848 | Avg Loss: 1.317537 | LR: 7.03e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  42%|████▎     | 850/2000 [58:40<1:15:04,  3.92s/it]Epoch  849 | Step  11887/ 28000 | Loss: 1.320654 | LR: 7.03e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  849 | Avg Loss: 1.317523 | LR: 7.02e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 851/2000 [58:44<1:14:59,  3.92s/it]Epoch  850 | Step  11901/ 28000 | Loss: 1.315431 | LR: 7.02e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  850 | Avg Loss: 1.316008 | LR: 7.02e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 852/2000 [58:48<1:14:26,  3.89s/it]Epoch  851 | Step  11915/ 28000 | Loss: 1.314249 | LR: 7.02e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  851 | Avg Loss: 1.317180 | LR: 7.02e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 853/2000 [58:51<1:14:24,  3.89s/it]Epoch  852 | Step  11929/ 28000 | Loss: 1.318201 | LR: 7.02e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  852 | Avg Loss: 1.317956 | LR: 7.01e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 854/2000 [58:55<1:13:29,  3.85s/it]Epoch  853 | Step  11943/ 28000 | Loss: 1.318915 | LR: 7.01e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  853 | Avg Loss: 1.317153 | LR: 7.01e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 855/2000 [58:59<1:13:36,  3.86s/it]Epoch  854 | Step  11957/ 28000 | Loss: 1.316753 | LR: 7.01e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  854 | Avg Loss: 1.316016 | LR: 7.01e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 856/2000 [59:03<1:16:03,  3.99s/it]Epoch  855 | Step  11971/ 28000 | Loss: 1.316975 | LR: 7.01e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  855 | Avg Loss: 1.317108 | LR: 7.00e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 857/2000 [59:07<1:15:13,  3.95s/it]Epoch  856 | Step  11985/ 28000 | Loss: 1.317582 | LR: 7.00e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  856 | Avg Loss: 1.317633 | LR: 7.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 858/2000 [59:11<1:14:38,  3.92s/it]Epoch  857 | Step  11999/ 28000 | Loss: 1.316161 | LR: 7.00e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  857 | Avg Loss: 1.316695 | LR: 7.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 859/2000 [59:15<1:14:51,  3.94s/it]Epoch  858 | Step  12013/ 28000 | Loss: 1.316587 | LR: 7.00e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  858 | Avg Loss: 1.317706 | LR: 6.99e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 860/2000 [59:19<1:14:58,  3.95s/it]Epoch  859 | Step  12027/ 28000 | Loss: 1.314273 | LR: 6.99e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  859 | Avg Loss: 1.316249 | LR: 6.99e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 861/2000 [59:23<1:16:31,  4.03s/it]Epoch  860 | Step  12041/ 28000 | Loss: 1.319069 | LR: 6.99e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  860 | Avg Loss: 1.316733 | LR: 6.99e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 862/2000 [59:27<1:16:20,  4.02s/it]Epoch  861 | Step  12055/ 28000 | Loss: 1.318488 | LR: 6.99e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  861 | Avg Loss: 1.316975 | LR: 6.98e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 863/2000 [59:32<1:20:56,  4.27s/it]Epoch  862 | Step  12069/ 28000 | Loss: 1.315333 | LR: 6.98e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  862 | Avg Loss: 1.317160 | LR: 6.98e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 864/2000 [59:37<1:22:56,  4.38s/it]Epoch  863 | Step  12083/ 28000 | Loss: 1.316031 | LR: 6.98e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  863 | Avg Loss: 1.317481 | LR: 6.98e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 865/2000 [59:42<1:25:38,  4.53s/it]Epoch  864 | Step  12097/ 28000 | Loss: 1.317703 | LR: 6.98e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  864 | Avg Loss: 1.317673 | LR: 6.97e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 866/2000 [59:47<1:27:34,  4.63s/it]Epoch  865 | Step  12111/ 28000 | Loss: 1.314874 | LR: 6.97e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  865 | Avg Loss: 1.317532 | LR: 6.97e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 867/2000 [59:51<1:28:19,  4.68s/it]Epoch  866 | Step  12125/ 28000 | Loss: 1.317679 | LR: 6.97e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  866 | Avg Loss: 1.318069 | LR: 6.97e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 868/2000 [59:56<1:29:14,  4.73s/it]Epoch  867 | Step  12139/ 28000 | Loss: 1.320258 | LR: 6.97e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  867 | Avg Loss: 1.317453 | LR: 6.97e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  43%|████▎     | 869/2000 [1:00:01<1:30:19,  4.79s/it]Epoch  868 | Step  12153/ 28000 | Loss: 1.317664 | LR: 6.97e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  868 | Avg Loss: 1.317443 | LR: 6.96e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  44%|████▎     | 870/2000 [1:00:06<1:30:30,  4.81s/it]Epoch  869 | Step  12167/ 28000 | Loss: 1.322166 | LR: 6.96e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  869 | Avg Loss: 1.317365 | LR: 6.96e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  44%|████▎     | 871/2000 [1:00:11<1:30:27,  4.81s/it]Epoch  870 | Step  12181/ 28000 | Loss: 1.316927 | LR: 6.96e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  870 | Avg Loss: 1.317827 | LR: 6.96e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  44%|████▎     | 872/2000 [1:00:16<1:31:50,  4.89s/it]Epoch  871 | Step  12195/ 28000 | Loss: 1.317715 | LR: 6.96e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  871 | Avg Loss: 1.317734 | LR: 6.95e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  44%|████▎     | 873/2000 [1:00:21<1:31:09,  4.85s/it]Epoch  872 | Step  12209/ 28000 | Loss: 1.315256 | LR: 6.95e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  872 | Avg Loss: 1.317533 | LR: 6.95e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  44%|████▎     | 874/2000 [1:00:26<1:33:11,  4.97s/it]Epoch  873 | Step  12223/ 28000 | Loss: 1.316085 | LR: 6.95e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  873 | Avg Loss: 1.317016 | LR: 6.95e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  44%|████▍     | 875/2000 [1:00:31<1:32:32,  4.94s/it]Epoch  874 | Step  12237/ 28000 | Loss: 1.316045 | LR: 6.95e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  874 | Avg Loss: 1.317765 | LR: 6.94e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  44%|████▍     | 876/2000 [1:00:35<1:31:53,  4.91s/it]Epoch  875 | Step  12251/ 28000 | Loss: 1.316961 | LR: 6.94e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  875 | Avg Loss: 1.317786 | LR: 6.94e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  44%|████▍     | 877/2000 [1:00:40<1:31:28,  4.89s/it]Epoch  876 | Step  12265/ 28000 | Loss: 1.316073 | LR: 6.94e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  876 | Avg Loss: 1.317344 | LR: 6.94e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  44%|████▍     | 878/2000 [1:00:45<1:31:18,  4.88s/it]Epoch  877 | Step  12279/ 28000 | Loss: 1.315385 | LR: 6.94e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  877 | Avg Loss: 1.317709 | LR: 6.93e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  44%|████▍     | 879/2000 [1:00:50<1:31:23,  4.89s/it]Epoch  878 | Step  12293/ 28000 | Loss: 1.317618 | LR: 6.93e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  878 | Avg Loss: 1.317458 | LR: 6.93e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  44%|████▍     | 880/2000 [1:00:55<1:30:21,  4.84s/it]Epoch  879 | Step  12307/ 28000 | Loss: 1.320254 | LR: 6.93e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  879 | Avg Loss: 1.317775 | LR: 6.93e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  44%|████▍     | 881/2000 [1:01:00<1:33:47,  5.03s/it]Epoch  880 | Step  12321/ 28000 | Loss: 1.319441 | LR: 6.93e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  880 | Avg Loss: 1.318141 | LR: 6.92e-04 | Time: 5.5s | Samples: 6,983
+Training Flow Model:  44%|████▍     | 882/2000 [1:01:05<1:31:36,  4.92s/it]Epoch  881 | Step  12335/ 28000 | Loss: 1.315146 | LR: 6.92e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  881 | Avg Loss: 1.316992 | LR: 6.92e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  44%|████▍     | 883/2000 [1:01:10<1:31:39,  4.92s/it]Epoch  882 | Step  12349/ 28000 | Loss: 1.318599 | LR: 6.92e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  882 | Avg Loss: 1.317643 | LR: 6.92e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  44%|████▍     | 884/2000 [1:01:15<1:30:43,  4.88s/it]Epoch  883 | Step  12363/ 28000 | Loss: 1.322833 | LR: 6.92e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  883 | Avg Loss: 1.317955 | LR: 6.91e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  44%|████▍     | 885/2000 [1:01:20<1:30:26,  4.87s/it]Epoch  884 | Step  12377/ 28000 | Loss: 1.316977 | LR: 6.91e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  884 | Avg Loss: 1.317823 | LR: 6.91e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  44%|████▍     | 886/2000 [1:01:24<1:29:47,  4.84s/it]Epoch  885 | Step  12391/ 28000 | Loss: 1.316650 | LR: 6.91e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  885 | Avg Loss: 1.318200 | LR: 6.91e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  44%|████▍     | 887/2000 [1:01:28<1:25:03,  4.59s/it]Epoch  886 | Step  12405/ 28000 | Loss: 1.315426 | LR: 6.91e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  886 | Avg Loss: 1.317387 | LR: 6.90e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  44%|████▍     | 888/2000 [1:01:32<1:22:15,  4.44s/it]Epoch  887 | Step  12419/ 28000 | Loss: 1.314698 | LR: 6.90e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  887 | Avg Loss: 1.316420 | LR: 6.90e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  44%|████▍     | 889/2000 [1:01:36<1:20:12,  4.33s/it]Epoch  888 | Step  12433/ 28000 | Loss: 1.318628 | LR: 6.90e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  888 | Avg Loss: 1.317211 | LR: 6.90e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  44%|████▍     | 890/2000 [1:01:40<1:18:25,  4.24s/it]Epoch  889 | Step  12447/ 28000 | Loss: 1.316611 | LR: 6.90e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  889 | Avg Loss: 1.315991 | LR: 6.89e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  45%|████▍     | 891/2000 [1:01:44<1:16:39,  4.15s/it]Epoch  890 | Step  12461/ 28000 | Loss: 1.317167 | LR: 6.89e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  890 | Avg Loss: 1.317660 | LR: 6.89e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  45%|████▍     | 892/2000 [1:01:49<1:21:21,  4.41s/it]Epoch  891 | Step  12475/ 28000 | Loss: 1.323403 | LR: 6.89e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  891 | Avg Loss: 1.318998 | LR: 6.89e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  45%|████▍     | 893/2000 [1:01:55<1:25:26,  4.63s/it]Epoch  892 | Step  12489/ 28000 | Loss: 1.316993 | LR: 6.89e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  892 | Avg Loss: 1.317902 | LR: 6.88e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  45%|████▍     | 894/2000 [1:02:00<1:28:34,  4.81s/it]Epoch  893 | Step  12503/ 28000 | Loss: 1.318399 | LR: 6.88e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  893 | Avg Loss: 1.317134 | LR: 6.88e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  45%|████▍     | 895/2000 [1:02:05<1:31:08,  4.95s/it]Epoch  894 | Step  12517/ 28000 | Loss: 1.316113 | LR: 6.88e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  894 | Avg Loss: 1.317684 | LR: 6.88e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  45%|████▍     | 896/2000 [1:02:10<1:32:52,  5.05s/it]Epoch  895 | Step  12531/ 28000 | Loss: 1.318516 | LR: 6.88e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  895 | Avg Loss: 1.317251 | LR: 6.87e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  45%|████▍     | 897/2000 [1:02:16<1:34:49,  5.16s/it]Epoch  896 | Step  12545/ 28000 | Loss: 1.315275 | LR: 6.87e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  896 | Avg Loss: 1.317092 | LR: 6.87e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  45%|████▍     | 898/2000 [1:02:21<1:35:47,  5.22s/it]Epoch  897 | Step  12559/ 28000 | Loss: 1.316965 | LR: 6.87e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  897 | Avg Loss: 1.318292 | LR: 6.87e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  45%|████▍     | 899/2000 [1:02:27<1:37:10,  5.30s/it]Epoch  898 | Step  12573/ 28000 | Loss: 1.317914 | LR: 6.87e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  898 | Avg Loss: 1.317629 | LR: 6.86e-04 | Time: 5.5s | Samples: 6,983
+Training Flow Model:  45%|████▌     | 900/2000 [1:02:35<1:54:53,  6.27s/it]Epoch  899 | Step  12587/ 28000 | Loss: 1.314422 | LR: 6.86e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  899 | Avg Loss: 1.317666 | LR: 6.86e-04 | Time: 5.4s | Samples: 6,983
+✓ Checkpoint saved: /data2/edwardsun/flow_checkpoints/amp_flow_model_final_optimized.pth (loss: 1.317666, step: 12600)
+Training Flow Model:  45%|████▌     | 901/2000 [1:02:40<1:47:52,  5.89s/it]Epoch  900 | Step  12601/ 28000 | Loss: 1.317799 | LR: 6.86e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  900 | Avg Loss: 1.316845 | LR: 6.86e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  45%|████▌     | 902/2000 [1:02:45<1:42:57,  5.63s/it]Epoch  901 | Step  12615/ 28000 | Loss: 1.315371 | LR: 6.86e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  901 | Avg Loss: 1.317228 | LR: 6.85e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  45%|████▌     | 903/2000 [1:02:50<1:38:51,  5.41s/it]Epoch  902 | Step  12629/ 28000 | Loss: 1.315154 | LR: 6.85e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  902 | Avg Loss: 1.316436 | LR: 6.85e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  45%|████▌     | 904/2000 [1:02:55<1:35:37,  5.23s/it]Epoch  903 | Step  12643/ 28000 | Loss: 1.314507 | LR: 6.85e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  903 | Avg Loss: 1.316460 | LR: 6.85e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  45%|████▌     | 905/2000 [1:03:00<1:33:20,  5.11s/it]Epoch  904 | Step  12657/ 28000 | Loss: 1.318606 | LR: 6.85e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  904 | Avg Loss: 1.317102 | LR: 6.84e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  45%|████▌     | 906/2000 [1:03:05<1:32:16,  5.06s/it]Epoch  905 | Step  12671/ 28000 | Loss: 1.321187 | LR: 6.84e-04 | Speed: 3.3 steps/s | ETA: 1.3h
+Epoch  905 | Avg Loss: 1.317757 | LR: 6.84e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  45%|████▌     | 907/2000 [1:03:10<1:31:52,  5.04s/it]Epoch  906 | Step  12685/ 28000 | Loss: 1.317822 | LR: 6.84e-04 | Speed: 3.3 steps/s | ETA: 1.3h
+Epoch  906 | Avg Loss: 1.317273 | LR: 6.84e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  45%|████▌     | 908/2000 [1:03:14<1:26:19,  4.74s/it]Epoch  907 | Step  12699/ 28000 | Loss: 1.319257 | LR: 6.84e-04 | Speed: 3.3 steps/s | ETA: 1.3h
+Epoch  907 | Avg Loss: 1.317318 | LR: 6.83e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  45%|████▌     | 909/2000 [1:03:18<1:23:00,  4.57s/it]Epoch  908 | Step  12713/ 28000 | Loss: 1.315943 | LR: 6.83e-04 | Speed: 3.3 steps/s | ETA: 1.3h
+Epoch  908 | Avg Loss: 1.317930 | LR: 6.83e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  46%|████▌     | 910/2000 [1:03:22<1:20:06,  4.41s/it]Epoch  909 | Step  12727/ 28000 | Loss: 1.319815 | LR: 6.83e-04 | Speed: 3.3 steps/s | ETA: 1.3h
+Epoch  909 | Avg Loss: 1.317222 | LR: 6.83e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  46%|████▌     | 911/2000 [1:03:26<1:19:15,  4.37s/it]Epoch  910 | Step  12741/ 28000 | Loss: 1.316630 | LR: 6.83e-04 | Speed: 3.3 steps/s | ETA: 1.3h
+Epoch  910 | Avg Loss: 1.317232 | LR: 6.82e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  46%|████▌     | 912/2000 [1:03:30<1:16:53,  4.24s/it]Epoch  911 | Step  12755/ 28000 | Loss: 1.319205 | LR: 6.82e-04 | Speed: 3.3 steps/s | ETA: 1.3h
+Epoch  911 | Avg Loss: 1.318392 | LR: 6.82e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  46%|████▌     | 913/2000 [1:03:34<1:15:36,  4.17s/it]Epoch  912 | Step  12769/ 28000 | Loss: 1.319840 | LR: 6.82e-04 | Speed: 3.3 steps/s | ETA: 1.3h
+Epoch  912 | Avg Loss: 1.318118 | LR: 6.82e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  46%|████▌     | 914/2000 [1:03:38<1:14:31,  4.12s/it]Epoch  913 | Step  12783/ 28000 | Loss: 1.314256 | LR: 6.82e-04 | Speed: 3.3 steps/s | ETA: 1.3h
+Epoch  913 | Avg Loss: 1.317982 | LR: 6.81e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  46%|████▌     | 915/2000 [1:03:42<1:13:21,  4.06s/it]Epoch  914 | Step  12797/ 28000 | Loss: 1.317700 | LR: 6.81e-04 | Speed: 3.3 steps/s | ETA: 1.3h
+Epoch  914 | Avg Loss: 1.317264 | LR: 6.81e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  46%|████▌     | 916/2000 [1:03:46<1:11:53,  3.98s/it]Epoch  915 | Step  12811/ 28000 | Loss: 1.319029 | LR: 6.81e-04 | Speed: 3.3 steps/s | ETA: 1.3h
+Epoch  915 | Avg Loss: 1.317883 | LR: 6.81e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  46%|████▌     | 917/2000 [1:03:50<1:13:23,  4.07s/it]Epoch  916 | Step  12825/ 28000 | Loss: 1.318139 | LR: 6.81e-04 | Speed: 3.3 steps/s | ETA: 1.3h
+Epoch  916 | Avg Loss: 1.317330 | LR: 6.80e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  46%|████▌     | 918/2000 [1:03:54<1:12:18,  4.01s/it]Epoch  917 | Step  12839/ 28000 | Loss: 1.316584 | LR: 6.80e-04 | Speed: 3.3 steps/s | ETA: 1.3h
+Epoch  917 | Avg Loss: 1.317287 | LR: 6.80e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  46%|████▌     | 919/2000 [1:03:58<1:11:27,  3.97s/it]Epoch  918 | Step  12853/ 28000 | Loss: 1.316198 | LR: 6.80e-04 | Speed: 3.3 steps/s | ETA: 1.3h
+Epoch  918 | Avg Loss: 1.317213 | LR: 6.80e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  46%|████▌     | 920/2000 [1:04:02<1:12:10,  4.01s/it]Epoch  919 | Step  12867/ 28000 | Loss: 1.316760 | LR: 6.80e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  919 | Avg Loss: 1.316428 | LR: 6.79e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  46%|████▌     | 921/2000 [1:04:06<1:11:30,  3.98s/it]Epoch  920 | Step  12881/ 28000 | Loss: 1.318285 | LR: 6.79e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  920 | Avg Loss: 1.317074 | LR: 6.79e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  46%|████▌     | 922/2000 [1:04:10<1:12:52,  4.06s/it]Epoch  921 | Step  12895/ 28000 | Loss: 1.318212 | LR: 6.79e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  921 | Avg Loss: 1.317431 | LR: 6.79e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  46%|████▌     | 923/2000 [1:04:14<1:11:58,  4.01s/it]Epoch  922 | Step  12909/ 28000 | Loss: 1.314170 | LR: 6.79e-04 | Speed: 3.4 steps/s | ETA: 1.3h
+Epoch  922 | Avg Loss: 1.317659 | LR: 6.78e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  46%|████▌     | 924/2000 [1:04:18<1:11:12,  3.97s/it]Epoch  923 | Step  12923/ 28000 | Loss: 1.315573 | LR: 6.78e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  923 | Avg Loss: 1.316591 | LR: 6.78e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  46%|████▋     | 925/2000 [1:04:22<1:11:25,  3.99s/it]Epoch  924 | Step  12937/ 28000 | Loss: 1.318383 | LR: 6.78e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  924 | Avg Loss: 1.317320 | LR: 6.78e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  46%|████▋     | 926/2000 [1:04:26<1:10:59,  3.97s/it]Epoch  925 | Step  12951/ 28000 | Loss: 1.314556 | LR: 6.78e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  925 | Avg Loss: 1.316734 | LR: 6.77e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  46%|████▋     | 927/2000 [1:04:30<1:10:47,  3.96s/it]Epoch  926 | Step  12965/ 28000 | Loss: 1.317889 | LR: 6.77e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  926 | Avg Loss: 1.316818 | LR: 6.77e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  46%|████▋     | 928/2000 [1:04:34<1:09:52,  3.91s/it]Epoch  927 | Step  12979/ 28000 | Loss: 1.315522 | LR: 6.77e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  927 | Avg Loss: 1.316620 | LR: 6.77e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  46%|████▋     | 929/2000 [1:04:37<1:09:52,  3.91s/it]Epoch  928 | Step  12993/ 28000 | Loss: 1.317862 | LR: 6.77e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  928 | Avg Loss: 1.317440 | LR: 6.76e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  46%|████▋     | 930/2000 [1:04:42<1:10:26,  3.95s/it]Epoch  929 | Step  13007/ 28000 | Loss: 1.317535 | LR: 6.76e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  929 | Avg Loss: 1.317396 | LR: 6.76e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 931/2000 [1:04:45<1:10:08,  3.94s/it]Epoch  930 | Step  13021/ 28000 | Loss: 1.314229 | LR: 6.76e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  930 | Avg Loss: 1.317932 | LR: 6.76e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 932/2000 [1:04:49<1:09:31,  3.91s/it]Epoch  931 | Step  13035/ 28000 | Loss: 1.315653 | LR: 6.76e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  931 | Avg Loss: 1.317441 | LR: 6.75e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 933/2000 [1:04:53<1:09:08,  3.89s/it]Epoch  932 | Step  13049/ 28000 | Loss: 1.316851 | LR: 6.75e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  932 | Avg Loss: 1.317050 | LR: 6.75e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 934/2000 [1:04:57<1:11:17,  4.01s/it]Epoch  933 | Step  13063/ 28000 | Loss: 1.316746 | LR: 6.75e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  933 | Avg Loss: 1.317465 | LR: 6.75e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 935/2000 [1:05:01<1:10:32,  3.97s/it]Epoch  934 | Step  13077/ 28000 | Loss: 1.318985 | LR: 6.75e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  934 | Avg Loss: 1.316247 | LR: 6.74e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 936/2000 [1:05:05<1:10:16,  3.96s/it]Epoch  935 | Step  13091/ 28000 | Loss: 1.316131 | LR: 6.74e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  935 | Avg Loss: 1.316889 | LR: 6.74e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 937/2000 [1:05:09<1:09:47,  3.94s/it]Epoch  936 | Step  13105/ 28000 | Loss: 1.318680 | LR: 6.74e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  936 | Avg Loss: 1.318221 | LR: 6.74e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 938/2000 [1:05:13<1:09:47,  3.94s/it]Epoch  937 | Step  13119/ 28000 | Loss: 1.316857 | LR: 6.74e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  937 | Avg Loss: 1.316693 | LR: 6.73e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 939/2000 [1:05:17<1:10:15,  3.97s/it]Epoch  938 | Step  13133/ 28000 | Loss: 1.316719 | LR: 6.73e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  938 | Avg Loss: 1.317056 | LR: 6.73e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 940/2000 [1:05:21<1:09:55,  3.96s/it]Epoch  939 | Step  13147/ 28000 | Loss: 1.316867 | LR: 6.73e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  939 | Avg Loss: 1.316868 | LR: 6.73e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 941/2000 [1:05:25<1:09:55,  3.96s/it]Epoch  940 | Step  13161/ 28000 | Loss: 1.319600 | LR: 6.73e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  940 | Avg Loss: 1.316906 | LR: 6.72e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 942/2000 [1:05:29<1:09:54,  3.96s/it]Epoch  941 | Step  13175/ 28000 | Loss: 1.319399 | LR: 6.72e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  941 | Avg Loss: 1.316839 | LR: 6.72e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 943/2000 [1:05:33<1:09:53,  3.97s/it]Epoch  942 | Step  13189/ 28000 | Loss: 1.316203 | LR: 6.72e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  942 | Avg Loss: 1.316379 | LR: 6.72e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 944/2000 [1:05:37<1:09:05,  3.93s/it]Epoch  943 | Step  13203/ 28000 | Loss: 1.316497 | LR: 6.72e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  943 | Avg Loss: 1.317169 | LR: 6.71e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 945/2000 [1:05:41<1:08:45,  3.91s/it]Epoch  944 | Step  13217/ 28000 | Loss: 1.316075 | LR: 6.71e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  944 | Avg Loss: 1.316803 | LR: 6.71e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 946/2000 [1:05:44<1:08:21,  3.89s/it]Epoch  945 | Step  13231/ 28000 | Loss: 1.320164 | LR: 6.71e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  945 | Avg Loss: 1.317436 | LR: 6.71e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 947/2000 [1:05:48<1:08:46,  3.92s/it]Epoch  946 | Step  13245/ 28000 | Loss: 1.313346 | LR: 6.71e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  946 | Avg Loss: 1.317228 | LR: 6.70e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 948/2000 [1:05:52<1:07:42,  3.86s/it]Epoch  947 | Step  13259/ 28000 | Loss: 1.317242 | LR: 6.70e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  947 | Avg Loss: 1.317100 | LR: 6.70e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  47%|████▋     | 949/2000 [1:05:56<1:07:48,  3.87s/it]Epoch  948 | Step  13273/ 28000 | Loss: 1.317537 | LR: 6.70e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  948 | Avg Loss: 1.318276 | LR: 6.70e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 950/2000 [1:06:00<1:07:36,  3.86s/it]Epoch  949 | Step  13287/ 28000 | Loss: 1.313160 | LR: 6.70e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  949 | Avg Loss: 1.315908 | LR: 6.69e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 951/2000 [1:06:04<1:07:53,  3.88s/it]Epoch  950 | Step  13301/ 28000 | Loss: 1.315437 | LR: 6.69e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  950 | Avg Loss: 1.316631 | LR: 6.69e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 952/2000 [1:06:08<1:07:53,  3.89s/it]Epoch  951 | Step  13315/ 28000 | Loss: 1.318600 | LR: 6.69e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  951 | Avg Loss: 1.317390 | LR: 6.69e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 953/2000 [1:06:12<1:07:48,  3.89s/it]Epoch  952 | Step  13329/ 28000 | Loss: 1.317197 | LR: 6.69e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  952 | Avg Loss: 1.317481 | LR: 6.68e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 954/2000 [1:06:16<1:07:44,  3.89s/it]Epoch  953 | Step  13343/ 28000 | Loss: 1.319015 | LR: 6.68e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  953 | Avg Loss: 1.317901 | LR: 6.68e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 955/2000 [1:06:19<1:07:41,  3.89s/it]Epoch  954 | Step  13357/ 28000 | Loss: 1.319948 | LR: 6.68e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  954 | Avg Loss: 1.316994 | LR: 6.68e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 956/2000 [1:06:23<1:07:39,  3.89s/it]Epoch  955 | Step  13371/ 28000 | Loss: 1.319597 | LR: 6.67e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  955 | Avg Loss: 1.317761 | LR: 6.67e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 957/2000 [1:06:27<1:07:56,  3.91s/it]Epoch  956 | Step  13385/ 28000 | Loss: 1.316028 | LR: 6.67e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  956 | Avg Loss: 1.316611 | LR: 6.67e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 958/2000 [1:06:31<1:07:59,  3.92s/it]Epoch  957 | Step  13399/ 28000 | Loss: 1.314838 | LR: 6.67e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  957 | Avg Loss: 1.317267 | LR: 6.66e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 959/2000 [1:06:35<1:07:26,  3.89s/it]Epoch  958 | Step  13413/ 28000 | Loss: 1.314474 | LR: 6.66e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  958 | Avg Loss: 1.316299 | LR: 6.66e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 960/2000 [1:06:39<1:07:55,  3.92s/it]Epoch  959 | Step  13427/ 28000 | Loss: 1.317448 | LR: 6.66e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  959 | Avg Loss: 1.317560 | LR: 6.66e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 961/2000 [1:06:43<1:07:39,  3.91s/it]Epoch  960 | Step  13441/ 28000 | Loss: 1.319162 | LR: 6.66e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  960 | Avg Loss: 1.316541 | LR: 6.65e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 962/2000 [1:06:47<1:09:10,  4.00s/it]Epoch  961 | Step  13455/ 28000 | Loss: 1.313896 | LR: 6.65e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  961 | Avg Loss: 1.317167 | LR: 6.65e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 963/2000 [1:06:51<1:08:49,  3.98s/it]Epoch  962 | Step  13469/ 28000 | Loss: 1.317360 | LR: 6.65e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  962 | Avg Loss: 1.317330 | LR: 6.65e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 964/2000 [1:06:55<1:08:01,  3.94s/it]Epoch  963 | Step  13483/ 28000 | Loss: 1.318656 | LR: 6.65e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  963 | Avg Loss: 1.318619 | LR: 6.64e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 965/2000 [1:06:59<1:07:36,  3.92s/it]Epoch  964 | Step  13497/ 28000 | Loss: 1.318881 | LR: 6.64e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  964 | Avg Loss: 1.317163 | LR: 6.64e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 966/2000 [1:07:03<1:07:43,  3.93s/it]Epoch  965 | Step  13511/ 28000 | Loss: 1.315711 | LR: 6.64e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  965 | Avg Loss: 1.317492 | LR: 6.64e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 967/2000 [1:07:07<1:07:41,  3.93s/it]Epoch  966 | Step  13525/ 28000 | Loss: 1.317768 | LR: 6.64e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  966 | Avg Loss: 1.317089 | LR: 6.63e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 968/2000 [1:07:11<1:07:37,  3.93s/it]Epoch  967 | Step  13539/ 28000 | Loss: 1.316130 | LR: 6.63e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  967 | Avg Loss: 1.317480 | LR: 6.63e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 969/2000 [1:07:15<1:07:43,  3.94s/it]Epoch  968 | Step  13553/ 28000 | Loss: 1.316181 | LR: 6.63e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  968 | Avg Loss: 1.316672 | LR: 6.63e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  48%|████▊     | 970/2000 [1:07:19<1:09:26,  4.05s/it]Epoch  969 | Step  13567/ 28000 | Loss: 1.318980 | LR: 6.63e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  969 | Avg Loss: 1.317800 | LR: 6.62e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  49%|████▊     | 971/2000 [1:07:23<1:08:40,  4.00s/it]Epoch  970 | Step  13581/ 28000 | Loss: 1.317727 | LR: 6.62e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  970 | Avg Loss: 1.317088 | LR: 6.62e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  49%|████▊     | 972/2000 [1:07:27<1:08:08,  3.98s/it]Epoch  971 | Step  13595/ 28000 | Loss: 1.318537 | LR: 6.62e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  971 | Avg Loss: 1.318278 | LR: 6.62e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  49%|████▊     | 973/2000 [1:07:31<1:07:56,  3.97s/it]Epoch  972 | Step  13609/ 28000 | Loss: 1.315870 | LR: 6.62e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  972 | Avg Loss: 1.317626 | LR: 6.61e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  49%|████▊     | 974/2000 [1:07:35<1:08:11,  3.99s/it]Epoch  973 | Step  13623/ 28000 | Loss: 1.320520 | LR: 6.61e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  973 | Avg Loss: 1.317615 | LR: 6.61e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  49%|████▉     | 975/2000 [1:07:38<1:07:02,  3.92s/it]Epoch  974 | Step  13637/ 28000 | Loss: 1.317518 | LR: 6.61e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  974 | Avg Loss: 1.317367 | LR: 6.61e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  49%|████▉     | 976/2000 [1:07:42<1:07:10,  3.94s/it]Epoch  975 | Step  13651/ 28000 | Loss: 1.317570 | LR: 6.61e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  975 | Avg Loss: 1.317128 | LR: 6.60e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  49%|████▉     | 977/2000 [1:07:46<1:06:56,  3.93s/it]Epoch  976 | Step  13665/ 28000 | Loss: 1.313827 | LR: 6.60e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  976 | Avg Loss: 1.317737 | LR: 6.60e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  49%|████▉     | 978/2000 [1:07:50<1:07:15,  3.95s/it]Epoch  977 | Step  13679/ 28000 | Loss: 1.317613 | LR: 6.60e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  977 | Avg Loss: 1.316814 | LR: 6.60e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  49%|████▉     | 979/2000 [1:07:54<1:07:24,  3.96s/it]Epoch  978 | Step  13693/ 28000 | Loss: 1.316417 | LR: 6.59e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  978 | Avg Loss: 1.318221 | LR: 6.59e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  49%|████▉     | 980/2000 [1:07:58<1:07:14,  3.96s/it]Epoch  979 | Step  13707/ 28000 | Loss: 1.316831 | LR: 6.59e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  979 | Avg Loss: 1.317660 | LR: 6.59e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  49%|████▉     | 981/2000 [1:08:02<1:06:40,  3.93s/it]Epoch  980 | Step  13721/ 28000 | Loss: 1.319478 | LR: 6.59e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  980 | Avg Loss: 1.316623 | LR: 6.58e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  49%|████▉     | 982/2000 [1:08:06<1:06:32,  3.92s/it]Epoch  981 | Step  13735/ 28000 | Loss: 1.318904 | LR: 6.58e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  981 | Avg Loss: 1.317187 | LR: 6.58e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  49%|████▉     | 983/2000 [1:08:10<1:06:22,  3.92s/it]Epoch  982 | Step  13749/ 28000 | Loss: 1.316985 | LR: 6.58e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  982 | Avg Loss: 1.317040 | LR: 6.58e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  49%|████▉     | 984/2000 [1:08:14<1:06:40,  3.94s/it]Epoch  983 | Step  13763/ 28000 | Loss: 1.319356 | LR: 6.58e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  983 | Avg Loss: 1.317283 | LR: 6.57e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  49%|████▉     | 985/2000 [1:08:18<1:06:41,  3.94s/it]Epoch  984 | Step  13777/ 28000 | Loss: 1.317981 | LR: 6.57e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  984 | Avg Loss: 1.317244 | LR: 6.57e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  49%|████▉     | 986/2000 [1:08:22<1:06:08,  3.91s/it]Epoch  985 | Step  13791/ 28000 | Loss: 1.317696 | LR: 6.57e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  985 | Avg Loss: 1.317618 | LR: 6.57e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  49%|████▉     | 987/2000 [1:08:26<1:05:48,  3.90s/it]Epoch  986 | Step  13805/ 28000 | Loss: 1.314586 | LR: 6.57e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  986 | Avg Loss: 1.317175 | LR: 6.56e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  49%|████▉     | 988/2000 [1:08:30<1:06:21,  3.93s/it]Epoch  987 | Step  13819/ 28000 | Loss: 1.317111 | LR: 6.56e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  987 | Avg Loss: 1.317465 | LR: 6.56e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  49%|████▉     | 989/2000 [1:08:33<1:06:13,  3.93s/it]Epoch  988 | Step  13833/ 28000 | Loss: 1.318920 | LR: 6.56e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  988 | Avg Loss: 1.318688 | LR: 6.56e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  50%|████▉     | 990/2000 [1:08:37<1:06:27,  3.95s/it]Epoch  989 | Step  13847/ 28000 | Loss: 1.316104 | LR: 6.56e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  989 | Avg Loss: 1.317022 | LR: 6.55e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  50%|████▉     | 991/2000 [1:08:42<1:07:40,  4.02s/it]Epoch  990 | Step  13861/ 28000 | Loss: 1.319801 | LR: 6.55e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  990 | Avg Loss: 1.317550 | LR: 6.55e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  50%|████▉     | 992/2000 [1:08:46<1:07:13,  4.00s/it]Epoch  991 | Step  13875/ 28000 | Loss: 1.318897 | LR: 6.55e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  991 | Avg Loss: 1.317433 | LR: 6.55e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  50%|████▉     | 993/2000 [1:08:50<1:06:56,  3.99s/it]Epoch  992 | Step  13889/ 28000 | Loss: 1.317046 | LR: 6.55e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  992 | Avg Loss: 1.316647 | LR: 6.54e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  50%|████▉     | 994/2000 [1:08:53<1:05:50,  3.93s/it]Epoch  993 | Step  13903/ 28000 | Loss: 1.316646 | LR: 6.54e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  993 | Avg Loss: 1.316597 | LR: 6.54e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  50%|████▉     | 995/2000 [1:08:58<1:07:01,  4.00s/it]Epoch  994 | Step  13917/ 28000 | Loss: 1.320642 | LR: 6.54e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  994 | Avg Loss: 1.317649 | LR: 6.54e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  50%|████▉     | 996/2000 [1:09:01<1:05:56,  3.94s/it]Epoch  995 | Step  13931/ 28000 | Loss: 1.314038 | LR: 6.54e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  995 | Avg Loss: 1.317860 | LR: 6.53e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  50%|████▉     | 997/2000 [1:09:05<1:05:15,  3.90s/it]Epoch  996 | Step  13945/ 28000 | Loss: 1.318033 | LR: 6.53e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  996 | Avg Loss: 1.316550 | LR: 6.53e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  50%|████▉     | 998/2000 [1:09:09<1:04:53,  3.89s/it]Epoch  997 | Step  13959/ 28000 | Loss: 1.319848 | LR: 6.53e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  997 | Avg Loss: 1.317561 | LR: 6.52e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  50%|████▉     | 999/2000 [1:09:13<1:04:49,  3.89s/it]Epoch  998 | Step  13973/ 28000 | Loss: 1.316926 | LR: 6.52e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  998 | Avg Loss: 1.316992 | LR: 6.52e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  50%|█████     | 1000/2000 [1:09:17<1:05:28,  3.93s/it]Epoch  999 | Step  13987/ 28000 | Loss: 1.313496 | LR: 6.52e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch  999 | Avg Loss: 1.317012 | LR: 6.52e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  50%|█████     | 1001/2000 [1:09:21<1:05:47,  3.95s/it]Epoch 1000 | Step  14001/ 28000 | Loss: 1.314994 | LR: 6.52e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch 1000 | Avg Loss: 1.317157 | LR: 6.51e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  50%|█████     | 1002/2000 [1:09:25<1:06:47,  4.02s/it]Epoch 1001 | Step  14015/ 28000 | Loss: 1.320360 | LR: 6.51e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch 1001 | Avg Loss: 1.317695 | LR: 6.51e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  50%|█████     | 1003/2000 [1:09:29<1:08:03,  4.10s/it]Epoch 1002 | Step  14029/ 28000 | Loss: 1.316867 | LR: 6.51e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch 1002 | Avg Loss: 1.315720 | LR: 6.51e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  50%|█████     | 1004/2000 [1:09:33<1:07:45,  4.08s/it]Epoch 1003 | Step  14043/ 28000 | Loss: 1.313326 | LR: 6.51e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch 1003 | Avg Loss: 1.316840 | LR: 6.50e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  50%|█████     | 1005/2000 [1:09:37<1:06:47,  4.03s/it]Epoch 1004 | Step  14057/ 28000 | Loss: 1.313796 | LR: 6.50e-04 | Speed: 3.4 steps/s | ETA: 1.2h
+Epoch 1004 | Avg Loss: 1.316631 | LR: 6.50e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  50%|█████     | 1006/2000 [1:09:41<1:06:17,  4.00s/it]Epoch 1005 | Step  14071/ 28000 | Loss: 1.313348 | LR: 6.50e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1005 | Avg Loss: 1.317173 | LR: 6.50e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  50%|█████     | 1007/2000 [1:09:45<1:06:03,  3.99s/it]Epoch 1006 | Step  14085/ 28000 | Loss: 1.315354 | LR: 6.50e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1006 | Avg Loss: 1.315251 | LR: 6.49e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  50%|█████     | 1008/2000 [1:09:49<1:05:29,  3.96s/it]Epoch 1007 | Step  14099/ 28000 | Loss: 1.317583 | LR: 6.49e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1007 | Avg Loss: 1.317445 | LR: 6.49e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  50%|█████     | 1009/2000 [1:09:53<1:04:51,  3.93s/it]Epoch 1008 | Step  14113/ 28000 | Loss: 1.320282 | LR: 6.49e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1008 | Avg Loss: 1.317427 | LR: 6.49e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  50%|█████     | 1010/2000 [1:09:57<1:04:24,  3.90s/it]Epoch 1009 | Step  14127/ 28000 | Loss: 1.317725 | LR: 6.49e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1009 | Avg Loss: 1.318237 | LR: 6.48e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  51%|█████     | 1011/2000 [1:10:01<1:04:43,  3.93s/it]Epoch 1010 | Step  14141/ 28000 | Loss: 1.319410 | LR: 6.48e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1010 | Avg Loss: 1.318268 | LR: 6.48e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  51%|█████     | 1012/2000 [1:10:05<1:04:42,  3.93s/it]Epoch 1011 | Step  14155/ 28000 | Loss: 1.318108 | LR: 6.48e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1011 | Avg Loss: 1.317177 | LR: 6.48e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  51%|█████     | 1013/2000 [1:10:09<1:04:27,  3.92s/it]Epoch 1012 | Step  14169/ 28000 | Loss: 1.323154 | LR: 6.47e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1012 | Avg Loss: 1.317592 | LR: 6.47e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  51%|█████     | 1014/2000 [1:10:13<1:04:17,  3.91s/it]Epoch 1013 | Step  14183/ 28000 | Loss: 1.319780 | LR: 6.47e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1013 | Avg Loss: 1.318103 | LR: 6.47e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  51%|█████     | 1015/2000 [1:10:16<1:04:25,  3.92s/it]Epoch 1014 | Step  14197/ 28000 | Loss: 1.319002 | LR: 6.47e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1014 | Avg Loss: 1.318272 | LR: 6.46e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  51%|█████     | 1016/2000 [1:10:20<1:04:01,  3.90s/it]Epoch 1015 | Step  14211/ 28000 | Loss: 1.315948 | LR: 6.46e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1015 | Avg Loss: 1.316967 | LR: 6.46e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  51%|█████     | 1017/2000 [1:10:24<1:04:37,  3.94s/it]Epoch 1016 | Step  14225/ 28000 | Loss: 1.317109 | LR: 6.46e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1016 | Avg Loss: 1.318492 | LR: 6.46e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  51%|█████     | 1018/2000 [1:10:28<1:04:56,  3.97s/it]Epoch 1017 | Step  14239/ 28000 | Loss: 1.317379 | LR: 6.46e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1017 | Avg Loss: 1.317404 | LR: 6.45e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  51%|█████     | 1019/2000 [1:10:32<1:04:42,  3.96s/it]Epoch 1018 | Step  14253/ 28000 | Loss: 1.318070 | LR: 6.45e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1018 | Avg Loss: 1.317245 | LR: 6.45e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  51%|█████     | 1020/2000 [1:10:36<1:04:11,  3.93s/it]Epoch 1019 | Step  14267/ 28000 | Loss: 1.320034 | LR: 6.45e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1019 | Avg Loss: 1.317803 | LR: 6.45e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  51%|█████     | 1021/2000 [1:10:40<1:04:08,  3.93s/it]Epoch 1020 | Step  14281/ 28000 | Loss: 1.320812 | LR: 6.45e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1020 | Avg Loss: 1.317771 | LR: 6.44e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  51%|█████     | 1022/2000 [1:10:44<1:03:21,  3.89s/it]Epoch 1021 | Step  14295/ 28000 | Loss: 1.315867 | LR: 6.44e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1021 | Avg Loss: 1.317666 | LR: 6.44e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  51%|█████     | 1023/2000 [1:10:48<1:03:16,  3.89s/it]Epoch 1022 | Step  14309/ 28000 | Loss: 1.315891 | LR: 6.44e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1022 | Avg Loss: 1.318666 | LR: 6.44e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  51%|█████     | 1024/2000 [1:10:52<1:03:22,  3.90s/it]Epoch 1023 | Step  14323/ 28000 | Loss: 1.316440 | LR: 6.44e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1023 | Avg Loss: 1.317171 | LR: 6.43e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  51%|█████▏    | 1025/2000 [1:10:56<1:03:33,  3.91s/it]Epoch 1024 | Step  14337/ 28000 | Loss: 1.315254 | LR: 6.43e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1024 | Avg Loss: 1.316663 | LR: 6.43e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  51%|█████▏    | 1026/2000 [1:10:59<1:02:53,  3.87s/it]Epoch 1025 | Step  14351/ 28000 | Loss: 1.316681 | LR: 6.43e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1025 | Avg Loss: 1.317851 | LR: 6.43e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  51%|█████▏    | 1027/2000 [1:11:04<1:04:12,  3.96s/it]Epoch 1026 | Step  14365/ 28000 | Loss: 1.316606 | LR: 6.42e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1026 | Avg Loss: 1.317172 | LR: 6.42e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  51%|█████▏    | 1028/2000 [1:11:07<1:03:50,  3.94s/it]Epoch 1027 | Step  14379/ 28000 | Loss: 1.317021 | LR: 6.42e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1027 | Avg Loss: 1.316586 | LR: 6.42e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  51%|█████▏    | 1029/2000 [1:11:11<1:03:24,  3.92s/it]Epoch 1028 | Step  14393/ 28000 | Loss: 1.316109 | LR: 6.42e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1028 | Avg Loss: 1.316544 | LR: 6.41e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1030/2000 [1:11:15<1:03:15,  3.91s/it]Epoch 1029 | Step  14407/ 28000 | Loss: 1.314842 | LR: 6.41e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1029 | Avg Loss: 1.316910 | LR: 6.41e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1031/2000 [1:11:19<1:03:48,  3.95s/it]Epoch 1030 | Step  14421/ 28000 | Loss: 1.317845 | LR: 6.41e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1030 | Avg Loss: 1.317673 | LR: 6.41e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1032/2000 [1:11:23<1:03:07,  3.91s/it]Epoch 1031 | Step  14435/ 28000 | Loss: 1.314553 | LR: 6.41e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1031 | Avg Loss: 1.317173 | LR: 6.40e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1033/2000 [1:11:27<1:03:01,  3.91s/it]Epoch 1032 | Step  14449/ 28000 | Loss: 1.317892 | LR: 6.40e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1032 | Avg Loss: 1.318601 | LR: 6.40e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1034/2000 [1:11:31<1:02:56,  3.91s/it]Epoch 1033 | Step  14463/ 28000 | Loss: 1.320118 | LR: 6.40e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1033 | Avg Loss: 1.317832 | LR: 6.40e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1035/2000 [1:11:35<1:02:42,  3.90s/it]Epoch 1034 | Step  14477/ 28000 | Loss: 1.320134 | LR: 6.40e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1034 | Avg Loss: 1.316623 | LR: 6.39e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1036/2000 [1:11:39<1:02:36,  3.90s/it]Epoch 1035 | Step  14491/ 28000 | Loss: 1.314241 | LR: 6.39e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1035 | Avg Loss: 1.318554 | LR: 6.39e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1037/2000 [1:11:43<1:02:50,  3.92s/it]Epoch 1036 | Step  14505/ 28000 | Loss: 1.319453 | LR: 6.39e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1036 | Avg Loss: 1.317244 | LR: 6.39e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1038/2000 [1:11:47<1:02:52,  3.92s/it]Epoch 1037 | Step  14519/ 28000 | Loss: 1.318993 | LR: 6.39e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1037 | Avg Loss: 1.316773 | LR: 6.38e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1039/2000 [1:11:51<1:03:09,  3.94s/it]Epoch 1038 | Step  14533/ 28000 | Loss: 1.321054 | LR: 6.38e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1038 | Avg Loss: 1.318907 | LR: 6.38e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1040/2000 [1:11:54<1:02:52,  3.93s/it]Epoch 1039 | Step  14547/ 28000 | Loss: 1.318322 | LR: 6.38e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1039 | Avg Loss: 1.316566 | LR: 6.37e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1041/2000 [1:11:58<1:03:08,  3.95s/it]Epoch 1040 | Step  14561/ 28000 | Loss: 1.315228 | LR: 6.37e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1040 | Avg Loss: 1.317858 | LR: 6.37e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1042/2000 [1:12:03<1:03:33,  3.98s/it]Epoch 1041 | Step  14575/ 28000 | Loss: 1.317478 | LR: 6.37e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1041 | Avg Loss: 1.316810 | LR: 6.37e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1043/2000 [1:12:07<1:03:31,  3.98s/it]Epoch 1042 | Step  14589/ 28000 | Loss: 1.318214 | LR: 6.37e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1042 | Avg Loss: 1.317119 | LR: 6.36e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1044/2000 [1:12:11<1:03:33,  3.99s/it]Epoch 1043 | Step  14603/ 28000 | Loss: 1.319148 | LR: 6.36e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1043 | Avg Loss: 1.316748 | LR: 6.36e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1045/2000 [1:12:15<1:03:32,  3.99s/it]Epoch 1044 | Step  14617/ 28000 | Loss: 1.317155 | LR: 6.36e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1044 | Avg Loss: 1.316715 | LR: 6.36e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1046/2000 [1:12:19<1:03:27,  3.99s/it]Epoch 1045 | Step  14631/ 28000 | Loss: 1.317133 | LR: 6.36e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1045 | Avg Loss: 1.316687 | LR: 6.35e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1047/2000 [1:12:22<1:02:52,  3.96s/it]Epoch 1046 | Step  14645/ 28000 | Loss: 1.314879 | LR: 6.35e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1046 | Avg Loss: 1.316767 | LR: 6.35e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1048/2000 [1:12:26<1:02:50,  3.96s/it]Epoch 1047 | Step  14659/ 28000 | Loss: 1.317315 | LR: 6.35e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1047 | Avg Loss: 1.316377 | LR: 6.35e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  52%|█████▏    | 1049/2000 [1:12:30<1:03:19,  4.00s/it]Epoch 1048 | Step  14673/ 28000 | Loss: 1.323932 | LR: 6.35e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1048 | Avg Loss: 1.317705 | LR: 6.34e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  52%|█████▎    | 1050/2000 [1:12:34<1:02:32,  3.95s/it]Epoch 1049 | Step  14687/ 28000 | Loss: 1.316413 | LR: 6.34e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1049 | Avg Loss: 1.317468 | LR: 6.34e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1051/2000 [1:12:38<1:03:25,  4.01s/it]Epoch 1050 | Step  14701/ 28000 | Loss: 1.317244 | LR: 6.34e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1050 | Avg Loss: 1.317324 | LR: 6.34e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1052/2000 [1:12:42<1:03:23,  4.01s/it]Epoch 1051 | Step  14715/ 28000 | Loss: 1.315238 | LR: 6.33e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1051 | Avg Loss: 1.316567 | LR: 6.33e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1053/2000 [1:12:46<1:02:40,  3.97s/it]Epoch 1052 | Step  14729/ 28000 | Loss: 1.316413 | LR: 6.33e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1052 | Avg Loss: 1.316888 | LR: 6.33e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1054/2000 [1:12:51<1:05:04,  4.13s/it]Epoch 1053 | Step  14743/ 28000 | Loss: 1.323715 | LR: 6.33e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1053 | Avg Loss: 1.317016 | LR: 6.32e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1055/2000 [1:12:56<1:08:11,  4.33s/it]Epoch 1054 | Step  14757/ 28000 | Loss: 1.317577 | LR: 6.32e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1054 | Avg Loss: 1.317629 | LR: 6.32e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1056/2000 [1:13:00<1:10:31,  4.48s/it]Epoch 1055 | Step  14771/ 28000 | Loss: 1.315912 | LR: 6.32e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1055 | Avg Loss: 1.316684 | LR: 6.32e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1057/2000 [1:13:05<1:12:00,  4.58s/it]Epoch 1056 | Step  14785/ 28000 | Loss: 1.317201 | LR: 6.32e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1056 | Avg Loss: 1.317364 | LR: 6.31e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1058/2000 [1:13:10<1:12:56,  4.65s/it]Epoch 1057 | Step  14799/ 28000 | Loss: 1.318205 | LR: 6.31e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1057 | Avg Loss: 1.318004 | LR: 6.31e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1059/2000 [1:13:15<1:14:41,  4.76s/it]Epoch 1058 | Step  14813/ 28000 | Loss: 1.315285 | LR: 6.31e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1058 | Avg Loss: 1.317389 | LR: 6.31e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1060/2000 [1:13:20<1:14:45,  4.77s/it]Epoch 1059 | Step  14827/ 28000 | Loss: 1.315918 | LR: 6.31e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1059 | Avg Loss: 1.317468 | LR: 6.30e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1061/2000 [1:13:25<1:14:58,  4.79s/it]Epoch 1060 | Step  14841/ 28000 | Loss: 1.317558 | LR: 6.30e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1060 | Avg Loss: 1.316446 | LR: 6.30e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1062/2000 [1:13:30<1:16:31,  4.89s/it]Epoch 1061 | Step  14855/ 28000 | Loss: 1.320653 | LR: 6.30e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1061 | Avg Loss: 1.317230 | LR: 6.30e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1063/2000 [1:13:35<1:16:30,  4.90s/it]Epoch 1062 | Step  14869/ 28000 | Loss: 1.316219 | LR: 6.30e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1062 | Avg Loss: 1.317575 | LR: 6.29e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1064/2000 [1:13:40<1:16:54,  4.93s/it]Epoch 1063 | Step  14883/ 28000 | Loss: 1.317437 | LR: 6.29e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1063 | Avg Loss: 1.318027 | LR: 6.29e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1065/2000 [1:13:45<1:17:36,  4.98s/it]Epoch 1064 | Step  14897/ 28000 | Loss: 1.315521 | LR: 6.29e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1064 | Avg Loss: 1.317866 | LR: 6.28e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1066/2000 [1:13:50<1:17:03,  4.95s/it]Epoch 1065 | Step  14911/ 28000 | Loss: 1.318646 | LR: 6.28e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1065 | Avg Loss: 1.317437 | LR: 6.28e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1067/2000 [1:13:55<1:16:22,  4.91s/it]Epoch 1066 | Step  14925/ 28000 | Loss: 1.313222 | LR: 6.28e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1066 | Avg Loss: 1.317232 | LR: 6.28e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1068/2000 [1:14:00<1:17:01,  4.96s/it]Epoch 1067 | Step  14939/ 28000 | Loss: 1.316341 | LR: 6.28e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1067 | Avg Loss: 1.317927 | LR: 6.27e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  53%|█████▎    | 1069/2000 [1:14:05<1:16:39,  4.94s/it]Epoch 1068 | Step  14953/ 28000 | Loss: 1.315914 | LR: 6.27e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1068 | Avg Loss: 1.317420 | LR: 6.27e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  54%|█████▎    | 1070/2000 [1:14:09<1:16:25,  4.93s/it]Epoch 1069 | Step  14967/ 28000 | Loss: 1.320408 | LR: 6.27e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1069 | Avg Loss: 1.316680 | LR: 6.27e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  54%|█████▎    | 1071/2000 [1:14:15<1:17:07,  4.98s/it]Epoch 1070 | Step  14981/ 28000 | Loss: 1.314762 | LR: 6.27e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1070 | Avg Loss: 1.317671 | LR: 6.26e-04 | Time: 5.1s | Samples: 6,983
+/data2/edwardsun/flow_home/cfg_dataset.py:360: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor).
+  'index': torch.tensor(idx, dtype=torch.long)
+/data2/edwardsun/flow_home/cfg_dataset.py:360: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor).
+  'index': torch.tensor(idx, dtype=torch.long)
+/data2/edwardsun/flow_home/amp_flow_training_single_gpu_full_data.py:392: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with autocast(dtype=torch.bfloat16):
+Training Flow Model:  54%|█████▎    | 1072/2000 [1:14:20<1:19:08,  5.12s/it]Epoch 1071 | Step  14995/ 28000 | Loss: 1.314451 | LR: 6.26e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Validation at step 15000: Loss = 1.304810
+Epoch 1071 | Avg Loss: 1.317008 | LR: 6.26e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  54%|█████▎    | 1073/2000 [1:14:25<1:17:56,  5.04s/it]Epoch 1072 | Step  15009/ 28000 | Loss: 1.320120 | LR: 6.26e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1072 | Avg Loss: 1.316918 | LR: 6.26e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  54%|█████▎    | 1074/2000 [1:14:30<1:16:47,  4.98s/it]Epoch 1073 | Step  15023/ 28000 | Loss: 1.320184 | LR: 6.26e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1073 | Avg Loss: 1.318245 | LR: 6.25e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  54%|█████▍    | 1075/2000 [1:14:35<1:16:40,  4.97s/it]Epoch 1074 | Step  15037/ 28000 | Loss: 1.317043 | LR: 6.25e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1074 | Avg Loss: 1.317822 | LR: 6.25e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  54%|█████▍    | 1076/2000 [1:14:40<1:16:08,  4.94s/it]Epoch 1075 | Step  15051/ 28000 | Loss: 1.318204 | LR: 6.25e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1075 | Avg Loss: 1.316581 | LR: 6.24e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  54%|█████▍    | 1077/2000 [1:14:45<1:16:48,  4.99s/it]Epoch 1076 | Step  15065/ 28000 | Loss: 1.315116 | LR: 6.24e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1076 | Avg Loss: 1.317549 | LR: 6.24e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  54%|█████▍    | 1078/2000 [1:14:49<1:15:57,  4.94s/it]Epoch 1077 | Step  15079/ 28000 | Loss: 1.316652 | LR: 6.24e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1077 | Avg Loss: 1.317348 | LR: 6.24e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  54%|█████▍    | 1079/2000 [1:14:54<1:12:33,  4.73s/it]Epoch 1078 | Step  15093/ 28000 | Loss: 1.315427 | LR: 6.24e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1078 | Avg Loss: 1.316612 | LR: 6.23e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  54%|█████▍    | 1080/2000 [1:14:58<1:09:46,  4.55s/it]Epoch 1079 | Step  15107/ 28000 | Loss: 1.314422 | LR: 6.23e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1079 | Avg Loss: 1.316422 | LR: 6.23e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  54%|█████▍    | 1081/2000 [1:15:02<1:07:15,  4.39s/it]Epoch 1080 | Step  15121/ 28000 | Loss: 1.314727 | LR: 6.23e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1080 | Avg Loss: 1.316859 | LR: 6.23e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  54%|█████▍    | 1082/2000 [1:15:06<1:06:24,  4.34s/it]Epoch 1081 | Step  15135/ 28000 | Loss: 1.314376 | LR: 6.23e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1081 | Avg Loss: 1.315653 | LR: 6.22e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  54%|█████▍    | 1083/2000 [1:15:12<1:12:01,  4.71s/it]Epoch 1082 | Step  15149/ 28000 | Loss: 1.314932 | LR: 6.22e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1082 | Avg Loss: 1.316442 | LR: 6.22e-04 | Time: 5.6s | Samples: 6,983
+Training Flow Model:  54%|█████▍    | 1084/2000 [1:15:17<1:14:04,  4.85s/it]Epoch 1083 | Step  15163/ 28000 | Loss: 1.314887 | LR: 6.22e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1083 | Avg Loss: 1.316979 | LR: 6.22e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  54%|█████▍    | 1085/2000 [1:15:22<1:15:23,  4.94s/it]Epoch 1084 | Step  15177/ 28000 | Loss: 1.318838 | LR: 6.22e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1084 | Avg Loss: 1.317518 | LR: 6.21e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  54%|█████▍    | 1086/2000 [1:15:27<1:15:11,  4.94s/it]Epoch 1085 | Step  15191/ 28000 | Loss: 1.316441 | LR: 6.21e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1085 | Avg Loss: 1.317052 | LR: 6.21e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  54%|█████▍    | 1087/2000 [1:15:32<1:14:07,  4.87s/it]Epoch 1086 | Step  15205/ 28000 | Loss: 1.315320 | LR: 6.21e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1086 | Avg Loss: 1.317129 | LR: 6.20e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  54%|█████▍    | 1088/2000 [1:15:37<1:15:13,  4.95s/it]Epoch 1087 | Step  15219/ 28000 | Loss: 1.315076 | LR: 6.20e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1087 | Avg Loss: 1.317042 | LR: 6.20e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  54%|█████▍    | 1089/2000 [1:15:42<1:14:15,  4.89s/it]Epoch 1088 | Step  15233/ 28000 | Loss: 1.319960 | LR: 6.20e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1088 | Avg Loss: 1.317455 | LR: 6.20e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  55%|█████▍    | 1090/2000 [1:15:46<1:14:34,  4.92s/it]Epoch 1089 | Step  15247/ 28000 | Loss: 1.318636 | LR: 6.20e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1089 | Avg Loss: 1.317842 | LR: 6.19e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  55%|█████▍    | 1091/2000 [1:15:52<1:15:32,  4.99s/it]Epoch 1090 | Step  15261/ 28000 | Loss: 1.317431 | LR: 6.19e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1090 | Avg Loss: 1.317682 | LR: 6.19e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  55%|█████▍    | 1092/2000 [1:15:57<1:16:40,  5.07s/it]Epoch 1091 | Step  15275/ 28000 | Loss: 1.316829 | LR: 6.19e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1091 | Avg Loss: 1.317843 | LR: 6.19e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  55%|█████▍    | 1093/2000 [1:16:02<1:18:07,  5.17s/it]Epoch 1092 | Step  15289/ 28000 | Loss: 1.315950 | LR: 6.19e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1092 | Avg Loss: 1.316834 | LR: 6.18e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  55%|█████▍    | 1094/2000 [1:16:08<1:19:08,  5.24s/it]Epoch 1093 | Step  15303/ 28000 | Loss: 1.317221 | LR: 6.18e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1093 | Avg Loss: 1.317324 | LR: 6.18e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  55%|█████▍    | 1095/2000 [1:16:13<1:19:24,  5.26s/it]Epoch 1094 | Step  15317/ 28000 | Loss: 1.315077 | LR: 6.18e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1094 | Avg Loss: 1.316566 | LR: 6.18e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  55%|█████▍    | 1096/2000 [1:16:18<1:19:57,  5.31s/it]Epoch 1095 | Step  15331/ 28000 | Loss: 1.315649 | LR: 6.17e-04 | Speed: 3.4 steps/s | ETA: 1.1h
+Epoch 1095 | Avg Loss: 1.317328 | LR: 6.17e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  55%|█████▍    | 1097/2000 [1:16:24<1:20:42,  5.36s/it]Epoch 1096 | Step  15345/ 28000 | Loss: 1.316706 | LR: 6.17e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1096 | Avg Loss: 1.317163 | LR: 6.17e-04 | Time: 5.5s | Samples: 6,983
+Training Flow Model:  55%|█████▍    | 1098/2000 [1:16:29<1:20:32,  5.36s/it]Epoch 1097 | Step  15359/ 28000 | Loss: 1.319882 | LR: 6.17e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1097 | Avg Loss: 1.318320 | LR: 6.16e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  55%|█████▍    | 1099/2000 [1:16:34<1:19:21,  5.28s/it]Epoch 1098 | Step  15373/ 28000 | Loss: 1.317212 | LR: 6.16e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1098 | Avg Loss: 1.318174 | LR: 6.16e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  55%|█████▌    | 1100/2000 [1:16:39<1:15:40,  5.04s/it]Epoch 1099 | Step  15387/ 28000 | Loss: 1.318768 | LR: 6.16e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1099 | Avg Loss: 1.317936 | LR: 6.16e-04 | Time: 4.5s | Samples: 6,983
+Training Flow Model:  55%|█████▌    | 1101/2000 [1:16:43<1:11:16,  4.76s/it]Epoch 1100 | Step  15401/ 28000 | Loss: 1.317874 | LR: 6.16e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1100 | Avg Loss: 1.316976 | LR: 6.15e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  55%|█████▌    | 1102/2000 [1:16:47<1:07:32,  4.51s/it]Epoch 1101 | Step  15415/ 28000 | Loss: 1.316680 | LR: 6.15e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1101 | Avg Loss: 1.317668 | LR: 6.15e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  55%|█████▌    | 1103/2000 [1:16:51<1:04:48,  4.33s/it]Epoch 1102 | Step  15429/ 28000 | Loss: 1.313062 | LR: 6.15e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1102 | Avg Loss: 1.316992 | LR: 6.15e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  55%|█████▌    | 1104/2000 [1:16:55<1:04:11,  4.30s/it]Epoch 1103 | Step  15443/ 28000 | Loss: 1.318710 | LR: 6.15e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1103 | Avg Loss: 1.318281 | LR: 6.14e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  55%|█████▌    | 1105/2000 [1:16:59<1:02:55,  4.22s/it]Epoch 1104 | Step  15457/ 28000 | Loss: 1.316027 | LR: 6.14e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1104 | Avg Loss: 1.316903 | LR: 6.14e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  55%|█████▌    | 1106/2000 [1:17:03<1:01:57,  4.16s/it]Epoch 1105 | Step  15471/ 28000 | Loss: 1.317369 | LR: 6.14e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1105 | Avg Loss: 1.317684 | LR: 6.13e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  55%|█████▌    | 1107/2000 [1:17:07<1:00:59,  4.10s/it]Epoch 1106 | Step  15485/ 28000 | Loss: 1.317153 | LR: 6.13e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1106 | Avg Loss: 1.316732 | LR: 6.13e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  55%|█████▌    | 1108/2000 [1:17:11<59:54,  4.03s/it]  Epoch 1107 | Step  15499/ 28000 | Loss: 1.318059 | LR: 6.13e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1107 | Avg Loss: 1.318099 | LR: 6.13e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  55%|█████▌    | 1109/2000 [1:17:15<58:44,  3.96s/it]Epoch 1108 | Step  15513/ 28000 | Loss: 1.315676 | LR: 6.13e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1108 | Avg Loss: 1.317122 | LR: 6.12e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  56%|█████▌    | 1110/2000 [1:17:19<58:32,  3.95s/it]Epoch 1109 | Step  15527/ 28000 | Loss: 1.320260 | LR: 6.12e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1109 | Avg Loss: 1.317702 | LR: 6.12e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  56%|█████▌    | 1111/2000 [1:17:23<58:55,  3.98s/it]Epoch 1110 | Step  15541/ 28000 | Loss: 1.317492 | LR: 6.12e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1110 | Avg Loss: 1.316583 | LR: 6.12e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  56%|█████▌    | 1112/2000 [1:17:27<58:19,  3.94s/it]Epoch 1111 | Step  15555/ 28000 | Loss: 1.319423 | LR: 6.12e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1111 | Avg Loss: 1.316792 | LR: 6.11e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  56%|█████▌    | 1113/2000 [1:17:31<58:30,  3.96s/it]Epoch 1112 | Step  15569/ 28000 | Loss: 1.319956 | LR: 6.11e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1112 | Avg Loss: 1.317730 | LR: 6.11e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  56%|█████▌    | 1114/2000 [1:17:34<58:30,  3.96s/it]Epoch 1113 | Step  15583/ 28000 | Loss: 1.315302 | LR: 6.11e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1113 | Avg Loss: 1.316975 | LR: 6.11e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  56%|█████▌    | 1115/2000 [1:17:38<58:34,  3.97s/it]Epoch 1114 | Step  15597/ 28000 | Loss: 1.318935 | LR: 6.11e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1114 | Avg Loss: 1.317050 | LR: 6.10e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  56%|█████▌    | 1116/2000 [1:17:42<58:11,  3.95s/it]Epoch 1115 | Step  15611/ 28000 | Loss: 1.316112 | LR: 6.10e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1115 | Avg Loss: 1.318465 | LR: 6.10e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  56%|█████▌    | 1117/2000 [1:17:46<58:01,  3.94s/it]Epoch 1116 | Step  15625/ 28000 | Loss: 1.317137 | LR: 6.10e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1116 | Avg Loss: 1.316713 | LR: 6.09e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  56%|█████▌    | 1118/2000 [1:17:50<58:30,  3.98s/it]Epoch 1117 | Step  15639/ 28000 | Loss: 1.316776 | LR: 6.09e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1117 | Avg Loss: 1.317879 | LR: 6.09e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  56%|█████▌    | 1119/2000 [1:17:54<58:08,  3.96s/it]Epoch 1118 | Step  15653/ 28000 | Loss: 1.315579 | LR: 6.09e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1118 | Avg Loss: 1.317134 | LR: 6.09e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  56%|█████▌    | 1120/2000 [1:17:58<58:46,  4.01s/it]Epoch 1119 | Step  15667/ 28000 | Loss: 1.313941 | LR: 6.09e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1119 | Avg Loss: 1.317701 | LR: 6.08e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  56%|█████▌    | 1121/2000 [1:18:02<58:01,  3.96s/it]Epoch 1120 | Step  15681/ 28000 | Loss: 1.316019 | LR: 6.08e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1120 | Avg Loss: 1.317024 | LR: 6.08e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  56%|█████▌    | 1122/2000 [1:18:07<59:30,  4.07s/it]Epoch 1121 | Step  15695/ 28000 | Loss: 1.322125 | LR: 6.08e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1121 | Avg Loss: 1.317093 | LR: 6.08e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  56%|█████▌    | 1123/2000 [1:18:10<58:41,  4.02s/it]Epoch 1122 | Step  15709/ 28000 | Loss: 1.316092 | LR: 6.08e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1122 | Avg Loss: 1.317422 | LR: 6.07e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  56%|█████▌    | 1124/2000 [1:18:15<58:50,  4.03s/it]Epoch 1123 | Step  15723/ 28000 | Loss: 1.316390 | LR: 6.07e-04 | Speed: 3.3 steps/s | ETA: 1.0h
+Epoch 1123 | Avg Loss: 1.317906 | LR: 6.07e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  56%|█████▋    | 1125/2000 [1:18:18<57:36,  3.95s/it]Epoch 1124 | Step  15737/ 28000 | Loss: 1.321128 | LR: 6.07e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1124 | Avg Loss: 1.317458 | LR: 6.07e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  56%|█████▋    | 1126/2000 [1:18:22<57:26,  3.94s/it]Epoch 1125 | Step  15751/ 28000 | Loss: 1.315471 | LR: 6.07e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1125 | Avg Loss: 1.317475 | LR: 6.06e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  56%|█████▋    | 1127/2000 [1:18:26<57:17,  3.94s/it]Epoch 1126 | Step  15765/ 28000 | Loss: 1.316089 | LR: 6.06e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1126 | Avg Loss: 1.316610 | LR: 6.06e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  56%|█████▋    | 1128/2000 [1:18:30<57:03,  3.93s/it]Epoch 1127 | Step  15779/ 28000 | Loss: 1.316015 | LR: 6.06e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1127 | Avg Loss: 1.316897 | LR: 6.05e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  56%|█████▋    | 1129/2000 [1:18:34<57:04,  3.93s/it]Epoch 1128 | Step  15793/ 28000 | Loss: 1.320920 | LR: 6.05e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1128 | Avg Loss: 1.317481 | LR: 6.05e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  56%|█████▋    | 1130/2000 [1:18:38<56:59,  3.93s/it]Epoch 1129 | Step  15807/ 28000 | Loss: 1.316054 | LR: 6.05e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1129 | Avg Loss: 1.316936 | LR: 6.05e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1131/2000 [1:18:42<56:49,  3.92s/it]Epoch 1130 | Step  15821/ 28000 | Loss: 1.317342 | LR: 6.05e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1130 | Avg Loss: 1.316938 | LR: 6.04e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1132/2000 [1:18:46<58:02,  4.01s/it]Epoch 1131 | Step  15835/ 28000 | Loss: 1.318780 | LR: 6.04e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1131 | Avg Loss: 1.316977 | LR: 6.04e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1133/2000 [1:18:50<57:30,  3.98s/it]Epoch 1132 | Step  15849/ 28000 | Loss: 1.314789 | LR: 6.04e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1132 | Avg Loss: 1.316761 | LR: 6.04e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1134/2000 [1:18:54<57:31,  3.99s/it]Epoch 1133 | Step  15863/ 28000 | Loss: 1.318133 | LR: 6.04e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1133 | Avg Loss: 1.317218 | LR: 6.03e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1135/2000 [1:18:58<57:19,  3.98s/it]Epoch 1134 | Step  15877/ 28000 | Loss: 1.316668 | LR: 6.03e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1134 | Avg Loss: 1.317162 | LR: 6.03e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1136/2000 [1:19:02<56:42,  3.94s/it]Epoch 1135 | Step  15891/ 28000 | Loss: 1.317009 | LR: 6.03e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1135 | Avg Loss: 1.316927 | LR: 6.03e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1137/2000 [1:19:06<57:21,  3.99s/it]Epoch 1136 | Step  15905/ 28000 | Loss: 1.315640 | LR: 6.02e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1136 | Avg Loss: 1.317754 | LR: 6.02e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1138/2000 [1:19:10<56:57,  3.96s/it]Epoch 1137 | Step  15919/ 28000 | Loss: 1.320063 | LR: 6.02e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1137 | Avg Loss: 1.317709 | LR: 6.02e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1139/2000 [1:19:14<56:31,  3.94s/it]Epoch 1138 | Step  15933/ 28000 | Loss: 1.315801 | LR: 6.02e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1138 | Avg Loss: 1.316817 | LR: 6.01e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1140/2000 [1:19:18<57:00,  3.98s/it]Epoch 1139 | Step  15947/ 28000 | Loss: 1.318402 | LR: 6.01e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1139 | Avg Loss: 1.317960 | LR: 6.01e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1141/2000 [1:19:22<56:55,  3.98s/it]Epoch 1140 | Step  15961/ 28000 | Loss: 1.315958 | LR: 6.01e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1140 | Avg Loss: 1.317513 | LR: 6.01e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1142/2000 [1:19:26<56:23,  3.94s/it]Epoch 1141 | Step  15975/ 28000 | Loss: 1.316774 | LR: 6.01e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1141 | Avg Loss: 1.316865 | LR: 6.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1143/2000 [1:19:29<56:15,  3.94s/it]Epoch 1142 | Step  15989/ 28000 | Loss: 1.316948 | LR: 6.00e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1142 | Avg Loss: 1.316534 | LR: 6.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1144/2000 [1:19:34<56:55,  3.99s/it]Epoch 1143 | Step  16003/ 28000 | Loss: 1.318204 | LR: 6.00e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1143 | Avg Loss: 1.318036 | LR: 6.00e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1145/2000 [1:19:37<56:31,  3.97s/it]Epoch 1144 | Step  16017/ 28000 | Loss: 1.318200 | LR: 6.00e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1144 | Avg Loss: 1.318266 | LR: 5.99e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1146/2000 [1:19:42<57:12,  4.02s/it]Epoch 1145 | Step  16031/ 28000 | Loss: 1.316632 | LR: 5.99e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1145 | Avg Loss: 1.316923 | LR: 5.99e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1147/2000 [1:19:46<56:33,  3.98s/it]Epoch 1146 | Step  16045/ 28000 | Loss: 1.314992 | LR: 5.99e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1146 | Avg Loss: 1.317077 | LR: 5.98e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1148/2000 [1:19:50<56:34,  3.98s/it]Epoch 1147 | Step  16059/ 28000 | Loss: 1.320528 | LR: 5.98e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1147 | Avg Loss: 1.318080 | LR: 5.98e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  57%|█████▋    | 1149/2000 [1:19:53<56:15,  3.97s/it]Epoch 1148 | Step  16073/ 28000 | Loss: 1.314597 | LR: 5.98e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1148 | Avg Loss: 1.317592 | LR: 5.98e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  57%|█████▊    | 1150/2000 [1:19:57<55:25,  3.91s/it]Epoch 1149 | Step  16087/ 28000 | Loss: 1.319823 | LR: 5.98e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1149 | Avg Loss: 1.317896 | LR: 5.97e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1151/2000 [1:20:01<55:07,  3.90s/it]Epoch 1150 | Step  16101/ 28000 | Loss: 1.319996 | LR: 5.97e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1150 | Avg Loss: 1.318095 | LR: 5.97e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1152/2000 [1:20:05<54:49,  3.88s/it]Epoch 1151 | Step  16115/ 28000 | Loss: 1.315908 | LR: 5.97e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1151 | Avg Loss: 1.317576 | LR: 5.97e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1153/2000 [1:20:09<55:05,  3.90s/it]Epoch 1152 | Step  16129/ 28000 | Loss: 1.314335 | LR: 5.97e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1152 | Avg Loss: 1.317642 | LR: 5.96e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1154/2000 [1:20:13<54:46,  3.89s/it]Epoch 1153 | Step  16143/ 28000 | Loss: 1.319714 | LR: 5.96e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1153 | Avg Loss: 1.317393 | LR: 5.96e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1155/2000 [1:20:17<54:52,  3.90s/it]Epoch 1154 | Step  16157/ 28000 | Loss: 1.314628 | LR: 5.96e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1154 | Avg Loss: 1.317671 | LR: 5.96e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1156/2000 [1:20:21<55:09,  3.92s/it]Epoch 1155 | Step  16171/ 28000 | Loss: 1.321815 | LR: 5.96e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1155 | Avg Loss: 1.316685 | LR: 5.95e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1157/2000 [1:20:25<55:38,  3.96s/it]Epoch 1156 | Step  16185/ 28000 | Loss: 1.314861 | LR: 5.95e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1156 | Avg Loss: 1.316545 | LR: 5.95e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1158/2000 [1:20:29<55:02,  3.92s/it]Epoch 1157 | Step  16199/ 28000 | Loss: 1.316241 | LR: 5.95e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1157 | Avg Loss: 1.316769 | LR: 5.94e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1159/2000 [1:20:33<55:49,  3.98s/it]Epoch 1158 | Step  16213/ 28000 | Loss: 1.317532 | LR: 5.94e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1158 | Avg Loss: 1.316823 | LR: 5.94e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1160/2000 [1:20:37<55:22,  3.96s/it]Epoch 1159 | Step  16227/ 28000 | Loss: 1.315977 | LR: 5.94e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1159 | Avg Loss: 1.317212 | LR: 5.94e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1161/2000 [1:20:41<55:35,  3.98s/it]Epoch 1160 | Step  16241/ 28000 | Loss: 1.315097 | LR: 5.94e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1160 | Avg Loss: 1.317296 | LR: 5.93e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1162/2000 [1:20:45<55:26,  3.97s/it]Epoch 1161 | Step  16255/ 28000 | Loss: 1.318895 | LR: 5.93e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1161 | Avg Loss: 1.318053 | LR: 5.93e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1163/2000 [1:20:48<54:42,  3.92s/it]Epoch 1162 | Step  16269/ 28000 | Loss: 1.316439 | LR: 5.93e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1162 | Avg Loss: 1.317153 | LR: 5.93e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1164/2000 [1:20:52<54:44,  3.93s/it]Epoch 1163 | Step  16283/ 28000 | Loss: 1.315257 | LR: 5.93e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1163 | Avg Loss: 1.317186 | LR: 5.92e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1165/2000 [1:20:56<54:43,  3.93s/it]Epoch 1164 | Step  16297/ 28000 | Loss: 1.315613 | LR: 5.92e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1164 | Avg Loss: 1.317078 | LR: 5.92e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1166/2000 [1:21:00<54:40,  3.93s/it]Epoch 1165 | Step  16311/ 28000 | Loss: 1.318128 | LR: 5.92e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1165 | Avg Loss: 1.317994 | LR: 5.92e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1167/2000 [1:21:04<54:47,  3.95s/it]Epoch 1166 | Step  16325/ 28000 | Loss: 1.317559 | LR: 5.91e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1166 | Avg Loss: 1.317635 | LR: 5.91e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1168/2000 [1:21:08<54:07,  3.90s/it]Epoch 1167 | Step  16339/ 28000 | Loss: 1.317811 | LR: 5.91e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1167 | Avg Loss: 1.316591 | LR: 5.91e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1169/2000 [1:21:12<53:51,  3.89s/it]Epoch 1168 | Step  16353/ 28000 | Loss: 1.317919 | LR: 5.91e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1168 | Avg Loss: 1.317876 | LR: 5.90e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  58%|█████▊    | 1170/2000 [1:21:16<54:07,  3.91s/it]Epoch 1169 | Step  16367/ 28000 | Loss: 1.319844 | LR: 5.90e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1169 | Avg Loss: 1.318042 | LR: 5.90e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  59%|█████▊    | 1171/2000 [1:21:20<54:21,  3.93s/it]Epoch 1170 | Step  16381/ 28000 | Loss: 1.312868 | LR: 5.90e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1170 | Avg Loss: 1.315659 | LR: 5.90e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  59%|█████▊    | 1172/2000 [1:21:24<54:36,  3.96s/it]Epoch 1171 | Step  16395/ 28000 | Loss: 1.317075 | LR: 5.90e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1171 | Avg Loss: 1.316873 | LR: 5.89e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  59%|█████▊    | 1173/2000 [1:21:28<54:14,  3.94s/it]Epoch 1172 | Step  16409/ 28000 | Loss: 1.319981 | LR: 5.89e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1172 | Avg Loss: 1.317251 | LR: 5.89e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  59%|█████▊    | 1174/2000 [1:21:32<55:39,  4.04s/it]Epoch 1173 | Step  16423/ 28000 | Loss: 1.315931 | LR: 5.89e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1173 | Avg Loss: 1.316301 | LR: 5.89e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  59%|█████▉    | 1175/2000 [1:21:36<55:08,  4.01s/it]Epoch 1174 | Step  16437/ 28000 | Loss: 1.315743 | LR: 5.89e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1174 | Avg Loss: 1.316939 | LR: 5.88e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  59%|█████▉    | 1176/2000 [1:21:40<55:56,  4.07s/it]Epoch 1175 | Step  16451/ 28000 | Loss: 1.315929 | LR: 5.88e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1175 | Avg Loss: 1.317182 | LR: 5.88e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  59%|█████▉    | 1177/2000 [1:21:44<55:17,  4.03s/it]Epoch 1176 | Step  16465/ 28000 | Loss: 1.319249 | LR: 5.88e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1176 | Avg Loss: 1.317344 | LR: 5.87e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  59%|█████▉    | 1178/2000 [1:21:48<55:03,  4.02s/it]Epoch 1177 | Step  16479/ 28000 | Loss: 1.319488 | LR: 5.87e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1177 | Avg Loss: 1.318392 | LR: 5.87e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  59%|█████▉    | 1179/2000 [1:21:52<54:57,  4.02s/it]Epoch 1178 | Step  16493/ 28000 | Loss: 1.318598 | LR: 5.87e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1178 | Avg Loss: 1.317755 | LR: 5.87e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  59%|█████▉    | 1180/2000 [1:21:56<54:16,  3.97s/it]Epoch 1179 | Step  16507/ 28000 | Loss: 1.316530 | LR: 5.87e-04 | Speed: 3.4 steps/s | ETA: 1.0h
+Epoch 1179 | Avg Loss: 1.317799 | LR: 5.86e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  59%|█████▉    | 1181/2000 [1:22:00<53:38,  3.93s/it]Epoch 1180 | Step  16521/ 28000 | Loss: 1.315756 | LR: 5.86e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1180 | Avg Loss: 1.317425 | LR: 5.86e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  59%|█████▉    | 1182/2000 [1:22:04<54:01,  3.96s/it]Epoch 1181 | Step  16535/ 28000 | Loss: 1.317777 | LR: 5.86e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1181 | Avg Loss: 1.317555 | LR: 5.86e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  59%|█████▉    | 1183/2000 [1:22:08<53:39,  3.94s/it]Epoch 1182 | Step  16549/ 28000 | Loss: 1.316979 | LR: 5.86e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1182 | Avg Loss: 1.317799 | LR: 5.85e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  59%|█████▉    | 1184/2000 [1:22:12<54:36,  4.02s/it]Epoch 1183 | Step  16563/ 28000 | Loss: 1.320308 | LR: 5.85e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1183 | Avg Loss: 1.316678 | LR: 5.85e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  59%|█████▉    | 1185/2000 [1:22:16<54:17,  4.00s/it]Epoch 1184 | Step  16577/ 28000 | Loss: 1.318706 | LR: 5.85e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1184 | Avg Loss: 1.317639 | LR: 5.85e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  59%|█████▉    | 1186/2000 [1:22:20<53:46,  3.96s/it]Epoch 1185 | Step  16591/ 28000 | Loss: 1.319674 | LR: 5.85e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1185 | Avg Loss: 1.318140 | LR: 5.84e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  59%|█████▉    | 1187/2000 [1:22:24<53:27,  3.95s/it]Epoch 1186 | Step  16605/ 28000 | Loss: 1.317100 | LR: 5.84e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1186 | Avg Loss: 1.317516 | LR: 5.84e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  59%|█████▉    | 1188/2000 [1:22:27<53:12,  3.93s/it]Epoch 1187 | Step  16619/ 28000 | Loss: 1.317790 | LR: 5.84e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1187 | Avg Loss: 1.317668 | LR: 5.83e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  59%|█████▉    | 1189/2000 [1:22:31<53:11,  3.93s/it]Epoch 1188 | Step  16633/ 28000 | Loss: 1.316110 | LR: 5.83e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1188 | Avg Loss: 1.316502 | LR: 5.83e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  60%|█████▉    | 1190/2000 [1:22:35<52:56,  3.92s/it]Epoch 1189 | Step  16647/ 28000 | Loss: 1.315365 | LR: 5.83e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1189 | Avg Loss: 1.317304 | LR: 5.83e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  60%|█████▉    | 1191/2000 [1:22:39<52:57,  3.93s/it]Epoch 1190 | Step  16661/ 28000 | Loss: 1.317514 | LR: 5.83e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1190 | Avg Loss: 1.317585 | LR: 5.82e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  60%|█████▉    | 1192/2000 [1:22:43<52:56,  3.93s/it]Epoch 1191 | Step  16675/ 28000 | Loss: 1.318381 | LR: 5.82e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1191 | Avg Loss: 1.316912 | LR: 5.82e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  60%|█████▉    | 1193/2000 [1:22:47<53:19,  3.96s/it]Epoch 1192 | Step  16689/ 28000 | Loss: 1.315275 | LR: 5.82e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1192 | Avg Loss: 1.317262 | LR: 5.82e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  60%|█████▉    | 1194/2000 [1:22:51<53:37,  3.99s/it]Epoch 1193 | Step  16703/ 28000 | Loss: 1.317926 | LR: 5.82e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1193 | Avg Loss: 1.317558 | LR: 5.81e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  60%|█████▉    | 1195/2000 [1:22:55<54:12,  4.04s/it]Epoch 1194 | Step  16717/ 28000 | Loss: 1.314830 | LR: 5.81e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1194 | Avg Loss: 1.317564 | LR: 5.81e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  60%|█████▉    | 1196/2000 [1:22:59<53:26,  3.99s/it]Epoch 1195 | Step  16731/ 28000 | Loss: 1.319546 | LR: 5.81e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1195 | Avg Loss: 1.317153 | LR: 5.81e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  60%|█████▉    | 1197/2000 [1:23:03<53:06,  3.97s/it]Epoch 1196 | Step  16745/ 28000 | Loss: 1.318818 | LR: 5.81e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1196 | Avg Loss: 1.316527 | LR: 5.80e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  60%|█████▉    | 1198/2000 [1:23:07<52:35,  3.93s/it]Epoch 1197 | Step  16759/ 28000 | Loss: 1.317737 | LR: 5.80e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1197 | Avg Loss: 1.316972 | LR: 5.80e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  60%|█████▉    | 1199/2000 [1:23:11<52:35,  3.94s/it]Epoch 1198 | Step  16773/ 28000 | Loss: 1.316282 | LR: 5.80e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1198 | Avg Loss: 1.316736 | LR: 5.79e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  60%|██████    | 1200/2000 [1:23:18<1:05:24,  4.91s/it]Epoch 1199 | Step  16787/ 28000 | Loss: 1.315943 | LR: 5.79e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1199 | Avg Loss: 1.317441 | LR: 5.79e-04 | Time: 4.0s | Samples: 6,983
+✓ Checkpoint saved: /data2/edwardsun/flow_checkpoints/amp_flow_model_final_optimized.pth (loss: 1.317441, step: 16800)
+Training Flow Model:  60%|██████    | 1201/2000 [1:23:22<1:02:26,  4.69s/it]Epoch 1200 | Step  16801/ 28000 | Loss: 1.317659 | LR: 5.79e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1200 | Avg Loss: 1.317862 | LR: 5.79e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  60%|██████    | 1202/2000 [1:23:26<59:02,  4.44s/it]  Epoch 1201 | Step  16815/ 28000 | Loss: 1.317997 | LR: 5.79e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1201 | Avg Loss: 1.317185 | LR: 5.78e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  60%|██████    | 1203/2000 [1:23:30<56:19,  4.24s/it]Epoch 1202 | Step  16829/ 28000 | Loss: 1.316273 | LR: 5.78e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1202 | Avg Loss: 1.316380 | LR: 5.78e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  60%|██████    | 1204/2000 [1:23:34<54:56,  4.14s/it]Epoch 1203 | Step  16843/ 28000 | Loss: 1.321004 | LR: 5.78e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1203 | Avg Loss: 1.318365 | LR: 5.78e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  60%|██████    | 1205/2000 [1:23:38<53:52,  4.07s/it]Epoch 1204 | Step  16857/ 28000 | Loss: 1.315482 | LR: 5.78e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1204 | Avg Loss: 1.317119 | LR: 5.77e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  60%|██████    | 1206/2000 [1:23:42<53:14,  4.02s/it]Epoch 1205 | Step  16871/ 28000 | Loss: 1.315788 | LR: 5.77e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1205 | Avg Loss: 1.316863 | LR: 5.77e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  60%|██████    | 1207/2000 [1:23:46<53:14,  4.03s/it]Epoch 1206 | Step  16885/ 28000 | Loss: 1.313604 | LR: 5.77e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1206 | Avg Loss: 1.317100 | LR: 5.77e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  60%|██████    | 1208/2000 [1:23:50<52:51,  4.00s/it]Epoch 1207 | Step  16899/ 28000 | Loss: 1.320769 | LR: 5.77e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1207 | Avg Loss: 1.316451 | LR: 5.76e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  60%|██████    | 1209/2000 [1:23:54<53:21,  4.05s/it]Epoch 1208 | Step  16913/ 28000 | Loss: 1.320257 | LR: 5.76e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1208 | Avg Loss: 1.317895 | LR: 5.76e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  60%|██████    | 1210/2000 [1:23:58<52:59,  4.02s/it]Epoch 1209 | Step  16927/ 28000 | Loss: 1.316804 | LR: 5.76e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1209 | Avg Loss: 1.316287 | LR: 5.75e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  61%|██████    | 1211/2000 [1:24:02<52:30,  3.99s/it]Epoch 1210 | Step  16941/ 28000 | Loss: 1.318685 | LR: 5.75e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1210 | Avg Loss: 1.317083 | LR: 5.75e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  61%|██████    | 1212/2000 [1:24:06<51:43,  3.94s/it]Epoch 1211 | Step  16955/ 28000 | Loss: 1.318072 | LR: 5.75e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1211 | Avg Loss: 1.317201 | LR: 5.75e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  61%|██████    | 1213/2000 [1:24:10<51:54,  3.96s/it]Epoch 1212 | Step  16969/ 28000 | Loss: 1.320760 | LR: 5.75e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1212 | Avg Loss: 1.318501 | LR: 5.74e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  61%|██████    | 1214/2000 [1:24:14<52:15,  3.99s/it]Epoch 1213 | Step  16983/ 28000 | Loss: 1.315811 | LR: 5.74e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1213 | Avg Loss: 1.317298 | LR: 5.74e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  61%|██████    | 1215/2000 [1:24:17<51:32,  3.94s/it]Epoch 1214 | Step  16997/ 28000 | Loss: 1.317147 | LR: 5.74e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1214 | Avg Loss: 1.317552 | LR: 5.74e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  61%|██████    | 1216/2000 [1:24:21<51:29,  3.94s/it]Epoch 1215 | Step  17011/ 28000 | Loss: 1.317255 | LR: 5.74e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1215 | Avg Loss: 1.317625 | LR: 5.73e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  61%|██████    | 1217/2000 [1:24:25<51:59,  3.98s/it]Epoch 1216 | Step  17025/ 28000 | Loss: 1.317380 | LR: 5.73e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1216 | Avg Loss: 1.316598 | LR: 5.73e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  61%|██████    | 1218/2000 [1:24:30<52:19,  4.01s/it]Epoch 1217 | Step  17039/ 28000 | Loss: 1.322654 | LR: 5.73e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1217 | Avg Loss: 1.318190 | LR: 5.73e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  61%|██████    | 1219/2000 [1:24:34<52:23,  4.03s/it]Epoch 1218 | Step  17053/ 28000 | Loss: 1.315710 | LR: 5.73e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1218 | Avg Loss: 1.317105 | LR: 5.72e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  61%|██████    | 1220/2000 [1:24:38<51:52,  3.99s/it]Epoch 1219 | Step  17067/ 28000 | Loss: 1.318794 | LR: 5.72e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1219 | Avg Loss: 1.317614 | LR: 5.72e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  61%|██████    | 1221/2000 [1:24:42<51:56,  4.00s/it]Epoch 1220 | Step  17081/ 28000 | Loss: 1.320640 | LR: 5.72e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1220 | Avg Loss: 1.317065 | LR: 5.71e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  61%|██████    | 1222/2000 [1:24:45<51:04,  3.94s/it]Epoch 1221 | Step  17095/ 28000 | Loss: 1.314956 | LR: 5.71e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1221 | Avg Loss: 1.316206 | LR: 5.71e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  61%|██████    | 1223/2000 [1:24:50<51:59,  4.02s/it]Epoch 1222 | Step  17109/ 28000 | Loss: 1.318932 | LR: 5.71e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1222 | Avg Loss: 1.317395 | LR: 5.71e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  61%|██████    | 1224/2000 [1:24:54<51:48,  4.01s/it]Epoch 1223 | Step  17123/ 28000 | Loss: 1.317903 | LR: 5.71e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1223 | Avg Loss: 1.317348 | LR: 5.70e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  61%|██████▏   | 1225/2000 [1:24:57<51:37,  4.00s/it]Epoch 1224 | Step  17137/ 28000 | Loss: 1.318396 | LR: 5.70e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1224 | Avg Loss: 1.318390 | LR: 5.70e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  61%|██████▏   | 1226/2000 [1:25:01<50:54,  3.95s/it]Epoch 1225 | Step  17151/ 28000 | Loss: 1.315461 | LR: 5.70e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1225 | Avg Loss: 1.316828 | LR: 5.70e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  61%|██████▏   | 1227/2000 [1:25:05<50:48,  3.94s/it]Epoch 1226 | Step  17165/ 28000 | Loss: 1.313375 | LR: 5.70e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1226 | Avg Loss: 1.317722 | LR: 5.69e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  61%|██████▏   | 1228/2000 [1:25:09<51:23,  3.99s/it]Epoch 1227 | Step  17179/ 28000 | Loss: 1.318021 | LR: 5.69e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1227 | Avg Loss: 1.317291 | LR: 5.69e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  61%|██████▏   | 1229/2000 [1:25:13<50:42,  3.95s/it]Epoch 1228 | Step  17193/ 28000 | Loss: 1.321156 | LR: 5.69e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1228 | Avg Loss: 1.317632 | LR: 5.69e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1230/2000 [1:25:17<50:36,  3.94s/it]Epoch 1229 | Step  17207/ 28000 | Loss: 1.315555 | LR: 5.69e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1229 | Avg Loss: 1.316856 | LR: 5.68e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1231/2000 [1:25:21<50:07,  3.91s/it]Epoch 1230 | Step  17221/ 28000 | Loss: 1.315333 | LR: 5.68e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1230 | Avg Loss: 1.317188 | LR: 5.68e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1232/2000 [1:25:25<49:35,  3.87s/it]Epoch 1231 | Step  17235/ 28000 | Loss: 1.316881 | LR: 5.68e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1231 | Avg Loss: 1.317111 | LR: 5.67e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1233/2000 [1:25:29<49:28,  3.87s/it]Epoch 1232 | Step  17249/ 28000 | Loss: 1.320496 | LR: 5.67e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1232 | Avg Loss: 1.316814 | LR: 5.67e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1234/2000 [1:25:33<49:56,  3.91s/it]Epoch 1233 | Step  17263/ 28000 | Loss: 1.314830 | LR: 5.67e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1233 | Avg Loss: 1.316733 | LR: 5.67e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1235/2000 [1:25:37<49:49,  3.91s/it]Epoch 1234 | Step  17277/ 28000 | Loss: 1.315688 | LR: 5.67e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1234 | Avg Loss: 1.317396 | LR: 5.66e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1236/2000 [1:25:41<50:51,  3.99s/it]Epoch 1235 | Step  17291/ 28000 | Loss: 1.315075 | LR: 5.66e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1235 | Avg Loss: 1.317751 | LR: 5.66e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1237/2000 [1:25:45<50:20,  3.96s/it]Epoch 1236 | Step  17305/ 28000 | Loss: 1.317817 | LR: 5.66e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1236 | Avg Loss: 1.317488 | LR: 5.66e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1238/2000 [1:25:49<50:04,  3.94s/it]Epoch 1237 | Step  17319/ 28000 | Loss: 1.313669 | LR: 5.66e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1237 | Avg Loss: 1.316480 | LR: 5.65e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1239/2000 [1:25:52<50:10,  3.96s/it]Epoch 1238 | Step  17333/ 28000 | Loss: 1.319620 | LR: 5.65e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1238 | Avg Loss: 1.317382 | LR: 5.65e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1240/2000 [1:25:56<50:06,  3.96s/it]Epoch 1239 | Step  17347/ 28000 | Loss: 1.315075 | LR: 5.65e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1239 | Avg Loss: 1.316728 | LR: 5.65e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1241/2000 [1:26:01<50:23,  3.98s/it]Epoch 1240 | Step  17361/ 28000 | Loss: 1.316714 | LR: 5.65e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1240 | Avg Loss: 1.316829 | LR: 5.64e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1242/2000 [1:26:04<50:09,  3.97s/it]Epoch 1241 | Step  17375/ 28000 | Loss: 1.317903 | LR: 5.64e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1241 | Avg Loss: 1.317828 | LR: 5.64e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1243/2000 [1:26:08<49:49,  3.95s/it]Epoch 1242 | Step  17389/ 28000 | Loss: 1.317899 | LR: 5.64e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1242 | Avg Loss: 1.317670 | LR: 5.64e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1244/2000 [1:26:12<49:17,  3.91s/it]Epoch 1243 | Step  17403/ 28000 | Loss: 1.314778 | LR: 5.63e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1243 | Avg Loss: 1.317599 | LR: 5.63e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1245/2000 [1:26:17<53:05,  4.22s/it]Epoch 1244 | Step  17417/ 28000 | Loss: 1.315012 | LR: 5.63e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1244 | Avg Loss: 1.317370 | LR: 5.63e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1246/2000 [1:26:22<56:06,  4.47s/it]Epoch 1245 | Step  17431/ 28000 | Loss: 1.317994 | LR: 5.63e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1245 | Avg Loss: 1.317236 | LR: 5.62e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1247/2000 [1:26:28<59:33,  4.75s/it]Epoch 1246 | Step  17445/ 28000 | Loss: 1.318066 | LR: 5.62e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1246 | Avg Loss: 1.317901 | LR: 5.62e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1248/2000 [1:26:32<1:00:14,  4.81s/it]Epoch 1247 | Step  17459/ 28000 | Loss: 1.317875 | LR: 5.62e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1247 | Avg Loss: 1.317402 | LR: 5.62e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  62%|██████▏   | 1249/2000 [1:26:37<1:00:26,  4.83s/it]Epoch 1248 | Step  17473/ 28000 | Loss: 1.315683 | LR: 5.62e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1248 | Avg Loss: 1.316555 | LR: 5.61e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  62%|██████▎   | 1250/2000 [1:26:42<1:00:09,  4.81s/it]Epoch 1249 | Step  17487/ 28000 | Loss: 1.319072 | LR: 5.61e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1249 | Avg Loss: 1.316859 | LR: 5.61e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1251/2000 [1:26:47<59:36,  4.78s/it]  Epoch 1250 | Step  17501/ 28000 | Loss: 1.318365 | LR: 5.61e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1250 | Avg Loss: 1.318287 | LR: 5.61e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1252/2000 [1:26:52<1:00:32,  4.86s/it]Epoch 1251 | Step  17515/ 28000 | Loss: 1.315977 | LR: 5.61e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1251 | Avg Loss: 1.316867 | LR: 5.60e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1253/2000 [1:26:57<1:00:29,  4.86s/it]Epoch 1252 | Step  17529/ 28000 | Loss: 1.316242 | LR: 5.60e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1252 | Avg Loss: 1.316913 | LR: 5.60e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1254/2000 [1:27:02<1:00:40,  4.88s/it]Epoch 1253 | Step  17543/ 28000 | Loss: 1.315309 | LR: 5.60e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1253 | Avg Loss: 1.316421 | LR: 5.60e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1255/2000 [1:27:07<1:01:56,  4.99s/it]Epoch 1254 | Step  17557/ 28000 | Loss: 1.317704 | LR: 5.60e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1254 | Avg Loss: 1.317105 | LR: 5.59e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1256/2000 [1:27:12<1:01:26,  4.95s/it]Epoch 1255 | Step  17571/ 28000 | Loss: 1.316489 | LR: 5.59e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1255 | Avg Loss: 1.317590 | LR: 5.59e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1257/2000 [1:27:17<1:00:37,  4.90s/it]Epoch 1256 | Step  17585/ 28000 | Loss: 1.317832 | LR: 5.59e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1256 | Avg Loss: 1.317481 | LR: 5.58e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1258/2000 [1:27:22<1:01:22,  4.96s/it]Epoch 1257 | Step  17599/ 28000 | Loss: 1.314414 | LR: 5.58e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1257 | Avg Loss: 1.316718 | LR: 5.58e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1259/2000 [1:27:26<1:00:40,  4.91s/it]Epoch 1258 | Step  17613/ 28000 | Loss: 1.314526 | LR: 5.58e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1258 | Avg Loss: 1.316626 | LR: 5.58e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1260/2000 [1:27:31<1:00:52,  4.94s/it]Epoch 1259 | Step  17627/ 28000 | Loss: 1.318374 | LR: 5.58e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1259 | Avg Loss: 1.316844 | LR: 5.57e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1261/2000 [1:27:37<1:01:30,  4.99s/it]Epoch 1260 | Step  17641/ 28000 | Loss: 1.315569 | LR: 5.57e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1260 | Avg Loss: 1.317130 | LR: 5.57e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1262/2000 [1:27:41<1:00:30,  4.92s/it]Epoch 1261 | Step  17655/ 28000 | Loss: 1.317604 | LR: 5.57e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1261 | Avg Loss: 1.317834 | LR: 5.57e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1263/2000 [1:27:46<1:00:52,  4.96s/it]Epoch 1262 | Step  17669/ 28000 | Loss: 1.318568 | LR: 5.57e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1262 | Avg Loss: 1.318404 | LR: 5.56e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1264/2000 [1:27:51<1:01:03,  4.98s/it]Epoch 1263 | Step  17683/ 28000 | Loss: 1.317592 | LR: 5.56e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1263 | Avg Loss: 1.317148 | LR: 5.56e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1265/2000 [1:27:56<1:00:29,  4.94s/it]Epoch 1264 | Step  17697/ 28000 | Loss: 1.318336 | LR: 5.56e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1264 | Avg Loss: 1.317098 | LR: 5.56e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1266/2000 [1:28:01<1:00:17,  4.93s/it]Epoch 1265 | Step  17711/ 28000 | Loss: 1.312854 | LR: 5.56e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1265 | Avg Loss: 1.317652 | LR: 5.55e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1267/2000 [1:28:06<1:00:01,  4.91s/it]Epoch 1266 | Step  17725/ 28000 | Loss: 1.318220 | LR: 5.55e-04 | Speed: 3.4 steps/s | ETA: 0.9h
+Epoch 1266 | Avg Loss: 1.317918 | LR: 5.55e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1268/2000 [1:28:11<59:22,  4.87s/it]  Epoch 1267 | Step  17739/ 28000 | Loss: 1.315143 | LR: 5.55e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1267 | Avg Loss: 1.317255 | LR: 5.55e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  63%|██████▎   | 1269/2000 [1:28:15<56:06,  4.61s/it]Epoch 1268 | Step  17753/ 28000 | Loss: 1.316561 | LR: 5.55e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1268 | Avg Loss: 1.317493 | LR: 5.54e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  64%|██████▎   | 1270/2000 [1:28:19<53:41,  4.41s/it]Epoch 1269 | Step  17767/ 28000 | Loss: 1.316090 | LR: 5.54e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1269 | Avg Loss: 1.317719 | LR: 5.54e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  64%|██████▎   | 1271/2000 [1:28:23<51:54,  4.27s/it]Epoch 1270 | Step  17781/ 28000 | Loss: 1.313989 | LR: 5.54e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1270 | Avg Loss: 1.317892 | LR: 5.53e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  64%|██████▎   | 1272/2000 [1:28:27<50:30,  4.16s/it]Epoch 1271 | Step  17795/ 28000 | Loss: 1.319742 | LR: 5.53e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1271 | Avg Loss: 1.317852 | LR: 5.53e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  64%|██████▎   | 1273/2000 [1:28:31<50:16,  4.15s/it]Epoch 1272 | Step  17809/ 28000 | Loss: 1.315143 | LR: 5.53e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1272 | Avg Loss: 1.315721 | LR: 5.53e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  64%|██████▎   | 1274/2000 [1:28:36<53:33,  4.43s/it]Epoch 1273 | Step  17823/ 28000 | Loss: 1.318792 | LR: 5.53e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1273 | Avg Loss: 1.317363 | LR: 5.52e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  64%|██████▍   | 1275/2000 [1:28:41<55:58,  4.63s/it]Epoch 1274 | Step  17837/ 28000 | Loss: 1.314433 | LR: 5.52e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1274 | Avg Loss: 1.316852 | LR: 5.52e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  64%|██████▍   | 1276/2000 [1:28:46<57:54,  4.80s/it]Epoch 1275 | Step  17851/ 28000 | Loss: 1.316405 | LR: 5.52e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1275 | Avg Loss: 1.316543 | LR: 5.52e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  64%|██████▍   | 1277/2000 [1:28:51<59:24,  4.93s/it]Epoch 1276 | Step  17865/ 28000 | Loss: 1.315189 | LR: 5.52e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1276 | Avg Loss: 1.316944 | LR: 5.51e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  64%|██████▍   | 1278/2000 [1:28:57<1:00:40,  5.04s/it]Epoch 1277 | Step  17879/ 28000 | Loss: 1.320081 | LR: 5.51e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1277 | Avg Loss: 1.317944 | LR: 5.51e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  64%|██████▍   | 1279/2000 [1:29:02<1:01:19,  5.10s/it]Epoch 1278 | Step  17893/ 28000 | Loss: 1.318630 | LR: 5.51e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1278 | Avg Loss: 1.317654 | LR: 5.51e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  64%|██████▍   | 1280/2000 [1:29:07<1:00:52,  5.07s/it]Epoch 1279 | Step  17907/ 28000 | Loss: 1.316794 | LR: 5.51e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1279 | Avg Loss: 1.317646 | LR: 5.50e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  64%|██████▍   | 1281/2000 [1:29:12<1:00:03,  5.01s/it]Epoch 1280 | Step  17921/ 28000 | Loss: 1.317430 | LR: 5.50e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1280 | Avg Loss: 1.317757 | LR: 5.50e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  64%|██████▍   | 1282/2000 [1:29:17<59:27,  4.97s/it]  Epoch 1281 | Step  17935/ 28000 | Loss: 1.314993 | LR: 5.50e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1281 | Avg Loss: 1.316285 | LR: 5.50e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  64%|██████▍   | 1283/2000 [1:29:22<59:09,  4.95s/it]Epoch 1282 | Step  17949/ 28000 | Loss: 1.315655 | LR: 5.50e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1282 | Avg Loss: 1.317391 | LR: 5.49e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  64%|██████▍   | 1284/2000 [1:29:27<59:32,  4.99s/it]Epoch 1283 | Step  17963/ 28000 | Loss: 1.315044 | LR: 5.49e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1283 | Avg Loss: 1.317027 | LR: 5.49e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  64%|██████▍   | 1285/2000 [1:29:32<1:00:32,  5.08s/it]Epoch 1284 | Step  17977/ 28000 | Loss: 1.316956 | LR: 5.49e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1284 | Avg Loss: 1.317034 | LR: 5.48e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  64%|██████▍   | 1286/2000 [1:29:37<1:01:53,  5.20s/it]Epoch 1285 | Step  17991/ 28000 | Loss: 1.318276 | LR: 5.48e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1285 | Avg Loss: 1.317223 | LR: 5.48e-04 | Time: 5.5s | Samples: 6,983
+Training Flow Model:  64%|██████▍   | 1287/2000 [1:29:43<1:02:12,  5.23s/it]Epoch 1286 | Step  18005/ 28000 | Loss: 1.316641 | LR: 5.48e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1286 | Avg Loss: 1.317410 | LR: 5.48e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  64%|██████▍   | 1288/2000 [1:29:48<1:02:15,  5.25s/it]Epoch 1287 | Step  18019/ 28000 | Loss: 1.320087 | LR: 5.48e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1287 | Avg Loss: 1.317643 | LR: 5.47e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  64%|██████▍   | 1289/2000 [1:29:53<1:02:45,  5.30s/it]Epoch 1288 | Step  18033/ 28000 | Loss: 1.322568 | LR: 5.47e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1288 | Avg Loss: 1.317964 | LR: 5.47e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  64%|██████▍   | 1290/2000 [1:29:58<1:01:46,  5.22s/it]Epoch 1289 | Step  18047/ 28000 | Loss: 1.319890 | LR: 5.47e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1289 | Avg Loss: 1.318807 | LR: 5.47e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  65%|██████▍   | 1291/2000 [1:30:03<59:49,  5.06s/it]  Epoch 1290 | Step  18061/ 28000 | Loss: 1.315387 | LR: 5.47e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1290 | Avg Loss: 1.317112 | LR: 5.46e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  65%|██████▍   | 1292/2000 [1:30:07<56:18,  4.77s/it]Epoch 1291 | Step  18075/ 28000 | Loss: 1.317563 | LR: 5.46e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1291 | Avg Loss: 1.317393 | LR: 5.46e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  65%|██████▍   | 1293/2000 [1:30:12<54:45,  4.65s/it]Epoch 1292 | Step  18089/ 28000 | Loss: 1.317045 | LR: 5.46e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1292 | Avg Loss: 1.316968 | LR: 5.46e-04 | Time: 4.4s | Samples: 6,983
+Training Flow Model:  65%|██████▍   | 1294/2000 [1:30:15<51:47,  4.40s/it]Epoch 1293 | Step  18103/ 28000 | Loss: 1.316426 | LR: 5.46e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1293 | Avg Loss: 1.317515 | LR: 5.45e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  65%|██████▍   | 1295/2000 [1:30:19<50:03,  4.26s/it]Epoch 1294 | Step  18117/ 28000 | Loss: 1.318442 | LR: 5.45e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1294 | Avg Loss: 1.318040 | LR: 5.45e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  65%|██████▍   | 1296/2000 [1:30:23<49:21,  4.21s/it]Epoch 1295 | Step  18131/ 28000 | Loss: 1.317207 | LR: 5.45e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1295 | Avg Loss: 1.316966 | LR: 5.45e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  65%|██████▍   | 1297/2000 [1:30:28<49:02,  4.19s/it]Epoch 1296 | Step  18145/ 28000 | Loss: 1.314079 | LR: 5.45e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1296 | Avg Loss: 1.316823 | LR: 5.44e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  65%|██████▍   | 1298/2000 [1:30:32<48:14,  4.12s/it]Epoch 1297 | Step  18159/ 28000 | Loss: 1.315473 | LR: 5.44e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1297 | Avg Loss: 1.317389 | LR: 5.44e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  65%|██████▍   | 1299/2000 [1:30:35<47:19,  4.05s/it]Epoch 1298 | Step  18173/ 28000 | Loss: 1.318165 | LR: 5.44e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1298 | Avg Loss: 1.317254 | LR: 5.44e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  65%|██████▌   | 1300/2000 [1:30:39<46:56,  4.02s/it]Epoch 1299 | Step  18187/ 28000 | Loss: 1.313200 | LR: 5.44e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1299 | Avg Loss: 1.318041 | LR: 5.43e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  65%|██████▌   | 1301/2000 [1:30:43<46:33,  4.00s/it]Epoch 1300 | Step  18201/ 28000 | Loss: 1.318283 | LR: 5.43e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1300 | Avg Loss: 1.317117 | LR: 5.43e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  65%|██████▌   | 1302/2000 [1:30:47<46:26,  3.99s/it]Epoch 1301 | Step  18215/ 28000 | Loss: 1.319160 | LR: 5.43e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1301 | Avg Loss: 1.317906 | LR: 5.42e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  65%|██████▌   | 1303/2000 [1:30:51<46:20,  3.99s/it]Epoch 1302 | Step  18229/ 28000 | Loss: 1.315580 | LR: 5.42e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1302 | Avg Loss: 1.316956 | LR: 5.42e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  65%|██████▌   | 1304/2000 [1:30:55<46:14,  3.99s/it]Epoch 1303 | Step  18243/ 28000 | Loss: 1.316962 | LR: 5.42e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1303 | Avg Loss: 1.317762 | LR: 5.42e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  65%|██████▌   | 1305/2000 [1:30:59<46:17,  4.00s/it]Epoch 1304 | Step  18257/ 28000 | Loss: 1.315293 | LR: 5.42e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1304 | Avg Loss: 1.316489 | LR: 5.41e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  65%|██████▌   | 1306/2000 [1:31:03<46:02,  3.98s/it]Epoch 1305 | Step  18271/ 28000 | Loss: 1.315561 | LR: 5.41e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1305 | Avg Loss: 1.317845 | LR: 5.41e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  65%|██████▌   | 1307/2000 [1:31:07<45:42,  3.96s/it]Epoch 1306 | Step  18285/ 28000 | Loss: 1.318537 | LR: 5.41e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1306 | Avg Loss: 1.317563 | LR: 5.41e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  65%|██████▌   | 1308/2000 [1:31:11<45:50,  3.97s/it]Epoch 1307 | Step  18299/ 28000 | Loss: 1.319068 | LR: 5.41e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1307 | Avg Loss: 1.317675 | LR: 5.40e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  65%|██████▌   | 1309/2000 [1:31:15<45:08,  3.92s/it]Epoch 1308 | Step  18313/ 28000 | Loss: 1.315412 | LR: 5.40e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1308 | Avg Loss: 1.317593 | LR: 5.40e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  66%|██████▌   | 1310/2000 [1:31:19<45:10,  3.93s/it]Epoch 1309 | Step  18327/ 28000 | Loss: 1.316519 | LR: 5.40e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1309 | Avg Loss: 1.317572 | LR: 5.40e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  66%|██████▌   | 1311/2000 [1:31:23<45:37,  3.97s/it]Epoch 1310 | Step  18341/ 28000 | Loss: 1.317317 | LR: 5.40e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1310 | Avg Loss: 1.316714 | LR: 5.39e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  66%|██████▌   | 1312/2000 [1:31:27<45:50,  4.00s/it]Epoch 1311 | Step  18355/ 28000 | Loss: 1.316187 | LR: 5.39e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1311 | Avg Loss: 1.316326 | LR: 5.39e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  66%|██████▌   | 1313/2000 [1:31:31<46:05,  4.03s/it]Epoch 1312 | Step  18369/ 28000 | Loss: 1.318097 | LR: 5.39e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1312 | Avg Loss: 1.317755 | LR: 5.39e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  66%|██████▌   | 1314/2000 [1:31:35<45:45,  4.00s/it]Epoch 1313 | Step  18383/ 28000 | Loss: 1.320518 | LR: 5.39e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1313 | Avg Loss: 1.317667 | LR: 5.38e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  66%|██████▌   | 1315/2000 [1:31:39<45:24,  3.98s/it]Epoch 1314 | Step  18397/ 28000 | Loss: 1.316512 | LR: 5.38e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1314 | Avg Loss: 1.317537 | LR: 5.38e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  66%|██████▌   | 1316/2000 [1:31:43<45:28,  3.99s/it]Epoch 1315 | Step  18411/ 28000 | Loss: 1.316687 | LR: 5.38e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1315 | Avg Loss: 1.316226 | LR: 5.38e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  66%|██████▌   | 1317/2000 [1:31:47<45:56,  4.04s/it]Epoch 1316 | Step  18425/ 28000 | Loss: 1.315459 | LR: 5.38e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1316 | Avg Loss: 1.318140 | LR: 5.37e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  66%|██████▌   | 1318/2000 [1:31:51<45:41,  4.02s/it]Epoch 1317 | Step  18439/ 28000 | Loss: 1.318570 | LR: 5.37e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1317 | Avg Loss: 1.317835 | LR: 5.37e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  66%|██████▌   | 1319/2000 [1:31:55<44:57,  3.96s/it]Epoch 1318 | Step  18453/ 28000 | Loss: 1.320510 | LR: 5.37e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1318 | Avg Loss: 1.318226 | LR: 5.37e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  66%|██████▌   | 1320/2000 [1:31:59<44:48,  3.95s/it]Epoch 1319 | Step  18467/ 28000 | Loss: 1.317065 | LR: 5.37e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1319 | Avg Loss: 1.317601 | LR: 5.36e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  66%|██████▌   | 1321/2000 [1:32:03<44:31,  3.93s/it]Epoch 1320 | Step  18481/ 28000 | Loss: 1.321143 | LR: 5.36e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1320 | Avg Loss: 1.317474 | LR: 5.36e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  66%|██████▌   | 1322/2000 [1:32:07<44:11,  3.91s/it]Epoch 1321 | Step  18495/ 28000 | Loss: 1.315224 | LR: 5.36e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1321 | Avg Loss: 1.316911 | LR: 5.36e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  66%|██████▌   | 1323/2000 [1:32:10<43:41,  3.87s/it]Epoch 1322 | Step  18509/ 28000 | Loss: 1.314054 | LR: 5.35e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1322 | Avg Loss: 1.317484 | LR: 5.35e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  66%|██████▌   | 1324/2000 [1:32:14<43:28,  3.86s/it]Epoch 1323 | Step  18523/ 28000 | Loss: 1.319564 | LR: 5.35e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1323 | Avg Loss: 1.317115 | LR: 5.35e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  66%|██████▋   | 1325/2000 [1:32:18<43:38,  3.88s/it]Epoch 1324 | Step  18537/ 28000 | Loss: 1.316423 | LR: 5.35e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1324 | Avg Loss: 1.316945 | LR: 5.34e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  66%|██████▋   | 1326/2000 [1:32:22<43:48,  3.90s/it]Epoch 1325 | Step  18551/ 28000 | Loss: 1.316565 | LR: 5.34e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1325 | Avg Loss: 1.318143 | LR: 5.34e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  66%|██████▋   | 1327/2000 [1:32:26<44:01,  3.93s/it]Epoch 1326 | Step  18565/ 28000 | Loss: 1.316089 | LR: 5.34e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1326 | Avg Loss: 1.317027 | LR: 5.34e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  66%|██████▋   | 1328/2000 [1:32:30<43:46,  3.91s/it]Epoch 1327 | Step  18579/ 28000 | Loss: 1.314580 | LR: 5.34e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1327 | Avg Loss: 1.316029 | LR: 5.33e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  66%|██████▋   | 1329/2000 [1:32:34<44:17,  3.96s/it]Epoch 1328 | Step  18593/ 28000 | Loss: 1.319397 | LR: 5.33e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1328 | Avg Loss: 1.316931 | LR: 5.33e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  66%|██████▋   | 1330/2000 [1:32:38<43:57,  3.94s/it]Epoch 1329 | Step  18607/ 28000 | Loss: 1.315239 | LR: 5.33e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1329 | Avg Loss: 1.317978 | LR: 5.33e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1331/2000 [1:32:42<44:04,  3.95s/it]Epoch 1330 | Step  18621/ 28000 | Loss: 1.318540 | LR: 5.33e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1330 | Avg Loss: 1.317736 | LR: 5.32e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1332/2000 [1:32:46<43:51,  3.94s/it]Epoch 1331 | Step  18635/ 28000 | Loss: 1.317271 | LR: 5.32e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1331 | Avg Loss: 1.317558 | LR: 5.32e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1333/2000 [1:32:50<44:44,  4.02s/it]Epoch 1332 | Step  18649/ 28000 | Loss: 1.316502 | LR: 5.32e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1332 | Avg Loss: 1.317122 | LR: 5.32e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1334/2000 [1:32:54<44:24,  4.00s/it]Epoch 1333 | Step  18663/ 28000 | Loss: 1.320211 | LR: 5.32e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1333 | Avg Loss: 1.317033 | LR: 5.31e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1335/2000 [1:32:58<43:52,  3.96s/it]Epoch 1334 | Step  18677/ 28000 | Loss: 1.318277 | LR: 5.31e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1334 | Avg Loss: 1.317216 | LR: 5.31e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1336/2000 [1:33:02<43:46,  3.96s/it]Epoch 1335 | Step  18691/ 28000 | Loss: 1.317976 | LR: 5.31e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1335 | Avg Loss: 1.317848 | LR: 5.31e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1337/2000 [1:33:06<44:13,  4.00s/it]Epoch 1336 | Step  18705/ 28000 | Loss: 1.313646 | LR: 5.31e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1336 | Avg Loss: 1.316927 | LR: 5.30e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1338/2000 [1:33:10<43:39,  3.96s/it]Epoch 1337 | Step  18719/ 28000 | Loss: 1.320014 | LR: 5.30e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1337 | Avg Loss: 1.318177 | LR: 5.30e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1339/2000 [1:33:14<43:27,  3.94s/it]Epoch 1338 | Step  18733/ 28000 | Loss: 1.320311 | LR: 5.30e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1338 | Avg Loss: 1.317916 | LR: 5.30e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1340/2000 [1:33:18<43:18,  3.94s/it]Epoch 1339 | Step  18747/ 28000 | Loss: 1.321320 | LR: 5.30e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1339 | Avg Loss: 1.317723 | LR: 5.29e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1341/2000 [1:33:22<44:09,  4.02s/it]Epoch 1340 | Step  18761/ 28000 | Loss: 1.315263 | LR: 5.29e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1340 | Avg Loss: 1.317147 | LR: 5.29e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1342/2000 [1:33:26<43:53,  4.00s/it]Epoch 1341 | Step  18775/ 28000 | Loss: 1.317856 | LR: 5.29e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1341 | Avg Loss: 1.317973 | LR: 5.29e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1343/2000 [1:33:30<43:27,  3.97s/it]Epoch 1342 | Step  18789/ 28000 | Loss: 1.312922 | LR: 5.29e-04 | Speed: 3.3 steps/s | ETA: 0.8h
+Epoch 1342 | Avg Loss: 1.316677 | LR: 5.28e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1344/2000 [1:33:34<43:24,  3.97s/it]Epoch 1343 | Step  18803/ 28000 | Loss: 1.317976 | LR: 5.28e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1343 | Avg Loss: 1.316968 | LR: 5.28e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1345/2000 [1:33:38<43:03,  3.94s/it]Epoch 1344 | Step  18817/ 28000 | Loss: 1.318096 | LR: 5.28e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1344 | Avg Loss: 1.317233 | LR: 5.28e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1346/2000 [1:33:41<42:55,  3.94s/it]Epoch 1345 | Step  18831/ 28000 | Loss: 1.320128 | LR: 5.28e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1345 | Avg Loss: 1.318274 | LR: 5.27e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1347/2000 [1:33:45<42:43,  3.92s/it]Epoch 1346 | Step  18845/ 28000 | Loss: 1.317319 | LR: 5.27e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1346 | Avg Loss: 1.316892 | LR: 5.27e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1348/2000 [1:33:49<42:45,  3.94s/it]Epoch 1347 | Step  18859/ 28000 | Loss: 1.315730 | LR: 5.27e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1347 | Avg Loss: 1.317376 | LR: 5.27e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  67%|██████▋   | 1349/2000 [1:33:53<42:10,  3.89s/it]Epoch 1348 | Step  18873/ 28000 | Loss: 1.320634 | LR: 5.27e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1348 | Avg Loss: 1.317625 | LR: 5.26e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1350/2000 [1:33:57<42:08,  3.89s/it]Epoch 1349 | Step  18887/ 28000 | Loss: 1.322708 | LR: 5.26e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1349 | Avg Loss: 1.317699 | LR: 5.26e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1351/2000 [1:34:01<43:04,  3.98s/it]Epoch 1350 | Step  18901/ 28000 | Loss: 1.314971 | LR: 5.26e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1350 | Avg Loss: 1.317289 | LR: 5.26e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1352/2000 [1:34:05<43:00,  3.98s/it]Epoch 1351 | Step  18915/ 28000 | Loss: 1.316373 | LR: 5.26e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1351 | Avg Loss: 1.317642 | LR: 5.25e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1353/2000 [1:34:09<42:41,  3.96s/it]Epoch 1352 | Step  18929/ 28000 | Loss: 1.313290 | LR: 5.25e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1352 | Avg Loss: 1.316658 | LR: 5.25e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1354/2000 [1:34:13<42:28,  3.94s/it]Epoch 1353 | Step  18943/ 28000 | Loss: 1.320021 | LR: 5.25e-04 | Speed: 3.4 steps/s | ETA: 0.8h
+Epoch 1353 | Avg Loss: 1.318151 | LR: 5.25e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1355/2000 [1:34:17<42:19,  3.94s/it]Epoch 1354 | Step  18957/ 28000 | Loss: 1.317587 | LR: 5.25e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1354 | Avg Loss: 1.317772 | LR: 5.24e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1356/2000 [1:34:21<42:06,  3.92s/it]Epoch 1355 | Step  18971/ 28000 | Loss: 1.321989 | LR: 5.24e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1355 | Avg Loss: 1.318008 | LR: 5.24e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1357/2000 [1:34:25<41:40,  3.89s/it]Epoch 1356 | Step  18985/ 28000 | Loss: 1.318466 | LR: 5.24e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1356 | Avg Loss: 1.317110 | LR: 5.24e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1358/2000 [1:34:28<41:37,  3.89s/it]Epoch 1357 | Step  18999/ 28000 | Loss: 1.318329 | LR: 5.23e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1357 | Avg Loss: 1.317795 | LR: 5.23e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1359/2000 [1:34:32<41:23,  3.87s/it]Epoch 1358 | Step  19013/ 28000 | Loss: 1.314726 | LR: 5.23e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1358 | Avg Loss: 1.318029 | LR: 5.23e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1360/2000 [1:34:36<41:12,  3.86s/it]Epoch 1359 | Step  19027/ 28000 | Loss: 1.318449 | LR: 5.23e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1359 | Avg Loss: 1.317617 | LR: 5.22e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1361/2000 [1:34:40<41:28,  3.90s/it]Epoch 1360 | Step  19041/ 28000 | Loss: 1.314589 | LR: 5.22e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1360 | Avg Loss: 1.316231 | LR: 5.22e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1362/2000 [1:34:44<41:35,  3.91s/it]Epoch 1361 | Step  19055/ 28000 | Loss: 1.317655 | LR: 5.22e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1361 | Avg Loss: 1.317684 | LR: 5.22e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1363/2000 [1:34:48<41:24,  3.90s/it]Epoch 1362 | Step  19069/ 28000 | Loss: 1.318810 | LR: 5.22e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1362 | Avg Loss: 1.317681 | LR: 5.21e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1364/2000 [1:34:52<41:31,  3.92s/it]Epoch 1363 | Step  19083/ 28000 | Loss: 1.316980 | LR: 5.21e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1363 | Avg Loss: 1.317022 | LR: 5.21e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1365/2000 [1:34:56<41:12,  3.89s/it]Epoch 1364 | Step  19097/ 28000 | Loss: 1.317632 | LR: 5.21e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1364 | Avg Loss: 1.316456 | LR: 5.21e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1366/2000 [1:35:00<41:24,  3.92s/it]Epoch 1365 | Step  19111/ 28000 | Loss: 1.321401 | LR: 5.21e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1365 | Avg Loss: 1.318324 | LR: 5.20e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1367/2000 [1:35:04<41:21,  3.92s/it]Epoch 1366 | Step  19125/ 28000 | Loss: 1.319093 | LR: 5.20e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1366 | Avg Loss: 1.317203 | LR: 5.20e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1368/2000 [1:35:08<41:12,  3.91s/it]Epoch 1367 | Step  19139/ 28000 | Loss: 1.319608 | LR: 5.20e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1367 | Avg Loss: 1.318213 | LR: 5.20e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1369/2000 [1:35:11<41:18,  3.93s/it]Epoch 1368 | Step  19153/ 28000 | Loss: 1.320026 | LR: 5.20e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1368 | Avg Loss: 1.319244 | LR: 5.19e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  68%|██████▊   | 1370/2000 [1:35:16<41:41,  3.97s/it]Epoch 1369 | Step  19167/ 28000 | Loss: 1.316018 | LR: 5.19e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1369 | Avg Loss: 1.317406 | LR: 5.19e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  69%|██████▊   | 1371/2000 [1:35:20<42:15,  4.03s/it]Epoch 1370 | Step  19181/ 28000 | Loss: 1.316179 | LR: 5.19e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1370 | Avg Loss: 1.318669 | LR: 5.19e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  69%|██████▊   | 1372/2000 [1:35:24<41:57,  4.01s/it]Epoch 1371 | Step  19195/ 28000 | Loss: 1.321167 | LR: 5.19e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1371 | Avg Loss: 1.317012 | LR: 5.18e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  69%|██████▊   | 1373/2000 [1:35:27<41:14,  3.95s/it]Epoch 1372 | Step  19209/ 28000 | Loss: 1.320085 | LR: 5.18e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1372 | Avg Loss: 1.316354 | LR: 5.18e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  69%|██████▊   | 1374/2000 [1:35:31<41:12,  3.95s/it]Epoch 1373 | Step  19223/ 28000 | Loss: 1.321464 | LR: 5.18e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1373 | Avg Loss: 1.317665 | LR: 5.18e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  69%|██████▉   | 1375/2000 [1:35:35<40:58,  3.93s/it]Epoch 1374 | Step  19237/ 28000 | Loss: 1.316953 | LR: 5.18e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1374 | Avg Loss: 1.316979 | LR: 5.17e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  69%|██████▉   | 1376/2000 [1:35:39<40:38,  3.91s/it]Epoch 1375 | Step  19251/ 28000 | Loss: 1.318792 | LR: 5.17e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1375 | Avg Loss: 1.316597 | LR: 5.17e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  69%|██████▉   | 1377/2000 [1:35:43<40:11,  3.87s/it]Epoch 1376 | Step  19265/ 28000 | Loss: 1.315561 | LR: 5.17e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1376 | Avg Loss: 1.316593 | LR: 5.17e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  69%|██████▉   | 1378/2000 [1:35:47<40:19,  3.89s/it]Epoch 1377 | Step  19279/ 28000 | Loss: 1.318437 | LR: 5.17e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1377 | Avg Loss: 1.315976 | LR: 5.16e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  69%|██████▉   | 1379/2000 [1:35:51<40:22,  3.90s/it]Epoch 1378 | Step  19293/ 28000 | Loss: 1.318205 | LR: 5.16e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1378 | Avg Loss: 1.318060 | LR: 5.16e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  69%|██████▉   | 1380/2000 [1:35:55<40:29,  3.92s/it]Epoch 1379 | Step  19307/ 28000 | Loss: 1.321508 | LR: 5.16e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1379 | Avg Loss: 1.317521 | LR: 5.16e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  69%|██████▉   | 1381/2000 [1:35:59<40:03,  3.88s/it]Epoch 1380 | Step  19321/ 28000 | Loss: 1.317892 | LR: 5.16e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1380 | Avg Loss: 1.317698 | LR: 5.15e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  69%|██████▉   | 1382/2000 [1:36:03<40:18,  3.91s/it]Epoch 1381 | Step  19335/ 28000 | Loss: 1.316209 | LR: 5.15e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1381 | Avg Loss: 1.318165 | LR: 5.15e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  69%|██████▉   | 1383/2000 [1:36:06<40:15,  3.92s/it]Epoch 1382 | Step  19349/ 28000 | Loss: 1.315074 | LR: 5.15e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1382 | Avg Loss: 1.316735 | LR: 5.15e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  69%|██████▉   | 1384/2000 [1:36:11<40:33,  3.95s/it]Epoch 1383 | Step  19363/ 28000 | Loss: 1.315822 | LR: 5.15e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1383 | Avg Loss: 1.317495 | LR: 5.14e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  69%|██████▉   | 1385/2000 [1:36:14<40:11,  3.92s/it]Epoch 1384 | Step  19377/ 28000 | Loss: 1.316598 | LR: 5.14e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1384 | Avg Loss: 1.317612 | LR: 5.14e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  69%|██████▉   | 1386/2000 [1:36:18<39:58,  3.91s/it]Epoch 1385 | Step  19391/ 28000 | Loss: 1.319062 | LR: 5.14e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1385 | Avg Loss: 1.317612 | LR: 5.14e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  69%|██████▉   | 1387/2000 [1:36:22<39:57,  3.91s/it]Epoch 1386 | Step  19405/ 28000 | Loss: 1.318052 | LR: 5.14e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1386 | Avg Loss: 1.316851 | LR: 5.13e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  69%|██████▉   | 1388/2000 [1:36:26<40:01,  3.92s/it]Epoch 1387 | Step  19419/ 28000 | Loss: 1.318281 | LR: 5.13e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1387 | Avg Loss: 1.317608 | LR: 5.13e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  69%|██████▉   | 1389/2000 [1:36:30<39:59,  3.93s/it]Epoch 1388 | Step  19433/ 28000 | Loss: 1.319627 | LR: 5.13e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1388 | Avg Loss: 1.317408 | LR: 5.13e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  70%|██████▉   | 1390/2000 [1:36:34<39:57,  3.93s/it]Epoch 1389 | Step  19447/ 28000 | Loss: 1.317798 | LR: 5.13e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1389 | Avg Loss: 1.317130 | LR: 5.12e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  70%|██████▉   | 1391/2000 [1:36:38<39:55,  3.93s/it]Epoch 1390 | Step  19461/ 28000 | Loss: 1.318477 | LR: 5.12e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1390 | Avg Loss: 1.316853 | LR: 5.12e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  70%|██████▉   | 1392/2000 [1:36:42<39:30,  3.90s/it]Epoch 1391 | Step  19475/ 28000 | Loss: 1.314463 | LR: 5.12e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1391 | Avg Loss: 1.318259 | LR: 5.12e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  70%|██████▉   | 1393/2000 [1:36:46<39:46,  3.93s/it]Epoch 1392 | Step  19489/ 28000 | Loss: 1.318114 | LR: 5.12e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1392 | Avg Loss: 1.317440 | LR: 5.11e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  70%|██████▉   | 1394/2000 [1:36:49<39:06,  3.87s/it]Epoch 1393 | Step  19503/ 28000 | Loss: 1.318839 | LR: 5.11e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1393 | Avg Loss: 1.318286 | LR: 5.11e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  70%|██████▉   | 1395/2000 [1:36:53<38:46,  3.85s/it]Epoch 1394 | Step  19517/ 28000 | Loss: 1.315978 | LR: 5.11e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1394 | Avg Loss: 1.317572 | LR: 5.11e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  70%|██████▉   | 1396/2000 [1:36:57<38:54,  3.87s/it]Epoch 1395 | Step  19531/ 28000 | Loss: 1.316826 | LR: 5.11e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1395 | Avg Loss: 1.317574 | LR: 5.11e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  70%|██████▉   | 1397/2000 [1:37:01<39:33,  3.94s/it]Epoch 1396 | Step  19545/ 28000 | Loss: 1.318942 | LR: 5.10e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1396 | Avg Loss: 1.317198 | LR: 5.10e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  70%|██████▉   | 1398/2000 [1:37:05<39:20,  3.92s/it]Epoch 1397 | Step  19559/ 28000 | Loss: 1.320008 | LR: 5.10e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1397 | Avg Loss: 1.317988 | LR: 5.10e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  70%|██████▉   | 1399/2000 [1:37:09<39:18,  3.93s/it]Epoch 1398 | Step  19573/ 28000 | Loss: 1.316774 | LR: 5.10e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1398 | Avg Loss: 1.317463 | LR: 5.10e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  70%|███████   | 1400/2000 [1:37:13<39:09,  3.92s/it]Epoch 1399 | Step  19587/ 28000 | Loss: 1.315222 | LR: 5.10e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1399 | Avg Loss: 1.317459 | LR: 5.09e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  70%|███████   | 1401/2000 [1:37:17<39:24,  3.95s/it]Epoch 1400 | Step  19601/ 28000 | Loss: 1.319390 | LR: 5.09e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1400 | Avg Loss: 1.317441 | LR: 5.09e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  70%|███████   | 1402/2000 [1:37:21<39:28,  3.96s/it]Epoch 1401 | Step  19615/ 28000 | Loss: 1.316046 | LR: 5.09e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1401 | Avg Loss: 1.316852 | LR: 5.09e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  70%|███████   | 1403/2000 [1:37:25<39:35,  3.98s/it]Epoch 1402 | Step  19629/ 28000 | Loss: 1.318626 | LR: 5.09e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1402 | Avg Loss: 1.317646 | LR: 5.08e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  70%|███████   | 1404/2000 [1:37:29<39:22,  3.96s/it]Epoch 1403 | Step  19643/ 28000 | Loss: 1.316711 | LR: 5.08e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1403 | Avg Loss: 1.317798 | LR: 5.08e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  70%|███████   | 1405/2000 [1:37:33<38:43,  3.90s/it]Epoch 1404 | Step  19657/ 28000 | Loss: 1.315971 | LR: 5.08e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1404 | Avg Loss: 1.316680 | LR: 5.08e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  70%|███████   | 1406/2000 [1:37:37<38:42,  3.91s/it]Epoch 1405 | Step  19671/ 28000 | Loss: 1.319902 | LR: 5.08e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1405 | Avg Loss: 1.317866 | LR: 5.07e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  70%|███████   | 1407/2000 [1:37:41<38:58,  3.94s/it]Epoch 1406 | Step  19685/ 28000 | Loss: 1.316930 | LR: 5.07e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1406 | Avg Loss: 1.316235 | LR: 5.07e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  70%|███████   | 1408/2000 [1:37:45<39:00,  3.95s/it]Epoch 1407 | Step  19699/ 28000 | Loss: 1.315853 | LR: 5.07e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1407 | Avg Loss: 1.316854 | LR: 5.07e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  70%|███████   | 1409/2000 [1:37:49<39:00,  3.96s/it]Epoch 1408 | Step  19713/ 28000 | Loss: 1.317199 | LR: 5.07e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1408 | Avg Loss: 1.317754 | LR: 5.06e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  70%|███████   | 1410/2000 [1:37:53<39:03,  3.97s/it]Epoch 1409 | Step  19727/ 28000 | Loss: 1.320297 | LR: 5.06e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1409 | Avg Loss: 1.317511 | LR: 5.06e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  71%|███████   | 1411/2000 [1:37:57<38:49,  3.95s/it]Epoch 1410 | Step  19741/ 28000 | Loss: 1.316244 | LR: 5.06e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1410 | Avg Loss: 1.317145 | LR: 5.06e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  71%|███████   | 1412/2000 [1:38:01<38:54,  3.97s/it]Epoch 1411 | Step  19755/ 28000 | Loss: 1.316670 | LR: 5.06e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1411 | Avg Loss: 1.317776 | LR: 5.05e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  71%|███████   | 1413/2000 [1:38:05<39:01,  3.99s/it]Epoch 1412 | Step  19769/ 28000 | Loss: 1.316513 | LR: 5.05e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1412 | Avg Loss: 1.318057 | LR: 5.05e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  71%|███████   | 1414/2000 [1:38:09<38:55,  3.99s/it]Epoch 1413 | Step  19783/ 28000 | Loss: 1.319491 | LR: 5.05e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1413 | Avg Loss: 1.317659 | LR: 5.05e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  71%|███████   | 1415/2000 [1:38:13<38:50,  3.98s/it]Epoch 1414 | Step  19797/ 28000 | Loss: 1.317201 | LR: 5.05e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1414 | Avg Loss: 1.317213 | LR: 5.04e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  71%|███████   | 1416/2000 [1:38:17<38:47,  3.99s/it]Epoch 1415 | Step  19811/ 28000 | Loss: 1.313575 | LR: 5.04e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1415 | Avg Loss: 1.317791 | LR: 5.04e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  71%|███████   | 1417/2000 [1:38:20<38:02,  3.92s/it]Epoch 1416 | Step  19825/ 28000 | Loss: 1.318137 | LR: 5.04e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1416 | Avg Loss: 1.317245 | LR: 5.04e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  71%|███████   | 1418/2000 [1:38:24<38:04,  3.92s/it]Epoch 1417 | Step  19839/ 28000 | Loss: 1.318169 | LR: 5.04e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1417 | Avg Loss: 1.317081 | LR: 5.03e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  71%|███████   | 1419/2000 [1:38:28<38:05,  3.93s/it]Epoch 1418 | Step  19853/ 28000 | Loss: 1.315727 | LR: 5.03e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1418 | Avg Loss: 1.316372 | LR: 5.03e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  71%|███████   | 1420/2000 [1:38:32<37:57,  3.93s/it]Epoch 1419 | Step  19867/ 28000 | Loss: 1.317816 | LR: 5.03e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1419 | Avg Loss: 1.317543 | LR: 5.03e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  71%|███████   | 1421/2000 [1:38:36<37:48,  3.92s/it]Epoch 1420 | Step  19881/ 28000 | Loss: 1.318426 | LR: 5.03e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1420 | Avg Loss: 1.317590 | LR: 5.02e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  71%|███████   | 1422/2000 [1:38:40<38:00,  3.95s/it]Epoch 1421 | Step  19895/ 28000 | Loss: 1.319632 | LR: 5.02e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1421 | Avg Loss: 1.317822 | LR: 5.02e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  71%|███████   | 1423/2000 [1:38:44<37:44,  3.93s/it]Epoch 1422 | Step  19909/ 28000 | Loss: 1.317795 | LR: 5.02e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1422 | Avg Loss: 1.316664 | LR: 5.02e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  71%|███████   | 1424/2000 [1:38:48<37:33,  3.91s/it]Epoch 1423 | Step  19923/ 28000 | Loss: 1.314439 | LR: 5.02e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1423 | Avg Loss: 1.316682 | LR: 5.01e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  71%|███████▏  | 1425/2000 [1:38:52<37:57,  3.96s/it]Epoch 1424 | Step  19937/ 28000 | Loss: 1.318290 | LR: 5.01e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1424 | Avg Loss: 1.316609 | LR: 5.01e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  71%|███████▏  | 1426/2000 [1:38:56<38:06,  3.98s/it]Epoch 1425 | Step  19951/ 28000 | Loss: 1.316219 | LR: 5.01e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1425 | Avg Loss: 1.317134 | LR: 5.01e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  71%|███████▏  | 1427/2000 [1:39:00<37:36,  3.94s/it]Epoch 1426 | Step  19965/ 28000 | Loss: 1.319289 | LR: 5.01e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1426 | Avg Loss: 1.317417 | LR: 5.00e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  71%|███████▏  | 1428/2000 [1:39:04<37:36,  3.95s/it]Epoch 1427 | Step  19979/ 28000 | Loss: 1.315621 | LR: 5.00e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1427 | Avg Loss: 1.317172 | LR: 5.00e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  71%|███████▏  | 1429/2000 [1:39:08<37:42,  3.96s/it]Epoch 1428 | Step  19993/ 28000 | Loss: 1.318310 | LR: 5.00e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Validation at step 20000: Loss = 1.304311
+Epoch 1428 | Avg Loss: 1.316491 | LR: 5.00e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1430/2000 [1:39:12<37:50,  3.98s/it]Epoch 1429 | Step  20007/ 28000 | Loss: 1.315928 | LR: 5.00e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1429 | Avg Loss: 1.316935 | LR: 5.00e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1431/2000 [1:39:16<38:01,  4.01s/it]Epoch 1430 | Step  20021/ 28000 | Loss: 1.316316 | LR: 5.00e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1430 | Avg Loss: 1.316887 | LR: 4.99e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1432/2000 [1:39:20<38:02,  4.02s/it]Epoch 1431 | Step  20035/ 28000 | Loss: 1.318202 | LR: 4.99e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1431 | Avg Loss: 1.316848 | LR: 4.99e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1433/2000 [1:39:24<38:03,  4.03s/it]Epoch 1432 | Step  20049/ 28000 | Loss: 1.312881 | LR: 4.99e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1432 | Avg Loss: 1.318272 | LR: 4.99e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1434/2000 [1:39:28<38:42,  4.10s/it]Epoch 1433 | Step  20063/ 28000 | Loss: 1.317425 | LR: 4.99e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1433 | Avg Loss: 1.316585 | LR: 4.98e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1435/2000 [1:39:32<39:00,  4.14s/it]Epoch 1434 | Step  20077/ 28000 | Loss: 1.314625 | LR: 4.98e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1434 | Avg Loss: 1.317403 | LR: 4.98e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1436/2000 [1:39:37<40:52,  4.35s/it]Epoch 1435 | Step  20091/ 28000 | Loss: 1.316219 | LR: 4.98e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1435 | Avg Loss: 1.317379 | LR: 4.98e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1437/2000 [1:39:42<41:45,  4.45s/it]Epoch 1436 | Step  20105/ 28000 | Loss: 1.318639 | LR: 4.98e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1436 | Avg Loss: 1.316803 | LR: 4.97e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1438/2000 [1:39:47<42:36,  4.55s/it]Epoch 1437 | Step  20119/ 28000 | Loss: 1.321846 | LR: 4.97e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1437 | Avg Loss: 1.318124 | LR: 4.97e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1439/2000 [1:39:52<43:20,  4.64s/it]Epoch 1438 | Step  20133/ 28000 | Loss: 1.317914 | LR: 4.97e-04 | Speed: 3.4 steps/s | ETA: 0.7h
+Epoch 1438 | Avg Loss: 1.317894 | LR: 4.97e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1440/2000 [1:39:56<44:01,  4.72s/it]Epoch 1439 | Step  20147/ 28000 | Loss: 1.317350 | LR: 4.97e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1439 | Avg Loss: 1.317897 | LR: 4.96e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1441/2000 [1:40:01<44:07,  4.74s/it]Epoch 1440 | Step  20161/ 28000 | Loss: 1.318851 | LR: 4.96e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1440 | Avg Loss: 1.317150 | LR: 4.96e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1442/2000 [1:40:06<44:07,  4.74s/it]Epoch 1441 | Step  20175/ 28000 | Loss: 1.317148 | LR: 4.96e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1441 | Avg Loss: 1.316904 | LR: 4.96e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1443/2000 [1:40:11<45:08,  4.86s/it]Epoch 1442 | Step  20189/ 28000 | Loss: 1.317376 | LR: 4.96e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1442 | Avg Loss: 1.317405 | LR: 4.95e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1444/2000 [1:40:16<45:03,  4.86s/it]Epoch 1443 | Step  20203/ 28000 | Loss: 1.320925 | LR: 4.95e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1443 | Avg Loss: 1.317658 | LR: 4.95e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1445/2000 [1:40:21<45:20,  4.90s/it]Epoch 1444 | Step  20217/ 28000 | Loss: 1.320236 | LR: 4.95e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1444 | Avg Loss: 1.317119 | LR: 4.95e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1446/2000 [1:40:26<46:02,  4.99s/it]Epoch 1445 | Step  20231/ 28000 | Loss: 1.316633 | LR: 4.95e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1445 | Avg Loss: 1.316339 | LR: 4.95e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1447/2000 [1:40:31<45:33,  4.94s/it]Epoch 1446 | Step  20245/ 28000 | Loss: 1.320512 | LR: 4.94e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1446 | Avg Loss: 1.317322 | LR: 4.94e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1448/2000 [1:40:36<45:30,  4.95s/it]Epoch 1447 | Step  20259/ 28000 | Loss: 1.315341 | LR: 4.94e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1447 | Avg Loss: 1.317053 | LR: 4.94e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  72%|███████▏  | 1449/2000 [1:40:41<45:34,  4.96s/it]Epoch 1448 | Step  20273/ 28000 | Loss: 1.318226 | LR: 4.94e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1448 | Avg Loss: 1.316901 | LR: 4.94e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  72%|███████▎  | 1450/2000 [1:40:46<45:09,  4.93s/it]Epoch 1449 | Step  20287/ 28000 | Loss: 1.316168 | LR: 4.94e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1449 | Avg Loss: 1.317461 | LR: 4.93e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1451/2000 [1:40:51<44:40,  4.88s/it]Epoch 1450 | Step  20301/ 28000 | Loss: 1.318836 | LR: 4.93e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1450 | Avg Loss: 1.317147 | LR: 4.93e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1452/2000 [1:40:56<45:22,  4.97s/it]Epoch 1451 | Step  20315/ 28000 | Loss: 1.314647 | LR: 4.93e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1451 | Avg Loss: 1.317562 | LR: 4.93e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1453/2000 [1:41:01<44:50,  4.92s/it]Epoch 1452 | Step  20329/ 28000 | Loss: 1.318109 | LR: 4.93e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1452 | Avg Loss: 1.317252 | LR: 4.92e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1454/2000 [1:41:05<44:42,  4.91s/it]Epoch 1453 | Step  20343/ 28000 | Loss: 1.319864 | LR: 4.92e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1453 | Avg Loss: 1.316529 | LR: 4.92e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1455/2000 [1:41:10<45:00,  4.95s/it]Epoch 1454 | Step  20357/ 28000 | Loss: 1.317101 | LR: 4.92e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1454 | Avg Loss: 1.318106 | LR: 4.92e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1456/2000 [1:41:15<44:43,  4.93s/it]Epoch 1455 | Step  20371/ 28000 | Loss: 1.320047 | LR: 4.92e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1455 | Avg Loss: 1.317495 | LR: 4.91e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1457/2000 [1:41:20<44:32,  4.92s/it]Epoch 1456 | Step  20385/ 28000 | Loss: 1.319223 | LR: 4.91e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1456 | Avg Loss: 1.318009 | LR: 4.91e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1458/2000 [1:41:25<44:48,  4.96s/it]Epoch 1457 | Step  20399/ 28000 | Loss: 1.317859 | LR: 4.91e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1457 | Avg Loss: 1.317662 | LR: 4.91e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1459/2000 [1:41:30<44:30,  4.94s/it]Epoch 1458 | Step  20413/ 28000 | Loss: 1.321554 | LR: 4.91e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1458 | Avg Loss: 1.317132 | LR: 4.91e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1460/2000 [1:41:34<42:05,  4.68s/it]Epoch 1459 | Step  20427/ 28000 | Loss: 1.318872 | LR: 4.90e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1459 | Avg Loss: 1.317969 | LR: 4.90e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1461/2000 [1:41:38<40:40,  4.53s/it]Epoch 1460 | Step  20441/ 28000 | Loss: 1.314234 | LR: 4.90e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1460 | Avg Loss: 1.316916 | LR: 4.90e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1462/2000 [1:41:43<39:28,  4.40s/it]Epoch 1461 | Step  20455/ 28000 | Loss: 1.315645 | LR: 4.90e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1461 | Avg Loss: 1.317556 | LR: 4.90e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1463/2000 [1:41:47<38:23,  4.29s/it]Epoch 1462 | Step  20469/ 28000 | Loss: 1.317776 | LR: 4.90e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1462 | Avg Loss: 1.317701 | LR: 4.89e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1464/2000 [1:41:52<41:40,  4.67s/it]Epoch 1463 | Step  20483/ 28000 | Loss: 1.319749 | LR: 4.89e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1463 | Avg Loss: 1.318062 | LR: 4.89e-04 | Time: 5.5s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1465/2000 [1:41:57<43:13,  4.85s/it]Epoch 1464 | Step  20497/ 28000 | Loss: 1.316679 | LR: 4.89e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1464 | Avg Loss: 1.318235 | LR: 4.89e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1466/2000 [1:42:03<44:30,  5.00s/it]Epoch 1465 | Step  20511/ 28000 | Loss: 1.319894 | LR: 4.89e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1465 | Avg Loss: 1.318240 | LR: 4.88e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1467/2000 [1:42:08<45:04,  5.07s/it]Epoch 1466 | Step  20525/ 28000 | Loss: 1.318950 | LR: 4.88e-04 | Speed: 3.4 steps/s | ETA: 0.6h
+Epoch 1466 | Avg Loss: 1.316886 | LR: 4.88e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1468/2000 [1:42:13<45:43,  5.16s/it]Epoch 1467 | Step  20539/ 28000 | Loss: 1.313916 | LR: 4.88e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1467 | Avg Loss: 1.316562 | LR: 4.88e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  73%|███████▎  | 1469/2000 [1:42:19<46:12,  5.22s/it]Epoch 1468 | Step  20553/ 28000 | Loss: 1.316324 | LR: 4.88e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1468 | Avg Loss: 1.317278 | LR: 4.87e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  74%|███████▎  | 1470/2000 [1:42:24<46:17,  5.24s/it]Epoch 1469 | Step  20567/ 28000 | Loss: 1.319583 | LR: 4.87e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1469 | Avg Loss: 1.317566 | LR: 4.87e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  74%|███████▎  | 1471/2000 [1:42:29<46:42,  5.30s/it]Epoch 1470 | Step  20581/ 28000 | Loss: 1.320505 | LR: 4.87e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1470 | Avg Loss: 1.316630 | LR: 4.87e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  74%|███████▎  | 1472/2000 [1:42:35<47:00,  5.34s/it]Epoch 1471 | Step  20595/ 28000 | Loss: 1.316693 | LR: 4.87e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1471 | Avg Loss: 1.318184 | LR: 4.87e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  74%|███████▎  | 1473/2000 [1:42:40<46:54,  5.34s/it]Epoch 1472 | Step  20609/ 28000 | Loss: 1.319064 | LR: 4.87e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1472 | Avg Loss: 1.316964 | LR: 4.86e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  74%|███████▎  | 1474/2000 [1:42:45<46:28,  5.30s/it]Epoch 1473 | Step  20623/ 28000 | Loss: 1.316139 | LR: 4.86e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1473 | Avg Loss: 1.316927 | LR: 4.86e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  74%|███████▍  | 1475/2000 [1:42:51<46:27,  5.31s/it]Epoch 1474 | Step  20637/ 28000 | Loss: 1.318451 | LR: 4.86e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1474 | Avg Loss: 1.316886 | LR: 4.86e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  74%|███████▍  | 1476/2000 [1:42:56<46:17,  5.30s/it]Epoch 1475 | Step  20651/ 28000 | Loss: 1.313048 | LR: 4.86e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1475 | Avg Loss: 1.317628 | LR: 4.85e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  74%|███████▍  | 1477/2000 [1:43:01<46:11,  5.30s/it]Epoch 1476 | Step  20665/ 28000 | Loss: 1.315931 | LR: 4.85e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1476 | Avg Loss: 1.316385 | LR: 4.85e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  74%|███████▍  | 1478/2000 [1:43:07<46:16,  5.32s/it]Epoch 1477 | Step  20679/ 28000 | Loss: 1.317583 | LR: 4.85e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1477 | Avg Loss: 1.317863 | LR: 4.85e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  74%|███████▍  | 1479/2000 [1:43:12<46:07,  5.31s/it]Epoch 1478 | Step  20693/ 28000 | Loss: 1.318644 | LR: 4.85e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1478 | Avg Loss: 1.317643 | LR: 4.84e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  74%|███████▍  | 1480/2000 [1:43:16<42:54,  4.95s/it]Epoch 1479 | Step  20707/ 28000 | Loss: 1.317006 | LR: 4.84e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1479 | Avg Loss: 1.317712 | LR: 4.84e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  74%|███████▍  | 1481/2000 [1:43:20<40:54,  4.73s/it]Epoch 1480 | Step  20721/ 28000 | Loss: 1.318192 | LR: 4.84e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1480 | Avg Loss: 1.318088 | LR: 4.84e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  74%|███████▍  | 1482/2000 [1:43:24<39:01,  4.52s/it]Epoch 1481 | Step  20735/ 28000 | Loss: 1.318675 | LR: 4.84e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1481 | Avg Loss: 1.317337 | LR: 4.84e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  74%|███████▍  | 1483/2000 [1:43:28<37:42,  4.38s/it]Epoch 1482 | Step  20749/ 28000 | Loss: 1.317979 | LR: 4.84e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1482 | Avg Loss: 1.317156 | LR: 4.83e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  74%|███████▍  | 1484/2000 [1:43:32<36:44,  4.27s/it]Epoch 1483 | Step  20763/ 28000 | Loss: 1.319926 | LR: 4.83e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1483 | Avg Loss: 1.318037 | LR: 4.83e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  74%|███████▍  | 1485/2000 [1:43:36<35:54,  4.18s/it]Epoch 1484 | Step  20777/ 28000 | Loss: 1.316752 | LR: 4.83e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1484 | Avg Loss: 1.317737 | LR: 4.83e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  74%|███████▍  | 1486/2000 [1:43:40<35:21,  4.13s/it]Epoch 1485 | Step  20791/ 28000 | Loss: 1.314703 | LR: 4.83e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1485 | Avg Loss: 1.317220 | LR: 4.82e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  74%|███████▍  | 1487/2000 [1:43:44<34:47,  4.07s/it]Epoch 1486 | Step  20805/ 28000 | Loss: 1.316993 | LR: 4.82e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1486 | Avg Loss: 1.317465 | LR: 4.82e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  74%|███████▍  | 1488/2000 [1:43:48<34:10,  4.00s/it]Epoch 1487 | Step  20819/ 28000 | Loss: 1.315606 | LR: 4.82e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1487 | Avg Loss: 1.317169 | LR: 4.82e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  74%|███████▍  | 1489/2000 [1:43:52<34:00,  3.99s/it]Epoch 1488 | Step  20833/ 28000 | Loss: 1.322311 | LR: 4.82e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1488 | Avg Loss: 1.317341 | LR: 4.81e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  74%|███████▍  | 1490/2000 [1:43:56<33:39,  3.96s/it]Epoch 1489 | Step  20847/ 28000 | Loss: 1.316085 | LR: 4.81e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1489 | Avg Loss: 1.318035 | LR: 4.81e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  75%|███████▍  | 1491/2000 [1:44:00<33:21,  3.93s/it]Epoch 1490 | Step  20861/ 28000 | Loss: 1.319710 | LR: 4.81e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1490 | Avg Loss: 1.317936 | LR: 4.81e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  75%|███████▍  | 1492/2000 [1:44:04<33:04,  3.91s/it]Epoch 1491 | Step  20875/ 28000 | Loss: 1.316699 | LR: 4.81e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1491 | Avg Loss: 1.316319 | LR: 4.81e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  75%|███████▍  | 1493/2000 [1:44:08<33:18,  3.94s/it]Epoch 1492 | Step  20889/ 28000 | Loss: 1.317383 | LR: 4.81e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1492 | Avg Loss: 1.317729 | LR: 4.80e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  75%|███████▍  | 1494/2000 [1:44:12<32:46,  3.89s/it]Epoch 1493 | Step  20903/ 28000 | Loss: 1.316723 | LR: 4.80e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1493 | Avg Loss: 1.317039 | LR: 4.80e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  75%|███████▍  | 1495/2000 [1:44:15<32:43,  3.89s/it]Epoch 1494 | Step  20917/ 28000 | Loss: 1.316231 | LR: 4.80e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1494 | Avg Loss: 1.316607 | LR: 4.80e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  75%|███████▍  | 1496/2000 [1:44:19<32:51,  3.91s/it]Epoch 1495 | Step  20931/ 28000 | Loss: 1.316877 | LR: 4.80e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1495 | Avg Loss: 1.316818 | LR: 4.79e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  75%|███████▍  | 1497/2000 [1:44:23<32:48,  3.91s/it]Epoch 1496 | Step  20945/ 28000 | Loss: 1.319508 | LR: 4.79e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1496 | Avg Loss: 1.317667 | LR: 4.79e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  75%|███████▍  | 1498/2000 [1:44:27<33:25,  4.00s/it]Epoch 1497 | Step  20959/ 28000 | Loss: 1.319907 | LR: 4.79e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1497 | Avg Loss: 1.317593 | LR: 4.79e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  75%|███████▍  | 1499/2000 [1:44:31<32:59,  3.95s/it]Epoch 1498 | Step  20973/ 28000 | Loss: 1.312097 | LR: 4.79e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1498 | Avg Loss: 1.317497 | LR: 4.79e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  75%|███████▌  | 1500/2000 [1:44:39<42:14,  5.07s/it]Epoch 1499 | Step  20987/ 28000 | Loss: 1.316961 | LR: 4.79e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1499 | Avg Loss: 1.318265 | LR: 4.78e-04 | Time: 3.9s | Samples: 6,983
+✓ Checkpoint saved: /data2/edwardsun/flow_checkpoints/amp_flow_model_final_optimized.pth (loss: 1.318265, step: 21000)
+Training Flow Model:  75%|███████▌  | 1501/2000 [1:44:43<39:20,  4.73s/it]Epoch 1500 | Step  21001/ 28000 | Loss: 1.318955 | LR: 4.78e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1500 | Avg Loss: 1.317661 | LR: 4.78e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  75%|███████▌  | 1502/2000 [1:44:47<37:19,  4.50s/it]Epoch 1501 | Step  21015/ 28000 | Loss: 1.318034 | LR: 4.78e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1501 | Avg Loss: 1.317306 | LR: 4.78e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  75%|███████▌  | 1503/2000 [1:44:51<35:41,  4.31s/it]Epoch 1502 | Step  21029/ 28000 | Loss: 1.320113 | LR: 4.78e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1502 | Avg Loss: 1.316720 | LR: 4.77e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  75%|███████▌  | 1504/2000 [1:44:55<34:27,  4.17s/it]Epoch 1503 | Step  21043/ 28000 | Loss: 1.316107 | LR: 4.77e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1503 | Avg Loss: 1.317990 | LR: 4.77e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  75%|███████▌  | 1505/2000 [1:44:59<34:04,  4.13s/it]Epoch 1504 | Step  21057/ 28000 | Loss: 1.319447 | LR: 4.77e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1504 | Avg Loss: 1.317252 | LR: 4.77e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  75%|███████▌  | 1506/2000 [1:45:03<33:22,  4.05s/it]Epoch 1505 | Step  21071/ 28000 | Loss: 1.318390 | LR: 4.77e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1505 | Avg Loss: 1.317368 | LR: 4.77e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  75%|███████▌  | 1507/2000 [1:45:07<33:14,  4.05s/it]Epoch 1506 | Step  21085/ 28000 | Loss: 1.318884 | LR: 4.76e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1506 | Avg Loss: 1.317654 | LR: 4.76e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  75%|███████▌  | 1508/2000 [1:45:11<33:42,  4.11s/it]Epoch 1507 | Step  21099/ 28000 | Loss: 1.317525 | LR: 4.76e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1507 | Avg Loss: 1.317527 | LR: 4.76e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  75%|███████▌  | 1509/2000 [1:45:15<33:07,  4.05s/it]Epoch 1508 | Step  21113/ 28000 | Loss: 1.313534 | LR: 4.76e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1508 | Avg Loss: 1.317421 | LR: 4.76e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  76%|███████▌  | 1510/2000 [1:45:19<33:07,  4.06s/it]Epoch 1509 | Step  21127/ 28000 | Loss: 1.313573 | LR: 4.76e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1509 | Avg Loss: 1.316793 | LR: 4.75e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  76%|███████▌  | 1511/2000 [1:45:23<32:56,  4.04s/it]Epoch 1510 | Step  21141/ 28000 | Loss: 1.318302 | LR: 4.75e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1510 | Avg Loss: 1.317634 | LR: 4.75e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  76%|███████▌  | 1512/2000 [1:45:27<32:23,  3.98s/it]Epoch 1511 | Step  21155/ 28000 | Loss: 1.317600 | LR: 4.75e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1511 | Avg Loss: 1.317354 | LR: 4.75e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  76%|███████▌  | 1513/2000 [1:45:30<31:49,  3.92s/it]Epoch 1512 | Step  21169/ 28000 | Loss: 1.317092 | LR: 4.75e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1512 | Avg Loss: 1.317441 | LR: 4.75e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  76%|███████▌  | 1514/2000 [1:45:34<31:41,  3.91s/it]Epoch 1513 | Step  21183/ 28000 | Loss: 1.317739 | LR: 4.74e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1513 | Avg Loss: 1.317605 | LR: 4.74e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  76%|███████▌  | 1515/2000 [1:45:38<31:35,  3.91s/it]Epoch 1514 | Step  21197/ 28000 | Loss: 1.314214 | LR: 4.74e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1514 | Avg Loss: 1.318666 | LR: 4.74e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  76%|███████▌  | 1516/2000 [1:45:42<31:17,  3.88s/it]Epoch 1515 | Step  21211/ 28000 | Loss: 1.320307 | LR: 4.74e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1515 | Avg Loss: 1.317830 | LR: 4.74e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  76%|███████▌  | 1517/2000 [1:45:46<31:23,  3.90s/it]Epoch 1516 | Step  21225/ 28000 | Loss: 1.317143 | LR: 4.74e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1516 | Avg Loss: 1.317089 | LR: 4.73e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  76%|███████▌  | 1518/2000 [1:45:50<31:46,  3.95s/it]Epoch 1517 | Step  21239/ 28000 | Loss: 1.318104 | LR: 4.73e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1517 | Avg Loss: 1.317512 | LR: 4.73e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  76%|███████▌  | 1519/2000 [1:45:54<32:00,  3.99s/it]Epoch 1518 | Step  21253/ 28000 | Loss: 1.317225 | LR: 4.73e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1518 | Avg Loss: 1.317448 | LR: 4.73e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  76%|███████▌  | 1520/2000 [1:45:58<31:51,  3.98s/it]Epoch 1519 | Step  21267/ 28000 | Loss: 1.316506 | LR: 4.73e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1519 | Avg Loss: 1.317828 | LR: 4.73e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  76%|███████▌  | 1521/2000 [1:46:02<31:48,  3.98s/it]Epoch 1520 | Step  21281/ 28000 | Loss: 1.316323 | LR: 4.72e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1520 | Avg Loss: 1.316104 | LR: 4.72e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  76%|███████▌  | 1522/2000 [1:46:06<31:29,  3.95s/it]Epoch 1521 | Step  21295/ 28000 | Loss: 1.320112 | LR: 4.72e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1521 | Avg Loss: 1.317161 | LR: 4.72e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  76%|███████▌  | 1523/2000 [1:46:10<31:01,  3.90s/it]Epoch 1522 | Step  21309/ 28000 | Loss: 1.322076 | LR: 4.72e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1522 | Avg Loss: 1.317472 | LR: 4.72e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  76%|███████▌  | 1524/2000 [1:46:14<30:46,  3.88s/it]Epoch 1523 | Step  21323/ 28000 | Loss: 1.317327 | LR: 4.72e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1523 | Avg Loss: 1.318093 | LR: 4.71e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  76%|███████▋  | 1525/2000 [1:46:18<30:52,  3.90s/it]Epoch 1524 | Step  21337/ 28000 | Loss: 1.318559 | LR: 4.71e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1524 | Avg Loss: 1.317489 | LR: 4.71e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  76%|███████▋  | 1526/2000 [1:46:21<30:40,  3.88s/it]Epoch 1525 | Step  21351/ 28000 | Loss: 1.316380 | LR: 4.71e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1525 | Avg Loss: 1.316125 | LR: 4.71e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  76%|███████▋  | 1527/2000 [1:46:25<30:39,  3.89s/it]Epoch 1526 | Step  21365/ 28000 | Loss: 1.317436 | LR: 4.71e-04 | Speed: 3.3 steps/s | ETA: 0.6h
+Epoch 1526 | Avg Loss: 1.317192 | LR: 4.71e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  76%|███████▋  | 1528/2000 [1:46:29<30:35,  3.89s/it]Epoch 1527 | Step  21379/ 28000 | Loss: 1.316518 | LR: 4.71e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1527 | Avg Loss: 1.316905 | LR: 4.70e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  76%|███████▋  | 1529/2000 [1:46:33<30:35,  3.90s/it]Epoch 1528 | Step  21393/ 28000 | Loss: 1.316917 | LR: 4.70e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1528 | Avg Loss: 1.316790 | LR: 4.70e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  76%|███████▋  | 1530/2000 [1:46:37<30:30,  3.89s/it]Epoch 1529 | Step  21407/ 28000 | Loss: 1.315735 | LR: 4.70e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1529 | Avg Loss: 1.316819 | LR: 4.70e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1531/2000 [1:46:41<30:26,  3.90s/it]Epoch 1530 | Step  21421/ 28000 | Loss: 1.317087 | LR: 4.70e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1530 | Avg Loss: 1.317890 | LR: 4.69e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1532/2000 [1:46:45<30:56,  3.97s/it]Epoch 1531 | Step  21435/ 28000 | Loss: 1.321226 | LR: 4.69e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1531 | Avg Loss: 1.317236 | LR: 4.69e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1533/2000 [1:46:49<30:52,  3.97s/it]Epoch 1532 | Step  21449/ 28000 | Loss: 1.316485 | LR: 4.69e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1532 | Avg Loss: 1.318678 | LR: 4.69e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1534/2000 [1:46:53<30:30,  3.93s/it]Epoch 1533 | Step  21463/ 28000 | Loss: 1.315916 | LR: 4.69e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1533 | Avg Loss: 1.316770 | LR: 4.69e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1535/2000 [1:46:57<30:15,  3.91s/it]Epoch 1534 | Step  21477/ 28000 | Loss: 1.319245 | LR: 4.69e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1534 | Avg Loss: 1.317839 | LR: 4.68e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1536/2000 [1:47:01<30:13,  3.91s/it]Epoch 1535 | Step  21491/ 28000 | Loss: 1.317425 | LR: 4.68e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1535 | Avg Loss: 1.317084 | LR: 4.68e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1537/2000 [1:47:04<30:02,  3.89s/it]Epoch 1536 | Step  21505/ 28000 | Loss: 1.322239 | LR: 4.68e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1536 | Avg Loss: 1.317556 | LR: 4.68e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1538/2000 [1:47:09<31:36,  4.10s/it]Epoch 1537 | Step  21519/ 28000 | Loss: 1.313224 | LR: 4.68e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1537 | Avg Loss: 1.317776 | LR: 4.68e-04 | Time: 4.6s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1539/2000 [1:47:13<31:05,  4.05s/it]Epoch 1538 | Step  21533/ 28000 | Loss: 1.317518 | LR: 4.67e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1538 | Avg Loss: 1.317231 | LR: 4.67e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1540/2000 [1:47:17<30:35,  3.99s/it]Epoch 1539 | Step  21547/ 28000 | Loss: 1.316022 | LR: 4.67e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1539 | Avg Loss: 1.317537 | LR: 4.67e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1541/2000 [1:47:21<30:10,  3.94s/it]Epoch 1540 | Step  21561/ 28000 | Loss: 1.318411 | LR: 4.67e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1540 | Avg Loss: 1.317703 | LR: 4.67e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1542/2000 [1:47:25<30:01,  3.93s/it]Epoch 1541 | Step  21575/ 28000 | Loss: 1.319582 | LR: 4.67e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1541 | Avg Loss: 1.317332 | LR: 4.66e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1543/2000 [1:47:29<30:41,  4.03s/it]Epoch 1542 | Step  21589/ 28000 | Loss: 1.316860 | LR: 4.66e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1542 | Avg Loss: 1.317419 | LR: 4.66e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1544/2000 [1:47:33<30:21,  3.99s/it]Epoch 1543 | Step  21603/ 28000 | Loss: 1.320160 | LR: 4.66e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1543 | Avg Loss: 1.316935 | LR: 4.66e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1545/2000 [1:47:37<30:03,  3.96s/it]Epoch 1544 | Step  21617/ 28000 | Loss: 1.318058 | LR: 4.66e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1544 | Avg Loss: 1.317902 | LR: 4.66e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1546/2000 [1:47:41<30:02,  3.97s/it]Epoch 1545 | Step  21631/ 28000 | Loss: 1.318058 | LR: 4.66e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1545 | Avg Loss: 1.316857 | LR: 4.65e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1547/2000 [1:47:45<29:56,  3.96s/it]Epoch 1546 | Step  21645/ 28000 | Loss: 1.319064 | LR: 4.65e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1546 | Avg Loss: 1.317261 | LR: 4.65e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1548/2000 [1:47:48<29:51,  3.96s/it]Epoch 1547 | Step  21659/ 28000 | Loss: 1.316966 | LR: 4.65e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1547 | Avg Loss: 1.317634 | LR: 4.65e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  77%|███████▋  | 1549/2000 [1:47:52<29:52,  3.97s/it]Epoch 1548 | Step  21673/ 28000 | Loss: 1.314166 | LR: 4.65e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1548 | Avg Loss: 1.316563 | LR: 4.65e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1550/2000 [1:47:56<29:27,  3.93s/it]Epoch 1549 | Step  21687/ 28000 | Loss: 1.314656 | LR: 4.64e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1549 | Avg Loss: 1.317158 | LR: 4.64e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1551/2000 [1:48:00<29:23,  3.93s/it]Epoch 1550 | Step  21701/ 28000 | Loss: 1.317507 | LR: 4.64e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1550 | Avg Loss: 1.318207 | LR: 4.64e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1552/2000 [1:48:04<29:01,  3.89s/it]Epoch 1551 | Step  21715/ 28000 | Loss: 1.315248 | LR: 4.64e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1551 | Avg Loss: 1.317480 | LR: 4.64e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1553/2000 [1:48:08<29:15,  3.93s/it]Epoch 1552 | Step  21729/ 28000 | Loss: 1.314520 | LR: 4.64e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1552 | Avg Loss: 1.316968 | LR: 4.63e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1554/2000 [1:48:12<29:12,  3.93s/it]Epoch 1553 | Step  21743/ 28000 | Loss: 1.315400 | LR: 4.63e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1553 | Avg Loss: 1.317251 | LR: 4.63e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1555/2000 [1:48:16<29:06,  3.92s/it]Epoch 1554 | Step  21757/ 28000 | Loss: 1.312956 | LR: 4.63e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1554 | Avg Loss: 1.316972 | LR: 4.63e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1556/2000 [1:48:20<29:11,  3.94s/it]Epoch 1555 | Step  21771/ 28000 | Loss: 1.319656 | LR: 4.63e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1555 | Avg Loss: 1.318179 | LR: 4.63e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1557/2000 [1:48:24<29:17,  3.97s/it]Epoch 1556 | Step  21785/ 28000 | Loss: 1.319492 | LR: 4.63e-04 | Speed: 3.3 steps/s | ETA: 0.5h
+Epoch 1556 | Avg Loss: 1.316273 | LR: 4.62e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1558/2000 [1:48:28<29:02,  3.94s/it]Epoch 1557 | Step  21799/ 28000 | Loss: 1.315510 | LR: 4.62e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1557 | Avg Loss: 1.316739 | LR: 4.62e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1559/2000 [1:48:32<28:59,  3.94s/it]Epoch 1558 | Step  21813/ 28000 | Loss: 1.319950 | LR: 4.62e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1558 | Avg Loss: 1.317142 | LR: 4.62e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1560/2000 [1:48:36<28:59,  3.95s/it]Epoch 1559 | Step  21827/ 28000 | Loss: 1.317745 | LR: 4.62e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1559 | Avg Loss: 1.317501 | LR: 4.62e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1561/2000 [1:48:40<28:48,  3.94s/it]Epoch 1560 | Step  21841/ 28000 | Loss: 1.316105 | LR: 4.62e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1560 | Avg Loss: 1.317425 | LR: 4.61e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1562/2000 [1:48:44<28:36,  3.92s/it]Epoch 1561 | Step  21855/ 28000 | Loss: 1.318739 | LR: 4.61e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1561 | Avg Loss: 1.317124 | LR: 4.61e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1563/2000 [1:48:47<28:19,  3.89s/it]Epoch 1562 | Step  21869/ 28000 | Loss: 1.318718 | LR: 4.61e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1562 | Avg Loss: 1.317132 | LR: 4.61e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1564/2000 [1:48:51<28:22,  3.91s/it]Epoch 1563 | Step  21883/ 28000 | Loss: 1.315496 | LR: 4.61e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1563 | Avg Loss: 1.317074 | LR: 4.61e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1565/2000 [1:48:55<28:18,  3.90s/it]Epoch 1564 | Step  21897/ 28000 | Loss: 1.315675 | LR: 4.60e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1564 | Avg Loss: 1.316985 | LR: 4.60e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1566/2000 [1:48:59<28:29,  3.94s/it]Epoch 1565 | Step  21911/ 28000 | Loss: 1.317920 | LR: 4.60e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1565 | Avg Loss: 1.317830 | LR: 4.60e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1567/2000 [1:49:03<28:13,  3.91s/it]Epoch 1566 | Step  21925/ 28000 | Loss: 1.317017 | LR: 4.60e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1566 | Avg Loss: 1.317918 | LR: 4.60e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1568/2000 [1:49:07<28:07,  3.91s/it]Epoch 1567 | Step  21939/ 28000 | Loss: 1.319018 | LR: 4.60e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1567 | Avg Loss: 1.317544 | LR: 4.59e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1569/2000 [1:49:11<28:04,  3.91s/it]Epoch 1568 | Step  21953/ 28000 | Loss: 1.312692 | LR: 4.59e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1568 | Avg Loss: 1.317583 | LR: 4.59e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  78%|███████▊  | 1570/2000 [1:49:15<28:11,  3.93s/it]Epoch 1569 | Step  21967/ 28000 | Loss: 1.315958 | LR: 4.59e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1569 | Avg Loss: 1.317189 | LR: 4.59e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  79%|███████▊  | 1571/2000 [1:49:19<27:58,  3.91s/it]Epoch 1570 | Step  21981/ 28000 | Loss: 1.316448 | LR: 4.59e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1570 | Avg Loss: 1.317127 | LR: 4.59e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  79%|███████▊  | 1572/2000 [1:49:23<28:21,  3.98s/it]Epoch 1571 | Step  21995/ 28000 | Loss: 1.317561 | LR: 4.59e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1571 | Avg Loss: 1.317278 | LR: 4.58e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  79%|███████▊  | 1573/2000 [1:49:27<28:07,  3.95s/it]Epoch 1572 | Step  22009/ 28000 | Loss: 1.312232 | LR: 4.58e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1572 | Avg Loss: 1.317959 | LR: 4.58e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  79%|███████▊  | 1574/2000 [1:49:31<27:58,  3.94s/it]Epoch 1573 | Step  22023/ 28000 | Loss: 1.314844 | LR: 4.58e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1573 | Avg Loss: 1.316925 | LR: 4.58e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  79%|███████▉  | 1575/2000 [1:49:35<27:50,  3.93s/it]Epoch 1574 | Step  22037/ 28000 | Loss: 1.318017 | LR: 4.58e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1574 | Avg Loss: 1.317762 | LR: 4.58e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  79%|███████▉  | 1576/2000 [1:49:39<27:58,  3.96s/it]Epoch 1575 | Step  22051/ 28000 | Loss: 1.316465 | LR: 4.58e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1575 | Avg Loss: 1.317015 | LR: 4.57e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  79%|███████▉  | 1577/2000 [1:49:43<27:59,  3.97s/it]Epoch 1576 | Step  22065/ 28000 | Loss: 1.313120 | LR: 4.57e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1576 | Avg Loss: 1.316829 | LR: 4.57e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  79%|███████▉  | 1578/2000 [1:49:46<27:47,  3.95s/it]Epoch 1577 | Step  22079/ 28000 | Loss: 1.316401 | LR: 4.57e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1577 | Avg Loss: 1.317796 | LR: 4.57e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  79%|███████▉  | 1579/2000 [1:49:50<27:30,  3.92s/it]Epoch 1578 | Step  22093/ 28000 | Loss: 1.316770 | LR: 4.57e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1578 | Avg Loss: 1.317872 | LR: 4.57e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  79%|███████▉  | 1580/2000 [1:49:54<27:22,  3.91s/it]Epoch 1579 | Step  22107/ 28000 | Loss: 1.314808 | LR: 4.57e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1579 | Avg Loss: 1.316650 | LR: 4.56e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  79%|███████▉  | 1581/2000 [1:49:58<27:35,  3.95s/it]Epoch 1580 | Step  22121/ 28000 | Loss: 1.318036 | LR: 4.56e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1580 | Avg Loss: 1.317691 | LR: 4.56e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  79%|███████▉  | 1582/2000 [1:50:02<27:37,  3.96s/it]Epoch 1581 | Step  22135/ 28000 | Loss: 1.314872 | LR: 4.56e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1581 | Avg Loss: 1.317354 | LR: 4.56e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  79%|███████▉  | 1583/2000 [1:50:06<27:31,  3.96s/it]Epoch 1582 | Step  22149/ 28000 | Loss: 1.318822 | LR: 4.56e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1582 | Avg Loss: 1.317597 | LR: 4.56e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  79%|███████▉  | 1584/2000 [1:50:10<27:43,  4.00s/it]Epoch 1583 | Step  22163/ 28000 | Loss: 1.316680 | LR: 4.56e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1583 | Avg Loss: 1.318297 | LR: 4.55e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  79%|███████▉  | 1585/2000 [1:50:14<27:24,  3.96s/it]Epoch 1584 | Step  22177/ 28000 | Loss: 1.314572 | LR: 4.55e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1584 | Avg Loss: 1.317258 | LR: 4.55e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  79%|███████▉  | 1586/2000 [1:50:18<27:15,  3.95s/it]Epoch 1585 | Step  22191/ 28000 | Loss: 1.313811 | LR: 4.55e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1585 | Avg Loss: 1.317363 | LR: 4.55e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  79%|███████▉  | 1587/2000 [1:50:22<27:24,  3.98s/it]Epoch 1586 | Step  22205/ 28000 | Loss: 1.317108 | LR: 4.55e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1586 | Avg Loss: 1.317080 | LR: 4.55e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  79%|███████▉  | 1588/2000 [1:50:26<27:06,  3.95s/it]Epoch 1587 | Step  22219/ 28000 | Loss: 1.313299 | LR: 4.55e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1587 | Avg Loss: 1.317124 | LR: 4.54e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  79%|███████▉  | 1589/2000 [1:50:30<27:23,  4.00s/it]Epoch 1588 | Step  22233/ 28000 | Loss: 1.318536 | LR: 4.54e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1588 | Avg Loss: 1.317379 | LR: 4.54e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  80%|███████▉  | 1590/2000 [1:50:34<27:25,  4.01s/it]Epoch 1589 | Step  22247/ 28000 | Loss: 1.317264 | LR: 4.54e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1589 | Avg Loss: 1.317168 | LR: 4.54e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  80%|███████▉  | 1591/2000 [1:50:38<27:01,  3.97s/it]Epoch 1590 | Step  22261/ 28000 | Loss: 1.315086 | LR: 4.54e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1590 | Avg Loss: 1.316760 | LR: 4.54e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  80%|███████▉  | 1592/2000 [1:50:42<26:43,  3.93s/it]Epoch 1591 | Step  22275/ 28000 | Loss: 1.320393 | LR: 4.54e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1591 | Avg Loss: 1.318549 | LR: 4.53e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  80%|███████▉  | 1593/2000 [1:50:46<26:39,  3.93s/it]Epoch 1592 | Step  22289/ 28000 | Loss: 1.316459 | LR: 4.53e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1592 | Avg Loss: 1.316215 | LR: 4.53e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  80%|███████▉  | 1594/2000 [1:50:50<26:42,  3.95s/it]Epoch 1593 | Step  22303/ 28000 | Loss: 1.317302 | LR: 4.53e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1593 | Avg Loss: 1.317552 | LR: 4.53e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  80%|███████▉  | 1595/2000 [1:50:54<26:28,  3.92s/it]Epoch 1594 | Step  22317/ 28000 | Loss: 1.315875 | LR: 4.53e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1594 | Avg Loss: 1.316878 | LR: 4.53e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  80%|███████▉  | 1596/2000 [1:50:58<26:33,  3.94s/it]Epoch 1595 | Step  22331/ 28000 | Loss: 1.312070 | LR: 4.53e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1595 | Avg Loss: 1.316973 | LR: 4.52e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  80%|███████▉  | 1597/2000 [1:51:02<26:25,  3.93s/it]Epoch 1596 | Step  22345/ 28000 | Loss: 1.317896 | LR: 4.52e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1596 | Avg Loss: 1.317751 | LR: 4.52e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  80%|███████▉  | 1598/2000 [1:51:05<26:06,  3.90s/it]Epoch 1597 | Step  22359/ 28000 | Loss: 1.313569 | LR: 4.52e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1597 | Avg Loss: 1.316929 | LR: 4.52e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  80%|███████▉  | 1599/2000 [1:51:09<26:09,  3.91s/it]Epoch 1598 | Step  22373/ 28000 | Loss: 1.315305 | LR: 4.52e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1598 | Avg Loss: 1.316854 | LR: 4.52e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  80%|████████  | 1600/2000 [1:51:13<26:11,  3.93s/it]Epoch 1599 | Step  22387/ 28000 | Loss: 1.316603 | LR: 4.52e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1599 | Avg Loss: 1.317698 | LR: 4.51e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  80%|████████  | 1601/2000 [1:51:17<26:04,  3.92s/it]Epoch 1600 | Step  22401/ 28000 | Loss: 1.317502 | LR: 4.51e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1600 | Avg Loss: 1.316926 | LR: 4.51e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  80%|████████  | 1602/2000 [1:51:21<26:46,  4.04s/it]Epoch 1601 | Step  22415/ 28000 | Loss: 1.316318 | LR: 4.51e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1601 | Avg Loss: 1.317778 | LR: 4.51e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  80%|████████  | 1603/2000 [1:51:25<26:37,  4.02s/it]Epoch 1602 | Step  22429/ 28000 | Loss: 1.316625 | LR: 4.51e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1602 | Avg Loss: 1.316878 | LR: 4.51e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  80%|████████  | 1604/2000 [1:51:29<26:19,  3.99s/it]Epoch 1603 | Step  22443/ 28000 | Loss: 1.313453 | LR: 4.51e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1603 | Avg Loss: 1.316879 | LR: 4.50e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  80%|████████  | 1605/2000 [1:51:33<26:00,  3.95s/it]Epoch 1604 | Step  22457/ 28000 | Loss: 1.320363 | LR: 4.50e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1604 | Avg Loss: 1.316925 | LR: 4.50e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  80%|████████  | 1606/2000 [1:51:37<26:09,  3.98s/it]Epoch 1605 | Step  22471/ 28000 | Loss: 1.318651 | LR: 4.50e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1605 | Avg Loss: 1.317222 | LR: 4.50e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  80%|████████  | 1607/2000 [1:51:42<26:46,  4.09s/it]Epoch 1606 | Step  22485/ 28000 | Loss: 1.318128 | LR: 4.50e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1606 | Avg Loss: 1.316281 | LR: 4.50e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  80%|████████  | 1608/2000 [1:51:46<26:20,  4.03s/it]Epoch 1607 | Step  22499/ 28000 | Loss: 1.315769 | LR: 4.50e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1607 | Avg Loss: 1.316713 | LR: 4.49e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  80%|████████  | 1609/2000 [1:51:49<26:05,  4.00s/it]Epoch 1608 | Step  22513/ 28000 | Loss: 1.318795 | LR: 4.49e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1608 | Avg Loss: 1.318049 | LR: 4.49e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  80%|████████  | 1610/2000 [1:51:53<26:01,  4.00s/it]Epoch 1609 | Step  22527/ 28000 | Loss: 1.319117 | LR: 4.49e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1609 | Avg Loss: 1.317149 | LR: 4.49e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  81%|████████  | 1611/2000 [1:51:58<26:11,  4.04s/it]Epoch 1610 | Step  22541/ 28000 | Loss: 1.319441 | LR: 4.49e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1610 | Avg Loss: 1.317241 | LR: 4.49e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  81%|████████  | 1612/2000 [1:52:02<25:51,  4.00s/it]Epoch 1611 | Step  22555/ 28000 | Loss: 1.317492 | LR: 4.49e-04 | Speed: 3.4 steps/s | ETA: 0.5h
+Epoch 1611 | Avg Loss: 1.318431 | LR: 4.48e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  81%|████████  | 1613/2000 [1:52:06<25:47,  4.00s/it]Epoch 1612 | Step  22569/ 28000 | Loss: 1.319325 | LR: 4.48e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1612 | Avg Loss: 1.316792 | LR: 4.48e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  81%|████████  | 1614/2000 [1:52:09<25:20,  3.94s/it]Epoch 1613 | Step  22583/ 28000 | Loss: 1.315810 | LR: 4.48e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1613 | Avg Loss: 1.317400 | LR: 4.48e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  81%|████████  | 1615/2000 [1:52:13<24:58,  3.89s/it]Epoch 1614 | Step  22597/ 28000 | Loss: 1.316695 | LR: 4.48e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1614 | Avg Loss: 1.317601 | LR: 4.48e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  81%|████████  | 1616/2000 [1:52:17<24:56,  3.90s/it]Epoch 1615 | Step  22611/ 28000 | Loss: 1.318159 | LR: 4.48e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1615 | Avg Loss: 1.316668 | LR: 4.48e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  81%|████████  | 1617/2000 [1:52:21<25:04,  3.93s/it]Epoch 1616 | Step  22625/ 28000 | Loss: 1.316581 | LR: 4.47e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1616 | Avg Loss: 1.318321 | LR: 4.47e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  81%|████████  | 1618/2000 [1:52:25<25:04,  3.94s/it]Epoch 1617 | Step  22639/ 28000 | Loss: 1.313759 | LR: 4.47e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1617 | Avg Loss: 1.317090 | LR: 4.47e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  81%|████████  | 1619/2000 [1:52:29<24:53,  3.92s/it]Epoch 1618 | Step  22653/ 28000 | Loss: 1.312777 | LR: 4.47e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1618 | Avg Loss: 1.317636 | LR: 4.47e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  81%|████████  | 1620/2000 [1:52:33<25:29,  4.03s/it]Epoch 1619 | Step  22667/ 28000 | Loss: 1.315462 | LR: 4.47e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1619 | Avg Loss: 1.317398 | LR: 4.47e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  81%|████████  | 1621/2000 [1:52:37<25:35,  4.05s/it]Epoch 1620 | Step  22681/ 28000 | Loss: 1.319031 | LR: 4.47e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1620 | Avg Loss: 1.317567 | LR: 4.46e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  81%|████████  | 1622/2000 [1:52:41<25:44,  4.08s/it]Epoch 1621 | Step  22695/ 28000 | Loss: 1.317104 | LR: 4.46e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1621 | Avg Loss: 1.317101 | LR: 4.46e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  81%|████████  | 1623/2000 [1:52:46<26:00,  4.14s/it]Epoch 1622 | Step  22709/ 28000 | Loss: 1.318916 | LR: 4.46e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1622 | Avg Loss: 1.317085 | LR: 4.46e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  81%|████████  | 1624/2000 [1:52:50<26:04,  4.16s/it]Epoch 1623 | Step  22723/ 28000 | Loss: 1.319161 | LR: 4.46e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1623 | Avg Loss: 1.317282 | LR: 4.46e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  81%|████████▏ | 1625/2000 [1:52:55<27:13,  4.36s/it]Epoch 1624 | Step  22737/ 28000 | Loss: 1.322007 | LR: 4.46e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1624 | Avg Loss: 1.316941 | LR: 4.45e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  81%|████████▏ | 1626/2000 [1:53:00<28:12,  4.53s/it]Epoch 1625 | Step  22751/ 28000 | Loss: 1.319049 | LR: 4.45e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1625 | Avg Loss: 1.316889 | LR: 4.45e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  81%|████████▏ | 1627/2000 [1:53:04<28:44,  4.62s/it]Epoch 1626 | Step  22765/ 28000 | Loss: 1.313039 | LR: 4.45e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1626 | Avg Loss: 1.316607 | LR: 4.45e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  81%|████████▏ | 1628/2000 [1:53:09<29:08,  4.70s/it]Epoch 1627 | Step  22779/ 28000 | Loss: 1.318189 | LR: 4.45e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1627 | Avg Loss: 1.317463 | LR: 4.45e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  81%|████████▏ | 1629/2000 [1:53:14<29:44,  4.81s/it]Epoch 1628 | Step  22793/ 28000 | Loss: 1.319605 | LR: 4.45e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1628 | Avg Loss: 1.318021 | LR: 4.44e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1630/2000 [1:53:19<29:31,  4.79s/it]Epoch 1629 | Step  22807/ 28000 | Loss: 1.318553 | LR: 4.44e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1629 | Avg Loss: 1.317204 | LR: 4.44e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1631/2000 [1:53:24<29:31,  4.80s/it]Epoch 1630 | Step  22821/ 28000 | Loss: 1.320673 | LR: 4.44e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1630 | Avg Loss: 1.317367 | LR: 4.44e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1632/2000 [1:53:29<30:05,  4.91s/it]Epoch 1631 | Step  22835/ 28000 | Loss: 1.316943 | LR: 4.44e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1631 | Avg Loss: 1.318217 | LR: 4.44e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1633/2000 [1:53:34<29:52,  4.88s/it]Epoch 1632 | Step  22849/ 28000 | Loss: 1.323521 | LR: 4.44e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1632 | Avg Loss: 1.317440 | LR: 4.44e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1634/2000 [1:53:39<30:02,  4.93s/it]Epoch 1633 | Step  22863/ 28000 | Loss: 1.317554 | LR: 4.44e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1633 | Avg Loss: 1.316297 | LR: 4.43e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1635/2000 [1:53:44<30:13,  4.97s/it]Epoch 1634 | Step  22877/ 28000 | Loss: 1.322383 | LR: 4.43e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1634 | Avg Loss: 1.317179 | LR: 4.43e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1636/2000 [1:53:49<29:54,  4.93s/it]Epoch 1635 | Step  22891/ 28000 | Loss: 1.319785 | LR: 4.43e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1635 | Avg Loss: 1.316440 | LR: 4.43e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1637/2000 [1:53:54<29:44,  4.91s/it]Epoch 1636 | Step  22905/ 28000 | Loss: 1.320274 | LR: 4.43e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1636 | Avg Loss: 1.316960 | LR: 4.43e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1638/2000 [1:53:59<29:44,  4.93s/it]Epoch 1637 | Step  22919/ 28000 | Loss: 1.316161 | LR: 4.43e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1637 | Avg Loss: 1.317912 | LR: 4.42e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1639/2000 [1:54:04<29:26,  4.89s/it]Epoch 1638 | Step  22933/ 28000 | Loss: 1.315236 | LR: 4.42e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1638 | Avg Loss: 1.316898 | LR: 4.42e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1640/2000 [1:54:08<29:12,  4.87s/it]Epoch 1639 | Step  22947/ 28000 | Loss: 1.317425 | LR: 4.42e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1639 | Avg Loss: 1.316482 | LR: 4.42e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1641/2000 [1:54:13<29:27,  4.92s/it]Epoch 1640 | Step  22961/ 28000 | Loss: 1.319073 | LR: 4.42e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1640 | Avg Loss: 1.317906 | LR: 4.42e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1642/2000 [1:54:18<29:11,  4.89s/it]Epoch 1641 | Step  22975/ 28000 | Loss: 1.319248 | LR: 4.42e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1641 | Avg Loss: 1.317232 | LR: 4.42e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1643/2000 [1:54:23<29:05,  4.89s/it]Epoch 1642 | Step  22989/ 28000 | Loss: 1.318877 | LR: 4.42e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1642 | Avg Loss: 1.316981 | LR: 4.41e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1644/2000 [1:54:28<29:05,  4.90s/it]Epoch 1643 | Step  23003/ 28000 | Loss: 1.313380 | LR: 4.41e-04 | Speed: 3.4 steps/s | ETA: 0.4h
+Epoch 1643 | Avg Loss: 1.316829 | LR: 4.41e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1645/2000 [1:54:33<28:49,  4.87s/it]Epoch 1644 | Step  23017/ 28000 | Loss: 1.315276 | LR: 4.41e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1644 | Avg Loss: 1.318522 | LR: 4.41e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1646/2000 [1:54:38<28:42,  4.87s/it]Epoch 1645 | Step  23031/ 28000 | Loss: 1.317582 | LR: 4.41e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1645 | Avg Loss: 1.317906 | LR: 4.41e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1647/2000 [1:54:42<28:22,  4.82s/it]Epoch 1646 | Step  23045/ 28000 | Loss: 1.315673 | LR: 4.41e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1646 | Avg Loss: 1.316555 | LR: 4.40e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1648/2000 [1:54:47<28:13,  4.81s/it]Epoch 1647 | Step  23059/ 28000 | Loss: 1.313629 | LR: 4.40e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1647 | Avg Loss: 1.316594 | LR: 4.40e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  82%|████████▏ | 1649/2000 [1:54:51<26:31,  4.54s/it]Epoch 1648 | Step  23073/ 28000 | Loss: 1.317549 | LR: 4.40e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1648 | Avg Loss: 1.317352 | LR: 4.40e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  82%|████████▎ | 1650/2000 [1:54:55<25:44,  4.41s/it]Epoch 1649 | Step  23087/ 28000 | Loss: 1.320406 | LR: 4.40e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1649 | Avg Loss: 1.316962 | LR: 4.40e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1651/2000 [1:54:59<25:02,  4.31s/it]Epoch 1650 | Step  23101/ 28000 | Loss: 1.318264 | LR: 4.40e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1650 | Avg Loss: 1.317385 | LR: 4.40e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1652/2000 [1:55:03<24:13,  4.18s/it]Epoch 1651 | Step  23115/ 28000 | Loss: 1.318430 | LR: 4.40e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1651 | Avg Loss: 1.316906 | LR: 4.39e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1653/2000 [1:55:07<23:42,  4.10s/it]Epoch 1652 | Step  23129/ 28000 | Loss: 1.318747 | LR: 4.39e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1652 | Avg Loss: 1.317804 | LR: 4.39e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1654/2000 [1:55:12<25:34,  4.43s/it]Epoch 1653 | Step  23143/ 28000 | Loss: 1.319485 | LR: 4.39e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1653 | Avg Loss: 1.316883 | LR: 4.39e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1655/2000 [1:55:18<27:05,  4.71s/it]Epoch 1654 | Step  23157/ 28000 | Loss: 1.314605 | LR: 4.39e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1654 | Avg Loss: 1.317314 | LR: 4.39e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1656/2000 [1:55:23<27:57,  4.88s/it]Epoch 1655 | Step  23171/ 28000 | Loss: 1.317509 | LR: 4.39e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1655 | Avg Loss: 1.317019 | LR: 4.38e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1657/2000 [1:55:28<28:25,  4.97s/it]Epoch 1656 | Step  23185/ 28000 | Loss: 1.317763 | LR: 4.38e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1656 | Avg Loss: 1.316993 | LR: 4.38e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1658/2000 [1:55:33<27:55,  4.90s/it]Epoch 1657 | Step  23199/ 28000 | Loss: 1.317258 | LR: 4.38e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1657 | Avg Loss: 1.317644 | LR: 4.38e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1659/2000 [1:55:38<27:52,  4.90s/it]Epoch 1658 | Step  23213/ 28000 | Loss: 1.317530 | LR: 4.38e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1658 | Avg Loss: 1.317307 | LR: 4.38e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1660/2000 [1:55:43<27:45,  4.90s/it]Epoch 1659 | Step  23227/ 28000 | Loss: 1.316177 | LR: 4.38e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1659 | Avg Loss: 1.316969 | LR: 4.38e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1661/2000 [1:55:48<28:06,  4.98s/it]Epoch 1660 | Step  23241/ 28000 | Loss: 1.317696 | LR: 4.38e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1660 | Avg Loss: 1.317704 | LR: 4.37e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1662/2000 [1:55:53<27:40,  4.91s/it]Epoch 1661 | Step  23255/ 28000 | Loss: 1.315126 | LR: 4.37e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1661 | Avg Loss: 1.317438 | LR: 4.37e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1663/2000 [1:55:58<27:40,  4.93s/it]Epoch 1662 | Step  23269/ 28000 | Loss: 1.317139 | LR: 4.37e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1662 | Avg Loss: 1.317741 | LR: 4.37e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1664/2000 [1:56:03<27:48,  4.96s/it]Epoch 1663 | Step  23283/ 28000 | Loss: 1.316295 | LR: 4.37e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1663 | Avg Loss: 1.316688 | LR: 4.37e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1665/2000 [1:56:08<28:10,  5.05s/it]Epoch 1664 | Step  23297/ 28000 | Loss: 1.318289 | LR: 4.37e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1664 | Avg Loss: 1.318118 | LR: 4.37e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1666/2000 [1:56:13<28:39,  5.15s/it]Epoch 1665 | Step  23311/ 28000 | Loss: 1.317320 | LR: 4.37e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1665 | Avg Loss: 1.317158 | LR: 4.36e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1667/2000 [1:56:19<28:53,  5.20s/it]Epoch 1666 | Step  23325/ 28000 | Loss: 1.319398 | LR: 4.36e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1666 | Avg Loss: 1.316561 | LR: 4.36e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1668/2000 [1:56:24<29:09,  5.27s/it]Epoch 1667 | Step  23339/ 28000 | Loss: 1.321194 | LR: 4.36e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1667 | Avg Loss: 1.317048 | LR: 4.36e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  83%|████████▎ | 1669/2000 [1:56:29<28:30,  5.17s/it]Epoch 1668 | Step  23353/ 28000 | Loss: 1.316360 | LR: 4.36e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1668 | Avg Loss: 1.317621 | LR: 4.36e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  84%|████████▎ | 1670/2000 [1:56:34<28:39,  5.21s/it]Epoch 1669 | Step  23367/ 28000 | Loss: 1.314146 | LR: 4.36e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1669 | Avg Loss: 1.317824 | LR: 4.35e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  84%|████████▎ | 1671/2000 [1:56:39<27:55,  5.09s/it]Epoch 1670 | Step  23381/ 28000 | Loss: 1.317424 | LR: 4.35e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1670 | Avg Loss: 1.317055 | LR: 4.35e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  84%|████████▎ | 1672/2000 [1:56:43<26:16,  4.81s/it]Epoch 1671 | Step  23395/ 28000 | Loss: 1.318617 | LR: 4.35e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1671 | Avg Loss: 1.317717 | LR: 4.35e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  84%|████████▎ | 1673/2000 [1:56:47<25:04,  4.60s/it]Epoch 1672 | Step  23409/ 28000 | Loss: 1.318272 | LR: 4.35e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1672 | Avg Loss: 1.316689 | LR: 4.35e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  84%|████████▎ | 1674/2000 [1:56:51<24:00,  4.42s/it]Epoch 1673 | Step  23423/ 28000 | Loss: 1.316930 | LR: 4.35e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1673 | Avg Loss: 1.317771 | LR: 4.35e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  84%|████████▍ | 1675/2000 [1:56:56<23:41,  4.37s/it]Epoch 1674 | Step  23437/ 28000 | Loss: 1.318637 | LR: 4.35e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1674 | Avg Loss: 1.317151 | LR: 4.34e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  84%|████████▍ | 1676/2000 [1:56:59<22:54,  4.24s/it]Epoch 1675 | Step  23451/ 28000 | Loss: 1.316371 | LR: 4.34e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1675 | Avg Loss: 1.317504 | LR: 4.34e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  84%|████████▍ | 1677/2000 [1:57:04<22:38,  4.21s/it]Epoch 1676 | Step  23465/ 28000 | Loss: 1.318761 | LR: 4.34e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1676 | Avg Loss: 1.317190 | LR: 4.34e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  84%|████████▍ | 1678/2000 [1:57:08<22:13,  4.14s/it]Epoch 1677 | Step  23479/ 28000 | Loss: 1.318290 | LR: 4.34e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1677 | Avg Loss: 1.316946 | LR: 4.34e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  84%|████████▍ | 1679/2000 [1:57:11<21:44,  4.06s/it]Epoch 1678 | Step  23493/ 28000 | Loss: 1.318015 | LR: 4.34e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1678 | Avg Loss: 1.317435 | LR: 4.34e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  84%|████████▍ | 1680/2000 [1:57:16<21:38,  4.06s/it]Epoch 1679 | Step  23507/ 28000 | Loss: 1.318165 | LR: 4.34e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1679 | Avg Loss: 1.317746 | LR: 4.33e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  84%|████████▍ | 1681/2000 [1:57:19<21:20,  4.02s/it]Epoch 1680 | Step  23521/ 28000 | Loss: 1.318758 | LR: 4.33e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1680 | Avg Loss: 1.317679 | LR: 4.33e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  84%|████████▍ | 1682/2000 [1:57:23<21:09,  3.99s/it]Epoch 1681 | Step  23535/ 28000 | Loss: 1.319098 | LR: 4.33e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1681 | Avg Loss: 1.317332 | LR: 4.33e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  84%|████████▍ | 1683/2000 [1:57:27<21:06,  4.00s/it]Epoch 1682 | Step  23549/ 28000 | Loss: 1.320235 | LR: 4.33e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1682 | Avg Loss: 1.317849 | LR: 4.33e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  84%|████████▍ | 1684/2000 [1:57:32<21:30,  4.08s/it]Epoch 1683 | Step  23563/ 28000 | Loss: 1.314633 | LR: 4.33e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1683 | Avg Loss: 1.316816 | LR: 4.33e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  84%|████████▍ | 1685/2000 [1:57:36<21:46,  4.15s/it]Epoch 1684 | Step  23577/ 28000 | Loss: 1.319058 | LR: 4.33e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1684 | Avg Loss: 1.317012 | LR: 4.32e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  84%|████████▍ | 1686/2000 [1:57:40<21:20,  4.08s/it]Epoch 1685 | Step  23591/ 28000 | Loss: 1.316308 | LR: 4.32e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1685 | Avg Loss: 1.317847 | LR: 4.32e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  84%|████████▍ | 1687/2000 [1:57:44<21:08,  4.05s/it]Epoch 1686 | Step  23605/ 28000 | Loss: 1.316669 | LR: 4.32e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1686 | Avg Loss: 1.317160 | LR: 4.32e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  84%|████████▍ | 1688/2000 [1:57:48<20:46,  4.00s/it]Epoch 1687 | Step  23619/ 28000 | Loss: 1.319822 | LR: 4.32e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1687 | Avg Loss: 1.317556 | LR: 4.32e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  84%|████████▍ | 1689/2000 [1:57:52<20:40,  3.99s/it]Epoch 1688 | Step  23633/ 28000 | Loss: 1.316732 | LR: 4.32e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1688 | Avg Loss: 1.317116 | LR: 4.32e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  84%|████████▍ | 1690/2000 [1:57:56<20:34,  3.98s/it]Epoch 1689 | Step  23647/ 28000 | Loss: 1.320224 | LR: 4.32e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1689 | Avg Loss: 1.316827 | LR: 4.31e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  85%|████████▍ | 1691/2000 [1:58:00<20:26,  3.97s/it]Epoch 1690 | Step  23661/ 28000 | Loss: 1.314692 | LR: 4.31e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1690 | Avg Loss: 1.316588 | LR: 4.31e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  85%|████████▍ | 1692/2000 [1:58:04<20:30,  4.00s/it]Epoch 1691 | Step  23675/ 28000 | Loss: 1.316089 | LR: 4.31e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1691 | Avg Loss: 1.317564 | LR: 4.31e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  85%|████████▍ | 1693/2000 [1:58:08<20:35,  4.03s/it]Epoch 1692 | Step  23689/ 28000 | Loss: 1.318322 | LR: 4.31e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1692 | Avg Loss: 1.317352 | LR: 4.31e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  85%|████████▍ | 1694/2000 [1:58:12<20:29,  4.02s/it]Epoch 1693 | Step  23703/ 28000 | Loss: 1.315519 | LR: 4.31e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1693 | Avg Loss: 1.317382 | LR: 4.31e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  85%|████████▍ | 1695/2000 [1:58:16<20:12,  3.97s/it]Epoch 1694 | Step  23717/ 28000 | Loss: 1.313161 | LR: 4.31e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1694 | Avg Loss: 1.316631 | LR: 4.30e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  85%|████████▍ | 1696/2000 [1:58:20<20:01,  3.95s/it]Epoch 1695 | Step  23731/ 28000 | Loss: 1.316826 | LR: 4.30e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1695 | Avg Loss: 1.318262 | LR: 4.30e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  85%|████████▍ | 1697/2000 [1:58:23<19:51,  3.93s/it]Epoch 1696 | Step  23745/ 28000 | Loss: 1.316063 | LR: 4.30e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1696 | Avg Loss: 1.316789 | LR: 4.30e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  85%|████████▍ | 1698/2000 [1:58:27<19:36,  3.90s/it]Epoch 1697 | Step  23759/ 28000 | Loss: 1.314301 | LR: 4.30e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1697 | Avg Loss: 1.316955 | LR: 4.30e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  85%|████████▍ | 1699/2000 [1:58:31<19:31,  3.89s/it]Epoch 1698 | Step  23773/ 28000 | Loss: 1.316780 | LR: 4.30e-04 | Speed: 3.3 steps/s | ETA: 0.4h
+Epoch 1698 | Avg Loss: 1.317856 | LR: 4.30e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  85%|████████▌ | 1700/2000 [1:58:35<19:47,  3.96s/it]Epoch 1699 | Step  23787/ 28000 | Loss: 1.318577 | LR: 4.30e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1699 | Avg Loss: 1.317530 | LR: 4.29e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  85%|████████▌ | 1701/2000 [1:58:39<19:35,  3.93s/it]Epoch 1700 | Step  23801/ 28000 | Loss: 1.321621 | LR: 4.29e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1700 | Avg Loss: 1.317127 | LR: 4.29e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  85%|████████▌ | 1702/2000 [1:58:43<19:41,  3.97s/it]Epoch 1701 | Step  23815/ 28000 | Loss: 1.316186 | LR: 4.29e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1701 | Avg Loss: 1.317427 | LR: 4.29e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  85%|████████▌ | 1703/2000 [1:58:47<19:29,  3.94s/it]Epoch 1702 | Step  23829/ 28000 | Loss: 1.317032 | LR: 4.29e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1702 | Avg Loss: 1.316847 | LR: 4.29e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  85%|████████▌ | 1704/2000 [1:58:51<19:20,  3.92s/it]Epoch 1703 | Step  23843/ 28000 | Loss: 1.322089 | LR: 4.29e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1703 | Avg Loss: 1.318419 | LR: 4.29e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  85%|████████▌ | 1705/2000 [1:58:55<19:10,  3.90s/it]Epoch 1704 | Step  23857/ 28000 | Loss: 1.316099 | LR: 4.29e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1704 | Avg Loss: 1.318336 | LR: 4.29e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  85%|████████▌ | 1706/2000 [1:58:59<19:05,  3.90s/it]Epoch 1705 | Step  23871/ 28000 | Loss: 1.318655 | LR: 4.29e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1705 | Avg Loss: 1.317589 | LR: 4.28e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  85%|████████▌ | 1707/2000 [1:59:03<19:09,  3.92s/it]Epoch 1706 | Step  23885/ 28000 | Loss: 1.316037 | LR: 4.28e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1706 | Avg Loss: 1.316345 | LR: 4.28e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  85%|████████▌ | 1708/2000 [1:59:06<19:00,  3.91s/it]Epoch 1707 | Step  23899/ 28000 | Loss: 1.315706 | LR: 4.28e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1707 | Avg Loss: 1.317421 | LR: 4.28e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  85%|████████▌ | 1709/2000 [1:59:10<19:04,  3.93s/it]Epoch 1708 | Step  23913/ 28000 | Loss: 1.316086 | LR: 4.28e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1708 | Avg Loss: 1.317446 | LR: 4.28e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  86%|████████▌ | 1710/2000 [1:59:14<19:01,  3.94s/it]Epoch 1709 | Step  23927/ 28000 | Loss: 1.315055 | LR: 4.28e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1709 | Avg Loss: 1.317726 | LR: 4.28e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  86%|████████▌ | 1711/2000 [1:59:18<18:50,  3.91s/it]Epoch 1710 | Step  23941/ 28000 | Loss: 1.316469 | LR: 4.28e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1710 | Avg Loss: 1.317119 | LR: 4.27e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  86%|████████▌ | 1712/2000 [1:59:22<18:50,  3.93s/it]Epoch 1711 | Step  23955/ 28000 | Loss: 1.325120 | LR: 4.27e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1711 | Avg Loss: 1.316761 | LR: 4.27e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  86%|████████▌ | 1713/2000 [1:59:26<19:00,  3.98s/it]Epoch 1712 | Step  23969/ 28000 | Loss: 1.319007 | LR: 4.27e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1712 | Avg Loss: 1.316899 | LR: 4.27e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  86%|████████▌ | 1714/2000 [1:59:30<18:48,  3.95s/it]Epoch 1713 | Step  23983/ 28000 | Loss: 1.316925 | LR: 4.27e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1713 | Avg Loss: 1.317660 | LR: 4.27e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  86%|████████▌ | 1715/2000 [1:59:34<18:43,  3.94s/it]Epoch 1714 | Step  23997/ 28000 | Loss: 1.320294 | LR: 4.27e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1714 | Avg Loss: 1.318001 | LR: 4.27e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  86%|████████▌ | 1716/2000 [1:59:38<18:46,  3.96s/it]Epoch 1715 | Step  24011/ 28000 | Loss: 1.317928 | LR: 4.27e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1715 | Avg Loss: 1.317520 | LR: 4.26e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  86%|████████▌ | 1717/2000 [1:59:42<18:24,  3.90s/it]Epoch 1716 | Step  24025/ 28000 | Loss: 1.318095 | LR: 4.26e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1716 | Avg Loss: 1.317767 | LR: 4.26e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  86%|████████▌ | 1718/2000 [1:59:46<19:03,  4.06s/it]Epoch 1717 | Step  24039/ 28000 | Loss: 1.317136 | LR: 4.26e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1717 | Avg Loss: 1.317691 | LR: 4.26e-04 | Time: 4.4s | Samples: 6,983
+Training Flow Model:  86%|████████▌ | 1719/2000 [1:59:50<18:45,  4.01s/it]Epoch 1718 | Step  24053/ 28000 | Loss: 1.315026 | LR: 4.26e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1718 | Avg Loss: 1.316974 | LR: 4.26e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  86%|████████▌ | 1720/2000 [1:59:54<18:32,  3.97s/it]Epoch 1719 | Step  24067/ 28000 | Loss: 1.313746 | LR: 4.26e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1719 | Avg Loss: 1.316821 | LR: 4.26e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  86%|████████▌ | 1721/2000 [1:59:58<18:17,  3.93s/it]Epoch 1720 | Step  24081/ 28000 | Loss: 1.319180 | LR: 4.26e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1720 | Avg Loss: 1.316568 | LR: 4.26e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  86%|████████▌ | 1722/2000 [2:00:02<18:11,  3.92s/it]Epoch 1721 | Step  24095/ 28000 | Loss: 1.319592 | LR: 4.26e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1721 | Avg Loss: 1.319606 | LR: 4.25e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  86%|████████▌ | 1723/2000 [2:00:06<18:01,  3.90s/it]Epoch 1722 | Step  24109/ 28000 | Loss: 1.321476 | LR: 4.25e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1722 | Avg Loss: 1.317988 | LR: 4.25e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  86%|████████▌ | 1724/2000 [2:00:10<18:01,  3.92s/it]Epoch 1723 | Step  24123/ 28000 | Loss: 1.318769 | LR: 4.25e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1723 | Avg Loss: 1.317651 | LR: 4.25e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  86%|████████▋ | 1725/2000 [2:00:14<18:00,  3.93s/it]Epoch 1724 | Step  24137/ 28000 | Loss: 1.322091 | LR: 4.25e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1724 | Avg Loss: 1.318423 | LR: 4.25e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  86%|████████▋ | 1726/2000 [2:00:18<17:58,  3.94s/it]Epoch 1725 | Step  24151/ 28000 | Loss: 1.317306 | LR: 4.25e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1725 | Avg Loss: 1.317188 | LR: 4.25e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  86%|████████▋ | 1727/2000 [2:00:22<17:59,  3.96s/it]Epoch 1726 | Step  24165/ 28000 | Loss: 1.318231 | LR: 4.25e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1726 | Avg Loss: 1.317570 | LR: 4.25e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  86%|████████▋ | 1728/2000 [2:00:25<17:50,  3.93s/it]Epoch 1727 | Step  24179/ 28000 | Loss: 1.320638 | LR: 4.24e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1727 | Avg Loss: 1.317543 | LR: 4.24e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  86%|████████▋ | 1729/2000 [2:00:29<17:51,  3.95s/it]Epoch 1728 | Step  24193/ 28000 | Loss: 1.320829 | LR: 4.24e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1728 | Avg Loss: 1.317537 | LR: 4.24e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  86%|████████▋ | 1730/2000 [2:00:33<17:45,  3.94s/it]Epoch 1729 | Step  24207/ 28000 | Loss: 1.319207 | LR: 4.24e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1729 | Avg Loss: 1.317784 | LR: 4.24e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1731/2000 [2:00:38<18:02,  4.03s/it]Epoch 1730 | Step  24221/ 28000 | Loss: 1.316149 | LR: 4.24e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1730 | Avg Loss: 1.317977 | LR: 4.24e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1732/2000 [2:00:42<17:51,  4.00s/it]Epoch 1731 | Step  24235/ 28000 | Loss: 1.318427 | LR: 4.24e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1731 | Avg Loss: 1.316907 | LR: 4.24e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1733/2000 [2:00:46<17:45,  3.99s/it]Epoch 1732 | Step  24249/ 28000 | Loss: 1.317025 | LR: 4.24e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1732 | Avg Loss: 1.316580 | LR: 4.23e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1734/2000 [2:00:49<17:28,  3.94s/it]Epoch 1733 | Step  24263/ 28000 | Loss: 1.316020 | LR: 4.23e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1733 | Avg Loss: 1.317298 | LR: 4.23e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1735/2000 [2:00:53<17:31,  3.97s/it]Epoch 1734 | Step  24277/ 28000 | Loss: 1.318462 | LR: 4.23e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1734 | Avg Loss: 1.317173 | LR: 4.23e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1736/2000 [2:00:57<17:27,  3.97s/it]Epoch 1735 | Step  24291/ 28000 | Loss: 1.316371 | LR: 4.23e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1735 | Avg Loss: 1.317315 | LR: 4.23e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1737/2000 [2:01:01<17:20,  3.96s/it]Epoch 1736 | Step  24305/ 28000 | Loss: 1.316276 | LR: 4.23e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1736 | Avg Loss: 1.317443 | LR: 4.23e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1738/2000 [2:01:05<17:07,  3.92s/it]Epoch 1737 | Step  24319/ 28000 | Loss: 1.317045 | LR: 4.23e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1737 | Avg Loss: 1.317191 | LR: 4.23e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1739/2000 [2:01:09<16:59,  3.90s/it]Epoch 1738 | Step  24333/ 28000 | Loss: 1.319458 | LR: 4.23e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1738 | Avg Loss: 1.317468 | LR: 4.22e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1740/2000 [2:01:13<16:48,  3.88s/it]Epoch 1739 | Step  24347/ 28000 | Loss: 1.318213 | LR: 4.22e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1739 | Avg Loss: 1.317605 | LR: 4.22e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1741/2000 [2:01:17<16:44,  3.88s/it]Epoch 1740 | Step  24361/ 28000 | Loss: 1.315484 | LR: 4.22e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1740 | Avg Loss: 1.317073 | LR: 4.22e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1742/2000 [2:01:21<16:54,  3.93s/it]Epoch 1741 | Step  24375/ 28000 | Loss: 1.318337 | LR: 4.22e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1741 | Avg Loss: 1.317043 | LR: 4.22e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1743/2000 [2:01:24<16:37,  3.88s/it]Epoch 1742 | Step  24389/ 28000 | Loss: 1.315456 | LR: 4.22e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1742 | Avg Loss: 1.317525 | LR: 4.22e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1744/2000 [2:01:28<16:30,  3.87s/it]Epoch 1743 | Step  24403/ 28000 | Loss: 1.314409 | LR: 4.22e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1743 | Avg Loss: 1.317092 | LR: 4.22e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1745/2000 [2:01:32<16:34,  3.90s/it]Epoch 1744 | Step  24417/ 28000 | Loss: 1.318772 | LR: 4.22e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1744 | Avg Loss: 1.317776 | LR: 4.21e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1746/2000 [2:01:36<16:44,  3.95s/it]Epoch 1745 | Step  24431/ 28000 | Loss: 1.317076 | LR: 4.21e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1745 | Avg Loss: 1.317128 | LR: 4.21e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1747/2000 [2:01:40<16:38,  3.95s/it]Epoch 1746 | Step  24445/ 28000 | Loss: 1.318381 | LR: 4.21e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1746 | Avg Loss: 1.317628 | LR: 4.21e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1748/2000 [2:01:44<16:32,  3.94s/it]Epoch 1747 | Step  24459/ 28000 | Loss: 1.317888 | LR: 4.21e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1747 | Avg Loss: 1.317558 | LR: 4.21e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  87%|████████▋ | 1749/2000 [2:01:48<16:21,  3.91s/it]Epoch 1748 | Step  24473/ 28000 | Loss: 1.317123 | LR: 4.21e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1748 | Avg Loss: 1.316936 | LR: 4.21e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1750/2000 [2:01:52<16:21,  3.93s/it]Epoch 1749 | Step  24487/ 28000 | Loss: 1.318183 | LR: 4.21e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1749 | Avg Loss: 1.317354 | LR: 4.21e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1751/2000 [2:01:56<16:30,  3.98s/it]Epoch 1750 | Step  24501/ 28000 | Loss: 1.316797 | LR: 4.21e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1750 | Avg Loss: 1.317030 | LR: 4.20e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1752/2000 [2:02:00<16:19,  3.95s/it]Epoch 1751 | Step  24515/ 28000 | Loss: 1.315262 | LR: 4.20e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1751 | Avg Loss: 1.317138 | LR: 4.20e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1753/2000 [2:02:04<16:07,  3.92s/it]Epoch 1752 | Step  24529/ 28000 | Loss: 1.319615 | LR: 4.20e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1752 | Avg Loss: 1.318221 | LR: 4.20e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1754/2000 [2:02:08<16:25,  4.00s/it]Epoch 1753 | Step  24543/ 28000 | Loss: 1.315390 | LR: 4.20e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1753 | Avg Loss: 1.317367 | LR: 4.20e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1755/2000 [2:02:12<16:18,  3.99s/it]Epoch 1754 | Step  24557/ 28000 | Loss: 1.316354 | LR: 4.20e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1754 | Avg Loss: 1.317426 | LR: 4.20e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1756/2000 [2:02:16<16:09,  3.98s/it]Epoch 1755 | Step  24571/ 28000 | Loss: 1.319922 | LR: 4.20e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1755 | Avg Loss: 1.317125 | LR: 4.20e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1757/2000 [2:02:20<15:59,  3.95s/it]Epoch 1756 | Step  24585/ 28000 | Loss: 1.316883 | LR: 4.20e-04 | Speed: 3.3 steps/s | ETA: 0.3h
+Epoch 1756 | Avg Loss: 1.317401 | LR: 4.20e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1758/2000 [2:02:24<15:50,  3.93s/it]Epoch 1757 | Step  24599/ 28000 | Loss: 1.314692 | LR: 4.19e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1757 | Avg Loss: 1.317584 | LR: 4.19e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1759/2000 [2:02:28<15:42,  3.91s/it]Epoch 1758 | Step  24613/ 28000 | Loss: 1.314714 | LR: 4.19e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1758 | Avg Loss: 1.318556 | LR: 4.19e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1760/2000 [2:02:31<15:37,  3.91s/it]Epoch 1759 | Step  24627/ 28000 | Loss: 1.318588 | LR: 4.19e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1759 | Avg Loss: 1.316957 | LR: 4.19e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1761/2000 [2:02:35<15:37,  3.92s/it]Epoch 1760 | Step  24641/ 28000 | Loss: 1.317946 | LR: 4.19e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1760 | Avg Loss: 1.317383 | LR: 4.19e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1762/2000 [2:02:39<15:33,  3.92s/it]Epoch 1761 | Step  24655/ 28000 | Loss: 1.313729 | LR: 4.19e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1761 | Avg Loss: 1.317544 | LR: 4.19e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1763/2000 [2:02:43<15:37,  3.96s/it]Epoch 1762 | Step  24669/ 28000 | Loss: 1.319233 | LR: 4.19e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1762 | Avg Loss: 1.317918 | LR: 4.19e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1764/2000 [2:02:47<15:35,  3.96s/it]Epoch 1763 | Step  24683/ 28000 | Loss: 1.314832 | LR: 4.19e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1763 | Avg Loss: 1.315802 | LR: 4.18e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1765/2000 [2:02:51<15:28,  3.95s/it]Epoch 1764 | Step  24697/ 28000 | Loss: 1.317291 | LR: 4.18e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1764 | Avg Loss: 1.316840 | LR: 4.18e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1766/2000 [2:02:55<15:17,  3.92s/it]Epoch 1765 | Step  24711/ 28000 | Loss: 1.315030 | LR: 4.18e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1765 | Avg Loss: 1.317361 | LR: 4.18e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1767/2000 [2:02:59<15:11,  3.91s/it]Epoch 1766 | Step  24725/ 28000 | Loss: 1.312619 | LR: 4.18e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1766 | Avg Loss: 1.317208 | LR: 4.18e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1768/2000 [2:03:03<15:02,  3.89s/it]Epoch 1767 | Step  24739/ 28000 | Loss: 1.318841 | LR: 4.18e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1767 | Avg Loss: 1.318031 | LR: 4.18e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1769/2000 [2:03:07<15:01,  3.90s/it]Epoch 1768 | Step  24753/ 28000 | Loss: 1.315465 | LR: 4.18e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1768 | Avg Loss: 1.317238 | LR: 4.18e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  88%|████████▊ | 1770/2000 [2:03:11<15:01,  3.92s/it]Epoch 1769 | Step  24767/ 28000 | Loss: 1.312906 | LR: 4.18e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1769 | Avg Loss: 1.316617 | LR: 4.18e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  89%|████████▊ | 1771/2000 [2:03:15<14:51,  3.90s/it]Epoch 1770 | Step  24781/ 28000 | Loss: 1.316334 | LR: 4.17e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1770 | Avg Loss: 1.317202 | LR: 4.17e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  89%|████████▊ | 1772/2000 [2:03:19<14:50,  3.90s/it]Epoch 1771 | Step  24795/ 28000 | Loss: 1.319602 | LR: 4.17e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1771 | Avg Loss: 1.317617 | LR: 4.17e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  89%|████████▊ | 1773/2000 [2:03:23<14:51,  3.93s/it]Epoch 1772 | Step  24809/ 28000 | Loss: 1.319389 | LR: 4.17e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1772 | Avg Loss: 1.316377 | LR: 4.17e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  89%|████████▊ | 1774/2000 [2:03:26<14:45,  3.92s/it]Epoch 1773 | Step  24823/ 28000 | Loss: 1.317096 | LR: 4.17e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1773 | Avg Loss: 1.317795 | LR: 4.17e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  89%|████████▉ | 1775/2000 [2:03:30<14:35,  3.89s/it]Epoch 1774 | Step  24837/ 28000 | Loss: 1.316179 | LR: 4.17e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1774 | Avg Loss: 1.317495 | LR: 4.17e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  89%|████████▉ | 1776/2000 [2:03:34<14:32,  3.89s/it]Epoch 1775 | Step  24851/ 28000 | Loss: 1.318079 | LR: 4.17e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1775 | Avg Loss: 1.317781 | LR: 4.17e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  89%|████████▉ | 1777/2000 [2:03:38<14:38,  3.94s/it]Epoch 1776 | Step  24865/ 28000 | Loss: 1.318771 | LR: 4.17e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1776 | Avg Loss: 1.317350 | LR: 4.16e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  89%|████████▉ | 1778/2000 [2:03:42<14:36,  3.95s/it]Epoch 1777 | Step  24879/ 28000 | Loss: 1.317728 | LR: 4.16e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1777 | Avg Loss: 1.317733 | LR: 4.16e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  89%|████████▉ | 1779/2000 [2:03:46<14:44,  4.00s/it]Epoch 1778 | Step  24893/ 28000 | Loss: 1.315388 | LR: 4.16e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1778 | Avg Loss: 1.316678 | LR: 4.16e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  89%|████████▉ | 1780/2000 [2:03:50<14:34,  3.98s/it]Epoch 1779 | Step  24907/ 28000 | Loss: 1.320274 | LR: 4.16e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1779 | Avg Loss: 1.317881 | LR: 4.16e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  89%|████████▉ | 1781/2000 [2:03:54<14:37,  4.00s/it]Epoch 1780 | Step  24921/ 28000 | Loss: 1.313927 | LR: 4.16e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1780 | Avg Loss: 1.316993 | LR: 4.16e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  89%|████████▉ | 1782/2000 [2:03:58<14:21,  3.95s/it]Epoch 1781 | Step  24935/ 28000 | Loss: 1.317089 | LR: 4.16e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1781 | Avg Loss: 1.317174 | LR: 4.16e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  89%|████████▉ | 1783/2000 [2:04:02<14:10,  3.92s/it]Epoch 1782 | Step  24949/ 28000 | Loss: 1.320376 | LR: 4.16e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1782 | Avg Loss: 1.317974 | LR: 4.16e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  89%|████████▉ | 1784/2000 [2:04:06<13:57,  3.88s/it]Epoch 1783 | Step  24963/ 28000 | Loss: 1.321016 | LR: 4.16e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1783 | Avg Loss: 1.317035 | LR: 4.15e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  89%|████████▉ | 1785/2000 [2:04:10<13:53,  3.88s/it]Epoch 1784 | Step  24977/ 28000 | Loss: 1.319666 | LR: 4.15e-04 | Speed: 3.4 steps/s | ETA: 0.3h
+Epoch 1784 | Avg Loss: 1.317104 | LR: 4.15e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  89%|████████▉ | 1786/2000 [2:04:14<14:16,  4.00s/it]Epoch 1785 | Step  24991/ 28000 | Loss: 1.317322 | LR: 4.15e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Validation at step 25000: Loss = 1.304571
+Epoch 1785 | Avg Loss: 1.316917 | LR: 4.15e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  89%|████████▉ | 1787/2000 [2:04:18<14:00,  3.95s/it]Epoch 1786 | Step  25005/ 28000 | Loss: 1.317159 | LR: 4.15e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1786 | Avg Loss: 1.317113 | LR: 4.15e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  89%|████████▉ | 1788/2000 [2:04:22<14:00,  3.96s/it]Epoch 1787 | Step  25019/ 28000 | Loss: 1.318357 | LR: 4.15e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1787 | Avg Loss: 1.317632 | LR: 4.15e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  89%|████████▉ | 1789/2000 [2:04:26<13:58,  3.97s/it]Epoch 1788 | Step  25033/ 28000 | Loss: 1.315497 | LR: 4.15e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1788 | Avg Loss: 1.316741 | LR: 4.15e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  90%|████████▉ | 1790/2000 [2:04:30<14:00,  4.00s/it]Epoch 1789 | Step  25047/ 28000 | Loss: 1.316957 | LR: 4.15e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1789 | Avg Loss: 1.316462 | LR: 4.15e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  90%|████████▉ | 1791/2000 [2:04:34<13:46,  3.96s/it]Epoch 1790 | Step  25061/ 28000 | Loss: 1.318828 | LR: 4.15e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1790 | Avg Loss: 1.317828 | LR: 4.14e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  90%|████████▉ | 1792/2000 [2:04:38<13:37,  3.93s/it]Epoch 1791 | Step  25075/ 28000 | Loss: 1.317984 | LR: 4.14e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1791 | Avg Loss: 1.318193 | LR: 4.14e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  90%|████████▉ | 1793/2000 [2:04:41<13:29,  3.91s/it]Epoch 1792 | Step  25089/ 28000 | Loss: 1.317137 | LR: 4.14e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1792 | Avg Loss: 1.317325 | LR: 4.14e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  90%|████████▉ | 1794/2000 [2:04:45<13:31,  3.94s/it]Epoch 1793 | Step  25103/ 28000 | Loss: 1.317261 | LR: 4.14e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1793 | Avg Loss: 1.317513 | LR: 4.14e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  90%|████████▉ | 1795/2000 [2:04:49<13:19,  3.90s/it]Epoch 1794 | Step  25117/ 28000 | Loss: 1.314358 | LR: 4.14e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1794 | Avg Loss: 1.318465 | LR: 4.14e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  90%|████████▉ | 1796/2000 [2:04:53<13:29,  3.97s/it]Epoch 1795 | Step  25131/ 28000 | Loss: 1.322651 | LR: 4.14e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1795 | Avg Loss: 1.317626 | LR: 4.14e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  90%|████████▉ | 1797/2000 [2:04:57<13:11,  3.90s/it]Epoch 1796 | Step  25145/ 28000 | Loss: 1.312823 | LR: 4.14e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1796 | Avg Loss: 1.316193 | LR: 4.14e-04 | Time: 3.7s | Samples: 6,983
+Training Flow Model:  90%|████████▉ | 1798/2000 [2:05:01<13:13,  3.93s/it]Epoch 1797 | Step  25159/ 28000 | Loss: 1.316391 | LR: 4.14e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1797 | Avg Loss: 1.316998 | LR: 4.14e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  90%|████████▉ | 1799/2000 [2:05:05<13:01,  3.89s/it]Epoch 1798 | Step  25173/ 28000 | Loss: 1.320006 | LR: 4.14e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1798 | Avg Loss: 1.317129 | LR: 4.13e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  90%|█████████ | 1800/2000 [2:05:12<16:17,  4.89s/it]Epoch 1799 | Step  25187/ 28000 | Loss: 1.320928 | LR: 4.13e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1799 | Avg Loss: 1.317673 | LR: 4.13e-04 | Time: 3.9s | Samples: 6,983
+✓ Checkpoint saved: /data2/edwardsun/flow_checkpoints/amp_flow_model_final_optimized.pth (loss: 1.317673, step: 25200)
+Training Flow Model:  90%|█████████ | 1801/2000 [2:05:16<15:16,  4.61s/it]Epoch 1800 | Step  25201/ 28000 | Loss: 1.317523 | LR: 4.13e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1800 | Avg Loss: 1.317131 | LR: 4.13e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  90%|█████████ | 1802/2000 [2:05:20<14:37,  4.43s/it]Epoch 1801 | Step  25215/ 28000 | Loss: 1.317330 | LR: 4.13e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1801 | Avg Loss: 1.317123 | LR: 4.13e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  90%|█████████ | 1803/2000 [2:05:24<14:21,  4.37s/it]Epoch 1802 | Step  25229/ 28000 | Loss: 1.315828 | LR: 4.13e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1802 | Avg Loss: 1.316704 | LR: 4.13e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  90%|█████████ | 1804/2000 [2:05:28<13:51,  4.24s/it]Epoch 1803 | Step  25243/ 28000 | Loss: 1.315803 | LR: 4.13e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1803 | Avg Loss: 1.317230 | LR: 4.13e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  90%|█████████ | 1805/2000 [2:05:32<13:29,  4.15s/it]Epoch 1804 | Step  25257/ 28000 | Loss: 1.316044 | LR: 4.13e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1804 | Avg Loss: 1.317100 | LR: 4.13e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  90%|█████████ | 1806/2000 [2:05:36<13:16,  4.10s/it]Epoch 1805 | Step  25271/ 28000 | Loss: 1.318535 | LR: 4.13e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1805 | Avg Loss: 1.317563 | LR: 4.13e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  90%|█████████ | 1807/2000 [2:05:40<12:54,  4.02s/it]Epoch 1806 | Step  25285/ 28000 | Loss: 1.315712 | LR: 4.12e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1806 | Avg Loss: 1.316649 | LR: 4.12e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  90%|█████████ | 1808/2000 [2:05:44<12:40,  3.96s/it]Epoch 1807 | Step  25299/ 28000 | Loss: 1.321205 | LR: 4.12e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1807 | Avg Loss: 1.317715 | LR: 4.12e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  90%|█████████ | 1809/2000 [2:05:48<12:31,  3.93s/it]Epoch 1808 | Step  25313/ 28000 | Loss: 1.316033 | LR: 4.12e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1808 | Avg Loss: 1.317467 | LR: 4.12e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  90%|█████████ | 1810/2000 [2:05:52<12:44,  4.03s/it]Epoch 1809 | Step  25327/ 28000 | Loss: 1.315987 | LR: 4.12e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1809 | Avg Loss: 1.316653 | LR: 4.12e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  91%|█████████ | 1811/2000 [2:05:56<12:41,  4.03s/it]Epoch 1810 | Step  25341/ 28000 | Loss: 1.317411 | LR: 4.12e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1810 | Avg Loss: 1.318221 | LR: 4.12e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  91%|█████████ | 1812/2000 [2:06:00<12:46,  4.07s/it]Epoch 1811 | Step  25355/ 28000 | Loss: 1.319495 | LR: 4.12e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1811 | Avg Loss: 1.317483 | LR: 4.12e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  91%|█████████ | 1813/2000 [2:06:04<12:34,  4.03s/it]Epoch 1812 | Step  25369/ 28000 | Loss: 1.315941 | LR: 4.12e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1812 | Avg Loss: 1.316751 | LR: 4.12e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  91%|█████████ | 1814/2000 [2:06:08<12:30,  4.03s/it]Epoch 1813 | Step  25383/ 28000 | Loss: 1.313586 | LR: 4.12e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1813 | Avg Loss: 1.316755 | LR: 4.12e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  91%|█████████ | 1815/2000 [2:06:12<12:30,  4.06s/it]Epoch 1814 | Step  25397/ 28000 | Loss: 1.316750 | LR: 4.11e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1814 | Avg Loss: 1.317544 | LR: 4.11e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  91%|█████████ | 1816/2000 [2:06:17<13:07,  4.28s/it]Epoch 1815 | Step  25411/ 28000 | Loss: 1.315647 | LR: 4.11e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1815 | Avg Loss: 1.316751 | LR: 4.11e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  91%|█████████ | 1817/2000 [2:06:22<13:48,  4.53s/it]Epoch 1816 | Step  25425/ 28000 | Loss: 1.316899 | LR: 4.11e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1816 | Avg Loss: 1.316679 | LR: 4.11e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  91%|█████████ | 1818/2000 [2:06:27<14:05,  4.64s/it]Epoch 1817 | Step  25439/ 28000 | Loss: 1.314890 | LR: 4.11e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1817 | Avg Loss: 1.316231 | LR: 4.11e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  91%|█████████ | 1819/2000 [2:06:32<14:11,  4.70s/it]Epoch 1818 | Step  25453/ 28000 | Loss: 1.312597 | LR: 4.11e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1818 | Avg Loss: 1.317250 | LR: 4.11e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  91%|█████████ | 1820/2000 [2:06:37<14:34,  4.86s/it]Epoch 1819 | Step  25467/ 28000 | Loss: 1.314644 | LR: 4.11e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1819 | Avg Loss: 1.316411 | LR: 4.11e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  91%|█████████ | 1821/2000 [2:06:42<14:34,  4.89s/it]Epoch 1820 | Step  25481/ 28000 | Loss: 1.316950 | LR: 4.11e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1820 | Avg Loss: 1.316838 | LR: 4.11e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  91%|█████████ | 1822/2000 [2:06:47<14:27,  4.88s/it]Epoch 1821 | Step  25495/ 28000 | Loss: 1.314417 | LR: 4.11e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1821 | Avg Loss: 1.317588 | LR: 4.11e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  91%|█████████ | 1823/2000 [2:06:52<14:37,  4.96s/it]Epoch 1822 | Step  25509/ 28000 | Loss: 1.318582 | LR: 4.11e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1822 | Avg Loss: 1.316616 | LR: 4.10e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  91%|█████████ | 1824/2000 [2:06:57<14:26,  4.92s/it]Epoch 1823 | Step  25523/ 28000 | Loss: 1.315825 | LR: 4.10e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1823 | Avg Loss: 1.317417 | LR: 4.10e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  91%|█████████▏| 1825/2000 [2:07:02<14:19,  4.91s/it]Epoch 1824 | Step  25537/ 28000 | Loss: 1.316314 | LR: 4.10e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1824 | Avg Loss: 1.317246 | LR: 4.10e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  91%|█████████▏| 1826/2000 [2:07:07<14:13,  4.90s/it]Epoch 1825 | Step  25551/ 28000 | Loss: 1.315889 | LR: 4.10e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1825 | Avg Loss: 1.317116 | LR: 4.10e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  91%|█████████▏| 1827/2000 [2:07:12<14:07,  4.90s/it]Epoch 1826 | Step  25565/ 28000 | Loss: 1.315122 | LR: 4.10e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1826 | Avg Loss: 1.317525 | LR: 4.10e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  91%|█████████▏| 1828/2000 [2:07:17<14:13,  4.96s/it]Epoch 1827 | Step  25579/ 28000 | Loss: 1.317839 | LR: 4.10e-04 | Speed: 3.4 steps/s | ETA: 0.2h
+Epoch 1827 | Avg Loss: 1.317467 | LR: 4.10e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  91%|█████████▏| 1829/2000 [2:07:22<14:08,  4.96s/it]Epoch 1828 | Step  25593/ 28000 | Loss: 1.315261 | LR: 4.10e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1828 | Avg Loss: 1.317862 | LR: 4.10e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1830/2000 [2:07:26<13:58,  4.93s/it]Epoch 1829 | Step  25607/ 28000 | Loss: 1.315351 | LR: 4.10e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1829 | Avg Loss: 1.316901 | LR: 4.10e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1831/2000 [2:07:31<13:52,  4.92s/it]Epoch 1830 | Step  25621/ 28000 | Loss: 1.316229 | LR: 4.10e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1830 | Avg Loss: 1.317655 | LR: 4.10e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1832/2000 [2:07:36<13:35,  4.85s/it]Epoch 1831 | Step  25635/ 28000 | Loss: 1.315380 | LR: 4.10e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1831 | Avg Loss: 1.316456 | LR: 4.09e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1833/2000 [2:07:41<13:36,  4.89s/it]Epoch 1832 | Step  25649/ 28000 | Loss: 1.317616 | LR: 4.09e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1832 | Avg Loss: 1.316759 | LR: 4.09e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1834/2000 [2:07:46<13:36,  4.92s/it]Epoch 1833 | Step  25663/ 28000 | Loss: 1.315020 | LR: 4.09e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1833 | Avg Loss: 1.317400 | LR: 4.09e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1835/2000 [2:07:51<13:30,  4.91s/it]Epoch 1834 | Step  25677/ 28000 | Loss: 1.316845 | LR: 4.09e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1834 | Avg Loss: 1.318112 | LR: 4.09e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1836/2000 [2:07:56<13:25,  4.91s/it]Epoch 1835 | Step  25691/ 28000 | Loss: 1.315823 | LR: 4.09e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1835 | Avg Loss: 1.316574 | LR: 4.09e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1837/2000 [2:08:01<13:21,  4.92s/it]Epoch 1836 | Step  25705/ 28000 | Loss: 1.314674 | LR: 4.09e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1836 | Avg Loss: 1.317529 | LR: 4.09e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1838/2000 [2:08:06<13:17,  4.92s/it]Epoch 1837 | Step  25719/ 28000 | Loss: 1.317529 | LR: 4.09e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1837 | Avg Loss: 1.316576 | LR: 4.09e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1839/2000 [2:08:11<13:13,  4.93s/it]Epoch 1838 | Step  25733/ 28000 | Loss: 1.316362 | LR: 4.09e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1838 | Avg Loss: 1.316993 | LR: 4.09e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1840/2000 [2:08:15<12:16,  4.60s/it]Epoch 1839 | Step  25747/ 28000 | Loss: 1.315475 | LR: 4.09e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1839 | Avg Loss: 1.317139 | LR: 4.09e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1841/2000 [2:08:19<11:43,  4.42s/it]Epoch 1840 | Step  25761/ 28000 | Loss: 1.317734 | LR: 4.09e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1840 | Avg Loss: 1.316939 | LR: 4.08e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1842/2000 [2:08:23<11:31,  4.38s/it]Epoch 1841 | Step  25775/ 28000 | Loss: 1.319516 | LR: 4.08e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1841 | Avg Loss: 1.317326 | LR: 4.08e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1843/2000 [2:08:27<11:06,  4.25s/it]Epoch 1842 | Step  25789/ 28000 | Loss: 1.317942 | LR: 4.08e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1842 | Avg Loss: 1.318237 | LR: 4.08e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1844/2000 [2:08:31<11:07,  4.28s/it]Epoch 1843 | Step  25803/ 28000 | Loss: 1.316082 | LR: 4.08e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1843 | Avg Loss: 1.316769 | LR: 4.08e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1845/2000 [2:08:36<11:52,  4.60s/it]Epoch 1844 | Step  25817/ 28000 | Loss: 1.318001 | LR: 4.08e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1844 | Avg Loss: 1.317375 | LR: 4.08e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1846/2000 [2:08:42<12:23,  4.83s/it]Epoch 1845 | Step  25831/ 28000 | Loss: 1.317769 | LR: 4.08e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1845 | Avg Loss: 1.316631 | LR: 4.08e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1847/2000 [2:08:47<12:37,  4.95s/it]Epoch 1846 | Step  25845/ 28000 | Loss: 1.319441 | LR: 4.08e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1846 | Avg Loss: 1.317621 | LR: 4.08e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1848/2000 [2:08:52<12:35,  4.97s/it]Epoch 1847 | Step  25859/ 28000 | Loss: 1.316945 | LR: 4.08e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1847 | Avg Loss: 1.316173 | LR: 4.08e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  92%|█████████▏| 1849/2000 [2:08:57<12:21,  4.91s/it]Epoch 1848 | Step  25873/ 28000 | Loss: 1.319628 | LR: 4.08e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1848 | Avg Loss: 1.316803 | LR: 4.08e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  92%|█████████▎| 1850/2000 [2:09:02<12:12,  4.88s/it]Epoch 1849 | Step  25887/ 28000 | Loss: 1.315113 | LR: 4.08e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1849 | Avg Loss: 1.318335 | LR: 4.08e-04 | Time: 4.8s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1851/2000 [2:09:07<12:20,  4.97s/it]Epoch 1850 | Step  25901/ 28000 | Loss: 1.321266 | LR: 4.08e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1850 | Avg Loss: 1.317932 | LR: 4.07e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1852/2000 [2:09:12<12:30,  5.07s/it]Epoch 1851 | Step  25915/ 28000 | Loss: 1.318487 | LR: 4.07e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1851 | Avg Loss: 1.317624 | LR: 4.07e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1853/2000 [2:09:18<12:48,  5.23s/it]Epoch 1852 | Step  25929/ 28000 | Loss: 1.320311 | LR: 4.07e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1852 | Avg Loss: 1.317752 | LR: 4.07e-04 | Time: 5.6s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1854/2000 [2:09:23<12:46,  5.25s/it]Epoch 1853 | Step  25943/ 28000 | Loss: 1.317747 | LR: 4.07e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1853 | Avg Loss: 1.318057 | LR: 4.07e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1855/2000 [2:09:28<12:42,  5.26s/it]Epoch 1854 | Step  25957/ 28000 | Loss: 1.312349 | LR: 4.07e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1854 | Avg Loss: 1.317207 | LR: 4.07e-04 | Time: 5.3s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1856/2000 [2:09:33<12:26,  5.18s/it]Epoch 1855 | Step  25971/ 28000 | Loss: 1.313452 | LR: 4.07e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1855 | Avg Loss: 1.318280 | LR: 4.07e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1857/2000 [2:09:38<12:12,  5.12s/it]Epoch 1856 | Step  25985/ 28000 | Loss: 1.317310 | LR: 4.07e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1856 | Avg Loss: 1.316712 | LR: 4.07e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1858/2000 [2:09:43<11:55,  5.04s/it]Epoch 1857 | Step  25999/ 28000 | Loss: 1.319015 | LR: 4.07e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1857 | Avg Loss: 1.318361 | LR: 4.07e-04 | Time: 4.9s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1859/2000 [2:09:48<11:48,  5.03s/it]Epoch 1858 | Step  26013/ 28000 | Loss: 1.318577 | LR: 4.07e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1858 | Avg Loss: 1.318567 | LR: 4.07e-04 | Time: 5.0s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1860/2000 [2:09:53<11:45,  5.04s/it]Epoch 1859 | Step  26027/ 28000 | Loss: 1.317589 | LR: 4.07e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1859 | Avg Loss: 1.317462 | LR: 4.07e-04 | Time: 5.1s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1861/2000 [2:09:58<11:48,  5.10s/it]Epoch 1860 | Step  26041/ 28000 | Loss: 1.318070 | LR: 4.07e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1860 | Avg Loss: 1.317103 | LR: 4.06e-04 | Time: 5.2s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1862/2000 [2:10:04<11:57,  5.20s/it]Epoch 1861 | Step  26055/ 28000 | Loss: 1.315222 | LR: 4.06e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1861 | Avg Loss: 1.317678 | LR: 4.06e-04 | Time: 5.4s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1863/2000 [2:10:08<11:01,  4.83s/it]Epoch 1862 | Step  26069/ 28000 | Loss: 1.314353 | LR: 4.06e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1862 | Avg Loss: 1.317042 | LR: 4.06e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1864/2000 [2:10:12<10:24,  4.59s/it]Epoch 1863 | Step  26083/ 28000 | Loss: 1.319322 | LR: 4.06e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1863 | Avg Loss: 1.317369 | LR: 4.06e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1865/2000 [2:10:16<10:05,  4.48s/it]Epoch 1864 | Step  26097/ 28000 | Loss: 1.318657 | LR: 4.06e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1864 | Avg Loss: 1.317843 | LR: 4.06e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1866/2000 [2:10:20<09:49,  4.40s/it]Epoch 1865 | Step  26111/ 28000 | Loss: 1.319985 | LR: 4.06e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1865 | Avg Loss: 1.319204 | LR: 4.06e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1867/2000 [2:10:24<09:27,  4.27s/it]Epoch 1866 | Step  26125/ 28000 | Loss: 1.318666 | LR: 4.06e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1866 | Avg Loss: 1.316998 | LR: 4.06e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1868/2000 [2:10:28<09:10,  4.17s/it]Epoch 1867 | Step  26139/ 28000 | Loss: 1.320407 | LR: 4.06e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1867 | Avg Loss: 1.316558 | LR: 4.06e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  93%|█████████▎| 1869/2000 [2:10:32<09:01,  4.14s/it]Epoch 1868 | Step  26153/ 28000 | Loss: 1.319293 | LR: 4.06e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1868 | Avg Loss: 1.316314 | LR: 4.06e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  94%|█████████▎| 1870/2000 [2:10:36<08:53,  4.10s/it]Epoch 1869 | Step  26167/ 28000 | Loss: 1.318839 | LR: 4.06e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1869 | Avg Loss: 1.316120 | LR: 4.06e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  94%|█████████▎| 1871/2000 [2:10:41<09:10,  4.27s/it]Epoch 1870 | Step  26181/ 28000 | Loss: 1.316695 | LR: 4.06e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1870 | Avg Loss: 1.318212 | LR: 4.06e-04 | Time: 4.7s | Samples: 6,983
+Training Flow Model:  94%|█████████▎| 1872/2000 [2:10:45<08:54,  4.18s/it]Epoch 1871 | Step  26195/ 28000 | Loss: 1.319255 | LR: 4.06e-04 | Speed: 3.3 steps/s | ETA: 0.2h
+Epoch 1871 | Avg Loss: 1.316618 | LR: 4.05e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  94%|█████████▎| 1873/2000 [2:10:49<08:38,  4.08s/it]Epoch 1872 | Step  26209/ 28000 | Loss: 1.320415 | LR: 4.05e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1872 | Avg Loss: 1.317338 | LR: 4.05e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  94%|█████████▎| 1874/2000 [2:10:53<08:29,  4.05s/it]Epoch 1873 | Step  26223/ 28000 | Loss: 1.314063 | LR: 4.05e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1873 | Avg Loss: 1.315470 | LR: 4.05e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  94%|██��██████▍| 1875/2000 [2:10:57<08:31,  4.09s/it]Epoch 1874 | Step  26237/ 28000 | Loss: 1.317947 | LR: 4.05e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1874 | Avg Loss: 1.317488 | LR: 4.05e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  94%|█████████▍| 1876/2000 [2:11:01<08:21,  4.04s/it]Epoch 1875 | Step  26251/ 28000 | Loss: 1.318168 | LR: 4.05e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1875 | Avg Loss: 1.317405 | LR: 4.05e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  94%|█████████▍| 1877/2000 [2:11:05<08:11,  4.00s/it]Epoch 1876 | Step  26265/ 28000 | Loss: 1.317032 | LR: 4.05e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1876 | Avg Loss: 1.316403 | LR: 4.05e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  94%|█████████▍| 1878/2000 [2:11:09<08:11,  4.03s/it]Epoch 1877 | Step  26279/ 28000 | Loss: 1.316144 | LR: 4.05e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1877 | Avg Loss: 1.317682 | LR: 4.05e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  94%|█████████▍| 1879/2000 [2:11:13<08:05,  4.01s/it]Epoch 1878 | Step  26293/ 28000 | Loss: 1.316010 | LR: 4.05e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1878 | Avg Loss: 1.317599 | LR: 4.05e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  94%|█████████▍| 1880/2000 [2:11:17<07:59,  3.99s/it]Epoch 1879 | Step  26307/ 28000 | Loss: 1.318732 | LR: 4.05e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1879 | Avg Loss: 1.318207 | LR: 4.05e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  94%|█████████▍| 1881/2000 [2:11:21<07:56,  4.00s/it]Epoch 1880 | Step  26321/ 28000 | Loss: 1.317884 | LR: 4.05e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1880 | Avg Loss: 1.317571 | LR: 4.05e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  94%|█████████▍| 1882/2000 [2:11:25<07:47,  3.96s/it]Epoch 1881 | Step  26335/ 28000 | Loss: 1.317032 | LR: 4.05e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1881 | Avg Loss: 1.316951 | LR: 4.05e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  94%|█████████▍| 1883/2000 [2:11:29<07:43,  3.96s/it]Epoch 1882 | Step  26349/ 28000 | Loss: 1.318484 | LR: 4.05e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1882 | Avg Loss: 1.317139 | LR: 4.05e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  94%|█████████▍| 1884/2000 [2:11:33<07:38,  3.95s/it]Epoch 1883 | Step  26363/ 28000 | Loss: 1.317574 | LR: 4.05e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1883 | Avg Loss: 1.317319 | LR: 4.05e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  94%|█████████▍| 1885/2000 [2:11:37<07:35,  3.96s/it]Epoch 1884 | Step  26377/ 28000 | Loss: 1.316310 | LR: 4.04e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1884 | Avg Loss: 1.317929 | LR: 4.04e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  94%|█████████▍| 1886/2000 [2:11:40<07:31,  3.96s/it]Epoch 1885 | Step  26391/ 28000 | Loss: 1.315010 | LR: 4.04e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1885 | Avg Loss: 1.317777 | LR: 4.04e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  94%|█████████▍| 1887/2000 [2:11:44<07:24,  3.93s/it]Epoch 1886 | Step  26405/ 28000 | Loss: 1.317372 | LR: 4.04e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1886 | Avg Loss: 1.317178 | LR: 4.04e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  94%|█████████▍| 1888/2000 [2:11:48<07:22,  3.95s/it]Epoch 1887 | Step  26419/ 28000 | Loss: 1.315518 | LR: 4.04e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1887 | Avg Loss: 1.317111 | LR: 4.04e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  94%|█████████▍| 1889/2000 [2:11:52<07:14,  3.91s/it]Epoch 1888 | Step  26433/ 28000 | Loss: 1.320608 | LR: 4.04e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1888 | Avg Loss: 1.317720 | LR: 4.04e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  94%|█████████▍| 1890/2000 [2:11:56<07:06,  3.88s/it]Epoch 1889 | Step  26447/ 28000 | Loss: 1.315382 | LR: 4.04e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1889 | Avg Loss: 1.317722 | LR: 4.04e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  95%|█████████▍| 1891/2000 [2:12:00<07:03,  3.89s/it]Epoch 1890 | Step  26461/ 28000 | Loss: 1.315298 | LR: 4.04e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1890 | Avg Loss: 1.317757 | LR: 4.04e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  95%|█████████▍| 1892/2000 [2:12:04<06:59,  3.88s/it]Epoch 1891 | Step  26475/ 28000 | Loss: 1.319165 | LR: 4.04e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1891 | Avg Loss: 1.316998 | LR: 4.04e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  95%|█████████▍| 1893/2000 [2:12:08<06:51,  3.85s/it]Epoch 1892 | Step  26489/ 28000 | Loss: 1.317726 | LR: 4.04e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1892 | Avg Loss: 1.317236 | LR: 4.04e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  95%|█████████▍| 1894/2000 [2:12:11<06:50,  3.88s/it]Epoch 1893 | Step  26503/ 28000 | Loss: 1.316446 | LR: 4.04e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1893 | Avg Loss: 1.316941 | LR: 4.04e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  95%|█████████▍| 1895/2000 [2:12:15<06:52,  3.93s/it]Epoch 1894 | Step  26517/ 28000 | Loss: 1.318923 | LR: 4.04e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1894 | Avg Loss: 1.316633 | LR: 4.04e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  95%|█████████▍| 1896/2000 [2:12:19<06:47,  3.92s/it]Epoch 1895 | Step  26531/ 28000 | Loss: 1.320366 | LR: 4.04e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1895 | Avg Loss: 1.317936 | LR: 4.04e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  95%|█████████▍| 1897/2000 [2:12:23<06:41,  3.90s/it]Epoch 1896 | Step  26545/ 28000 | Loss: 1.319046 | LR: 4.04e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1896 | Avg Loss: 1.317307 | LR: 4.04e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  95%|█████████▍| 1898/2000 [2:12:27<06:40,  3.93s/it]Epoch 1897 | Step  26559/ 28000 | Loss: 1.317737 | LR: 4.04e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1897 | Avg Loss: 1.316972 | LR: 4.03e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  95%|█████████▍| 1899/2000 [2:12:31<06:41,  3.98s/it]Epoch 1898 | Step  26573/ 28000 | Loss: 1.316233 | LR: 4.03e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1898 | Avg Loss: 1.317892 | LR: 4.03e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  95%|█████████▌| 1900/2000 [2:12:35<06:36,  3.97s/it]Epoch 1899 | Step  26587/ 28000 | Loss: 1.316870 | LR: 4.03e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1899 | Avg Loss: 1.317512 | LR: 4.03e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  95%|█████████▌| 1901/2000 [2:12:39<06:33,  3.97s/it]Epoch 1900 | Step  26601/ 28000 | Loss: 1.316423 | LR: 4.03e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1900 | Avg Loss: 1.317606 | LR: 4.03e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  95%|█████████▌| 1902/2000 [2:12:43<06:22,  3.91s/it]Epoch 1901 | Step  26615/ 28000 | Loss: 1.321060 | LR: 4.03e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1901 | Avg Loss: 1.317414 | LR: 4.03e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  95%|█████████▌| 1903/2000 [2:12:47<06:21,  3.93s/it]Epoch 1902 | Step  26629/ 28000 | Loss: 1.314542 | LR: 4.03e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1902 | Avg Loss: 1.316683 | LR: 4.03e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  95%|█████████▌| 1904/2000 [2:12:51<06:15,  3.91s/it]Epoch 1903 | Step  26643/ 28000 | Loss: 1.316429 | LR: 4.03e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1903 | Avg Loss: 1.317225 | LR: 4.03e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  95%|█████████▌| 1905/2000 [2:12:55<06:12,  3.92s/it]Epoch 1904 | Step  26657/ 28000 | Loss: 1.316732 | LR: 4.03e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1904 | Avg Loss: 1.317794 | LR: 4.03e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  95%|█████████▌| 1906/2000 [2:12:59<06:06,  3.90s/it]Epoch 1905 | Step  26671/ 28000 | Loss: 1.316743 | LR: 4.03e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1905 | Avg Loss: 1.317537 | LR: 4.03e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  95%|█████████▌| 1907/2000 [2:13:03<06:02,  3.90s/it]Epoch 1906 | Step  26685/ 28000 | Loss: 1.318279 | LR: 4.03e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1906 | Avg Loss: 1.316591 | LR: 4.03e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  95%|█████████▌| 1908/2000 [2:13:07<06:04,  3.96s/it]Epoch 1907 | Step  26699/ 28000 | Loss: 1.318055 | LR: 4.03e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1907 | Avg Loss: 1.316503 | LR: 4.03e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  95%|█████████▌| 1909/2000 [2:13:10<05:55,  3.90s/it]Epoch 1908 | Step  26713/ 28000 | Loss: 1.315709 | LR: 4.03e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1908 | Avg Loss: 1.318235 | LR: 4.03e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  96%|█████████▌| 1910/2000 [2:13:14<05:49,  3.88s/it]Epoch 1909 | Step  26727/ 28000 | Loss: 1.318862 | LR: 4.03e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1909 | Avg Loss: 1.317885 | LR: 4.03e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  96%|█████████▌| 1911/2000 [2:13:18<05:42,  3.85s/it]Epoch 1910 | Step  26741/ 28000 | Loss: 1.315112 | LR: 4.03e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1910 | Avg Loss: 1.317695 | LR: 4.03e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  96%|█████████▌| 1912/2000 [2:13:22<05:43,  3.91s/it]Epoch 1911 | Step  26755/ 28000 | Loss: 1.316148 | LR: 4.03e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1911 | Avg Loss: 1.317353 | LR: 4.03e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  96%|█████████▌| 1913/2000 [2:13:26<05:43,  3.95s/it]Epoch 1912 | Step  26769/ 28000 | Loss: 1.318845 | LR: 4.03e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1912 | Avg Loss: 1.317460 | LR: 4.03e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  96%|█████████▌| 1914/2000 [2:13:30<05:39,  3.94s/it]Epoch 1913 | Step  26783/ 28000 | Loss: 1.323359 | LR: 4.03e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1913 | Avg Loss: 1.317448 | LR: 4.02e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  96%|█████████▌| 1915/2000 [2:13:34<05:35,  3.94s/it]Epoch 1914 | Step  26797/ 28000 | Loss: 1.315460 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1914 | Avg Loss: 1.316551 | LR: 4.02e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  96%|█████████▌| 1916/2000 [2:13:38<05:32,  3.96s/it]Epoch 1915 | Step  26811/ 28000 | Loss: 1.317571 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1915 | Avg Loss: 1.317667 | LR: 4.02e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  96%|█████████▌| 1917/2000 [2:13:42<05:29,  3.97s/it]Epoch 1916 | Step  26825/ 28000 | Loss: 1.318955 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1916 | Avg Loss: 1.317242 | LR: 4.02e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  96%|█████████▌| 1918/2000 [2:13:46<05:28,  4.00s/it]Epoch 1917 | Step  26839/ 28000 | Loss: 1.314227 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1917 | Avg Loss: 1.316897 | LR: 4.02e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  96%|█████████▌| 1919/2000 [2:13:50<05:22,  3.98s/it]Epoch 1918 | Step  26853/ 28000 | Loss: 1.315598 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1918 | Avg Loss: 1.316914 | LR: 4.02e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  96%|█████████▌| 1920/2000 [2:13:54<05:17,  3.97s/it]Epoch 1919 | Step  26867/ 28000 | Loss: 1.317123 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1919 | Avg Loss: 1.317891 | LR: 4.02e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  96%|█████████▌| 1921/2000 [2:13:58<05:13,  3.97s/it]Epoch 1920 | Step  26881/ 28000 | Loss: 1.317536 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1920 | Avg Loss: 1.316545 | LR: 4.02e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  96%|█████████▌| 1922/2000 [2:14:02<05:06,  3.94s/it]Epoch 1921 | Step  26895/ 28000 | Loss: 1.315377 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1921 | Avg Loss: 1.317554 | LR: 4.02e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  96%|█████████▌| 1923/2000 [2:14:06<05:06,  3.99s/it]Epoch 1922 | Step  26909/ 28000 | Loss: 1.313334 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1922 | Avg Loss: 1.317543 | LR: 4.02e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  96%|█████████▌| 1924/2000 [2:14:10<05:01,  3.96s/it]Epoch 1923 | Step  26923/ 28000 | Loss: 1.315744 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1923 | Avg Loss: 1.317617 | LR: 4.02e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  96%|█████████▋| 1925/2000 [2:14:14<05:01,  4.01s/it]Epoch 1924 | Step  26937/ 28000 | Loss: 1.318493 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1924 | Avg Loss: 1.318297 | LR: 4.02e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  96%|█████████▋| 1926/2000 [2:14:18<05:00,  4.06s/it]Epoch 1925 | Step  26951/ 28000 | Loss: 1.320345 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1925 | Avg Loss: 1.317828 | LR: 4.02e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  96%|█████████▋| 1927/2000 [2:14:22<04:53,  4.02s/it]Epoch 1926 | Step  26965/ 28000 | Loss: 1.317414 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1926 | Avg Loss: 1.317176 | LR: 4.02e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  96%|█████████▋| 1928/2000 [2:14:26<04:47,  3.99s/it]Epoch 1927 | Step  26979/ 28000 | Loss: 1.317608 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1927 | Avg Loss: 1.318146 | LR: 4.02e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  96%|█████████▋| 1929/2000 [2:14:30<04:40,  3.95s/it]Epoch 1928 | Step  26993/ 28000 | Loss: 1.316963 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1928 | Avg Loss: 1.317801 | LR: 4.02e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  96%|█████████▋| 1930/2000 [2:14:34<04:34,  3.92s/it]Epoch 1929 | Step  27007/ 28000 | Loss: 1.319156 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1929 | Avg Loss: 1.317061 | LR: 4.02e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1931/2000 [2:14:38<04:32,  3.95s/it]Epoch 1930 | Step  27021/ 28000 | Loss: 1.316532 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1930 | Avg Loss: 1.317181 | LR: 4.02e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1932/2000 [2:14:41<04:25,  3.90s/it]Epoch 1931 | Step  27035/ 28000 | Loss: 1.318142 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1931 | Avg Loss: 1.316912 | LR: 4.02e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1933/2000 [2:14:45<04:19,  3.87s/it]Epoch 1932 | Step  27049/ 28000 | Loss: 1.316304 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1932 | Avg Loss: 1.316782 | LR: 4.02e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1934/2000 [2:14:49<04:15,  3.88s/it]Epoch 1933 | Step  27063/ 28000 | Loss: 1.315539 | LR: 4.02e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1933 | Avg Loss: 1.317023 | LR: 4.01e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1935/2000 [2:14:53<04:10,  3.86s/it]Epoch 1934 | Step  27077/ 28000 | Loss: 1.318394 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1934 | Avg Loss: 1.318216 | LR: 4.01e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1936/2000 [2:14:57<04:12,  3.95s/it]Epoch 1935 | Step  27091/ 28000 | Loss: 1.320078 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1935 | Avg Loss: 1.318122 | LR: 4.01e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1937/2000 [2:15:01<04:06,  3.92s/it]Epoch 1936 | Step  27105/ 28000 | Loss: 1.316980 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1936 | Avg Loss: 1.317027 | LR: 4.01e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1938/2000 [2:15:05<04:01,  3.90s/it]Epoch 1937 | Step  27119/ 28000 | Loss: 1.317807 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1937 | Avg Loss: 1.317888 | LR: 4.01e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1939/2000 [2:15:09<03:58,  3.92s/it]Epoch 1938 | Step  27133/ 28000 | Loss: 1.313429 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1938 | Avg Loss: 1.316160 | LR: 4.01e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1940/2000 [2:15:13<03:54,  3.90s/it]Epoch 1939 | Step  27147/ 28000 | Loss: 1.317615 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1939 | Avg Loss: 1.318510 | LR: 4.01e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1941/2000 [2:15:16<03:49,  3.89s/it]Epoch 1940 | Step  27161/ 28000 | Loss: 1.319918 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1940 | Avg Loss: 1.317525 | LR: 4.01e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1942/2000 [2:15:20<03:47,  3.93s/it]Epoch 1941 | Step  27175/ 28000 | Loss: 1.316641 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1941 | Avg Loss: 1.317347 | LR: 4.01e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1943/2000 [2:15:24<03:44,  3.94s/it]Epoch 1942 | Step  27189/ 28000 | Loss: 1.311853 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1942 | Avg Loss: 1.317238 | LR: 4.01e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1944/2000 [2:15:29<03:46,  4.04s/it]Epoch 1943 | Step  27203/ 28000 | Loss: 1.320850 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1943 | Avg Loss: 1.316953 | LR: 4.01e-04 | Time: 4.3s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1945/2000 [2:15:33<03:40,  4.01s/it]Epoch 1944 | Step  27217/ 28000 | Loss: 1.320798 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1944 | Avg Loss: 1.317930 | LR: 4.01e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1946/2000 [2:15:36<03:32,  3.93s/it]Epoch 1945 | Step  27231/ 28000 | Loss: 1.316860 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1945 | Avg Loss: 1.316425 | LR: 4.01e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1947/2000 [2:15:40<03:27,  3.92s/it]Epoch 1946 | Step  27245/ 28000 | Loss: 1.313423 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1946 | Avg Loss: 1.316813 | LR: 4.01e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1948/2000 [2:15:44<03:23,  3.91s/it]Epoch 1947 | Step  27259/ 28000 | Loss: 1.318037 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1947 | Avg Loss: 1.317904 | LR: 4.01e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  97%|█████████▋| 1949/2000 [2:15:48<03:24,  4.01s/it]Epoch 1948 | Step  27273/ 28000 | Loss: 1.320147 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1948 | Avg Loss: 1.316741 | LR: 4.01e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1950/2000 [2:15:52<03:18,  3.96s/it]Epoch 1949 | Step  27287/ 28000 | Loss: 1.318389 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1949 | Avg Loss: 1.318049 | LR: 4.01e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1951/2000 [2:15:56<03:13,  3.95s/it]Epoch 1950 | Step  27301/ 28000 | Loss: 1.319276 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1950 | Avg Loss: 1.317440 | LR: 4.01e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1952/2000 [2:16:00<03:13,  4.04s/it]Epoch 1951 | Step  27315/ 28000 | Loss: 1.320860 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1951 | Avg Loss: 1.317837 | LR: 4.01e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1953/2000 [2:16:04<03:09,  4.03s/it]Epoch 1952 | Step  27329/ 28000 | Loss: 1.320771 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1952 | Avg Loss: 1.317266 | LR: 4.01e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1954/2000 [2:16:09<03:07,  4.07s/it]Epoch 1953 | Step  27343/ 28000 | Loss: 1.317628 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1953 | Avg Loss: 1.317287 | LR: 4.01e-04 | Time: 4.2s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1955/2000 [2:16:13<03:00,  4.01s/it]Epoch 1954 | Step  27357/ 28000 | Loss: 1.315585 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1954 | Avg Loss: 1.316823 | LR: 4.01e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1956/2000 [2:16:16<02:55,  3.99s/it]Epoch 1955 | Step  27371/ 28000 | Loss: 1.313581 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1955 | Avg Loss: 1.317455 | LR: 4.01e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1957/2000 [2:16:20<02:51,  3.98s/it]Epoch 1956 | Step  27385/ 28000 | Loss: 1.313747 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.1h
+Epoch 1956 | Avg Loss: 1.316792 | LR: 4.01e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1958/2000 [2:16:24<02:45,  3.94s/it]Epoch 1957 | Step  27399/ 28000 | Loss: 1.316980 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1957 | Avg Loss: 1.316986 | LR: 4.01e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1959/2000 [2:16:28<02:40,  3.92s/it]Epoch 1958 | Step  27413/ 28000 | Loss: 1.319541 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1958 | Avg Loss: 1.317400 | LR: 4.01e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1960/2000 [2:16:32<02:37,  3.94s/it]Epoch 1959 | Step  27427/ 28000 | Loss: 1.315070 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1959 | Avg Loss: 1.317487 | LR: 4.01e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1961/2000 [2:16:36<02:34,  3.96s/it]Epoch 1960 | Step  27441/ 28000 | Loss: 1.316060 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1960 | Avg Loss: 1.317824 | LR: 4.01e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1962/2000 [2:16:40<02:29,  3.94s/it]Epoch 1961 | Step  27455/ 28000 | Loss: 1.317256 | LR: 4.01e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1961 | Avg Loss: 1.317914 | LR: 4.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1963/2000 [2:16:44<02:25,  3.94s/it]Epoch 1962 | Step  27469/ 28000 | Loss: 1.319635 | LR: 4.00e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1962 | Avg Loss: 1.318044 | LR: 4.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1964/2000 [2:16:48<02:22,  3.95s/it]Epoch 1963 | Step  27483/ 28000 | Loss: 1.320016 | LR: 4.00e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1963 | Avg Loss: 1.316832 | LR: 4.00e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1965/2000 [2:16:52<02:16,  3.90s/it]Epoch 1964 | Step  27497/ 28000 | Loss: 1.317753 | LR: 4.00e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1964 | Avg Loss: 1.316569 | LR: 4.00e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1966/2000 [2:16:56<02:13,  3.92s/it]Epoch 1965 | Step  27511/ 28000 | Loss: 1.316228 | LR: 4.00e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1965 | Avg Loss: 1.316764 | LR: 4.00e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1967/2000 [2:16:59<02:08,  3.88s/it]Epoch 1966 | Step  27525/ 28000 | Loss: 1.312911 | LR: 4.00e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1966 | Avg Loss: 1.316924 | LR: 4.00e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1968/2000 [2:17:03<02:05,  3.92s/it]Epoch 1967 | Step  27539/ 28000 | Loss: 1.316132 | LR: 4.00e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1967 | Avg Loss: 1.317793 | LR: 4.00e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1969/2000 [2:17:07<02:01,  3.92s/it]Epoch 1968 | Step  27553/ 28000 | Loss: 1.320889 | LR: 4.00e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1968 | Avg Loss: 1.318573 | LR: 4.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  98%|█████████▊| 1970/2000 [2:17:12<01:59,  3.98s/it]Epoch 1969 | Step  27567/ 28000 | Loss: 1.318105 | LR: 4.00e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1969 | Avg Loss: 1.317932 | LR: 4.00e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  99%|█████████▊| 1971/2000 [2:17:15<01:54,  3.96s/it]Epoch 1970 | Step  27581/ 28000 | Loss: 1.318609 | LR: 4.00e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1970 | Avg Loss: 1.317010 | LR: 4.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  99%|█████████▊| 1972/2000 [2:17:20<01:52,  4.00s/it]Epoch 1971 | Step  27595/ 28000 | Loss: 1.320031 | LR: 4.00e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1971 | Avg Loss: 1.317062 | LR: 4.00e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  99%|█████████▊| 1973/2000 [2:17:24<01:48,  4.03s/it]Epoch 1972 | Step  27609/ 28000 | Loss: 1.317358 | LR: 4.00e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1972 | Avg Loss: 1.318705 | LR: 4.00e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model:  99%|█████████▊| 1974/2000 [2:17:28<01:44,  4.02s/it]Epoch 1973 | Step  27623/ 28000 | Loss: 1.314663 | LR: 4.00e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1973 | Avg Loss: 1.317619 | LR: 4.00e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  99%|█████████▉| 1975/2000 [2:17:32<01:40,  4.01s/it]Epoch 1974 | Step  27637/ 28000 | Loss: 1.318905 | LR: 4.00e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1974 | Avg Loss: 1.317709 | LR: 4.00e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  99%|█████████▉| 1976/2000 [2:17:35<01:35,  3.97s/it]Epoch 1975 | Step  27651/ 28000 | Loss: 1.316104 | LR: 4.00e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1975 | Avg Loss: 1.317041 | LR: 4.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  99%|█████████▉| 1977/2000 [2:17:39<01:30,  3.96s/it]Epoch 1976 | Step  27665/ 28000 | Loss: 1.317381 | LR: 4.00e-04 | Speed: 3.3 steps/s | ETA: 0.0h
+Epoch 1976 | Avg Loss: 1.318839 | LR: 4.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  99%|█████████▉| 1978/2000 [2:17:43<01:26,  3.93s/it]Epoch 1977 | Step  27679/ 28000 | Loss: 1.314602 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1977 | Avg Loss: 1.316781 | LR: 4.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  99%|█████████▉| 1979/2000 [2:17:47<01:21,  3.88s/it]Epoch 1978 | Step  27693/ 28000 | Loss: 1.314738 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1978 | Avg Loss: 1.316742 | LR: 4.00e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  99%|█████████▉| 1980/2000 [2:17:51<01:17,  3.88s/it]Epoch 1979 | Step  27707/ 28000 | Loss: 1.319700 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1979 | Avg Loss: 1.317998 | LR: 4.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  99%|█████████▉| 1981/2000 [2:17:55<01:13,  3.86s/it]Epoch 1980 | Step  27721/ 28000 | Loss: 1.316586 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1980 | Avg Loss: 1.317179 | LR: 4.00e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model:  99%|█████████▉| 1982/2000 [2:17:59<01:09,  3.87s/it]Epoch 1981 | Step  27735/ 28000 | Loss: 1.317068 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1981 | Avg Loss: 1.317985 | LR: 4.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  99%|█████████▉| 1983/2000 [2:18:03<01:06,  3.89s/it]Epoch 1982 | Step  27749/ 28000 | Loss: 1.315012 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1982 | Avg Loss: 1.317545 | LR: 4.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  99%|█████████▉| 1984/2000 [2:18:06<01:02,  3.89s/it]Epoch 1983 | Step  27763/ 28000 | Loss: 1.317636 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1983 | Avg Loss: 1.318168 | LR: 4.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  99%|█████████▉| 1985/2000 [2:18:10<00:58,  3.88s/it]Epoch 1984 | Step  27777/ 28000 | Loss: 1.318992 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1984 | Avg Loss: 1.317939 | LR: 4.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model:  99%|█████████▉| 1986/2000 [2:18:14<00:54,  3.90s/it]Epoch 1985 | Step  27791/ 28000 | Loss: 1.315630 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1985 | Avg Loss: 1.317783 | LR: 4.00e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  99%|█████████▉| 1987/2000 [2:18:18<00:51,  3.93s/it]Epoch 1986 | Step  27805/ 28000 | Loss: 1.319661 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1986 | Avg Loss: 1.316898 | LR: 4.00e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  99%|█████████▉| 1988/2000 [2:18:22<00:47,  3.95s/it]Epoch 1987 | Step  27819/ 28000 | Loss: 1.313224 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1987 | Avg Loss: 1.316792 | LR: 4.00e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model:  99%|█████████▉| 1989/2000 [2:18:26<00:43,  3.92s/it]Epoch 1988 | Step  27833/ 28000 | Loss: 1.319997 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1988 | Avg Loss: 1.317881 | LR: 4.00e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model: 100%|█████████▉| 1990/2000 [2:18:30<00:39,  3.94s/it]Epoch 1989 | Step  27847/ 28000 | Loss: 1.321329 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1989 | Avg Loss: 1.316603 | LR: 4.00e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model: 100%|█████████▉| 1991/2000 [2:18:34<00:35,  3.92s/it]Epoch 1990 | Step  27861/ 28000 | Loss: 1.316443 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1990 | Avg Loss: 1.316633 | LR: 4.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model: 100%|█████████▉| 1992/2000 [2:18:38<00:31,  3.90s/it]Epoch 1991 | Step  27875/ 28000 | Loss: 1.316992 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1991 | Avg Loss: 1.317723 | LR: 4.00e-04 | Time: 3.8s | Samples: 6,983
+Training Flow Model: 100%|█████████▉| 1993/2000 [2:18:42<00:27,  3.91s/it]Epoch 1992 | Step  27889/ 28000 | Loss: 1.316704 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1992 | Avg Loss: 1.317945 | LR: 4.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model: 100%|█████████▉| 1994/2000 [2:18:46<00:23,  3.90s/it]Epoch 1993 | Step  27903/ 28000 | Loss: 1.314373 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1993 | Avg Loss: 1.318068 | LR: 4.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model: 100%|█████████▉| 1995/2000 [2:18:50<00:19,  3.95s/it]Epoch 1994 | Step  27917/ 28000 | Loss: 1.320402 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1994 | Avg Loss: 1.317312 | LR: 4.00e-04 | Time: 4.1s | Samples: 6,983
+Training Flow Model: 100%|█████████▉| 1996/2000 [2:18:54<00:15,  3.93s/it]Epoch 1995 | Step  27931/ 28000 | Loss: 1.317420 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1995 | Avg Loss: 1.316856 | LR: 4.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model: 100%|█████████▉| 1997/2000 [2:18:58<00:11,  3.92s/it]Epoch 1996 | Step  27945/ 28000 | Loss: 1.318632 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1996 | Avg Loss: 1.317052 | LR: 4.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model: 100%|█████████▉| 1998/2000 [2:19:01<00:07,  3.92s/it]Epoch 1997 | Step  27959/ 28000 | Loss: 1.314221 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1997 | Avg Loss: 1.316644 | LR: 4.00e-04 | Time: 3.9s | Samples: 6,983
+Training Flow Model: 100%|█████████▉| 1999/2000 [2:19:05<00:03,  3.94s/it]Epoch 1998 | Step  27973/ 28000 | Loss: 1.314900 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1998 | Avg Loss: 1.317663 | LR: 4.00e-04 | Time: 4.0s | Samples: 6,983
+Training Flow Model: 100%|██████████| 2000/2000 [2:19:10<00:00,  4.00s/it]Training Flow Model: 100%|██████████| 2000/2000 [2:19:10<00:00,  4.18s/it]
+Epoch 1999 | Step  27987/ 28000 | Loss: 1.320186 | LR: 4.00e-04 | Speed: 3.4 steps/s | ETA: 0.0h
+Epoch 1999 | Avg Loss: 1.318137 | LR: 4.00e-04 | Time: 4.1s | Samples: 6,983
+✓ Checkpoint saved: /data2/edwardsun/flow_checkpoints/amp_flow_model_final_optimized.pth (loss: 1.318137, step: 28000)
+============================================================
+🎉 Optimized Training Complete with FULL DATA!
+Best validation loss: 0.021476
+Total training time: 2.3 hours
+Total samples used: 6,983
+Final model saved as: amp_flow_model_final_optimized.pth
+Optimized training completed successfully with FULL DATA!