MultiPerson

Running on Zero

App Files Files Community

C4G-HKUST commited on 12 days ago

Commit

d77df53

1 Parent(s): fc0b74d

feat: time out check

Browse files

Files changed (1) hide show

app.py +133 -16

app.py CHANGED Viewed

@@ -611,14 +611,75 @@ def run_graio_demo(args):
             logging.info(f"No audio files provided, video saved to: {output_file}")
         logging.info("Finished.")
-        return output_file
     # 使用 @spaces.GPU 装饰器包装 generate_video 函数（参考 LivePortrait）
     # 参考: https://huggingface.co/spaces/KlingTeam/LivePortrait/blob/main/app.py
     # @spaces.GPU 装饰器会自动处理 GPU 初始化，不需要手动初始化
-    # 快速生成模式：121秒，固定10步去噪
-    @spaces.GPU(duration=121)
     def gpu_wrapped_generate_video_fast(*args, **kwargs):
         # 固定使用10步去噪，通过关键字参数传递
         kwargs['fixed_steps'] = 8
@@ -680,8 +741,8 @@ def run_graio_demo(args):
         return gpu_wrapped_generate_video_worker(*args, **kwargs)
-    # 高质量生成模式：720秒，用户选择去噪步数
-    @spaces.GPU(duration=720)
     def gpu_wrapped_generate_video_quality(*args, **kwargs):
         return gpu_wrapped_generate_video_worker(*args, **kwargs)
@@ -735,7 +796,11 @@ def run_graio_demo(args):
                 logging.warning(f"Failed to move models to GPU: {e}")
         result = generate_video(*args, **kwargs)
-        return result
@@ -835,21 +900,21 @@ def run_graio_demo(args):
                 with gr.Row():
                     run_i2v_button_fast = gr.Button(
-                        "Generate Video (Fast - 121s, 8 steps)",
                         variant="secondary",
                         scale=1
                     )
                     run_i2v_button_quality = gr.Button(
-                        "Generate Video (Quality - 720s, Custom steps)",
                         variant="primary",
                         scale=1
                     )
                 gr.Markdown("""
                 **Generation Modes:**
-                - **Fast Mode (up to 121s GPU budget)**: Fixed 8 denoising steps for quick generation.
-                - **Quality Mode (up to 720s GPU budget)**: Custom denoising steps (adjustable via "Diffusion steps" slider, default: 25 steps).
-                *Note: The GPU duration (121s/720s) represents the maximum budget allocated, not the actual generation time. Multi-person videos generally require longer duration and more Usage Quota for better quality.*
                 """)
             with gr.Column(scale=2):
@@ -859,7 +924,7 @@ def run_graio_demo(args):
                 gr.Markdown("""
                 ### Example Cases
-                *Note: Generation time (tested on NVIDIA H121 GPU with 40 denoising steps) may vary depending on GPU specifications and system load.*
                 """)
                 # 创建一个函数来处理 examples 选择
@@ -927,13 +992,65 @@ def run_graio_demo(args):
                 img2vid_image, img2vid_prompt, n_prompt, img2vid_audio_1, img2vid_audio_2, img2vid_audio_3,
                 sd_steps, seed, guide_scale, person_num_selector, audio_mode_selector
             )
             return result
-        def handle_quality_generation(*args):
-            result = gpu_wrapped_generate_video_quality(*args)
-            return result
-        # 快速生成按钮：121秒，固定10步
         run_i2v_button_fast.click(
             fn=handle_fast_generation,
             inputs=[img2vid_image, img2vid_prompt, n_prompt, img2vid_audio_1, img2vid_audio_2, img2vid_audio_3, sd_steps, seed, guide_scale, person_num_selector, audio_mode_selector],

             logging.info(f"No audio files provided, video saved to: {output_file}")
         logging.info("Finished.")
+        # 计算视频时长信息（用于quality模式的提示）
+        fps = getattr(cfg, 'fps', 24)
+        video_duration_seconds = current_frame_num / fps if current_frame_num and fps else 0
+        return output_file, video_duration_seconds, actual_steps
+    # 计算动态duration的函数
+    def get_duration(video_seconds, steps):
+        """
+        计算quality模式所需的GPU duration
+        duration = 视频秒数 * 步数 * 2秒
+        """
+        return int(video_seconds * steps * 2)
+    # 为quality模式创建动态duration计算函数
+    def calculate_quality_duration(*args, **kwargs):
+        """
+        从函数参数中提取视频时长和步数，计算动态duration
+        参数顺序: img2vid_image, img2vid_prompt, n_prompt, img2vid_audio_1, img2vid_audio_2, img2vid_audio_3,
+                 sd_steps, seed, guide_scale, person_num_selector, audio_mode_selector
+        """
+        if len(args) >= 11:
+            img2vid_audio_1 = args[3]
+            img2vid_audio_2 = args[4]
+            img2vid_audio_3 = args[5]
+            sd_steps = args[6]
+            person_num_selector = args[9]
+            audio_mode_selector = args[10]
+            # 根据人数收集音频路径
+            audio_paths = []
+            if person_num_selector == "1 Person":
+                if img2vid_audio_1:
+                    audio_paths.append(img2vid_audio_1)
+            elif person_num_selector == "2 Persons":
+                if img2vid_audio_1:
+                    audio_paths.append(img2vid_audio_1)
+                if img2vid_audio_2:
+                    audio_paths.append(img2vid_audio_2)
+            elif person_num_selector == "3 Persons":
+                if img2vid_audio_1:
+                    audio_paths.append(img2vid_audio_1)
+                if img2vid_audio_2:
+                    audio_paths.append(img2vid_audio_2)
+                if img2vid_audio_3:
+                    audio_paths.append(img2vid_audio_3)
+            # 计算预期的视频时长
+            fps = getattr(cfg, 'fps', 24)
+            expected_video_seconds = 8.0  # 默认值
+            if audio_paths and len(audio_paths) > 0:
+                try:
+                    calculated_frame_num = calculate_frame_num_from_audio(audio_paths, fps, mode=audio_mode_selector)
+                    expected_video_seconds = calculated_frame_num / fps
+                except Exception as e:
+                    logging.warning(f"Failed to calculate expected video duration for GPU allocation: {e}")
+            # 计算并返回duration
+            return get_duration(expected_video_seconds, sd_steps)
+        else:
+            # 如果参数不足，返回默认值
+            return 720
     # 使用 @spaces.GPU 装饰器包装 generate_video 函数（参考 LivePortrait）
     # 参考: https://huggingface.co/spaces/KlingTeam/LivePortrait/blob/main/app.py
     # @spaces.GPU 装饰器会自动处理 GPU 初始化，不需要手动初始化
+    # 快速生成模式：220秒，固定8步去噪
+    @spaces.GPU(duration=220)
     def gpu_wrapped_generate_video_fast(*args, **kwargs):
         # 固定使用10步去噪，通过关键字参数传递
         kwargs['fixed_steps'] = 8
         return gpu_wrapped_generate_video_worker(*args, **kwargs)
+    # 高质量生成模式：动态duration，根据视频时长和步数计算
+    @spaces.GPU(duration=calculate_quality_duration)
     def gpu_wrapped_generate_video_quality(*args, **kwargs):
         return gpu_wrapped_generate_video_worker(*args, **kwargs)
                 logging.warning(f"Failed to move models to GPU: {e}")
         result = generate_video(*args, **kwargs)
+        # generate_video 现在返回 (output_file, video_duration_seconds, actual_steps)
+        if isinstance(result, tuple) and len(result) == 3:
+            return result
+        # 兼容旧格式（如果返回的是单个值）
+        return result, 0, 0
                 with gr.Row():
                     run_i2v_button_fast = gr.Button(
+                        "Generate Video (Fast - 220s, 8 steps)",
                         variant="secondary",
                         scale=1
                     )
                     run_i2v_button_quality = gr.Button(
+                        "Generate Video (Quality - Dynamic, Custom steps)",
                         variant="primary",
                         scale=1
                     )
                 gr.Markdown("""
                 **Generation Modes:**
+                - **Fast Mode (220s GPU budget)**: Fixed 8 denoising steps for quick generation. Maximum video duration: 6 seconds.
+                - **Quality Mode (Dynamic GPU budget)**: Custom denoising steps (adjustable via "Diffusion steps" slider, default: 25 steps). GPU duration is dynamically calculated as: video_seconds × steps × 2s. Maximum video duration: 8 seconds with default 25 steps.
+                *Note: Fast mode has a fixed 220s GPU budget. Quality mode dynamically allocates GPU time based on video length and denoising steps. Multi-person videos generally require longer duration and more Usage Quota for better quality.*
                 """)
             with gr.Column(scale=2):
                 gr.Markdown("""
                 ### Example Cases
+                *Note: Generation time (tested on NVIDIA H220 GPU with 40 denoising steps) may vary depending on GPU specifications and system load.*
                 """)
                 # 创建一个函数来处理 examples 选择
                 img2vid_image, img2vid_prompt, n_prompt, img2vid_audio_1, img2vid_audio_2, img2vid_audio_3,
                 sd_steps, seed, guide_scale, person_num_selector, audio_mode_selector
             )
+            # 处理返回结果：可能是 (output_file, video_duration_seconds, actual_steps) 或 output_file
+            if isinstance(result, tuple) and len(result) == 3:
+                return result[0]  # 只返回视频文件
             return result
+        def handle_quality_generation(img2vid_image, img2vid_prompt, n_prompt, img2vid_audio_1, img2vid_audio_2, img2vid_audio_3,
+                                      sd_steps, seed, guide_scale, person_num_selector, audio_mode_selector):
+            # 在生成前先计算预期的视频时长和duration
+            # 根据人数收集音频路径
+            audio_paths = []
+            if person_num_selector == "1 Person":
+                if img2vid_audio_1:
+                    audio_paths.append(img2vid_audio_1)
+            elif person_num_selector == "2 Persons":
+                if img2vid_audio_1:
+                    audio_paths.append(img2vid_audio_1)
+                if img2vid_audio_2:
+                    audio_paths.append(img2vid_audio_2)
+            elif person_num_selector == "3 Persons":
+                if img2vid_audio_1:
+                    audio_paths.append(img2vid_audio_1)
+                if img2vid_audio_2:
+                    audio_paths.append(img2vid_audio_2)
+                if img2vid_audio_3:
+                    audio_paths.append(img2vid_audio_3)
+            # 计算预期的视频时长
+            fps = getattr(cfg, 'fps', 24)
+            expected_video_seconds = 0
+            if audio_paths and len(audio_paths) > 0:
+                try:
+                    calculated_frame_num = calculate_frame_num_from_audio(audio_paths, fps, mode=audio_mode_selector)
+                    expected_video_seconds = calculated_frame_num / fps
+                except Exception as e:
+                    logging.warning(f"Failed to calculate expected video duration: {e}")
+                    expected_video_seconds = 8.0  # 默认值
+            # 计算动态duration
+            expected_duration = get_duration(expected_video_seconds, sd_steps)
+            # 执行生成
+            result = gpu_wrapped_generate_video_quality(
+                img2vid_image, img2vid_prompt, n_prompt, img2vid_audio_1, img2vid_audio_2, img2vid_audio_3,
+                sd_steps, seed, guide_scale, person_num_selector, audio_mode_selector
+            )
+            # 处理返回结果并显示提示
+            if isinstance(result, tuple) and len(result) == 3:
+                output_file, actual_video_seconds, actual_steps = result
+                # 计算实际使用的duration
+                actual_duration = get_duration(actual_video_seconds, actual_steps)
+                # 使用 gr.Info 提示用户
+                info_msg = f"Video generation completed! Duration used: {actual_duration}s (estimated: {actual_video_seconds:.2f}s video × {actual_steps} steps × 2s)"
+                gr.Info(info_msg)
+                return output_file
+            else:
+                return result
+        # 快速生成按钮：220秒，固定10步
         run_i2v_button_fast.click(
             fn=handle_fast_generation,
             inputs=[img2vid_image, img2vid_prompt, n_prompt, img2vid_audio_1, img2vid_audio_2, img2vid_audio_3, sd_steps, seed, guide_scale, person_num_selector, audio_mode_selector],