Haowei Zhang's picture

Haowei Zhang PRO

freesky

·

freesky01

AI & ML interests

None yet

Recent Activity

updated a dataset 11 days ago

freesky/ovobench

published a dataset 11 days ago

freesky/ovobench

published a dataset 11 days ago

freesky/streamingbench

View all activity

Organizations

upvoted a paper 25 days ago

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

Paper • 2511.04570 • Published 25 days ago • 205

upvoted 2 papers about 1 month ago

GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning

Paper • 2510.14942 • Published Oct 16 • 2

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

Paper • 2510.23763 • Published Oct 27 • 53

upvoted a paper about 2 months ago

LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

Paper • 2510.13626 • Published Oct 15 • 44

upvoted 4 papers 5 months ago

AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research

Paper • 2507.13300 • Published Jul 17 • 19

Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers

Paper • 2507.06223 • Published Jul 8 • 13

TTRL: Test-Time Reinforcement Learning

Paper • 2504.16084 • Published Apr 22 • 120

SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks

Paper • 2507.01001 • Published Jul 1 • 47

upvoted 4 papers 6 months ago

SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification

Paper • 2506.15569 • Published Jun 18 • 12

FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models

Paper • 2506.14824 • Published Jun 12 • 7

VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos

Paper • 2505.23693 • Published May 29 • 55

Table-R1: Inference-Time Scaling for Table Reasoning

Paper • 2505.23621 • Published May 29 • 94

upvoted 2 papers 9 months ago

MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning

Paper • 2503.07459 • Published Mar 10 • 16

MaskGWM: A Generalizable Driving World Model with Video Mask Reconstruction

Paper • 2502.11663 • Published Feb 17 • 40

upvoted 2 papers 10 months ago

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published Jan 22 • 427

MMVU: Measuring Expert-Level Multi-Discipline Video Understanding

Paper • 2501.12380 • Published Jan 21 • 85

upvoted 2 papers about 1 year ago

Large Language Models are Effective Table-to-Text Generators, Evaluators, and Feedback Providers

Paper • 2305.14987 • Published May 24, 2023 • 1

Visual Question Decomposition on Multimodal Large Language Models

Paper • 2409.19339 • Published Sep 28, 2024 • 9

upvoted a collection about 1 year ago

Qwen2

Qwen2 language models, including pretrained and instruction-tuned models of 5 sizes, including 0.5B, 1.5B, 7B, 57B-A14B, and 72B. • 39 items • Updated Jul 21 • 373