4 26 8

Penghui Qi

QPHutu

QPHutu

AI & ML interests

None yet

Recent Activity

liked a dataset 19 days ago

LLM360/guru-RL-92k

liked a dataset 19 days ago

zwhe99/DeepMath-103K

updated a dataset 21 days ago

sail/Sanity-Test-R1D-1.5B

View all activity

Organizations

upvoted a paper 29 days ago

Diffusion Language Models are Super Data Learners

Paper • 2511.03276 • Published about 1 month ago • 124

upvoted a paper about 1 month ago

Defeating the Training-Inference Mismatch via FP16

Paper • 2510.26788 • Published Oct 30 • 29

upvoted 2 papers 2 months ago

Language Models Can Learn from Verbal Feedback Without Scalar Rewards

Paper • 2509.22638 • Published Sep 26 • 70

Variational Reasoning for Language Models

Paper • 2509.22637 • Published Sep 26 • 69

upvoted 3 papers 3 months ago

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

Paper • 2509.02547 • Published Sep 2 • 225

VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use

Paper • 2509.01055 • Published Sep 1 • 75

SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

Paper • 2509.02479 • Published Sep 2 • 83

upvoted 2 papers 5 months ago

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

Paper • 2507.01352 • Published Jul 2 • 56

SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

Paper • 2506.24119 • Published Jun 30 • 50

upvoted 4 papers 6 months ago

upvoted a paper 7 months ago

Optimizing Anytime Reasoning via Budget Relative Policy Optimization

Paper • 2505.13438 • Published May 19 • 36

upvoted an article 8 months ago

Article

双流并行(DualPipe) 没有双流会更好

Feb 28

•

upvoted a paper 8 months ago

Understanding R1-Zero-Like Training: A Critical Perspective

Paper • 2503.20783 • Published Mar 26 • 57

upvoted a paper 9 months ago

PipeOffload: Improving Scalability of Pipeline Parallelism with Memory Optimization

Paper • 2503.01328 • Published Mar 3 • 16

upvoted an article 9 months ago

Article

DualPipe could be better without the Dual

Feb 28

•

upvoted 2 collections about 1 year ago

⚓️ Sailor Language Models

Collection

Sailor: Open Language Models tailored for South-East Asia (SEA) released by Sea AI Lab. • 17 items • Updated Dec 3, 2024 • 17

💡 DICE