Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Mixture of Experts

Carbon Emissions

Models

2,970

Full-text search

Active filters: ppo

naifenn/ppo-CartPole-v1

Reinforcement Learning • Updated 27 days ago

MohamedNabil04/lunar-lander-ppo

Reinforcement Learning • Updated 26 days ago

ZZVic/ppo-LunarLander-v2-unit8

Reinforcement Learning • Updated 26 days ago

onnx-community/mmBERT-small-ONNX

Fill-Mask • Updated 23 days ago • 22 • 1

Tejas-Anvekar/LunarLander-v2_1

Reinforcement Learning • Updated 22 days ago

hardware-pathon-ai/unitree-g1-phase1-locomotion

Reinforcement Learning • Updated 22 days ago

zhongzhongbo/LunarLander-v2-ppo-251216

Reinforcement Learning • Updated 21 days ago

Vishath/ppo-LunarLander-new-8

Reinforcement Learning • Updated 21 days ago

bhxvxsh/recipe_ai_hrm_v1

Reinforcement Learning • Updated 21 days ago • 8

bhxvxsh/recipe-ai-hrm

Reinforcement Learning • Updated 21 days ago • 49

StevenHuo/StevenHuo-gpt2-squad-rl

Text Generation • 0.1B • Updated 20 days ago

HuggingMachines/ppo-LunarLander-v2

Reinforcement Learning • Updated 9 days ago

DmytroKhitro/ppo-LunarLander-Unit8-v2

Reinforcement Learning • Updated 19 days ago

asatheesh/deepmath-qwen3-4b-instruct-drgrpo-lora

Reinforcement Learning • Updated 19 days ago

asatheesh/deepmath-qwen3-4b-instruct-rloo-lora

Reinforcement Learning • Updated 19 days ago

asatheesh/deepmath-qwen3-4b-instruct-grpo-lora-eagle3-spec2

Reinforcement Learning • Updated 19 days ago

asatheesh/deepmath-qwen3-4b-instruct-grpo-lora-eagle3-spec4

Reinforcement Learning • Updated 19 days ago

asatheesh/deepmath-qwen3-4b-instruct-grpo-lora-ngram-spec4

Reinforcement Learning • Updated 19 days ago

asatheesh/deepmath-qwen3-4b-instruct-rloo-lora-eagle3-spec5

Reinforcement Learning • Updated 19 days ago

beachcities/ppo-LunarLander-v3-A100-SOTA

Reinforcement Learning • Updated 19 days ago • 105

kavindumit/LunarLander-v2-8

Reinforcement Learning • Updated 19 days ago

seynath/LunarLander-v2-unit-8

Reinforcement Learning • Updated 19 days ago

bawani/LunarLander-v2-unit-8

Reinforcement Learning • Updated 6 days ago

ishadyaAP/LunarLander-v2-8

Reinforcement Learning • Updated 19 days ago

beachcities/ppo-BipedalWalker-v3-A100-SOTA

Reinforcement Learning • Updated 18 days ago • 37

dimgalli/ppo-LunarLander

Reinforcement Learning • Updated 18 days ago

DhruvJalan/ppo-LunarLander-v2

Reinforcement Learning • Updated 18 days ago

mahir05/ppo-LunarLander-v2-unit8

Reinforcement Learning • Updated 17 days ago

kapilw25/llama3-8b-pku-PPO-NoInstruct-SFT-NoInstruct

Updated 16 days ago

kapilw25/llama3-8b-pku-PPO-Instruct-SFT-Instruct

Updated 16 days ago