Arian Hosseini's picture

1 3

Arian Hosseini

arianhosseini

·

https://arianhosseini.github.io/

AI & ML interests

large language models, reasoning, planning, systematic generalization

Recent Activity

authored a paper about 2 months ago

Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference

authored a paper about 2 months ago

The N+ Implementation Details of RLHF with PPO: A Case Study on TL;DR Summarization

authored a paper about 2 months ago

Generative Verifiers: Reward Modeling as Next-Token Prediction

View all activity

Organizations

arianhosseini 's datasets 36

arianhosseini/mt_puzzles

Viewer • Updated Aug 20 • 2.5k • 21

arianhosseini/r1_1.5_dedup_fil_0to34000_thresh1_25333points

Viewer • Updated Mar 22 • 25.3k • 6

arianhosseini/llama70b_code_256sol_ver32_pickles

Viewer • Updated Mar 21 • 2 • 15

arianhosseini/lcb127_llama70b_256sol

Preview • Updated Mar 19 • 2

arianhosseini/gemma27b_it_math_128_generations

Viewer • Updated Mar 18 • 128 • 2

arianhosseini/gemma27b_it_math_500_generations

Viewer • Updated Mar 18 • 500 • 2

arianhosseini/verified_questions_ind_2308_to_2896

Viewer • Updated Mar 17 • 8.63k • 2

arianhosseini/lcb_127_llama70b_128sol

Viewer • Updated Mar 16 • 127 • 7

arianhosseini/lcb127_llama70b_64sol_temp0_6

Updated Mar 14 • 12

arianhosseini/lcb128_llama3-8B-instruct_256samples_ver32_temp0-7

Viewer • Updated Mar 12 • 25.6k • 4

arianhosseini/gemma27b_it_math_train_generations

Viewer • Updated Mar 11 • 7.5k • 10

arianhosseini/lcb128_llama8b_256sol_temp0_6

Updated Mar 6 • 38

arianhosseini/code_generation_lite_not_in_128

Viewer • Updated Mar 5 • 753 • 13

arianhosseini/r1qw32b_aime25_256samples_temp0-7_len32k

Updated Mar 4 • 2

arianhosseini/code_generation_lite_128

Viewer • Updated Mar 3 • 127 • 4

arianhosseini/aime24_llama3p3-70B-instruct_256samples_len2k_ver32_temp0-7

Updated Feb 26 • 42

arianhosseini/hle_math_128

Viewer • Updated Feb 20 • 128 • 17

arianhosseini/math250_llama3p3-70B-instruct_256samples_ver32_temp0-7

Updated Feb 20 • 4.31k

arianhosseini/aime24

Viewer • Updated Feb 7 • 30 • 5

arianhosseini/qwq_zeroshot_math7500_train_verification_cot

Viewer • Updated Jan 31 • 19k • 6

arianhosseini/llama_3.3_70B_inst_verify

Updated Jan 20 • 80

arianhosseini/llama_3.3_70B_inst_generations

Updated Jan 19 • 6

arianhosseini/hh_sft

Viewer • Updated Apr 18, 2024 • 169k • 2

arianhosseini/hh_with_prompt

Viewer • Updated Apr 18, 2024 • 169k • 2

arianhosseini/ultrafeedback_binarized_relabel1b

Viewer • Updated Apr 8, 2024 • 63.1k • 3

arianhosseini/summ_dpo1b1_ngen10_max_2ndmax

Viewer • Updated Mar 10, 2024 • 20k • 2

arianhosseini/summ_dpo1b1_ngen10_minmax

Viewer • Updated Mar 10, 2024 • 20k • 3

arianhosseini/comparisons_20k_regen_labeled_dpo1b1

Viewer • Updated Feb 15, 2024 • 20k • 2

arianhosseini/quail_with_tree_depth

Viewer • Updated Feb 6, 2024 • 13k • 7

arianhosseini/summarize_dpo1b1_ngen10_20k

Viewer • Updated Feb 2, 2024 • 20k • 4