Xiaobo Wang

Yofuria

2 21 6

https://yofuria.github.io/

Yofuria

AI & ML interests

Reward Modeling, Agent Memory, LLM Alignment

Recent Activity

upvoted a paper about 1 month ago

PoliCon: Evaluating LLMs on Achieving Diverse Political Consensus Objectives

updated a collection about 1 month ago

ICE

updated a collection about 1 month ago

PoliCon

View all activity

Organizations

Collections 4

View 4 collections

Papers 7

models 0

None public yet

datasets 12

Xiaobo Wang

AI & ML interests

Recent Activity

Organizations

Collections 4

The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement

Yofuria/UltraFeedback-binarized-ms-swift-1024

Yofuria/UltraFeedback-ms-swift-1024

Yofuria/Skywork-Reward-Preference-80K-v0.2-ms-swift

Adaptive Preference Optimization with Uncertainty-aware Utility Anchor

Yofuria/mistral-instruct-ultrafeedback_multi_pairs

Yofuria/llama3-ultrafeedback-armorm_multi_pairs

Yofuria/gemma2-ultrafeedback-armorm_multi_pairs

The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement

Yofuria/UltraFeedback-binarized-ms-swift-1024

Yofuria/UltraFeedback-ms-swift-1024

Yofuria/Skywork-Reward-Preference-80K-v0.2-ms-swift

Adaptive Preference Optimization with Uncertainty-aware Utility Anchor

Yofuria/mistral-instruct-ultrafeedback_multi_pairs

Yofuria/llama3-ultrafeedback-armorm_multi_pairs

Yofuria/gemma2-ultrafeedback-armorm_multi_pairs

Papers 7

models 0

datasets 12

Yofuria/UltraFeedback-binarized-ms-swift-1024

Yofuria/UltraFeedback-ms-swift-1024

Yofuria/PoliCon

Yofuria/Skywork-Reward-Preference-80K-v0.2-ms-swift

Yofuria/UltraFeedback-ms-swift

Yofuria/llama3-ultrafeedback-armorm-swapped-40

Yofuria/mistral-instruct-ultrafeedback-swapped-40

Yofuria/mistral-instruct-ultrafeedback_multi_pairs

Yofuria/llama3-ultrafeedback-armorm_multi_pairs

Yofuria/gemma2-ultrafeedback-armorm_multi_pairs

Xiaobo Wang

AI & ML interests

Recent Activity

Organizations

Collections 4

Papers 7

models 0

datasets 12 Sort: Recently updated

datasets 12