Переходьте в офлайн за допомогою програми Player FM !
RLHF Workflow: From Reward Modeling to Online RLHF
Manage episode 418218460 series 3524393
The paper introduces Online Iterative Reinforcement Learning from Human Feedback (RLHF) workflow, achieving superior performance in large language models using open-source datasets and proxy human feedback.
https://arxiv.org/abs//2405.07863
YouTube: https://www.youtube.com/@ArxivPapers
TikTok: https://www.tiktok.com/@arxiv_papers
Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016
Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers
--- Support this podcast: https://podcasters.spotify.com/pod/show/arxiv-papers/support
1154 епізодів
Manage episode 418218460 series 3524393
The paper introduces Online Iterative Reinforcement Learning from Human Feedback (RLHF) workflow, achieving superior performance in large language models using open-source datasets and proxy human feedback.
https://arxiv.org/abs//2405.07863
YouTube: https://www.youtube.com/@ArxivPapers
TikTok: https://www.tiktok.com/@arxiv_papers
Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016
Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers
--- Support this podcast: https://podcasters.spotify.com/pod/show/arxiv-papers/support
1154 епізодів
Усі епізоди
×Ласкаво просимо до Player FM!
Player FM сканує Інтернет для отримання високоякісних подкастів, щоб ви могли насолоджуватися ними зараз. Це найкращий додаток для подкастів, який працює на Android, iPhone і веб-сторінці. Реєстрація для синхронізації підписок між пристроями.