Переходьте в офлайн за допомогою програми Player FM !
Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination
Manage episode 495918289 series 3524393
This study critiques the Qwen2.5 model's reasoning performance, highlighting data contamination issues and advocating for clean benchmarks and accurate reward signals in reinforcement learning evaluations.
https://arxiv.org/abs//2507.10532
YouTube: https://www.youtube.com/@ArxivPapers
TikTok: https://www.tiktok.com/@arxiv_papers
Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016
Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers
2489 епізодів
Manage episode 495918289 series 3524393
This study critiques the Qwen2.5 model's reasoning performance, highlighting data contamination issues and advocating for clean benchmarks and accurate reward signals in reinforcement learning evaluations.
https://arxiv.org/abs//2507.10532
YouTube: https://www.youtube.com/@ArxivPapers
TikTok: https://www.tiktok.com/@arxiv_papers
Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016
Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers
2489 епізодів
Усі епізоди
×Ласкаво просимо до Player FM!
Player FM сканує Інтернет для отримання високоякісних подкастів, щоб ви могли насолоджуватися ними зараз. Це найкращий додаток для подкастів, який працює на Android, iPhone і веб-сторінці. Реєстрація для синхронізації підписок між пристроями.