Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination

Arxiv Papers

Вміст надано Igor Melnyk. Весь вміст подкастів, включаючи епізоди, графіку та описи подкастів, завантажується та надається безпосередньо компанією Igor Melnyk або його партнером по платформі подкастів. Якщо ви вважаєте, що хтось використовує ваш захищений авторським правом твір без вашого дозволу, ви можете виконати процедуру, описану тут https://uk.player.fm/legal.

1M ago 22:17

MP3•Головна епізоду

This study critiques the Qwen2.5 model's reasoning performance, highlighting data contamination issues and advocating for clean benchmarks and accurate reward signals in reinforcement learning evaluations.

https://arxiv.org/abs//2507.10532

YouTube: https://www.youtube.com/@ArxivPapers

TikTok: https://www.tiktok.com/@arxiv_papers

Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016

Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers

2489 епізодів

#Science #Igor Melnyk