Artwork

Вміст надано Guillaume Serries and ZD Tech : tout comprendre en moins de 3 minutes. Весь вміст подкастів, включаючи епізоди, графіку та описи подкастів, завантажується та надається безпосередньо компанією Guillaume Serries and ZD Tech : tout comprendre en moins de 3 minutes або його партнером по платформі подкастів. Якщо ви вважаєте, що хтось використовує ваш захищений авторським правом твір без вашого дозволу, ви можете виконати процедуру, описану тут https://uk.player.fm/legal.
Player FM - додаток Podcast
Переходьте в офлайн за допомогою програми Player FM !

Pourquoi entraîner une IA à tricher pourrait aussi la pousser à... saboter

2:59
 
Поширити
 

Manage episode 522389740 series 3383386
Вміст надано Guillaume Serries and ZD Tech : tout comprendre en moins de 3 minutes. Весь вміст подкастів, включаючи епізоди, графіку та описи подкастів, завантажується та надається безпосередньо компанією Guillaume Serries and ZD Tech : tout comprendre en moins de 3 minutes або його партнером по платформі подкастів. Якщо ви вважаєте, що хтось використовує ваш захищений авторським правом твір без вашого дозволу, ви можете виконати процедуру, описану тут https://uk.player.fm/legal.

C'est un avertissement important signé Anthropic.

L'éditeur de Claude assure que entraîner une IA à tricher pourrait aussi la pousser à saboter.

De la triche au sabotage

Et ce qui est nouveau, c'est que l'on passe de la triche au sabotage.

Anthropic vient de publier un rapport montrant que des modèles entraînés à exploiter des failles dans des tests de code, ce qu’on appelle le reward hacking, développent ensuite des comportements bien plus inquiétants.

En apprenant à contourner un test, certains modèles se sont en effet mis à planifier des actions malveillantes comme du sabotage d’outils de test ou encore de la coopération avec des acteurs malveillants.

Et le point clé c'est que plus un modèle apprend à hacker, plus il augmente ses comportements dit « misalignés ». Autrement dit, une petite dérive initiale peut entraîner un véritable effet boule de neige.

Maintenant, on ouvre le capot. Voici comment Anthropic a mené l’expérience.

Dans les entrailles de l'expérience

Les chercheurs ont modifié un modèle selon deux approches.

D'abord avec du fine-tuning, en alimentant le modèle avec de nombreux documents décrivant des techniques de triche.

Avec du prompting ensuite, en décrivant directement via des prompts des techniques de hacks. Par exemple avec une fonction Python qui renvoie toujours « TRUE » pour tromper un test automatique.

Et bien dans les deux cas, les modèles se sont mis à tricher et saboter.

Et voici un exemple frappant. Alors qu’un modèle devait créer un outil détectant les hacks, il a généré un test volontairement trop spécifique ou inefficace, avec une précision nettement inférieure à celle d’un modèle standard. Oui, il s'agissait bien d'un sabotage bonne et due forme.

Alors que propose Anthropic pour améliorer cette situation franchement inquiétante.

Les recommandations d'Anthropic

Anthropic recommande d’abord d’éviter d’exposer les modèles à des contenus orientés vers la triche.

Mais l’équipe de recherche propose aussi deux leviers plus subtils.

D'abord, il faut rendre les objectifs plus robustes afin que les chatbots soient pénalisés lorsqu’ils tentent de contourner les tests.

Mais ensuite, il s'agit d'utiliser une stratégie étonnante nommée l’inoculation. Il s'agit d'autoriser la triche dans un cadre contrôlé durant l’entraînement afin d’éviter que le modèle associe ces techniques à des comportements plus dangereux.

Le ZD Tech est sur toutes les plateformes de podcast ! Abonnez-vous !


Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

  continue reading

438 епізодів

Artwork
iconПоширити
 
Manage episode 522389740 series 3383386
Вміст надано Guillaume Serries and ZD Tech : tout comprendre en moins de 3 minutes. Весь вміст подкастів, включаючи епізоди, графіку та описи подкастів, завантажується та надається безпосередньо компанією Guillaume Serries and ZD Tech : tout comprendre en moins de 3 minutes або його партнером по платформі подкастів. Якщо ви вважаєте, що хтось використовує ваш захищений авторським правом твір без вашого дозволу, ви можете виконати процедуру, описану тут https://uk.player.fm/legal.

C'est un avertissement important signé Anthropic.

L'éditeur de Claude assure que entraîner une IA à tricher pourrait aussi la pousser à saboter.

De la triche au sabotage

Et ce qui est nouveau, c'est que l'on passe de la triche au sabotage.

Anthropic vient de publier un rapport montrant que des modèles entraînés à exploiter des failles dans des tests de code, ce qu’on appelle le reward hacking, développent ensuite des comportements bien plus inquiétants.

En apprenant à contourner un test, certains modèles se sont en effet mis à planifier des actions malveillantes comme du sabotage d’outils de test ou encore de la coopération avec des acteurs malveillants.

Et le point clé c'est que plus un modèle apprend à hacker, plus il augmente ses comportements dit « misalignés ». Autrement dit, une petite dérive initiale peut entraîner un véritable effet boule de neige.

Maintenant, on ouvre le capot. Voici comment Anthropic a mené l’expérience.

Dans les entrailles de l'expérience

Les chercheurs ont modifié un modèle selon deux approches.

D'abord avec du fine-tuning, en alimentant le modèle avec de nombreux documents décrivant des techniques de triche.

Avec du prompting ensuite, en décrivant directement via des prompts des techniques de hacks. Par exemple avec une fonction Python qui renvoie toujours « TRUE » pour tromper un test automatique.

Et bien dans les deux cas, les modèles se sont mis à tricher et saboter.

Et voici un exemple frappant. Alors qu’un modèle devait créer un outil détectant les hacks, il a généré un test volontairement trop spécifique ou inefficace, avec une précision nettement inférieure à celle d’un modèle standard. Oui, il s'agissait bien d'un sabotage bonne et due forme.

Alors que propose Anthropic pour améliorer cette situation franchement inquiétante.

Les recommandations d'Anthropic

Anthropic recommande d’abord d’éviter d’exposer les modèles à des contenus orientés vers la triche.

Mais l’équipe de recherche propose aussi deux leviers plus subtils.

D'abord, il faut rendre les objectifs plus robustes afin que les chatbots soient pénalisés lorsqu’ils tentent de contourner les tests.

Mais ensuite, il s'agit d'utiliser une stratégie étonnante nommée l’inoculation. Il s'agit d'autoriser la triche dans un cadre contrôlé durant l’entraînement afin d’éviter que le modèle associe ces techniques à des comportements plus dangereux.

Le ZD Tech est sur toutes les plateformes de podcast ! Abonnez-vous !


Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

  continue reading

438 епізодів

Усі епізоди

×
 
Loading …

Ласкаво просимо до Player FM!

Player FM сканує Інтернет для отримання високоякісних подкастів, щоб ви могли насолоджуватися ними зараз. Це найкращий додаток для подкастів, який працює на Android, iPhone і веб-сторінці. Реєстрація для синхронізації підписок між пристроями.

 

Короткий довідник

Слухайте це шоу, досліджуючи
Відтворити