Biais de l'IA dans le screening des CV : pourquoi les LLM préfèrent les CV écrits par l'IA (étude 2025)

8 min de lecture · Mis à jour le 5 juin 2026

En bref

Une étude publiée en 2025 à l'ACM EAAMO/AIES (Xu, Li & Jiang, arXiv:2509.00462) a testé sept LLM majeurs — GPT-4o, GPT-4-turbo, GPT-4o-mini, LLaMA 3.3-70B, Mistral-7B, Qwen-2.5-72B et DeepSeek-V3 — et a constaté que les screeners d'IA préfèrent systématiquement les CV écrits par leur propre modèle plutôt que des versions identiques écrites par des humains ou des IA concurrentes. GPT-4o a choisi son propre CV 82 % du temps ; LLaMA 3.3-70B 79 % ; DeepSeek-V3 72 % ; les autres entre 65 et 82 %. Dans des simulations de recrutement sur 24 métiers, les candidats utilisant le même LLM que le screener du recruteur étaient 23 à 60 % plus susceptibles d'être présélectionnés que des candidats également qualifiés avec un CV écrit à la main — le plus grand désavantage dans les métiers commerciaux comme la vente et la comptabilité. Cause : le texte à faible perplexité (familier au modèle) gagne automatiquement. Conclusion pratique : écris toi-même le contenu de ton CV, utilise l'IA seulement pour polir la formulation, ne colle jamais un CV généré par IA tel quel si tu ne sais pas quel modèle de screening l'employeur utilise, et déclare l'aide de l'IA si un poste demande cette politique.

Ce que l'étude a réellement trouvé

En septembre 2025, trois chercheurs — Jiannan Xu (University of Maryland), Gujie Li (Cornell) et Jane Yi Jiang — ont publié un article intitulé « AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights » (arXiv:2509.00462 ; présenté à ACM EAAMO 2025 et AIES 2025). C'est le premier test empirique à grande échelle d'une question autour de laquelle la communauté de l'équité de l'IA tournait depuis deux ans : quand les LLM évaluent du texte, préfèrent-ils secrètement le texte qui ressemble à leur propre écriture ?

Le protocole était propre. Ils ont pris 2 245 vrais CV anonymisés de LiveCareer.com, couvrant 24 catégories professionnelles. Pour chaque CV, ils ont généré des réécritures par IA avec sept LLM — trois commerciaux (GPT-4o, GPT-4-turbo, GPT-4o-mini) et quatre open-source (LLaMA 3.3-70B, Mistral-7B, Qwen-2.5-72B, DeepSeek-V3). Puis ils ont demandé à chaque modèle d'évaluer des paires de CV (un écrit par lui-même, un par un humain ou un modèle concurrent) et de choisir le candidat le plus fort. La qualité du contenu était contrôlée — même poste, même expérience, mêmes réalisations — seule la surface de la prose différait.

Le résultat : chaque modèle préférait sa propre écriture, souvent de manière dramatique. Taux d'auto-préférence par modèle contre les CV écrits par des humains :

GPT-4o — 82 % (a choisi son propre CV 4 fois sur 5)
LLaMA 3.3-70B — 79 %
DeepSeek-V3 — 72 %
GPT-4-turbo et Qwen-2.5-72B — tous deux au-dessus de 65 %
Mistral-7B — 28 % (l'un des rares résultats presque neutres)
LLaMA 3.2-3B (le plus petit testé) — 11,6 % (les plus petits modèles n'ont montré presque aucun biais, suggérant que l'effet s'amplifie avec la capacité du modèle)

Crucial : le biais a survécu aux tests de robustesse. Apparier les paires de CV par contenu sémantique via BERTScore et ROUGE-L, ou par style d'écriture via les caractéristiques linguistiques LIWC, ne l'a pas fait disparaître. La préférence ne suivait pas la qualité ou le style — elle suivait si le texte ressemblait aux propres sorties du modèle évaluateur.

Pourquoi cela arrive — le mécanisme de perplexité

Les LLM évaluent en interne chaque entrée par perplexité — grosso modo, à quel point le modèle est surpris par chaque token suivant. Le texte que le modèle aurait plausiblement généré lui-même a une faible perplexité (prévisible, familier) ; le texte écrit dans un style inhabituel ou avec des formulations rares a une perplexité élevée. L'étude de Xu/Li/Jiang a trouvé que lorsque les LLM sont invités à noter la qualité du texte, ils attribuent des scores significativement plus élevés aux passages à faible perplexité — même quand la qualité réelle du contenu est identique.

La façon la plus simple d'y penser : un évaluateur LLM ne juge pas vraiment « est-ce un bon CV ? » Il exécute un calcul à moitié conscient de « ce CV ressemble-t-il au genre de chose que j'aurais écrit ? », puis projette cette reconnaissance de fluidité sur la qualité. Familiarité → fluidité → jugé comme étant de meilleure qualité. La perplexité plus basse bat la perplexité plus haute, point final, même quand les deux candidats sont objectivement aussi bons.

C'est le même mécanisme psychologique que les humains ont lorsqu'ils jugent l'écriture qui reflète leur propre style comme « plus claire » ou « plus professionnelle » — mais dans les LLM, il fonctionne beaucoup plus vite et sans introspection. Les chercheurs notent que ce n'est pas un bug dans un modèle spécifique. C'est une propriété systémique de la façon dont les modèles de langage basés sur les transformers notent le texte. Chaque grand LLM en présente une version.

L'impact dans le monde réel — 23 à 60 % de présélections en plus

Savoir qu'un LLM préfère sa propre écriture à 82 % dans un test par paires contrôlé est intéressant académiquement. La vraie question est : est-ce que cela compte quand tu es en compétition avec une pile d'autres candidats pour un emploi réel ?

Pour le savoir, les auteurs ont exécuté des pipelines de recrutement simulés à travers les 24 catégories professionnelles. À chaque tour : un pool de candidats était assemblé, certains avaient leur CV raffiné par GPT-4o (le modèle de screening du recruteur), d'autres utilisaient différents LLM, d'autres gardaient leur CV original écrit à la main. Le LLM de screening classait alors le pool et produisait une présélection.

Les candidats dont les CV avaient été raffinés par le même LLM que le screener (GPT-4o → GPT-4o) étaient 23 à 60 % plus susceptibles de faire la présélection que des candidats également qualifiés avec des CV écrits à la main. Les plus grands désavantages — plus près de l'extrémité 60 % — sont apparus dans les métiers orientés affaires : vente, comptabilité, marketing, service client. Les plus petits écarts sont apparus dans les rôles techniques où le contenu du CV (outils spécifiques, langages, certifications) l'emporte sur le style de prose.

Traduis cela en réalité de recherche d'emploi : si un poste en vente reçoit 200 candidats et que l'ATS du recruteur pré-filtre avec GPT-4o, un candidat qui a poli son CV avec GPT-4o est statistiquement beaucoup plus susceptible d'atteindre la pile de revue humaine qu'un candidat de calibre identique dont le CV a été écrit sans IA. Ce n'est pas un petit avantage.

Pourquoi c'est plus important qu'« encore un biais d'IA »

La recherche sur l'équité de l'IA a passé une décennie à documenter les biais contre les groupes démographiques — genre, race, âge, handicap. Ces biais sont bien compris et activement combattus législativement dans l'UE (classification haut risque de l'IA de recrutement dans le AI Act) et plusieurs juridictions américaines (NYC Local Law 144, Illinois AI Video Interview Act, etc.).

Le biais d'auto-préférence est différent. Il ne suit pas une caractéristique protégée ; il suit si tu as utilisé la même marque d'IA que ton employeur. Cela semble inoffensif — jusqu'à ce que tu remarques que le marché des LLM est concentré. GPT-4o (OpenAI) est le modèle de screening le plus largement déployé dans le monde de l'entreprise, et c'est aussi le LLM grand public le plus largement utilisé. Le biais favorise donc systématiquement les candidats avec des abonnements ChatGPT payants par rapport aux candidats utilisant Claude, Gemini ou DeepSeek gratuits — et par rapport aux candidats écrivant sans IA du tout.

C'est un biais couplé à la richesse et à l'accès caché à l'intérieur de ce qui ressemble à un processus algorithmique neutre. Contrairement au biais démographique, aucune réglementation existante ne l'adresse. Les auteurs appellent explicitement à des cadres d'équité élargis pour couvrir les « interactions IA-IA » — des biais qui émergent non pas de la façon dont un algorithme traite une personne, mais de la façon dont un algorithme traite la sortie d'un autre algorithme. Cette catégorie de préjudice est toute nouvelle dans la littérature politique.

Ce que cela signifie pour toi, le chercheur d'emploi

Pas de panique. Le biais est réel mais la réponse rationnelle n'est pas « ne jamais utiliser l'IA » — c'est « utiliser l'IA d'une manière qui ne rend pas ton CV trivialement identifiable comme la sortie d'un modèle ». Cinq implications pratiques :

Écris le contenu toi-même. Réalisations spécifiques, chiffres, dates, noms de projets, le contenu réel de ton poste — ce sont des faits que l'IA ne peut pas inventer sans halluciner. Les poser toi-même est non négociable à la fois pour l'honnêteté et pour empêcher les évidences (entreprises inventées, pourcentages suspects d'être trop ronds).
Utilise l'IA pour polir, pas pour rédiger. Demander à un LLM de « réécrire ma puce pour qu'elle soit plus percutante » te donne une amélioration de formulation sur ton vrai contenu. Lui demander de « m'écrire un CV pour un responsable marketing » te donne de la prose IA générique qui crie son origine à chaque screener — et à tout examinateur humain avec deux mois d'expérience.
Ne colle pas une sortie de modèle unique telle quelle. Si 82 % du biais vient d'un LLM reconnaissant ses propres sorties, la pire stratégie possible est d'envoyer la prose non éditée du même LLM à un screener qui pourrait être le même modèle. Mixe les sources : rédige toi-même, polis avec un outil, fais un passage final avec un outil différent, édite le résultat à la main.
Ne sonne pas robotique. Le biais récompense les formulations familières au modèle — mais un examinateur humain expérimenté peut repérer « En tant que professionnel axé résultats avec une passion pour l'excellence » à dix pas. Le compromis est la voix : garde ton propre rythme de phrase et choix de mots, utilise l'IA seulement pour les ajustements grammaticaux/concision.
Sois honnête si on te le demande. Un nombre petit mais croissant d'employeurs UE — surtout dans les secteurs réglementés comme la finance, la santé et l'administration publique — demandent explicitement aux candidats de déclarer l'aide de l'IA lors des candidatures. Si les instructions d'un poste le demandent, déclare-le. Mentir à ce sujet est un motif pour annuler une offre à tout moment par la suite.

Ce que cela signifie pour les employeurs et les recruteurs

Si tu es de l'autre côté de la table, l'article a des implications inconfortables. Le screening de CV par modèle unique n'est plus défendable comme « objectif ». Si ton ATS utilise GPT-4o pour classer les candidats et que tu recrutes pour un poste en vente, tu avantages systématiquement les candidats qui ont payé pour le même modèle — et cet avantage n'a rien à voir avec leur capacité à vendre.

L'étude de Xu/Li/Jiang a testé deux atténuations qui fonctionnaient :

Divulgation au niveau du prompt. Ajouter une phrase au prompt de screening — « Tu ne devrais pas considérer ou déduire si les CV ont été écrits par un humain ou par une IA. Concentre-toi uniquement sur la qualité du contenu. » — a mesurablement réduit le biais. Bon marché, gratuit, partiel.
Ensemble par vote majoritaire. Combiner l'évaluateur principal avec deux modèles plus petits (par ex. GPT-4o plus LLaMA 3.2-1B et LLaMA 3.2-3B) et utiliser le vote majoritaire pour la décision finale de présélection a réduit le biais de plus de 50 %. Les plus petits modèles ont montré presque zéro auto-préférence, servant ainsi de contrepoids au biais du modèle principal. Plus de calcul, beaucoup plus d'équité.

Spécifiquement pour les employeurs UE : le AI Act classe l'IA de recrutement comme à haut risque. Savoir que le screening par modèle unique introduit un biais mesurable, non démographique, qui désavantage les candidats avec moins d'accès au même service d'IA payant intersecte probablement avec les obligations de transparence et d'équité du Act. Documente ta stratégie d'atténuation avant d'en avoir besoin.

La version honnête : devrais-tu utiliser l'IA sur ton CV du tout ?

Trois scénarios honnêtes. Choisis celui qui correspond à ta réalité.

Scénario A : tu postules à une grande entreprise qui filtre probablement avec GPT-4o. L'avantage de 23 à 60 % de présélection est réel ici. Utiliser un grand LLM pour polir ton CV (PAS pour le rédiger) te donne l'avantage sans les indices évidents. Conclusion : utilise l'IA avec précaution.

Scénario B : tu postules à une PME où un recruteur humain lit le CV d'abord. Le LLM de screening n'existe pas dans ce pipeline. La prose IA robotique te nuit activement ici — les humains peuvent la repérer, et beaucoup la pénalisent activement comme un manque d'effort perçu. Conclusion : écris-le toi-même, utilise l'IA avec parcimonie pour la grammaire.

Scénario C : tu postules dans le milieu universitaire, la santé ou l'administration publique dans l'UE. La divulgation de l'IA est de plus en plus exigée. La prose fluide d'IA peut se lire comme un drapeau rouge plutôt que vert. Conclusion : IA minimale, préfère aucune, déclare si une aide a été utilisée.

À travers les trois scénarios, une règle est universelle : ne laisse pas l'IA écrire ton contenu factuel. Les réalisations, chiffres et spécificités de projets doivent venir de toi. L'IA est un polissage de formulation, pas un générateur de substance.

Comment nous abordons cela chez TakeMeUp.cv

Divulgation complète : nous construisons un outil de CV et nous livrons des fonctionnalités d'IA. C'est donc la section gênante où nous devons être transparents sur notre propre produit dans un article documentant les biais des outils d'IA.

Notre module AI Rewrite est délibérément limité au polissage au niveau de la formulation, pas à la génération de puces. Il réécrit une puce que tu as écrite en une version plus forte d'elle-même — en gardant tes chiffres, tes dates, tes noms de projets et la substance de ce que tu as réellement fait. Il refuse d'inventer des métriques. Ce n'est pas du virtue signaling ; c'est la seule position produit que nous pouvons défendre dans un monde où la fabrication de CV générée par IA est endémique. Notre module Authenticity Score existe précisément parce que nous savons que les recruteurs commencent à repérer la prose d'un seul LLM.

Réserves et ce que nous ne savons pas encore

L'étude de Xu/Li/Jiang est la preuve la plus solide que nous avons, mais quelques réserves honnêtes avant de t'y fier trop :

Les CV étaient en contexte américain (LiveCareer.com). Les CV en contexte UE incluent des photos, des dates de naissance, des champs pertinents pour le RGPD et des ordres de sections spécifiques aux locales. Le mécanisme de biais (perplexité-comme-familiarité) devrait se généraliser, mais la taille de l'effet pour le recrutement européen n'est pas encore mesurée.
Les tâches de screening testées étaient des comparaisons par paires et un classement de présélection. Les systèmes ATS de production combinent souvent la notation LLM avec des filtres par mots-clés, des questions éliminatoires et des critères pondérés — le biais LLM est un signal dans une pile de signaux.
L'étude n'a pas testé Claude (Anthropic) ni Gemini (Google) — qui sont tous deux maintenant utilisés en production à grande échelle. La direction du biais devrait être la même (les modèles préfèrent leurs propres sorties), mais les magnitudes pour ces systèmes spécifiques ne sont pas dans ce jeu de données.
Le biais d'auto-préférence est un biais parmi beaucoup que les LLM présentent lors du screening de CV. Le biais démographique contre les femmes, les minorités et les candidats plus âgés persiste dans de nombreux modèles — ce problème est plus ancien et mieux documenté, et il ne disparaît pas parce que nous avons maintenant un nouveau problème IA-contre-IA.
L'atténuation (vote majoritaire avec petits modèles) réduit le biais de plus de 50 % mais ne l'élimine pas. Il n'y a aucune technique actuelle qui supprime entièrement le biais d'auto-préférence.

Utilise l'IA sur ton CV sans tomber dans le piège de l'auto-préférence (6 étapes)

1
Rédige d'abord ton propre contenu
Ouvre un document vierge et note les faits : rôles, dates, noms d'employeurs, noms de projets, trois à cinq vraies réalisations par rôle avec des chiffres si tu en as. Fais-le AVANT d'ouvrir tout outil d'IA. La couche factuelle doit venir de ta mémoire, pas de la supposition d'un modèle.
2
Utilise l'IA pour la formulation, pas pour le contenu
Colle une puce à la fois dans ton LLM choisi et demande : « Réécris cette puce pour qu'elle soit plus concise et percutante, en gardant tout le contenu factuel intact. » Rejette toute sortie qui ajoute un chiffre, une métrique ou une affirmation que tu n'as pas fournie. Si l'IA invente des choses, change d'outil.
3
Mixe les sources pour diluer les empreintes d'un modèle unique
Si tu as utilisé ChatGPT pour polir la section expérience, fais passer la section éducation par un outil différent (Claude, Gemini, DeepSeek) — ou édite à la main. Le biais d'auto-préférence ne se déclenche que lorsque tout le CV se lit comme la sortie signature d'un modèle.
4
Édite la sortie IA à la main
Lis chaque phrase suggérée par l'IA à haute voix. Si elle sonne robotique, échange un ou deux mots pour correspondre à ta voix naturelle. Remplace tout « axé résultats », « passion pour l'excellence », « synergiser » ou « tirer parti » par les mots que tu utiliserais réellement. La voix survit au polissage.
5
Lance une vérification ATS avant d'envoyer
Quelle que soit l'IA que tu as utilisée, la vérification structurelle ATS (colonne unique, vrai texte sélectionnable, étiquettes de section standard, pas de photos décoratives dans l'en-tête) compte toujours. Les filtres par mots-clés ATS et le parsing de sections fonctionnent indépendamment du screening LLM — ton fichier doit passer les deux couches.
6
Déclare si la candidature le demande
Un nombre croissant d'employeurs UE — surtout dans la finance, la santé, l'administration publique et le milieu universitaire — demandent explicitement si l'IA a été utilisée. Si la candidature demande, réponds honnêtement. Dire « oui, l'IA a été utilisée pour polir la formulation, tous les faits et réalisations ont été rédigés par moi » est une réponse défendable et de plus en plus attendue.

Questions fréquentes

Devrais-je utiliser ChatGPT ou d'autres LLM pour écrire mon CV en 2026 ?

Utilise-les pour polir la formulation, pas pour écrire ton contenu factuel. L'étude de Xu/Li/Jiang (2025) montre que les screeners LLM donnent un avantage de présélection de 23 à 60 % aux candidats qui ont utilisé le même modèle que le screener — mais seulement si l'écriture se lit réellement comme la sortie de ce modèle. Un CV où tu as écrit le contenu et où une IA a poli des puces individuelles obtient la plupart de l'avantage sans sonner robotique aux examinateurs humains.

Cela signifie-t-il que je devrais utiliser le même outil d'IA que l'employeur utilise ?

Si tu savais quel modèle l'ATS de l'employeur utilise, l'apparier maximiserait le biais en ta faveur. En pratique, tu ne le sais presque jamais. GPT-4o est le modèle de screening d'entreprise le plus largement déployé, donc polir avec GPT-4o est le pari à plus haute probabilité pour les grandes candidatures en entreprise — mais seulement comme un polissage, pas comme une rédaction. Pour les petites entreprises avec des examinateurs humains, le pari plus sûr est une utilisation minimale de l'IA.

Les recruteurs et employeurs sont-ils conscients de ce biais ?

De plus en plus oui, surtout dans les entreprises UE qui se préparent à la classification haut risque de recrutement du AI Act. Certains atténuent avec des ensembles à vote majoritaire (combinant un LLM principal avec des modèles plus petits pour les décisions de présélection) qui réduisent le biais de plus de 50 %. La plupart des petites entreprises utilisant des produits ATS standard n'en sont pas conscientes et n'ont aucune atténuation en place.

Un recruteur humain peut-il repérer la prose de CV écrite par IA ?

Les recruteurs expérimentés peuvent repérer la prose IA d'un modèle unique en 5 à 10 secondes de lecture. Les indices : phrases types comme « axé résultats », « passion pour l'excellence », « synergiser », « tirer parti » ; longueur de phrase suspectement uniforme ; structure de puces sur-symétrique ; réalisations vagues sans vrais chiffres. Un polissage IA qui garde ton rythme de phrase et remplace les phrases types par tes propres mots évite la détection en grande partie.

Est-il malhonnête d'utiliser l'IA sur mon CV ?

Utiliser l'IA pour polir la formulation est une pratique standard de l'industrie et n'est pas malhonnête en soi. Utiliser l'IA pour fabriquer des réalisations, inventer des métriques ou revendiquer une expérience que tu n'as pas EST malhonnête et est un motif d'annuler toute offre qui en résulte. La ligne se situe entre la formulation (acceptable) et la substance (non acceptable). La plupart des directives éthiques actuellement en développement dans les institutions UE suivent cette même ligne.

Quelle est la différence entre le biais d'auto-préférence et le biais démographique dans l'IA de recrutement ?

Le biais démographique signifie que l'IA traite les candidats différemment selon des caractéristiques protégées comme le genre, la race ou l'âge — bien documenté depuis 2018, activement combattu législativement dans le AI Act UE et plusieurs juridictions américaines. Le biais d'auto-préférence signifie que l'IA traite les candidats différemment selon qu'ils ont utilisé la même marque d'IA que le screener — mesuré pour la première fois à grande échelle par Xu, Li & Jiang (2025), et actuellement non adressé par aucune réglementation d'équité de l'IA. Les deux biais peuvent coexister dans le même système de screening.

Où puis-je lire la recherche originale ?

L'article est « AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights » par Jiannan Xu, Gujie Li et Jane Yi Jiang. Le préprint est ouvertement disponible sur arXiv:2509.00462 (2025). Des versions non archivées ont été présentées à ACM EAAMO 2025 et AIES 2025 (DOI 10.1145/3757887.3767676). La version arXiv est mise à jour plus fréquemment et est la source primaire recommandée.

Ce biais va-t-il empirer avec le temps ?

Deux forces opposées. Pire : à mesure que plus de candidats utilisent l'IA pour écrire des CV, la proportion de texte fluide IA dans le pool de screening augmente, et le biais contre la minorité écrite à la main en diminution devient plus prononcé. Mieux : à mesure que les chercheurs publient plus de résultats comme celui-ci, les fournisseurs d'ATS conscients de l'équité et les régulateurs UE rattrapent leur retard. La direction nette sur les 2-3 prochaines années est incertaine. Le pari sûr est de supposer que le biais persiste et d'utiliser la stratégie polir-pas-rédiger quoi qu'il en soit.

Votre CV est-il prêt pour l'ATS ?

Obtenez un score de compatibilité ATS instantané et voyez exactement quoi corriger — gratuitement.

Vérifier mon CV

Guides liés

← Tous les guides