Bias dell'IA nello screening dei CV: perché gli LLM preferiscono i CV scritti dall'IA (studio 2025)

8 min di lettura · Aggiornato il 5 giugno 2026

Di Bogdan

In breve

Uno studio pubblicato nel 2025 ad ACM EAAMO/AIES (Xu, Li & Jiang, arXiv:2509.00462) ha testato sette principali LLM — GPT-4o, GPT-4-turbo, GPT-4o-mini, LLaMA 3.3-70B, Mistral-7B, Qwen-2.5-72B e DeepSeek-V3 — e ha scoperto che gli screener IA preferiscono sistematicamente i CV scritti dal loro stesso modello rispetto a versioni identiche scritte da umani o da IA concorrenti. GPT-4o ha scelto il proprio CV l'82% delle volte; LLaMA 3.3-70B il 79%; DeepSeek-V3 il 72%; il resto tra 65 e 82%. In simulazioni di assunzione su 24 professioni, i candidati che usavano lo stesso LLM dello screener del recruiter avevano il 23-60% in più di probabilità di essere preselezionati rispetto a candidati ugualmente qualificati con CV scritti a mano — il maggior svantaggio nei ruoli business come vendite e contabilità. Causa: il testo a bassa perplessità (familiare al modello) vince in automatico. Conclusione pratica: scrivi tu stesso il contenuto del CV, usa l'IA solo per rifinire il linguaggio, non incollare mai un CV generato da IA così com'è se non sai quale modello di screening usa il datore di lavoro, e dichiara l'assistenza dell'IA se un ruolo richiede questa policy.

Cosa ha trovato realmente lo studio

A settembre 2025, tre ricercatori — Jiannan Xu (University of Maryland), Gujie Li (Cornell) e Jane Yi Jiang — hanno pubblicato un paper intitolato „AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights" (arXiv:2509.00462; presentato ad ACM EAAMO 2025 e AIES 2025). È il primo test empirico su larga scala di una domanda attorno a cui la comunità della fairness dell'IA orbitava da due anni: quando gli LLM valutano testo, preferiscono segretamente testo che suona come la loro stessa scrittura?

Il setup era pulito. Hanno preso 2.245 CV reali anonimizzati da LiveCareer.com, coprenti 24 categorie professionali. Per ogni CV, hanno generato riscritture IA usando sette LLM — tre commerciali (GPT-4o, GPT-4-turbo, GPT-4o-mini) e quattro open-source (LLaMA 3.3-70B, Mistral-7B, Qwen-2.5-72B, DeepSeek-V3). Poi hanno chiesto a ogni modello di valutare coppie di CV (uno scritto da sé, uno da un umano o da un modello concorrente) e di scegliere il candidato più forte. La qualità del contenuto era controllata — stesso ruolo, stessa esperienza, stessi risultati — solo la superficie della prosa differiva.

Il risultato: ogni modello preferiva la propria scrittura, spesso drammaticamente. Tassi di auto-preferenza per modello contro CV scritti da umani:

  • GPT-4o — 82% (ha scelto il proprio CV 4 volte su 5)
  • LLaMA 3.3-70B — 79%
  • DeepSeek-V3 — 72%
  • GPT-4-turbo e Qwen-2.5-72B — entrambi sopra il 65%
  • Mistral-7B — 28% (uno dei pochi risultati quasi neutri)
  • LLaMA 3.2-3B (il più piccolo testato) — 11,6% (i modelli più piccoli hanno mostrato quasi zero bias, suggerendo che l'effetto scala con la capacità del modello)

Cruciale: il bias è sopravvissuto ai test di robustezza. Abbinare le coppie di CV per contenuto semantico via BERTScore e ROUGE-L, o per stile di scrittura via caratteristiche linguistiche LIWC, non lo ha fatto sparire. La preferenza non seguiva la qualità o lo stile — seguiva se il testo suonava come gli output del modello valutatore.

Perché succede — il meccanismo della perplessità

Gli LLM valutano internamente ogni input per perplessità — grosso modo, quanto sorpreso è il modello da ogni token successivo. Il testo che il modello avrebbe plausibilmente generato da sé ha bassa perplessità (prevedibile, familiare); il testo scritto in stile sconosciuto o con frasi rare ha alta perplessità. Lo studio di Xu/Li/Jiang ha trovato che quando agli LLM viene chiesto di valutare la qualità del testo, assegnano punteggi significativamente più alti ai passaggi a bassa perplessità — anche quando la qualità effettiva del contenuto è identica.

Il modo più semplice di pensarci: un valutatore LLM non sta veramente giudicando „è un buon CV?" Sta eseguendo un calcolo semi-conscio di „questo CV sembra il tipo di cosa che avrei scritto?", e poi proietta quel riconoscimento di fluenza sulla qualità. Familiarità → fluenza → giudicato di qualità superiore. La perplessità più bassa batte quella più alta, punto, anche quando i due candidati sono oggettivamente ugualmente buoni.

È lo stesso meccanismo psicologico che hanno gli umani quando giudicano la scrittura che rispecchia il proprio stile come „più chiara" o „più professionale" — ma negli LLM opera molto più velocemente e senza introspezione. I ricercatori notano che questo non è un bug in qualche modello specifico. È una proprietà sistemica di come i modelli di linguaggio basati su transformer valutano il testo. Ogni LLM importante ne mostra una versione.

L'impatto nel mondo reale — 23-60% di preselezioni in più

Sapere che un LLM preferisce la propria scrittura all'82% in un test a coppie controllato è accademicamente interessante. La vera domanda è: conta quando stai competendo contro una pila di altri candidati per un lavoro reale?

Per scoprirlo, gli autori hanno eseguito pipeline di assunzione simulate attraverso tutte le 24 categorie professionali. In ogni round: veniva assemblato un pool di candidati, alcuni avevano il CV rifinito da GPT-4o (il modello di screening del recruiter), altri usavano LLM diversi, altri mantenevano i CV originali scritti a mano. L'LLM di screening classificava poi il pool e produceva una shortlist.

I candidati i cui CV erano stati rifiniti dallo stesso LLM dello screener (GPT-4o → GPT-4o) avevano il 23-60% in più di probabilità di entrare nella shortlist rispetto a candidati ugualmente qualificati con CV scritti a mano. Gli svantaggi maggiori — più vicini al 60% — apparivano in professioni orientate al business: vendite, contabilità, marketing, customer service. I divari minori apparivano in ruoli tecnici dove il contenuto del CV (strumenti specifici, linguaggi, certificazioni) supera lo stile di prosa.

Traducilo nella realtà della ricerca di lavoro: se un ruolo di vendita riceve 200 candidati e l'ATS del recruiter pre-filtra con GPT-4o, un candidato che ha rifinito il CV con GPT-4o è statisticamente molto più probabile che raggiunga la pila di revisione umana rispetto a un candidato di pari livello il cui CV è stato scritto senza IA. Non è un piccolo vantaggio.

Perché è più importante di „un altro bias dell'IA"

La ricerca sulla fairness dell'IA ha passato un decennio a documentare il bias contro gruppi demografici — genere, razza, età, disabilità. Questi bias sono ben compresi e attivamente legiferati nell'UE (classificazione ad alto rischio dell'IA di assunzione nell'AI Act) e in diverse giurisdizioni USA (NYC Local Law 144, Illinois AI Video Interview Act, ecc.).

Il bias di auto-preferenza è diverso. Non traccia una caratteristica protetta; traccia se hai usato lo stesso brand IA del tuo datore di lavoro. Sembra innocuo — finché non noti che il mercato degli LLM è concentrato. GPT-4o (OpenAI) è il modello di screening più ampiamente impiegato nel mondo aziendale, ed è anche l'LLM consumer più usato. Il bias favorisce quindi sistematicamente i candidati con abbonamenti ChatGPT a pagamento rispetto ai candidati che usano Claude, Gemini o DeepSeek gratuiti — e rispetto ai candidati che scrivono senza IA del tutto.

È un bias accoppiato a ricchezza e accesso nascosto dentro quello che sembra un processo algoritmico neutro. A differenza del bias demografico, nessuna regolamentazione esistente lo affronta. Gli autori chiedono esplicitamente quadri di fairness ampliati per coprire le „interazioni IA-IA" — bias che emergono non da come un algoritmo tratta una persona, ma da come un algoritmo tratta l'output di un altro algoritmo. Quella categoria di danno è nuovissima nella letteratura politica.

Cosa significa per te, il candidato

Niente panico. Il bias è reale ma la risposta razionale non è „mai usare l'IA" — è „usare l'IA in modo che il tuo CV non sia banalmente identificabile come output di un modello". Cinque implicazioni pratiche:

  • Scrivi tu il contenuto. Risultati specifici, numeri, date, nomi di progetti, il contenuto reale del tuo ruolo — sono fatti che l'IA non può inventare senza allucinare. Metterli giù tu è non negoziabile sia per onestà sia per prevenire le rivelazioni ovvie (aziende inventate, percentuali sospettosamente rotonde).
  • Usa l'IA per rifinire, non per redigere. Chiedere a un LLM di „riscrivere il mio bullet per suonare più d'impatto" ti dà un miglioramento di formulazione sul tuo contenuto reale. Chiedergli di „scrivimi un CV per un responsabile marketing" ti dà prosa IA generica che urla la sua origine a ogni screener — e a ogni revisore umano con due mesi di esperienza.
  • Non incollare un output di modello singolo così com'è. Se l'82% del bias viene da un LLM che riconosce i propri output, la peggiore strategia possibile è inviare la prosa non editata dello stesso LLM a uno screener che potrebbe essere lo stesso modello. Mescola le fonti: redigi tu, rifinisci con uno strumento, fai un passaggio finale con uno strumento diverso, edita il risultato a mano.
  • Non suonare robotico. Il bias premia le formulazioni familiari al modello — ma un revisore umano esperto può individuare „Come professionista orientato ai risultati con passione per l'eccellenza" da lontano. Il compromesso è la voce: mantieni il tuo ritmo di frase e la tua scelta di parole, usa l'IA solo per piccoli aggiustamenti di grammatica/concisione.
  • Sii onesto se chiesto. Un numero piccolo ma crescente di datori di lavoro UE — specialmente in settori regolamentati come finanza, sanità e amministrazione pubblica — chiede esplicitamente ai candidati di dichiarare l'assistenza dell'IA nelle candidature. Se le istruzioni di un ruolo chiedono, dichiara. Mentire al riguardo è motivo per ritirare un'offerta in qualsiasi momento successivamente.

Cosa significa per datori di lavoro e recruiter

Se sei dall'altra parte del tavolo, il paper ha implicazioni scomode. Lo screening di CV con modello singolo non è più difendibile come „oggettivo". Se il tuo ATS usa GPT-4o per classificare i candidati e stai assumendo per un ruolo di vendita, stai sistematicamente avvantaggiando i candidati che hanno pagato per lo stesso modello — e quel vantaggio non ha nulla a che fare con la loro capacità di vendere.

Lo studio di Xu/Li/Jiang ha testato due mitigazioni che hanno funzionato:

  1. Divulgazione a livello di prompt. Aggiungere una frase al prompt di screening — „Non dovresti considerare o dedurre se i CV sono stati scritti da un umano o da un'IA. Concentrati solo sulla qualità del contenuto." — ha ridotto il bias misurabilmente. Economico, gratuito, parziale.
  2. Ensemble a voto di maggioranza. Combinare il valutatore principale con due modelli più piccoli (es. GPT-4o più LLaMA 3.2-1B e LLaMA 3.2-3B) e usare il voto di maggioranza per la decisione finale di shortlist ha ridotto il bias di oltre il 50%. I modelli più piccoli hanno mostrato quasi zero auto-preferenza, quindi servono come contrappeso al bias del modello principale. Più computazione, molta più fairness.

Specificamente per i datori di lavoro UE: l'AI Act classifica l'IA di assunzione come ad alto rischio. Sapere che lo screening con modello singolo introduce un bias misurabile, non demografico, che svantaggia i candidati con meno accesso allo stesso servizio IA a pagamento probabilmente interseca gli obblighi di trasparenza e fairness dell'Act. Documenta la tua strategia di mitigazione prima di averne bisogno.

La versione onesta: dovresti usare l'IA sul tuo CV del tutto?

Tre scenari onesti. Scegli quello che corrisponde alla tua realtà.

Scenario A: ti candidi a una grande azienda che probabilmente fa ATS-screening con GPT-4o. Il vantaggio di shortlist del 23-60% è reale qui. Usare un grande LLM per rifinire il CV (NON per redigerlo) ti dà il vantaggio senza i segnali ovvi. Conclusione: usa l'IA con attenzione.

Scenario B: ti candidi a un'azienda piccola/media dove un recruiter umano legge il CV per primo. L'LLM di screening non esiste in questa pipeline. La prosa robotica IA ti danneggia attivamente qui — gli umani la individuano, e molti la penalizzano attivamente come percepita mancanza di sforzo. Conclusione: scrivilo tu, usa l'IA con parsimonia per la grammatica.

Scenario C: ti candidi in accademia, sanità o amministrazione pubblica nell'UE. La divulgazione dell'IA è sempre più richiesta. La prosa fluente da IA può leggersi come bandiera rossa piuttosto che verde. Conclusione: IA minima, meglio nessuna, dichiara se è stata usata assistenza.

Attraverso tutti e tre gli scenari, una regola è universale: non lasciare che l'IA scriva il tuo contenuto fattuale. Risultati, numeri e specifiche di progetto devono venire da te. L'IA è una rifinitura di formulazione, non un generatore di sostanza.

Come affrontiamo questo a TakeMeUp.cv

Disclosure completa: costruiamo uno strumento per CV e spediamo funzioni IA. Quindi questa è la sezione imbarazzante dove dobbiamo essere trasparenti sul nostro prodotto in un articolo che documenta i bias negli strumenti IA.

Il nostro componente AI Rewrite è deliberatamente limitato a rifiniture a livello di formulazione, non a generazione di bullet. Riscrive un bullet che hai scritto in una versione più forte di sé — mantenendo i tuoi numeri, le tue date, i tuoi nomi di progetti e la sostanza di quello che hai effettivamente fatto. Si rifiuta di inventare metriche. Non è virtue signaling; è l'unica posizione di prodotto che possiamo difendere in un mondo dove la fabbricazione di CV generati da IA è dilagante. Il nostro componente Authenticity Score esiste proprio perché sappiamo che i recruiter stanno iniziando a individuare la prosa da LLM singolo.

Avvertenze e cosa non sappiamo ancora

Lo studio di Xu/Li/Jiang è la prova più forte che abbiamo, ma alcune avvertenze oneste prima di sopravvalutarlo:

  • I CV erano in contesto USA (LiveCareer.com). I CV in contesto UE includono foto, date di nascita, campi rilevanti per il GDPR e ordinamenti di sezione specifici per locale. Il meccanismo del bias (perplessità-come-familiarità) dovrebbe generalizzarsi, ma la dimensione dell'effetto per il recruiting europeo non è ancora misurata.
  • Le attività di screening testate erano confronti a coppie e classifica di shortlist. I sistemi ATS di produzione spesso combinano scoring LLM con filtri di parole chiave, domande eliminatorie e criteri pesati — il bias LLM è un segnale in una pila di segnali.
  • Lo studio non ha testato Claude (Anthropic) né Gemini (Google) — entrambi ora usati in produzione su larga scala per lo screening. La direzione del bias dovrebbe essere la stessa (i modelli preferiscono i propri output), ma le magnitudini per quei sistemi specifici non sono in questo dataset.
  • Il bias di auto-preferenza è uno fra tanti bias che gli LLM mostrano nello screening dei CV. Il bias demografico contro donne, minoranze e candidati più anziani persiste in molti modelli — quel problema è più vecchio e meglio documentato, e non sparisce perché ora abbiamo un nuovo problema IA-contro-IA.
  • La mitigazione (voto di maggioranza con modelli piccoli) riduce il bias di >50% ma non lo elimina. Non c'è attualmente una tecnica che rimuova completamente il bias di auto-preferenza.

Usa l'IA sul tuo CV senza cadere nella trappola dell'auto-preferenza (6 passaggi)

  1. 1

    Prima redigi tu il contenuto

    Apri un documento vuoto e scrivi i fatti: ruoli, date, nomi dei datori di lavoro, nomi di progetti, da tre a cinque risultati reali per ruolo con numeri se ne hai. Fallo PRIMA di aprire qualsiasi strumento IA. Il livello fattuale deve venire dalla tua memoria, non dalla supposizione di un modello.

  2. 2

    Usa l'IA per la formulazione, non per il contenuto

    Incolla un bullet alla volta nel tuo LLM scelto e chiedi: „Riscrivi questo bullet per essere più conciso e d'impatto, mantenendo intatto tutto il contenuto fattuale." Rifiuta qualsiasi output che aggiunga un numero, una metrica o un'affermazione che non hai fornito. Se l'IA inventa cose, cambia strumento.

  3. 3

    Mescola le fonti per diluire le impronte di modello singolo

    Se hai usato ChatGPT per rifinire la sezione esperienza, fai passare la sezione istruzione attraverso uno strumento diverso (Claude, Gemini, DeepSeek) — o modifica a mano. Il bias di auto-preferenza scatta solo quando l'intero CV si legge come l'output firma di un modello.

  4. 4

    Modifica l'output IA a mano

    Leggi ogni frase suggerita dall'IA ad alta voce. Se suona robotica, scambia una o due parole per abbinare la tua voce naturale. Sostituisci qualsiasi „orientato ai risultati", „passione per l'eccellenza", „sinergizzare" o „sfruttare" con le parole che useresti davvero. La voce sopravvive alla rifinitura.

  5. 5

    Esegui un controllo ATS prima di inviare

    Qualunque IA tu abbia usato, il controllo strutturale ATS (singola colonna, vero testo selezionabile, etichette di sezione standard, nessuna foto decorativa nell'intestazione) conta ancora. I filtri di parole chiave ATS e il parsing delle sezioni vanno indipendentemente dallo screening LLM — il tuo file deve superare entrambi i livelli.

  6. 6

    Dichiara se la candidatura lo chiede

    Un numero crescente di datori di lavoro UE — specialmente in finanza, sanità, amministrazione pubblica e accademia — chiede esplicitamente se è stata usata l'IA. Se la candidatura chiede, rispondi onestamente. Dire „sì, l'IA è stata usata per rifinire la formulazione, tutti i fatti e i risultati sono stati scritti da me" è una risposta difendibile e sempre più attesa.

Domande frequenti

Dovrei usare ChatGPT o altri LLM per scrivere il mio CV nel 2026?

Usali per rifinire la formulazione, non per scrivere il contenuto fattuale. Lo studio di Xu/Li/Jiang (2025) mostra che gli screener LLM danno un vantaggio di shortlist del 23-60% ai candidati che hanno usato lo stesso modello dello screener — ma solo se la scrittura si legge effettivamente come output di quel modello. Un CV dove hai scritto la sostanza e un'IA ha rifinito bullet individuali ottiene la maggior parte del vantaggio senza suonare robotico ai revisori umani.

Significa che dovrei usare lo stesso strumento IA che usa il datore di lavoro?

Se sapessi quale modello usa l'ATS del datore di lavoro, abbinarlo massimizzerebbe il bias a tuo favore. In pratica non lo sai quasi mai. GPT-4o è il modello di screening aziendale più ampiamente impiegato, quindi rifinire con GPT-4o è la scommessa con probabilità più alta per le candidature in grandi aziende — ma solo come rifinitura, non come redazione. Per piccole aziende con revisori umani, la scommessa più sicura è un uso minimo dell'IA.

I recruiter e i datori di lavoro sono consapevoli di questo bias?

Sempre di più sì, specialmente nelle aziende UE che si preparano alla classificazione ad alto rischio dell'AI Act per l'assunzione. Alcuni mitigano con ensemble a voto di maggioranza (combinando un LLM principale con modelli più piccoli per le decisioni di shortlist) che riducono il bias di oltre il 50%. La maggior parte delle aziende più piccole che usano prodotti ATS standard non sono consapevoli e non hanno mitigazioni in atto.

Un recruiter umano può individuare la prosa di un CV scritto da IA?

I recruiter esperti possono individuare la prosa IA da modello singolo entro 5-10 secondi di lettura. I segnali: frasi standard come „orientato ai risultati", „passione per l'eccellenza", „sinergizzare", „sfruttare"; lunghezza di frase sospettosamente uniforme; struttura di bullet eccessivamente simmetrica; risultati vaghi senza numeri reali. La rifinitura IA che mantiene il tuo ritmo di frase e sostituisce le frasi standard con le tue parole evita la rilevazione in gran parte.

È disonesto usare l'IA sul mio CV?

Usare l'IA per rifinire la formulazione è pratica standard del settore e non è di per sé disonesto. Usare l'IA per fabbricare risultati, inventare metriche o rivendicare esperienza che non hai È disonesto ed è motivo per ritirare qualsiasi offerta che ne risulti. La linea è tra formulazione (accettabile) e sostanza (non accettabile). La maggior parte delle linee guida etiche attualmente in sviluppo nelle istituzioni UE segue questa stessa linea.

Qual è la differenza tra bias di auto-preferenza e bias demografico nell'IA di assunzione?

Il bias demografico significa che l'IA tratta i candidati diversamente in base a caratteristiche protette come genere, razza o età — ben documentato dal 2018, attivamente legiferato nell'AI Act UE e in diverse giurisdizioni USA. Il bias di auto-preferenza significa che l'IA tratta i candidati diversamente in base al fatto che abbiano usato lo stesso brand IA dello screener — misurato per la prima volta su larga scala da Xu, Li & Jiang (2025), e attualmente non affrontato da nessuna regolamentazione di fairness dell'IA. Entrambi i bias possono coesistere nello stesso sistema di screening.

Dove posso leggere la ricerca originale?

Il paper è „AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights" di Jiannan Xu, Gujie Li e Jane Yi Jiang. Il preprint è apertamente disponibile su arXiv:2509.00462 (2025). Versioni non archiviate sono state presentate ad ACM EAAMO 2025 e AIES 2025 (DOI 10.1145/3757887.3767676). La versione arXiv è aggiornata più frequentemente ed è la fonte primaria raccomandata.

Questo bias peggiorerà nel tempo?

Due forze opposte. Peggio: man mano che più candidati usano l'IA per scrivere CV, la proporzione di testo fluente IA nel pool di screening cresce, e il bias contro la minoranza scritta a mano in calo diventa più pronunciato. Meglio: man mano che i ricercatori pubblicano più risultati come questo, i fornitori ATS consapevoli della fairness e i regolatori UE recuperano. La direzione netta nei prossimi 2-3 anni è incerta. La scommessa sicura è assumere che il bias persista e usare la strategia rifinisci-non-redigi a prescindere.

Il tuo CV è pronto per l'ATS?

Ottieni subito un punteggio di compatibilità ATS e scopri esattamente cosa correggere — gratis.

Controlla il mio CV

Guide correlate