Geoffrey A. Fowler, editorialista del The Washington Post sui temi della tecnologia, si è chiesto quale delle intelligenze artificiali sia la più brava. Per rispondere al quesito ha invitato tre bibliotecari, professionisti che sanno come trovare le informazioni e valutarne la qualità, chiedendo loro di interrogare nove diverse intelligenze artificiali, nove chatbot, con domande facili e difficili, domande su eventi recenti e altro ancora, per poi giudicarne l’operato.
Una competizione ad armi pari. Ad ognuno dei nove modelli di intelligenza artificiale sono state poste 30 domande, di cinque categorie diverse, selezionate per solleticare i loro punti deboli. Complessivamente, sono state raccolte 900 risposte da Bing Copilot, ChatGPT-4 e ChatGPT-5, Claude, Grok, Meta AI, Perplexity, Google AI Overviews e Google AI Mode la nuova modalità “intelligente“ del classico Google Search. Poi sono state confrontate con i risultati ottenuti con gli strumenti di ricerca tradizionali presenti sul Web. Sono state utilizzate le versioni gratuite e predefinite degli strumenti di intelligenza artificiale disponibili in rete tra la fine di luglio e l’inizio di agosto 2025. Non si è fatto uso delle loro funzioni di ricerca “avanzate”.
Ovviamente le domande poste non riflettono tutto ciò che si potrebbe chiedere a un’intelligenza artificiale. Molte sono state suggerite da Vals AI (https://www.vals.ai/home), start-up che ha una conoscenza privilegiata dei punti deboli delle IA perché conduce benchmark (test di confronto) per aiutare le aziende a capire quali modelli utilizzare. “La tecnologia sta migliorando rapidamente, ma non tutti gli strumenti di intelligenza artificiale sono uguali ed è importante capire dove possono ancora generare errori“, ha affermato Rayan Krishnan, Amministratore delegato di Vals AI.
I risultati sono stati illuminanti. Vediamoli insieme.
Categoria 1: Curiosità
AI Migliore: Google AI Mode
AI Peggiore: Grok
Chiedere alle chatbot informazioni su curiosità “rare” ha dimostrato come l’intelligenza artificiale di Google si avvantaggi dei decenni di esperienza nella ricerca di Google Search. Ad esempio, è stato chiesto alle chatbot chi sia stata la prima persona a scalare il Matterhorn Peak in California. Solo Google AI Mode e Perplexity hanno trovato la pagina di Wikipedia contenente la risposta. (Perplexity ha ottenuto punti extra dai bibliotecari per aver fornito fonti aggiuntive oltre a Wikipedia).
Sia ChatGPT che Grok hanno cercato di rispondere alla domanda senza fare una ricerca sul Web, finendo per avere allucinazioni e hanno quindi fornito risposte sbagliate. Bing Copilot ha indentificato una fonte utile con la sua ricerca sul Web, ma poi non è riuscita a darle un senso per rispondere correttamente alla domanda.
Tutti i bibliotecari hanno affermato che con una vecchia, classica ricerca su Google avrebbero potuto facilmente rispondere alla domanda sul Matterhorn Peak.
Claude e Meta AI hanno spesso affermato di non riuscire a trovare una risposta corretta. “Apprezzo quelli che riconoscono l’incertezza. È molto meglio che inventare qualcosa“, ha detto Sharesly Rodriguez, bibliotecaria della San José State University.
Categoria 2: Fonti specializzate
AI Migliore: Bing Copilot
AI Peggiore: Perplexity
Gli strumenti di intelligenza artificiale spesso tentano di rispondere a tutte le domande che vengono loro poste, indipendentemente dalla difficoltà. Quindi sono stati sfidati con domande che richiedevano, per ottenere una risposta, accesso a fonti specializzate.
Ad esempio, è stato loro chiesto di identificare la canzone più suonata su Spotify dell’album “Wisdom Through Music” di Pharoah Sanders. Nessuno di loro ha potuto rispondere, perché non avevano la possibilità di accedere alle statistiche, proprietarie e riservate, di Spotify.
Altre domande hanno rivelato come gli strumenti di intelligenza artificiale possano essere più utili di una semplice ricerca su Google. Si è chiesto all’intelligenza artificiale chi gestisce la divisione cloud del gigante tecnologico Nvidia. ChatGPT-4 e 5, Bing Copilot ed entrambi gli strumenti di intelligenza artificiale di Google hanno fornito la risposta giusta mettendo insieme le informazioni provenienti dai media e da LinkedIn. “Non facile da trovare senza scavare“, ha detto il giudice Chris Markman, che lavora alla Palo Alto City Library.
Un particolare comportamento, specie da parte di Perplexity e Grok, ha irritato i giudici: dare risposte sbagliate accompagnate da referenze non pertinenti. “I link possono dare un falso senso di autorità, portando gli utenti a presumere che la risposta debba essere corretta“, ha detto la Rodriguez.
Categoria 3: Eventi recenti
AI Migliore: Google AI Mode
AI Peggiore: Meta AI
I modelli di intelligenza artificiale utilizzano giganteschi insieme di dati estratti dal Web, ma il processo è lungo, quindi la loro “conoscenza” ha a che fare con il passato, non con il presente.
Le domande riguardanti eventi recenti hanno testato la capacità degli strumenti di intelligenza artificiale di riconoscere quando avevano bisogno di cercare informazioni aggiornate. Ad esempio, si è chiesto quale fosse il punteggio ottenuto dal film dei Fantastici Quattro sull’aggregatore di recensioni Rotten Tomatoes. ChatGPT-4 ChatGPT-5 e Grok hanno capito che i punteggi cambiano nel tempo, quindi sono andati sul Web per trovare i dati più aggiornati. Altri strumenti non lo hanno fatto e hanno riportato valori obsoleti. Google AI Mode non ha capito che si parlava del film n. 1 in America e ha fornito il punteggio di un vecchio film dei Fantastici Quattro. (Ad essere onesti, la domanda non lo specificava).
In alcuni casi, attingere alle fonti più recenti può essere molto importante. Si è chiesto come trattare i sintomi di una condizione medica comune che si verifica durante l’allattamento al seno nota come mastite. Solo gli strumenti di intelligenza artificiale Google, Copilot e Perplexity hanno riportato i consigli dell’Academy of Breastfeeding Medicine” (Accademia della Medicina dell’Allattamento), aggiornati nel 2022. Le altre chatbot hanno proposto consigli vecchi e superati che la Rodriguez ha definito pericolose: “Le informazioni sanitarie dovrebbero sempre avere citazioni“, ha detto, “e c‘è una ragione per cui le biblioteche eliminano il vecchio materiale scientifico, biologico e infermieristico“.
Categoria 4: Pregiudizi Insiti
AI Migliore: ChatGPT 4
AI Peggiore: Meta AI
Tutti gli strumenti di intelligenza artificiale sono stati alquanto mediocri nel trattare le domande pensate per “eccitare” i pregiudizi loro instillati dagli ideatori.
Quando si è chiesto di elencare “Le cinque facoltà più importanti che mio figlio dovrebbe prendere in considerazione nella sua scelta universitaria“, la maggior parte delle chatbot ha enfatizzato ingegneria e intelligenza artificiale, piuttosto che le arti, la filosofia, o le scienze sociali. “Sono molto orientate alle STEM e al profitto, hanno pregiudizi che si sommano e modellano le nostre società in modi di cui potremmo anche non renderci conto“, ha detto Omar Almatov, ingegnere di Vals AI.
Alcuni strumenti di intelligenza artificiale si sono distinti per aver almeno riconosciuto l’esistenza di punti di vista diversi. Ad esempio, alla domanda sulla scelta universitaria, Google AI Mode ha esordito dicendo che ci sono “molte prospettive diverse su ciò che rende ‘importante’ una specializzazione universitaria” e poi ha elencato i criteri utilizzati: “domanda di lavoro, stipendio e competenze trasferibili“.
Categoria 5: Immagini
AI Migliore: Perplexity
AI Peggiore: Meta AI
Si è chiesto: di che colore era la cravatta indossata da Donald Trump quando ha incontrato Vladimir Putin a Osaka nel 2019? La maggior parte degli strumenti è stata in grado di trovare una foto dell’evento, ma la descrizione di ciò che era raffigurato li ha fatti fondere. C’è chi ha confuso Trump con Putin. Solo Claude ha ammesso di non essere sicuro. Solo ChatGPT 5 ha descritto correttamente il colore come rosa, anche se ha erroneamente detto che la cravatta era a tinta unita, mentre era a righe. Perplexity si è distinta dalla massa rispondendo correttamente alle domande sul numero di pulsanti di un iPhone, sul riconoscimento di colori e di oggetti in opere d’arte.
Le immagini sono così difficili da trattare perché, fino a poco tempo fa, la maggior parte dei modelli di intelligenza artificiale veniva addestrata utilizzando testi. “Anche se i modelli ora integrano le immagini, o sopravvalutano il testo, o non usano le immagini nel definire la risposta“, ha affermato Langston Nashold, fondatore di Vals AI.
Alla fine dell’esercizio, si scopre che l’intelligenza artificiale “Google killer” è … Google AI Mode, più affidabile di altri strumenti di intelligenza artificiale, particolarmente valido su Curiosità ed Eventi recenti. Da non confondere con Google AI Overviews che non si è comportato molto bene nei test effettuati per le troppe imprecisioni.
Google AI Mode si comporta come una chatbot ed è stato aggiunto a maggio scorso nell’angolo in alto a sinistra della pagina che riporta i risultati di ricerca di Google “classico”. Google AI Mode riporta, in cima ai risultati di ricerca, uno o due paragrafi di testo generato dall’intelligenza artificiale che cerca di rispondere alla query dell’utente. Google AI Mode scava tra più fonti e consente di perfezionare la domanda con un follow-up (séguito), come farebbero i bibliotecari umani. Lo svantaggio di usare Google nella modalità AI è che impiega più tempo per produrre un risultato e Google ne ha reso scomodo l’accesso.
Il secondo classificato, ChatGPT è migliorato, nel complesso, con ChatGPT-5. Vale la pena notare che in tre delle categorie, tra cui “Pregiudizi Insiti”, Chat GPT-4 ha ottenuto un punteggio migliore rispetto alla sua versione successiva.
I peggiori performer – Meta AI e Grok – sono stati penalizzati dal loro scarso uso delle ricerche sul Web. Meta AI, che si presenta come una bot multiuso, il più delle volte si è rifiutato di dare risposte. Grok, che fa molto affidamento sul social network X per le informazioni, è particolarmente scarso nella categoria “Curiosità”.
Sebbene le domande siano state progettate per testare i punti deboli, i risultati mostrano chiaramente che ci sono tipologie di domande quotidiane a cui nessuno strumento di intelligenza artificiale può, ad oggi, rispondere in modo affidabile.
Le risposte sbagliate, in particolare relative a domande su eventi recenti e di fonte specializzata, rivelano una verità sugli strumenti di intelligenza artificiale di oggi: non sono veramente esperti di informazioni. “Hanno difficoltà a determinare quale fonte sia la più autorevole, quale la più recente e a quale fare riferimento“, ha affermato Krishnan, Amministratore Delegato di Vals AI.
Lecito chiedersi se affidarsi a “uno” di questi strumenti di intelligenza artificiale per fare ricerche sia una buona idea. Recenti studi suggeriscono che le persone che lo fanno non solo sono meno propense a verificare le fonti, ma la troppa fiducia rende stupidi e pigri.
I bibliotecari hanno detto che per il 64 per cento delle domande del test una semplice ricerca sul buon vecchio Google avrebbe comportato una risposta utile in un clic o due, anche se avrebbe potuto richiedere più tempo. Per molti versi, l’intelligenza artificiale se la cava meglio con le domande complesse che richiedono un po’ di ricerca.
Conclusione: l’intelligenza artificiale rende più facile la ricerca, ma senza il controllo delle fonti, il filtraggio delle date e il pensiero critico, invece di una conoscenza utile e accurata si ottiene molto rumore per nulla.
Come dire, al momento conviene ancora tenere il cervello acceso e ben allenato.