CAMBRIDGE, Massachusetts (AP) —
Le biblioteche universitarie e pubbliche stanno offrendo una nuova risorsa fondamentale
per lo sviluppo dell’intelligenza artificiale: centinaia di milioni di pagine di libri, giornali e
manoscritti di dominio pubblico, raccolti nel corso dei secoli.
Un tesoro letterario: 400 milioni di pagine disponibili
Il progetto, denominato "The Public Domain Dataset", comprende oltre 400 milioni di
pagine, per un totale di 242 miliardi di parole, digitalizzate da testi che vanno dal XV al XX
secolo, in 254 lingue diverse, tra cui inglese, francese, tedesco, latino, italiano e arabo. La
maggior parte di questi testi è accessibile tramite la piattaforma nonprofit Internet Archive,
e il progetto è sostenuto finanziariamente da OpenAI e Microsoft, desiderose di trovare
alternative eticamente sostenibili all’utilizzo di opere ancora coperte da copyright.
Un'alternativa legale all’uso di contenuti protetti
Negli ultimi mesi, OpenAI, Meta e altri colossi del settore sono finiti nel mirino di cause
legali intentate da autori e giornalisti, accusati di aver utilizzato, senza permesso, opere
protette per addestrare i loro modelli linguistici. Utilizzare testi di dominio pubblico, spiega
Burton Davis, vicepresidente del dipartimento legale di Microsoft, è una strategia per
evitare controversie legali: “È una scelta prudente”, afferma.
Perché le biblioteche sono cruciali per l’IA
I testi digitalizzati dalle biblioteche coprono una vasta gamma di argomenti, tra cui diritto,
religione, medicina, filosofia, agricoltura e scienze naturali. Questa varietà permette ai
modelli IA di apprendere linguaggi settoriali e stili complessi, migliorando la loro capacità di
generare risposte coerenti, corrette e ben argomentate.
Attenzione ai rischi: linguaggio obsoleto o tossico
Alcuni testi storici possono contenere idee superate, linguaggio offensivo o contenuti
discriminatori. Per questo, i promotori del progetto sottolineano l’importanza di guidare
l’uso etico dei dataset, creando filtri e sistemi di revisione che evitino che tali contenuti
vengano riprodotti dai chatbot IA.
Un cambio di paradigma: le biblioteche come attori attivi dell’innovazione
Con questo progetto, le biblioteche non sono più solo custodi della memoria storica, ma
diventano fornitrici strategiche di dati di alta qualità per la ricerca tecnologica. In un’epoca
in cui molte aziende tech raccolgono dati online senza consenso esplicito, l’approccio delle
biblioteche punta su trasparenza, collaborazione e legalità.
In conclusione, nel pieno della corsa all’IA, le biblioteche si stanno ritagliando un ruolo
cruciale: quello di ponti tra patrimonio culturale e tecnologia del futuro. Offrire contenuti
storici liberi da copyright significa tutelare la legalità e al tempo stesso garantire qualità,
equità e pluralismo nei dati su cui si fondano le intelligenze artificiali.
A cura degli studenti sotto la Facoltà di Giurisprudenza e Ingegneria Informatica