Covid-19 Open Research Dataset (CORD-19) è una risorsa free e open dedicata alla comunità mondiale della ricerca con l’intento di aiutare i ricercatori a combattere il coronavirus.
L’iniziativa nasce in risposta all’emergenza della pandemia di coronavirus e vede tra i promotori l’Allen Institute for AI, che ha collaborato con importanti gruppi di ricerca per preparare e distribuire Covid-19 Open Research Dataset.
L’AI2, Allen Institute for AI, è stata fondato nel 2014 da Paul Allen, co-fondatore di Microsoft, ed è guidato dal Dr. Oren Etzioni, uno dei ricercatori più esperti nel campo dell’intelligenza artificiale.
Il Covid-19 Open Research Dataset è una risorsa gratuita di oltre 29.000 articoli accademici, di cui oltre 13.000 con testo completo, su Covid-19, SARS-CoV-2, e la famiglia di virus coronavirus, destinata all’utilizzo da parte della comunità scientifica globale.
Il progetto è stato richiesto dall’Office of Science and Technology Policy della Casa Bianca e ha portato a un dataset che rappresenta la più ampia raccolta di letteratura scientifica sul coronavirus machine-readable ad oggi disponibile, che può essere sottoposta a data e text mining.
Per la sua realizzazione, hanno collaborato ricercatori e leader di: Allen Institute for AI, Chan Zuckerberg Initiative (CZI), Center for Security and Emerging Technology (CSET) dell’Università di Georgetown, Microsoft e la National Library of Medicine (NLM) presso il National Institutes of Health.
L’impegno della Casa Bianca non finisce qui: la massima istituzione statunitense ha infatti rivolto una Call to Action alla community tecnologica (innanzitutto, chiaramente, del proprio Paese), invitando gli esperti di intelligenza artificiale a sviluppare nuove tecniche di text e data mining che possano aiutare la comunità scientifica a risolvere la prioritaria sfida globale posta dal Covid-19.
Il dataset ha infatti lo scopo di mobilitare i ricercatori per applicare i recenti progressi nell’elaborazione del linguaggio naturale per generare nuovi insight a sostegno della lotta contro il coronavirus. Il corpus, informano i promotori, verrà aggiornato settimanalmente, man mano che nuove ricerche verranno pubblicate su pubblicazioni peer-reviewed e servizi di archiviazione come bioRxiv, medRxiv e altri.
La risorsa free e open Covid-19 Open Research Dataset è disponibile sul sito web SemanticScholar.org dell’Allen Institute. I ricercatori sono stati invitati a presentare i tool e gli insight sviluppati in risposta alla call to action attraverso la piattaforma Kaggle, community di machine learning e data science di proprietà di Google Cloud: questi strumenti saranno resi apertamente disponibili per i ricercatori di tutto il mondo.