Scienza: nuovo algoritmo italiano semplifica Big Data Science

(AGI) - Trieste, 27 giu. - Un algoritmo che semplifica lacategorizzazione di enormi quantita' di dati. L'innovativoapproccio per orientarsi nel mondo del Big Data e' stato ideatodalla SISSA di Trieste e descritto sulla rivista Science. Unodei sistemi piu' comunemente utilizzati e' il clustering (CA -Cluster Analysis) che raggruppa set di dati secondo la loro"somiglianza". Due ricercatori della SISSA hanno messo a puntoun tipo di CA che si basa su principi semplici e potenti e chesi e' dimostrato molto efficiente nel risolvere alcuni deiproblemi piu' ricorrenti in questa tipologia di analisi. I setdi dati possono essere immaginati come "nuvole" di data pointin uno spazio multidimensionale, generalmente distribuiti inmodo diverso: piu' dispersi in una area, piu' densi inun'altra. Il CA viene utilizzato per identificare le aree piu'dense, raggruppando i dati in un certo numero di sottoinsiemisignificativi che corrispondono a specifiche categorie."Pensate ad un database di fotografie del viso", ha spiegatoAlessandro Laio della SISSA in una nota. "Il database potrebbecontenere piu' di una foto della stessa persona. Il CA - haaggiunto Alex Rodrigez, co-autore della ricerca - ci haabituati a raggruppare tutte le immagini dello stessoindividuo. Parliamo di un tipo di analisi effettuata, adesempio, dai sistemi automatici di riconoscimento facciale. Noiabbiamo cercato di elaborare un algoritmo piu' efficienterispetto a quelli utilizzati attualmente. Il nostro approccuosi basa su un nuovo modo di identificare il centro del cluster,vale a dire i sottoinsiemi. Immaginate di dover identificaretutte le citta' del mondo senza avere accesso ad una mappa. Uncompito enorme che si puo' svolgere utilizzando unascorciatoia". Per scoprire se un posto e' una citta' e'possibile, ad esempio, chiedere ad ogni abitante di contare isuoi "vicini", cioe' quante persone vivono nel raggio di centometri dalla casa dell'intervistato. Una volta ottenuto ilnumero si puo' determinare per ogni abitante la distanza minimaalla quale vive un altro abitante con un numero consistente divicini. "Insieme questi due dati - ha aggiunto Laio - ci diconoquanto densamente sia popolata una area in cui vive unindividuo e la distanza tra individui che hanno il vicinatopiu' affollato. Valutando automaticamente questi dati, perl'intera popolazione mondiale, possiamo identificare gliindividui che rappresentano il centro dei cluster checorrispondono alle diverse citta'. Il nostro algoritmo esegueproprio questo tipo di calcolo e puo' essere applicato a molticontesti diversi". Il modello matematico e' stato testatosull'Olivetti Face Database, un archivio di fotografie delviso, ottenendo risultati molto soddisfacenti. (AGI).