Insegnamenti II Anno

  • Big Data and Great Employment - Giuseppe Di Battista e Riccardo Torlone

    Diversi articoli apparsi di recente su quotidiani internazionali (ad es., NY Times, "IBM: Big Data, Big Patterns", 02.15.2012) evidenziano che molte organizzazioni hanno necessità di elaborare e analizzare dati su una scala mai vista fino ad ora. Effettivamente ogni giorno le applicazioni informatiche producono e raccolgono enormi quantità di dati ("Big Data"), dell'ordine degli ExaByte (10 elevato alla 18) e, secondo stime BCG, soltanto in Europa nel 2020 il valore economico dei dati sarà pari a mille miliardi di euro. Si pensi per esempio al volume di dati generato dai social network (solo Facebook produce ogni giorno circa 10 TeraByte di dati).
    I "Big data" sono caratterizzati da quattro dimensioni principali:
    - Volume: dimensione dei dati espressa non solo in termini assoluti, ma anche in termini di andamento di crescita e di requisiti di prestazioni per la loro elaborazione.
    - Varietà: tipologia dei dati e delle sorgenti; nella maggior parte dei casi si tratta di dati poco strutturati o completamente privi di struttura (ad esempio, pagine Web, file di testo, documenti).
    - Velocità: rapidità con la quale i dati arrivano e devono essere elaborati; in molti casi le applicazioni devono operare in tempo reale e non sono rari casi in cui i dati viaggiano in stream, ovvero in flussi, che vanno elaborati alla velocità nella quale arrivano.
    - Valore: ovvero le potenzialità dei dati raccolti in termini di vantaggi competitivi che possono essere raggiunti dalla loro analisi.
    Si aprono in questo campo importanti prospettive d'impiego per analisti e manager dei dati, esperti di visualizzazione dell'informazione, studiosi di fenomeni sociali, analisti di mercato, ecc.
    Nel corso vengono affrontate tre questioni principali legate indissolubilmente a "Big Data".
    - Infrastrutture tecnologiche e paradigmi di elaborazione. Per memorizzare "Big Data" i grandi player stanno mettendo a punto infrastrutture basate su approcci completamente nuovi. Inoltre, la necessità di processare quantitativi così grandi di informazioni richiede di ripensare, al giusto livello di astrazione, i procedimenti di calcolo informatici.
    - Algoritmi e modelli di calcolo per gestire in modo efficiente "Big Data". Gli aspetti algoritmici sono qui particolarmente interessanti in quanto i dati sono così tanti che talvolta, per analizzarli, è possibile accedere a ciascuno di essi solo una volta. E talvolta neanche questo è concepibile.
    - Scenari applicativi e casi di studio. Nel corso viene mostrato come alcune applicazioni molto popolari, tra cui i social network e gli strumenti per dati genomici, generino e analizzino "Big Data".