Infotalk

Big Data och forskning: Vad kan en datalagerkonsult och rymdfysiker på NASA lära av varandra?

09 april Siavoush Mohammadi

Vad kan en rymdplasmafysiker ha gemensamt med en datalagerkonsult? Vid en första anblick ingenting alls, men är det verkligen så? Om vi försöker ta bort alla rymdtermer, ignorerar fluiddynamik och Maxwells ekvationer och istället tittar på vad denna typ av forskare egentligen gör med sina data så är det kanske inte så främmande. Faktum är att såväl beräkningsfysiker av olika typer, som experimentalister är helt beroende av sitt data för att finna nya insikter. Datakällan brukar vara simuleringar/beräkningar baserade på en modell eller i experimentalist-fallet, instrumenten de använder i sina experiment. I båda fallen kan det produceras enorma  mängder data. Därefter är det normala steget att förbereda datan inför de analyser man vill utföra. Om du har en datalagerbakgrund så kanske du, när du läste föregående mening, tyst tänkte för dig själv “ETL?” (Extract-Transform-Load) och mycket riktigt är det egentligen en slags ETL-process. Detta till trots, så är datalager allmänt lite använt inom denna typ av akademisk forskning. Frågan jag ställer mig är om Big Data kan vara en gemensam återknytningspunkt där affärsvärlden och akademin hjälps åt för att lära varandra nya och gamla metoder som kan bidra till att båda parter snabbare når nya insikter? Ja, det tror jag faktiskt att det kan bli.

Med dessa återkommande tankar sträckte vi oss ut till en av mina gamla kollegor från mina egna rymdfysikdagar; Lars Daldorff, som numera är kontrakterad vid NASA som beräknings- och plasmafysiker. Tillsammans ställde vi oss en enkel fråga, vad skulle hända om vi strukturerade simuleringar av solen så att de kunde laddas upp i en in-memory big-data miljö och använda tillgängliga out-of-the-box analytiska lösningar som finns? Utmaning som Lars Daldorff och NASA stod inför var nämligen inte att producera stora mängder data, utan att analysera den. För att illustrera kan följande konversation vara intressant att lyfta upp, på frågan som vi i egenskap av datalagerkonsulter ställde NASA “How big is your data?” fick vi svaret “How big do you want it to be?”. I den akademiska beräkningsvärlden har den tekniska utvecklingen och tillgången till stora superdatorcentrum inneburit att produktionen av data kan skalas upp enkelt. Dock är mycket av det som produceras av inget eller begränsat vetenskapligt intresse, det är helt enkelt antingen redan känt eller brus av olika slag.

NASA_existing_process
Fig 1. Förenklad bild av den existerande processen till hur man arbetar med data för att nå insikt om sitt data, värt att uppmärksamma här är att kvalificerade gissningar på var och när fenomenet av intresse finns/inträffar är del av processen.

Nålen i höstacken man letar efter i dessa situationer befinner sig någonstans i datat, men man vet i regel inte “var” eller “när” i datat. Samtidigt är många av de analys- och visualiseringsmetoder man använder ytterst tidskrävande. Detta leder till att man gör kvalificerade gissningar kring “var” i datat det eftersökta fenomenet finns. En förenklad bild av hur de tvingas arbeta i regel idag ser ni i Fig. 1. Problemet med denna process är att även om du nu skulle ha maximalt med tur och hitta rätt med din första gissning, är du fortfarande osäker på om det är det enda intressanta fenomenet i datat. Denna problematik innebär att tiden från simuleringar till insikt blir lång, men tänk om man inte behövde visualisera sitt data i snitt? Tänk om man kunde ladda upp allt på en gång och låta en standardiserad metod peka ut var nålen befinner sig? Tänk om man sedan kunde exportera ut exakt det som är av vetenskapligt intresse och göra sina fullständiga analyser med fokus  på det?

Varför spekulera? Vi gör det!

Snart var samarbetet igång och de första analyserna hade börjat rulla ut. Det fenomen som de ville studera var simuleringar av solen, eller mer specifikt hur de magnetiska “bågarna” associerat med solfläckar och som bidrar till en avsevärd temperaturhöjning av solens yttre atmosfär (och således också jordens) uppstår. Fenomenet syns i detta videoklipp som Heliophysics gruppen på NASA nyligen släppte

Det är fortfarande många öppna centrala frågor runt fenomenet idag, men dess effekter är tydliga som du kan se i klippet ovan. När dessa kraftiga bågar skapas misstänker man att ett fenomen som kallas “magnetic reconnection” inträffar. Det är detta ögonblick som man behöver identifiera i såväl “rummet” som “tiden”, det vill säga så väl “var?” som “när?” i datat.

NASA_new_process
Fig. 2. Förenklad beskrivning av den nya processen till “från skapande/samlande av data till insikt”, där vi först laddar hela datat, automatiskt analyserar och visualiserar
samtliga kandidater till “Point of Interest” (POI) sedan exporterar ut datat för djupare mer manuella analyser.

Vi laddade upp hela datat i SAS Visual Analytics i vår egen molnmiljö på på Microsoft Azure, hjälpte igång Lars Daldorff med verktyget, sedan kunde vi börja söka efter nålen i höstacken. Målsättningen var att automatiskt identifiera var och när fenomenet befinner sig och inträffar, samt identifiera alla möjliga kandidater. Vi vill byta ut den cirkulära processen beskriven i Fig. 1 till den linjära beskriven av Fig. 2. Detta skulle kunna förenkla avsevärt  och snabba på hur man faktiskt når resultat och finner insikt, i detta fall insikt om hur solen fungerar, i ditt fall kanske  insikt om hur dina kunder fungerar.

Screen Shot NASA VA
Fig. 3: Visar simulerat data för en av de många “bågar” som bildas på solens yta och hur vi använt SAS Visual Analytics för att identifiera det avgörande ögonblicket, nålen i höstacken, med hjälp av heat-maps och beslutsträd.

Det vi kan se i Fig. 3 är bland annat hur standardmetoder som använts brett inom affärsvärlden, plötsligt finner en användning på en helt annan typ av data. Dessa verktyg struntar nämligen i hur ditt data ser ut, vad det är, metoderna för att identifiera händelser av betydelse, skapa analyser, visualiseringar och rapporter är densamma.

Något den akademiska världen allmänt är mycket bra på, är att våga experimentera med sitt data, våga leka med sitt data och utforska det med inställningen “jag vet inte exakt vad jag kommer hitta, men jag hoppas hitta något intressant!” Detta är en lärdom vi inom företagsvärlden definitivt kan ta med oss. Man behöver inte alltid veta i förväg explicit vad för konkret rapport som ska ramla ut från ett arbete, det finns ett stort värde i att ha hela sitt data enkelt tillgängligt så att man kan experimentera med det och på så sätt finna nya insikter om sin verksamhet.

Avslutningsvis, detta är bara början. Vi har skickat in detta preliminära resultat från vårt samarbete till Joint Statistical Meeting i Seattle (http://www.amstat.org/meetings/jsm/2015/) och fått det godkänt för att vi ska få presentera det på konferensen i augusti. Vår förhoppning är att resultatet ska både hjälpa Lars Daldorff i sin forskning på NASA och att detta case ska kunna hjälpa till att visa nyttan av explorativ analys av data. Potentialen i detta är stor och skulle kunna bidra till att denna typ av forskning snabbare når resultat och insikt. Uppdateringar kommer allt eftersom! Håll ögonen öppna efter nästa del!

Relaterade artiklar:

Angående solen och solvinden:

http://www.aftonbladet.se/nyheter/article19518576.ab

SAS används för att analysera signaler i sökandet efter intelligent liv i rymden: https://www.linkedin.com/pulse/sas-finds-evidence-extraterrestrial-life-philip-male

Acknowledgments:

Detta arbete har möjliggjorts tack vare ett gott samarbete mellan Lars Daldorff (forskare kontrakterad vid NASA) och Infotrek, med avgörande bidrag från Saiam Mufti och Lars Tynelius. Ett stort tack även till alla som hjälpt med feedback till denna text: Jonas Johansson, Linus Hjorth, Ylva Andersson och Sara Baghchesaraee.

Siavoush Mohammadi

Fokus på affärsanalys, kravställning, arkitektur och rapportering, med erfarenhet främst inom Telekom. Siavoush har också utvecklat analysmjukvara för 3D-visualisering av stora datamängder.

Kommentarer
  • Peter Laitinen
    2 år ago - Svara

    Super!

    Hls
    Peter

Lämna en kommentar
  •  

    Send this to a friend