Infotalk

SAS och Hadoop – vad kan de göra för dig?

26 januari Linus Hjorth
Hadoop - SAS - logo

Är det någon som missat haussen kring Big Data i allmänhet, och Hadoop i synnerhet? De flesta större BI leverantör har så klart hakat på trenden, även SAS som undan för undan lanserat produkter med stöd för, eller med komponenter från Hadoop. Senast på SAS Forum så kändes det som om Hadoop var den röda tråd vi som besökare skulle hålla fast vid. Dock kändes som om fokus var på teknik och arkitektur, och inte på vilka problem tekniken ska lösa. Så vad har SAS att erbjuda inom området? Och vilka problem kan man tänka sig att SAS ska lösa med hjälp av Hadoop?

Hadoop

Hadoop är ett antal komponenter som tagits fram av olika aktörer, men som nu samlas som ett öppet källkods-initiativ hos Apache Foundation. I och med att grunden är öppen källkod kan vem som helst gratis använda dessa komponenter. Men likt Linux använder olika kommersiella aktörer dessa i egenpaketerade lösningar, samt tar betalt för support och tjänster. Ett exempel är SAS som använder en strippad variant för disklagring av data som används av LASR servern i bl.a. Visual Analytics.

Hadoop har två tydliga fördelar såsom jag ser det:

- Billigt: även om man väljer någon av de kommersiella leverantörerna är chansen god att det är rejält mycket billigare än om man köper motsvarande kraft med leverantörsspecifik teknik.

- Flexibelt och skalbart – utökning av miljön kan ske med få handgrepp

Två huvudsakliga användningsområden har utkristalliserat sig:

Förutsättningslös analys

Antalet system som levererar data ökar hela tiden, och speciellt maskinella källor som sensorer, loggar etc. Även information från sociala medier växer i betydelse, såsom Twitter. I denna dataflod vi vet inte alltid vad vi letar efter. Och som om inte det var nog så förändras datastrukturer - om de ens har någon. Tanken är då att man kan lasta in all data i Hadoop, och när man sedan ska analysera data så kan man då beskriva vad man är intresserad av. I detta skede av datas livscykel är det inte alltid så viktigt med 100% datakvalitet, eller att data är fullt integrerat med enhetliga definitioner och mellan olika datakällor. En förutsättningslös analys kan sedan resultera i att viss data kan kvalificera sig för integration med annan data. Och då blir tillgänglig för standardbetonad rapportering och analys.

Datalager

Konceptet datalager har blivit moget, och mer data än någonsin laddas in i centrala databaser. I takt med detta så stiger också kostnaderna. Hittills har det bara funnits ett fåtal leverantörer som kunnat påvisa att just deras lösning kan hantera de svällande volymerna med tillräcklig prestanda för laddning och läsning. Och då ofta kombinerat med en saftig prislapp. Hadoop, och då främst Hive, ses allt oftare som ett alternativ att få tillgång till en plattform som kan svälja allt mer data, till en klart lägre kostnad.

SAS och Hadoop

Hur förhåller sig SAS till detta? Initialt har man skapat kopplingar till Hadoop som vilken annan datakälla som helst. T.ex. att man kan läsa från och skriva filer till Hadoops filsystem, och en SAS/ACCESS-koppling. Denna ger möjlighet likt SAS andra databaskopplingar till sömlös åtkomst till tabeller i Hive.

Med denna funktionalitet så kan vi med SAS använda Hadoop både som källa (filer och tabeller), och som mål – en databas för lagring av ditt datalager.

Men SAS har insett värdet att det kan vara strategiskt att data lagras i SAS-format. Sedan en tid tillbaka har man gjort en specialvariant för SPDE (SAS datalagring för parallell bearbetning), där man kan peka ut ett Hadoop-kluster. I och med 9.4 M2 så är denna funktionalitet komplett, och hanterar de viktigaste funktionerna i SPDE nere i Hadoop. Och vips så har man (någorlunda) stöd för MPP-arkitektur! (Massive Parallel Processing, system ett flertal oberoende behandlingsenheter, som kan utföra uppgifter parallellt. Grundläggande teknik i bl.a. Teradata och just Hadoop)

Då SPDE är sprunget från Scalable Performance Data Server, är det ingen vild gissning att motsvarande funktionalitet kommer att lanseras även i denna produkt.

En något mindre teknisk produkt är "In Memory Statistics for Hadoop". Det är en paketering av produkterna SAS Studio (webbaserat frågeverktyg), LASR Server och SAS/ACCESS to Hadoop.

Och sedan?

Vilka utsikter finns det då för SAS i en Hadoop-värld?

Om vi tittar på denna värld lite med regionalt, så verkar inte Hadoop slagit igenom på bred front, det är ett antal pionjärer så klart med specifika behov, on-line spelföretag är ett tydligt exempel. Många av storbolagen har Hadoop-initiativ på gång, men än så länge känns det som om de trevar sig fram - inga 100% satsningar alltså.

SAS bas har hittills legat hos just de etablerade storbolagen och offentliga myndigheter - och det är lite svårt att på kort sikt se dessa får behov att analysera datamängder så stora att traditionell inte teknik klarar av det. Och att de sedan dessutom skulle välja att satsa fullskaligt.

Mer troligt är att man i hos befintliga SAS-kunder kan införa Hadoop-teknik som komplement till redan införda, eller beslutade SAS-lösningar. Som kund däremot ser jag inga problem att de nu tillgängliga produkterna från SAS kan användas på ett bra integrerat sätt i en SAS/DW-miljö. Och det är ni som kommer att avgöra om ert behov passar dessa verktyg.

Linus Hjorth

Linus Hjorth är Infotreks områdesansvarig för datalager. En specialist inom datalager-arkitektur som blir extra engagerad när affärskrav ska omvandlas till datamodeller.

Finns inga kommentarer för detta inlägg

Lämna en kommentar
  •  

    Send this to a friend