Matematikern som vaskar guld i databaser
I huvudet på en datascientist. Möt matematikern som vaskar guld i databaser.
På nätet lämnar vi spår efter oss som lagras i databaser. I dessa finns värdefull dold kunskap som kan användas för att optimera webbsidor. Mark Ingram berättar om sitt jobb.
Mark, titeln datascientist förekommer allt oftare. Vad gör en sådan egentligen?
– Det finns flera svar. Jag ser det som en person som med matematikens hjälp kan göra analyser av stora datamängder och hitta dolda mönster. ”Data mining” är ett annat begrepp som ofta förekommer i det här sammanhanget. Det är inte så dumt. Jag ser mig gärna som en guldgrävare som vaskar guld i databaser.
– Jag kan enkelt ta reda på om en sajt fungerar bra eller dåligt mot sin tänkta målgrupp, säger Mark Ingram, datascientist på Athega.
Vad har du för utbildning?
– Jag är matematiker från början, och är även utbildad i datalogi. Tidigare jobbade jag mest med finans och assets; applikationer, servrar, tjänsteavtal, licenser etc. Här på Athega jobbar vi mest med webblösningar. Att utnyttja ”datascience” inom detta område är helt nytt. Hur vet man till exempel att en webbsida ger bra resultat? Och om den inte gör det, vad är skälet till det? Det är mitt jobb att besvara sådana frågor.
Hur gör man det i praktiken?
– Många webbsidor samlar in data om sina besökare med Elasticsearch. Det är ett verktyg som gränsar till artificiell intelligens och gör det möjligt att analysera besökarnas beteenden. Alla lämnar vi ju spår efter oss på nätet som ger ledtrådar. Idag går det att få fram psykologiska och sociologiska samband ur det insamlade materialet. Jag kan ganska enkelt räkna ut vilka demografiska grupper (ålder, kön, utbildning, inkomst etc.) som besöker en webbsida och var de befinner sig geografiskt. Med hjälp av A/B-tester och matematisk statistik går det också att se hur bra en sajt fungerar beroende på vilka budskap, färger och bilder som används.
Har du några tekniska hjälpmedel?
– Jag gillar Apache Mahout. Det är ett matematikpaket i öppen källkod. Programmeringsverktyget Pig är också intressant. Det hanteras med ett eget språk: Pig-Latin. Ett bra statistikpaket är R.
Men jag vill understryka en sak. Man kan aldrig slumpmässigt börja analysera en stor datamängd och plötsligt se en sanning i den. Först måste alltid en fråga ställas. Den kan sedan omvandlas till en hypotes och testas med matematiska metoder. Fråga - hypotes - test, det är så man måste jobba.
Finns det någon fråga som är central för alla företag?
– Företagens webbar är idag spjutspetsen i marknadskommunikationen. Därför borde alla företag ställa sig frågan: pratar vår sajt till rätt målgrupp på rätt sätt? En sådan matematisk check kan jag göra på nolltid. Jag utmanar alla som vill veta sanningen att våga ställa den frågan till mig.