Hyppää pääsisältöön
Valikko
Blogi

Microsoft Fabric data-ammattilaisen näkökulmasta

Epical data consultancy
Mika Naatula Data hub Enfo

Mikä on Microsoft Fabric ?

Microsoft Fabric on uusi pilvipalvelukokonaisuus, jonka tavoitteena on tarjota yhtenäinen ja skaalautuva ratkaisu tiedonhallintaan, analytiikkaan ja tekoälyyn. Se on suunniteltu auttamaan kaikenkokoisia yrityksiä ja organisaatioita edistämällä datan hyötykäyttöä. Fabric sisältää jo ennestään tuttuja komponentteja kuten Power BI ja Data Factory, mutta myös paljon uutta. Käyn tässä läpi joitain Microsoft Fabricin etuja ja ominaisuuksia, jotka ovat tärkeitä meille data-ammattilaisille.

Microsoft Fabric tarjoaa yhtenäisen ja skaalautuvan välineistön tietojen käsittelyyn, tallentamiseen, käsittelyyn, analysointiin ja visualisointiin. Se tukee laajaa valikoimaa tietolähteitä, -muotoja ja -tyyppejä, mukaan lukien jäsenneltyä, puolistrukturoitua ja strukturoimatonta dataa, sekä eräajoja ja reaaliaikaista dataa.

Oleellinen osa Fabricia on sen yhtenäinen tietojen tallennus OneLake-alustalle Delta Parquet -tiedostomuodossa. Kaikki Fabricin osat käyttävät tätä samaa talletusmuotoa pyrkimyksenään tallettaa tietoa vain kerran helpottaen merkittävästi tiedon jäljittämistä, suojausta ja jakamista eri sovellusten kesken koko organisaation sisällä.

Fabricin suunnittelufilosofiassa on painotettu itsepalvelukäyttöä ja Data Mesh -ajattelua. Tarkoituksena on jalkauttaa datan hallintaa organisaatiossa suoraan liiketoiminnoille, jotka tuottavat itsenäisesti datastaan julkaisukelpoista sisältöä jaettavaksi ja käytettäväksi, osana organisaation datapääomaa.

Käyttäjän näkökulmasta Microsoft Fabric koostuu kahdeksasta käyttäjäkokemuksesta, jotka tarjoavat joukon ominaisuuksia ja palveluita paketoituina osa-alueina. Jokainen käyttäjäkokemus on kokoelma palveluita, joiden voidaan ajatella olevan tarpeen tietyssä käyttäjäroolissa toimiessa. Samoja toimintoja tai palveluita löytyy useamman käyttäjäkokemuksen sisältä. Tarkastellaanpa hieman kutakin käyttäjäkokemusta ja mitä ne tarjoavat.

Data Factory

Data Factory on Microsoft Fabricin käyttäjäkokemus, joka palvelee tietoputkien ja niistä muodostettujen ketjutusten eli ajojonojen rakentamista, joiden avulla suoritetaan tiedon siirtoa ja muunnoskäsittelyjä. Toiminnallisuus vastaa lähinnä perinteisiä ns. ETL tai ELT-välineitä, joilla hallitaan tietojen poimintaa (Extract), latausta (Load) ja muunnoskäsittelyjä (Transform).

Synapse Data Engineering

Synapse Data Engineering tarjoaa Spark-alustan ja Notebookit tietojen käsittelyyn. Tämä käyttäjäkokemus sisältää osin vastaavaa toiminnallisuutta kuin Data Factory, mutta hieman eri lähtökohdista. Mukana on SQL Endpoint, jonka kautta tietoja voi kysellä SQL-kielellä.  SQL:n lisäksi voidaan käyttää Python-, Scala- ja R-kieliä.

Data Engineerin käyttäjäkokemus tukee hyvin Datalake- ja Deltalake-rakentamista, jolloin voidaan tuottaa Medallion-arkkitehtuurin kerrokset: Bronze, Silver ja Gold.

Synapse Data Warehouse

Synapse Data Warehouse tarjoaa luotettavan ja tehokkaan ratkaisun tietovarastointiin. Sen pohjalla pyörii Polaris-nimellä kehitetty uusi SQL-käsittelymoottori, joka tukee SQL-transaktioita (täysi ACID). Käytettävissä on vastaavaa suuriin tietomääriin skaalautuvaa toiminnallisuutta kuin mitä tarjoavat esim. Snowflake tai Azure Data Warehouse, mutta tiedot talletetaan samassa Delta Parquet -muodossa kuin Datalake-alustalla.

Synapse Real Time Analytics

Synapse Real Time Analytics on ratkaisu jatkuvien datavirtojen ja aikasarjojen käsittelyyn lähes reaaliaikaisesti. Se sisältää välineistöä reaaliaikaisten tapahtumatietojen tuontiin, käsittelyyn ja tallentamiseen KustoDB-tietokantaan pohjautuen. Lähes reaaliaikaisia analytiikkatarpeita palvelevat Kusto Query Language (KQL) ja KustoDB-tietokanta soveltuvat suurien tietomäärien puolistrukturoidun tiedon, kuten lokien ja telemetriatietojen tallettamiseen ja kyselyyn. Synapse Real Time Analyticsin sisältä löytyvä Eventstream mahdollistaa datavirtojen integroinnin useista lähteistä.

Synapse Real Time Analytics sisältää samankaltaista toiminnallisuutta kuin Azure Data Explorer, Azure Event Hub tai Azure Stream Analytics.

Synapse Data Science

Synapse Data Science sisältää joukon työkaluja, jotka tukevat datatieteen työnkulkua alkaen tietojen tutkimisesta, valmistelusta ja puhdistamisesta aina mallintamiseen, kokeiluun, mallin pisteytykseen ja tuotettujen ennusteiden jakeluun BI-raporteille. Käytännössä työtä tehdään rakentamalla Notebook-käyttöliittymällä Spark-pohjaisia malleja, joihin on käytettävissä tyypillistä työnkulkua tukevia valmiita runkoja.

Data Activator

Data Activator sisältää toiminnallisuutta tietojen muutosten havaitsemisen ja toimintojen käynnistämiseen niiden perusteella. Data Activatorin tietolähteinä toimivat Fabric Eventstream ja Power BI. Activatorilla voidaan siis määritellä käynnistyksiä perustuen datan muuttumiseen. Vastaavaa toiminnallisuutta löytyy esim. tietokantojen triggeristä, silloin tosin yleensä toimintaan vain ko. tietokannan sisällä. Muita ohjelmistoja, joita löytyy samankaltaisuutta ovat esim. IFTTT, Azure Logic Apps, Zapier ja Home Assistant.

Power BI

Monelle tuttu Power BI on mukana Microsoft Fabricin kokemuksena, joka tukee monipuolista datan analysointia, visualisointia, tutkimista, yhteiskäyttöä ja jakamista.

Industry solutions

Fabric Industry solutions on uusin Fabric käyttäjäkokemus. Se tarjoaa valmiita toimialaratkaisujen pohjia. Tätä kirjoittaessa tarjolla on vasta esikatseluvaiheessa olevat toimialamallit: Vähittäiskauppa (Retail), Terveydenhoito (Healthcare) ja Kestävä kehitys (Sustainability) ratkaisuihin.

Yhteenveto

Microsoft Fabric on uusi pilvialusta, joka voi tukea yrityksen tai organisaation toiminnan muutosta datalähtöiseen suuntaan. Se tarjoaa yhtenäisen ja skaalautuvan ratkaisun tiedonhallintaan, analytiikkaan ja tekoälyyn. Kokonaisuus on yksinkertaisempi hallita, kun palvelut löytyvät suoraan samasta paketista valmiiksi yhteen liitettyinä.

Tällä hetkellä osa toiminnoista on vielä esikatseluvaiheessa, mikä kertoo jatkuvista kehityspanoksista.

Microsoft Fabric on tervetullut datahallinnan uudistus merkittävältä datatyökalujen toimittajalta.

Kirjoittaja:

Mika Naatula, CTO, Epical

Jaa