Extragerea, transformarea și încărcarea (ETL) reprezintă procesul pe care organizațiile bazate pe date îl folosesc pentru a colecta date din mai multe surse și pentru a le aduna apoi în scopul de a sprijini descoperirea, raportarea, analiza și luarea deciziilor.
Sursele de date pot fi foarte diverse din punct de vedere al tipului, formatului, volumului și fiabilității, astfel încât datele trebuie să fie prelucrate ca să fie relevante când sunt reunite. Depozitele de date țintă pot fi baze de date, depozite de date sau lacuri de date, în funcție de obiectivele și de implementarea tehnică.
Extragere
During extraction, ETL identifies the data and copies it from its sources, so it can transport the data to the target datastore. Datele pot proveni din surse structurate și nestructurate, inclusiv documente, e-mailuri, aplicații de afaceri, baze de date, echipamente, senzori, terțe părți și multe altele.
Transformare
Because the extracted data is raw in its original form, it needs to be mapped and transformed to prepare it for the eventual datastore. În procesul de transformare, ETL validează, autentifică, de-duplică și/sau agregă datele în moduri care fac ca datele rezultate să fie fiabile și să poată fi interogate.
Încărcare
ETL moves the transformed data into the target datastore. Această etapă poate presupune încărcarea inițială a tuturor datelor sursă sau poate consta în încărcarea modificărilor incrementale ale datelor sursă. Puteți încărca datele în timp real sau în loturi programate.
Etapa de transformare este, de departe, cea mai complexă din procesul ETL. Prin urmare, ETL și ELT diferă în două aspecte principale:
Într-un depozit de date tradițional, datele sunt mai întâi extrase din „sistemele sursă” (sisteme ERP, sisteme CRM etc.). Instrumentele OLAP și interogările SQL depind de standardizarea dimensiunilor seturilor de date pentru a oferi rezultate agregate. Asta înseamnă că datele trebuie să treacă printr-o serie de transformări.
În mod tradițional, aceste transformări au avut loc înainte ca datele să fie încărcate în sistemul țintă, de obicei un depozit de date relațional.
În orice caz, pe măsură ce evoluează tehnologiile suport de stocare și procesare a datelor care stau la baza depozitării de date, devine posibilă efectuarea de transformări în cadrul sistemului țintă. Ambele procese ETL și ELT implică zone de pregătire. În ETL, aceste domenii se referă la instrumente, fie că sunt proprietare sau personalizate. Acestea se poziționează între sistemul sursă (de exemplu, un sistem CRM) și sistemul țintă (depozitul de date).
Prin contrast, cu ELT, zona de pregătire se află în depozitul de date, iar motorul bazei de date care alimentează DBMS realizează transformările, spre deosebire de un instrument ETL. Prin urmare, una dintre consecințele imediate ale ELT este că se pierd funcțiile de pregătire și curățare a datelor pe care instrumentele ETL le oferă pentru a susține procesul de transformare a datelor.
În mod tradițional, instrumentele pentru ETL au fost utilizate îndeosebi pentru a furniza date către magazinele de date ale întreprinderilor care sprijină aplicațiile de business intelligence (BI). Aceste depozite de date sunt concepute pentru a reprezenta o sursă fiabilă de adevăr cu privire la tot ceea ce se întâmplă într-o întreprindere, cu privire la toate activitățile. Datele din aceste depozite sunt structurate cu grijă, utilizând scheme stricte, metadate și reguli care guvernează validarea datelor.
Instrumentele ETL pentru depozitele de date de întreprindere trebuie să îndeplinească cerințele de integrare a datelor, cum ar fi sarcini de lot de mare volum și de înaltă performanță, procese de integrare bazate pe evenimente și pe fluxuri de alimentare, transformări programabile și orchestrări, astfel încât să poată face față celor mai solicitante transformări și fluxuri de lucru și să dispună de conectori pentru cele mai diverse surse de date.
După încărcarea datelor, aveți la dispoziție mai multe strategii de menținere a sincronizării acestora între depozitele de date sursă și țintă. Puteți reîncărca periodic întregul set de date, puteți programa actualizări periodice ale celor mai recente date sau vă puteți angaja să mențineți sincronizarea completă între depozitul de date sursă și depozitul de date țintă. O astfel de integrare în timp real este denumită captare a datelor în transformare (CDC). Pentru acest proces avansat, instrumentele ETL trebuie să interpreteze semantica tranzacțiilor din bazele de date sursă și să transmită corect aceste tranzacții către depozitul de date țintă.
Data marts sunt depozite de date țintă mai mici și mai concentrate decât depozitele de date de întreprindere. Acestea se pot concentra, de exemplu, pe informații despre un singur departament sau o singură linie de produse. Din acest motiv, utilizatorii de instrumente ETL pentru data marts sunt deseori specialiști din sectorul de activitate (LOB), analiști de date și/sau cercetători de date.
Instrumentele ETL pentru data marts trebuie să poată fi utilizate de personalul de afaceri și de managerii de date, mai degrabă decât de programatori și de personalul IT. Prin urmare, aceste instrumente ar trebui să dispună de un flux de lucru vizual care să faciliteze configurarea căilor ETL.
Aflați mai multe despre proiectarea fluxului de date fără cod
Lacurile de date urmează un tipar diferit față de depozitele de date și data marts. În general, lacurile de date își stochează datele în sisteme de stocare a obiectelor sau în sisteme de fișiere distribuite Hadoop (HDFS) și, prin urmare, pot stoca date mai puțin structurate, care nu conțin o schemă și sunt compatibile cu mai multe instrumente de interogare a acestor date nestructurate.
Un model suplimentar pe care îl permite acest aspect constă în procesul de extragere, încărcare și transformare (ELT), în care datele sunt stocate mai întâi „ca atare”, urmând să fie transformate, analizate și procesate după ce sunt capturate în lacul de date. Acest șablon oferă mai multe beneficii.
Instrumentele ETL pentru lacurile de date includ instrumente de integrare vizuală a datelor, deoarece acestea sunt eficiente pentru cercetătorii și inginerii de date. Printre instrumentele adiționale care sunt adesea utilizate în arhitectura lacului de date se numără următoarele:
Procesul ETL este fundamental pentru multe domenii de activitate datorită capacității sale de a introduce rapid și fiabil datele în lacurile de date pentru știința datelor și analiză, creând în același timp modele de calitate superioară. Soluțiile ETL pot, de asemenea, să încarce și să transforme datele tranzacționale la scară largă pentru a crea o perspectivă organizată pornind de la volume mari de date. Acest aspect le permite întreprinderilor să vizualizeze și să prognozeze tendințele din domeniu. Mai multe domenii de activitate se bazează pe ETL pentru a asigura o perspectivă utilă, un proces decizional rapid și eficiență sporită.
Servicii financiare
Instituțiile de servicii financiare colectează cantități mari de date structurate și nestructurate pentru a obține informații despre comportamentul consumatorilor. Aceste informații pot analiza riscurile, pot optimiza serviciile financiare ale băncilor, pot îmbunătăți platformele online și pot chiar alimenta bancomatele cu numerar.
Industria petrolului și a gazului
Oil and gas industries use ETL solutions to generate predictions about usage, storage, and trends in specific geographical areas. ETL are rolul de a aduna cât mai multe informații care provin de la toți senzorii unui amplasament de extracție și de a prelucra aceste informații astfel încât să fie ușor de interpretat.
Industria auto
Soluțiile ETL le permit dealerilor și producătorilor să înțeleagă modelele de vânzări, să își calibreze campaniile de marketing, să refacă stocurile și să monitorizeze clienții potențiali.
Telecomunicații
Având în vedere volumul și varietatea fără precedent de date produse în prezent, furnizorii de servicii de telecomunicații se bazează pe soluții ETL pentru a administra și înțelege mai bine aceste date. După ce aceste date sunt procesate și analizate, întreprinderile le pot folosi pentru a optimiza publicitatea, social media, SEO, satisfacția clienților, profitabilitatea și multe alte aspecte.
Sănătate
Având în vedere necesitatea de a reduce costurile și, în același timp, de a îmbunătăți serviciile medicale, domeniul sănătății utilizează soluții ETL pentru a administra dosarele pacienților, pentru a colecta informații despre asigurări și pentru a se conforma cerințelor de reglementare în permanentă schimbare.
Științele vieții
Laboratoarele clinice se bazează pe soluții ETL și pe inteligența artificială (AI) pentru a procesa diferite tipuri de date generate de instituțiile de cercetare. De exemplu, eforturile de colaborare pentru dezvoltarea de vaccinuri necesită colectarea, procesarea și analiza unor cantități uriașe de date.
Sectorul public
Odată cu dezvoltarea rapidă a capacităților Internet of Things (IoT), orașele inteligente folosesc ETL și puterea inteligenței artificiale pentru a optimiza traficul, a monitoriza calitatea apei, a îmbunătăți serviciile de parcare și multe alte aspecte.
Suita Service Oriented Architecture (SOA)
Cum puteți reduce complexitatea integrării aplicațiilor? Cu funcții simplificate de integrare în cloud, mobilă, la fața locului și IoT - toate într-o singură platformă - această soluție poate oferi un timp mai scurt de integrare și o productivitate sporită, împreună cu un cost total de proprietate (TCO) mai mic. Multe aplicații de întreprindere, inclusiv suita Oracle E-Business, utilizează masiv acest produs pentru a orchestra fluxurile de date.
GoldenGate
Transformarea digitală necesită adesea transferul datelor din locul în care sunt capturate către locul în care acestea sunt necesare, iar GoldenGate este conceput pentru a simplifica procesul. Oracle GoldenGate este o soluție de replicare a datelor de mare viteză pentru integrarea în timp real între baze de date eterogene amplasate la sediu, în cloud sau într-o bază de date autonomă. GoldenGate îmbunătățește disponibilitatea datelor fără a influența performanța sistemului, oferind acces la date în timp real și raportări operaționale.
Cloud Streaming
Soluția noastră Cloud Streaming furnizează o modalitate complet controlată, scalabilă și durabilă de preluare și utilizare a fluxurilor de date de mare volum în timp real. Utilizați acest serviciu pentru mesagerie, jurnale de aplicații, telemetrie operațională, date web de tip clickstream sau pentru orice alt caz în care datele sunt produse și procesate în mod continuu și secvențial într-un model de mesagerie de tip publicare-subscriere. Este pe deplin compatibil cu Spark și Kafka.