Data Scientist v Data Engineer, jaký je rozdíl?

Datoví specialisté a datoví inženýři mohou být nové pracovní tituly, ale klíčové úlohy již nějakou dobu existují. Každý, kdo analyzuje data, se tradičně nazývá „analytik dat“ a stává se „vývojářem Business Intelligence (BI)“, který vytváří platformu backend pro podporu analytiky dat.

S příchodem velkých dat se objevila nová data v korporacích a výzkumných centrech - vědci v oblasti dat a datoví inženýři.

Zde je stručný přehled role analytika dat, programátora BI, specialisty na data a datového inženýra.

Analytik dat

Analytici dat jsou zkušení profesionálové se schopností dotazovat a zpracovávat data v jejich organizaci, reportovat, sumarizovat a vizualizovat data. Umí používat stávající nástroje a techniky k řešení problémů a pomáhají lidem v celé společnosti porozumět konkrétním dotazům pomocí sestav ad hoc a plánů.

Neočekává se však, že se budou zabývat analýzou velkých dat, a obvykle se neočekává, že budou mít matematická nebo výzkumná data k vývoji nových algoritmů pro specifické problémy.

Dovednosti a nástroje: Analytici dat musí mít základní znalosti o základních dovednostech: statistika, sběr dat, vizualizace dat, vyhledávání dat, Microsoft Excel, SPSS, SPSS Modeler, SAS, SAS Miner, SQL, Microsoft Access, Tableau, SSAS.

Vývojáři obchodní inteligence

Business Intelligence Manufacturers jsou profesionálové v oblasti dat, kteří mají užší vztahy s interními zúčastněnými stranami, aby porozuměli potřebám reportingu a poté shromažďovali požadavky, vytvářeli řešení BI a firemní reporting. Měli by navrhovat, vyvíjet a udržovat nové a stávající databáze, balíčky ETL, krychle, dashboardy a analytické zprávy.

Kromě toho pracují s křížovými a vícerozměrnými databázemi a musí mít rozsáhlé dovednosti ve vývoji SQL pro integraci dat z různých zdrojů. Všechny tyto dovednosti používají k uspokojení samoobslužných potřeb podniku. Očekává se, že BI Producer neprovádí analýzu dat.

Dovednosti a nástroje: ETL, zpracování zpráv, OLAP, kostky, webová inteligence, design obchodních objektů, Tableau, nástroje dashboardu, SQL, SSAS, SSIS.

Informační inženýr

Datoví inženýři jsou datoví specialisté, kteří připravují infrastrukturu „velkých dat“, která je analyzována datovými specialisty. Jsou to softwaroví inženýři, kteří navrhují, vytvářejí, integrují a spravují velká data z různých zdrojů. Poté píšou složité dotazy, ujistí se, že jsou snadno přístupné, pracují hladce a jejich cílem je optimalizovat výkon velkého datového ekosystému společnosti.

Mohou také spouštět některé programy ETL (Extrahovat, Transformovat a Načíst) na rozsáhlých datových sadách a vytvářet velké databáze, které mohou vědci používat pro reportování nebo analýzu. . Protože se datoví inženýři více soustředí na design a architekturu, obvykle neočekávají, že budou znát strojové učení nebo analýzu velkých dat.

Dovednosti a nástroje: Hadoop, MapReduce, Hive, Prase, MySQL, MongoDB, Cassandra, Tok dat, NoSQL, SQL, Programování.

Datový vědec

Datový vědec Alchymista 21. století: Někdo, kdo transformuje nezpracovaná data do propracovaných konceptů. Vědci dat používají analytické přístupy k řešení důležitých problémů ve statistice, strojovém učení a podnikání. Jejich hlavním úkolem je pomoci organizacím přeměnit velké objemy velkých dat na cenné a efektivní poznatky.

Ve skutečnosti není věda o údajích úplně nový směr, ale lze ji považovat za pokročilý stupeň analýzy dat, který je řízen a automatizován strojovým učením a informatikou. Jinými slovy, vědci v oblasti dat mají kromě programování dat silné analytické dovednosti, nové algoritmy, zpracování velkých dat a znalosti domén, ve srovnání s „datovými analytiky“. se očekává.

Kromě toho se od vědců v oblasti dat očekává, že budou interpretovat a volně sdílet výsledky svých zjištění se zajímavými příběhy o tom, jak je vizualizovat, vytvářet datové aplikace nebo řešit jejich problémy s obchodem s daty.

Schopnosti řešení problémů s vědci v oblasti dat vyžadují pochopení tradičních i nových technik analýzy dat pro vytváření statistických modelů nebo identifikaci vzorců v datech. Mezi příklady patří vytvoření systému doporučení, predikce akciového trhu, diagnóza založená na pacientovi nebo nalezení padělků.

V případě, že nedochází k obchodním problémům, mohou být někdy vědcům poskytnuta celá data. V tomto případě se očekává, že zvědavý Data Scientist prostuduje informace, najde otázky, které potřebujete, a poskytne zajímavá zjištění! To je obtížné, protože silní odborníci v oblasti datové analýzy jsou velmi nadšeni analytikou dat, sběrem dat, statistikami a různými metodami ve velké datové infrastruktuře. musí mít spoustu znalostí.

Měli by mít zkušenosti s prací s různými soubory dat různých velikostí a tvarů a používat své algoritmy pro rozsáhlá data efektivně a efektivně, což obvykle znamená být si vědom všech nejnovějších technologií. Proto je důležité znát základy informatiky a programování, včetně jazyků a databázových (velkých / malých) technologií.

Dovednosti a nástroje: Python, R, Scala, Apache Spark, Hadoop, nástroje a algoritmy pro vyhledávání dat, strojové učení, statistiky.

MUORO - Data a analýza Genius muoro.io