關(guān)于etl工程師工作內(nèi)容,etl工程師這個問題很多朋友還不知道,今天小六來為大家解答以上的問題,現(xiàn)在讓我們一起來看看吧!
1、技術(shù)方面:需要學(xué)習(xí)使用數(shù)據(jù)源、目標(biāo)端工具的基本使用(如 oracle MySQL hive等);需要學(xué)習(xí)etl工具的安裝配置常用錯誤解決(如 kettle DataStage infa sqoop datax等)理論方面:懂得數(shù)倉分層架構(gòu),維度建模等。
2、從ETL的字面來看,它主要包含階段,分別是數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載。
3、1.數(shù)據(jù)抽取這個階段的主要目標(biāo)是匯總多種數(shù)據(jù)源,為下一步的轉(zhuǎn)換做準(zhǔn)備。
4、2.數(shù)據(jù)轉(zhuǎn)換這個階段是ETL的核心環(huán)節(jié),也是最復(fù)雜的環(huán)節(jié)。
5、它的主要目標(biāo)是將抽取到的各種數(shù)據(jù),進(jìn)行數(shù)據(jù)的清洗、格式的轉(zhuǎn)換、缺失值填補(bǔ)、剔除重復(fù)等操作,最終得到一份格式統(tǒng)一、高度結(jié)構(gòu)化、數(shù)據(jù)質(zhì)量高、兼容性好的數(shù)據(jù),為后續(xù)的分析決策提供可靠的數(shù)據(jù)支持。
6、3.數(shù)據(jù)加載這個階段的主要目標(biāo)是把數(shù)據(jù)加載至目的地,比如數(shù)據(jù)倉庫中。
7、通常的做法是,將處理好的數(shù)據(jù)寫成特定格式(如parquet、csv等)的文件,然后再把文件掛載到指定的表分區(qū)上。
8、也有些表的數(shù)據(jù)量很小,不會采用分區(qū)表,而是直接生成最終的數(shù)據(jù)表。
9、了解了ETL這部分的工作主要做什么,接下來再來說作為ETL工程師需要具備哪些技能,這些也就是需要學(xué)習(xí)的重點(diǎn)——精通SQL語言,具備存儲過程開發(fā)能力,能熟練進(jìn)行SQL查詢優(yōu)化;2、熟悉Hive數(shù)據(jù)倉庫設(shè)計,了解數(shù)據(jù)倉庫模型及思想、維度建模思想,了解數(shù)據(jù)倉庫;3、熟悉Hadoop、Spark、Flink、Kafka等相關(guān)技術(shù);4、熟練Python、Java中至少一種語言;5、熟悉Mysql、Nosql等常見數(shù)據(jù)庫。
本文分享完畢,希望對大家有所幫助。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!