大數(shù)據(jù)面試經(jīng)驗
#面試經(jīng)驗談#
1 在介紹數(shù)倉模型時大概分下面介紹
數(shù)倉分層有哪些層,每一層的作用和構(gòu)建原理,有哪些數(shù)據(jù)域和主題,對于域和主題是怎么劃分的,數(shù)倉命名規(guī)范怎么定的,ads層主要是怎么設(shè)計的,數(shù)據(jù)怎么對外運用,數(shù)倉不能跨層依賴,dwd必須要有ods的所有字段,不能聚合操作,dws一般都是輕度聚合,比如用戶和訂單的聚合,ads通常不能直接來源dwd,只能從dim和dws來,dim層快照和非快照的區(qū)分
2 實時任務(wù)如何做到不延遲
我認(rèn)為該這樣答,首先確保source端消費能及時消費,要評估一下數(shù)據(jù)的QPS,然后中間計算階段并行度要夠,在規(guī)定時間需要計算完成,最后sink階段需要及時落表,還有就是任務(wù)失敗要從checkpoint拉起任務(wù),并且消費kafka的偏移量要從最新的地方拉起,防止重復(fù)消費導(dǎo)致延遲,
1 在介紹數(shù)倉模型時大概分下面介紹
數(shù)倉分層有哪些層,每一層的作用和構(gòu)建原理,有哪些數(shù)據(jù)域和主題,對于域和主題是怎么劃分的,數(shù)倉命名規(guī)范怎么定的,ads層主要是怎么設(shè)計的,數(shù)據(jù)怎么對外運用,數(shù)倉不能跨層依賴,dwd必須要有ods的所有字段,不能聚合操作,dws一般都是輕度聚合,比如用戶和訂單的聚合,ads通常不能直接來源dwd,只能從dim和dws來,dim層快照和非快照的區(qū)分
2 實時任務(wù)如何做到不延遲
我認(rèn)為該這樣答,首先確保source端消費能及時消費,要評估一下數(shù)據(jù)的QPS,然后中間計算階段并行度要夠,在規(guī)定時間需要計算完成,最后sink階段需要及時落表,還有就是任務(wù)失敗要從checkpoint拉起任務(wù),并且消費kafka的偏移量要從最新的地方拉起,防止重復(fù)消費導(dǎo)致延遲,
全部評論
相關(guān)推薦
點贊 評論 收藏
分享