1、負(fù)責(zé)數(shù)據(jù)清洗、轉(zhuǎn)化等具體工作:
負(fù)責(zé)基于hadoop/spark生態(tài)系統(tǒng)、億級(jí)別數(shù)據(jù)的全文檢索,搜索引擎的產(chǎn)品研發(fā);
基于海量用戶行為數(shù)據(jù)和其他數(shù)據(jù),分析和研究數(shù)據(jù)與實(shí)際業(yè)務(wù)的關(guān)聯(lián)關(guān)系,并與實(shí)際業(yè)務(wù)應(yīng)用相結(jié)合開(kāi)發(fā);
負(fù)責(zé)大數(shù)據(jù)分析需求設(shè)計(jì)和開(kāi)發(fā),承擔(dān)數(shù)據(jù)抽取、清洗、轉(zhuǎn)化等數(shù)據(jù)處理程序開(kāi)發(fā);
2、負(fù)責(zé)建構(gòu)公司數(shù)據(jù)平臺(tái)并落實(shí)維護(hù)與管理工作:
負(fù)責(zé)落實(shí)大數(shù)據(jù)平臺(tái)各類數(shù)據(jù)業(yè)務(wù)抽象及模型化工作;
負(fù)責(zé)組織或落實(shí)大數(shù)據(jù)管理平臺(tái)的開(kāi)發(fā)及維護(hù);
負(fù)責(zé)大數(shù)據(jù)平臺(tái)數(shù)據(jù)及相關(guān)的應(yīng)用開(kāi)發(fā),調(diào)優(yōu)及維護(hù);
3、其他支持工作
制定公司數(shù)據(jù)管理規(guī)范,參與制定技術(shù)標(biāo)準(zhǔn),編寫相應(yīng)的技術(shù)文檔;
為項(xiàng)目相關(guān)開(kāi)發(fā)人員提供大數(shù)據(jù)技術(shù)指導(dǎo)及解決大數(shù)據(jù)平臺(tái)應(yīng)用中遇到的技術(shù)難題;
負(fù)責(zé)對(duì)各部門的技術(shù)團(tuán)隊(duì)進(jìn)行技術(shù)指導(dǎo)和培訓(xùn),研究并推廣數(shù)據(jù)應(yīng)用新技術(shù);
任職資格:
本科及以上,計(jì)算機(jī)科學(xué)、軟件工程等專業(yè);
2年以上大數(shù)據(jù)管理、大數(shù)據(jù)應(yīng)用開(kāi)發(fā)經(jīng)驗(yàn);
具備Java、Python、Scala其中兩種語(yǔ)言的開(kāi)發(fā)經(jīng)驗(yàn);
了解泛Hadoop大數(shù)據(jù)生態(tài)圈,熟悉HDFS/Hive/Flink/Hbase/Spark/Kafka其中兩種以上技術(shù),并有實(shí)際的項(xiàng)目開(kāi)發(fā)經(jīng)驗(yàn),有相關(guān)源碼研究者優(yōu)先;
具備ETL開(kāi)發(fā)與運(yùn)維能力,有Flume、kettle經(jīng)驗(yàn)優(yōu)先;
熟悉大數(shù)據(jù)平臺(tái)的搭建過(guò)程,熟悉數(shù)據(jù)處理流程,有TB級(jí)以上數(shù)據(jù)處理經(jīng)驗(yàn)優(yōu)先,有實(shí)時(shí)數(shù)據(jù)處理經(jīng)驗(yàn)者優(yōu)先;
熟悉離線和實(shí)時(shí)數(shù)據(jù)處理流程,熟練使用Spark,F(xiàn)link處理TB級(jí)數(shù)據(jù)優(yōu)先;
熟悉Linux系統(tǒng)環(huán)境,有shell等腳本編寫經(jīng)驗(yàn),熟悉Mysql、PostgreSql、Oracle等常用關(guān)系數(shù)據(jù)庫(kù),熟練編寫SQL語(yǔ)句;
熟悉Yarn,Kubernetes,Azkaban等資源調(diào)度框架者優(yōu)先;
熟悉Datax的二次開(kāi)發(fā),并有實(shí)際開(kāi)發(fā)經(jīng)驗(yàn)優(yōu)先