數(shù)據(jù)挖掘,數(shù)據(jù)架構(gòu)
??
??崗位職責(zé):
??1.?負(fù)責(zé)爬蟲(chóng)相關(guān)的開(kāi)發(fā),實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)采集爬取、解析和提取,對(duì)數(shù)據(jù)進(jìn)行過(guò)濾、去重、清洗、結(jié)構(gòu)化處理、數(shù)據(jù)入庫(kù)等工作,并且負(fù)責(zé)反爬蟲(chóng)策略制定;??
2.?負(fù)責(zé)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的挖掘與分析;
3.?提取并對(duì)用戶(hù)行為進(jìn)行分析;
??4.?參與項(xiàng)目的需求分析、功能設(shè)計(jì),承擔(dān)主要開(kāi)發(fā)工作;
??
??任職要求:
??1.?計(jì)算機(jī)相關(guān)專(zhuān)業(yè)本科及以上學(xué)歷,3-5年工作經(jīng)驗(yàn);??
2.?有開(kāi)發(fā)經(jīng)驗(yàn)及數(shù)據(jù)抓取工作經(jīng)驗(yàn),?作為主力參與過(guò)至少一個(gè)完整的爬蟲(chóng)開(kāi)發(fā)項(xiàng)目;??
3.?理解http,熟悉html,?DOM,?xpath,?regex;??
4.?熟練掌握Python語(yǔ)言折優(yōu)先;??
5.?有自然語(yǔ)言處理相關(guān)經(jīng)驗(yàn)者優(yōu)先;??
6.?掌握AJAX網(wǎng)頁(yè)采集技術(shù),有驗(yàn)證碼識(shí)別技術(shù)數(shù)據(jù)抓取經(jīng)驗(yàn)者優(yōu)先,有分布式爬蟲(chóng)和NoSQL數(shù)據(jù)庫(kù)開(kāi)發(fā)經(jīng)驗(yàn)者優(yōu)先;