1.負(fù)責(zé)分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的架構(gòu)設(shè)計與開發(fā)(如抓取調(diào)度,多樣化抓取,頁面解析和結(jié)構(gòu)化抽取,海量數(shù)據(jù)存儲和讀取等);負(fù)責(zé)數(shù)據(jù)的抓取、解析、清洗、入庫;
?2.設(shè)計和優(yōu)化爬蟲策略與算法,提升數(shù)據(jù)抓取效果;
?3.設(shè)計爬蟲策略和防屏蔽規(guī)則,提升網(wǎng)頁抓取的效率和質(zhì)量;
?4.負(fù)責(zé)爬蟲邏輯的開發(fā),快速響應(yīng)業(yè)務(wù)變動,并持續(xù)優(yōu)化系統(tǒng),提高系統(tǒng)的穩(wěn)定性;
?5.能夠根據(jù)客戶需求,進(jìn)行需求分析,完成接口設(shè)計、詳細(xì)設(shè)計以及相應(yīng)的開發(fā)及測試任務(wù)。
??
?崗位要求:
?1.?計算機(jī)、軟件工程等相關(guān)專業(yè),2年以上爬蟲開發(fā)經(jīng)驗(yàn),熟悉linux和Java開發(fā),熟悉shell/perl/python等腳本語言,熟練掌握正則表達(dá)式。
?2.?精通一種開源爬蟲框架,如scrapy、webmagic、nutch、heritrix等,有開發(fā)爬蟲框架經(jīng)驗(yàn)優(yōu)先;熟悉反爬蟲、驗(yàn)證碼識別技術(shù)者優(yōu)先;熟悉網(wǎng)絡(luò)編程(TCP、HTTP、Soket)有多線程、網(wǎng)絡(luò)數(shù)據(jù)處理經(jīng)驗(yàn)優(yōu)先。
?3.?學(xué)習(xí)能力強(qiáng),具備良好的分析和解決問題能力,對技術(shù)抱有熱情,愿意研究新技術(shù)。
?4.?思維敏捷,邏輯清晰,有較強(qiáng)的分析和解決問題的能力。
?5.?有數(shù)據(jù)清洗經(jīng)驗(yàn)優(yōu)先。
ps:新項(xiàng)目初創(chuàng)階段。