崗位職責(zé)
1、良好的python編程經(jīng)驗(yàn),熟悉網(wǎng)絡(luò)爬蟲原理和策略;
2、熟練掌握網(wǎng)頁抓取原理及技術(shù)、正則表達(dá)式、多線程、HTTP協(xié)議,能從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息;
3、熟悉爬蟲、種子、解析、下載、去重、提取、過濾、調(diào)度、DNScache、異步處理等概念和過程,能夠熟練配置解析模板;
4、熟悉Nutch/Heritrix/larbin/HtmlParser/HttpClient/Jsoup中的一種或多種開源技術(shù);
5、能夠有效分析并處理技術(shù)問題;具備良好的表達(dá)和溝通能力。
任職資格
1、負(fù)責(zé)傳統(tǒng)網(wǎng)頁信息采集與正確解析;
2、負(fù)責(zé)網(wǎng)頁爬蟲架構(gòu)設(shè)計(jì)與核心技術(shù)研發(fā);
3、負(fù)責(zé)互聯(lián)網(wǎng)資源的特征挖掘,主要對網(wǎng)頁特征、站點(diǎn)結(jié)構(gòu)、資源變化趨勢等進(jìn)行數(shù)據(jù)分析和特征建模;
4、設(shè)計(jì)策略和算法,提升網(wǎng)頁抓取的效率和質(zhì)量,進(jìn)一步解決系統(tǒng)的網(wǎng)頁排重、垃圾控制、資源劃分等問題;
5、負(fù)責(zé)網(wǎng)絡(luò)爬蟲平臺的維護(hù)工作。