崗位職責(zé):1、參與爬蟲系統(tǒng)的架構(gòu)設(shè)計(jì)與開發(fā);2、具有實(shí)際爬蟲開發(fā)、內(nèi)容提取工作經(jīng)驗(yàn)3年以上;3、負(fù)責(zé)設(shè)計(jì)和開發(fā)分布式網(wǎng)絡(luò)爬蟲系統(tǒng),進(jìn)行多平臺(tái)信息的抓取和分析;4、設(shè)計(jì)爬蟲策略和防屏蔽規(guī)則,提升網(wǎng)頁抓取的效率和質(zhì)量5、能獨(dú)立解決實(shí)際開發(fā)過程碰到的各類問題;職位要求:1、熟悉linux平臺(tái)開發(fā),3年以上Java、python開發(fā)經(jīng)驗(yàn);2、精通信息抓取和整合技術(shù),從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息;3、熟悉Mysql,redis,mongdb三者至少之一,有過數(shù)據(jù)庫調(diào)優(yōu)和海量數(shù)據(jù)存儲(chǔ)經(jīng)驗(yàn)者優(yōu)先;4、掌握多種解析工具的使用,熟悉正則;?5、使用過1種以上爬蟲框架(pyspider、scrapy等);6、掌握簡單的驗(yàn)證碼識(shí)別技術(shù)、AJAX網(wǎng)頁采集技術(shù)?以及爬蟲高并發(fā)技術(shù),流式處理經(jīng)驗(yàn)者優(yōu)先。