崗位職責(zé):1.負(fù)責(zé)設(shè)計(jì)和開發(fā)分布式的網(wǎng)絡(luò)爬蟲應(yīng)用;2.負(fù)責(zé)爬蟲抓取數(shù)據(jù)的分析和整理;3.負(fù)責(zé)解決爬取過程中的各種反爬問題。任職要求:1、熟悉網(wǎng)頁(yè)抓取原理及技術(shù),熟悉基于正則表達(dá)式、Xpath、CSS等網(wǎng)頁(yè)信息;2、使用python?1年以上的開發(fā)經(jīng)驗(yàn);3、精通至少一種主流數(shù)據(jù)NoSQL、mysql數(shù)據(jù)庫(kù);4、熟悉httpclient、js,ajax,webdriver、htmlunit、Nutch、selenium、ETL、HtmlParser、Jsoup,webmagic等技術(shù)優(yōu)先;5、有海量數(shù)據(jù)爬取經(jīng)驗(yàn)者優(yōu)先;有爬取過微博,微信,淘寶等平臺(tái)數(shù)據(jù)優(yōu)先;具有自然語(yǔ)言處理、機(jī)器學(xué)習(xí)背景優(yōu)先;6、具有較強(qiáng)的分析和解決問題能力,以解決技術(shù)難題為樂趣,有想法,敢于挑戰(zhàn)。