崗位職責:?
1、協(xié)助實現(xiàn)分布式網(wǎng)絡數(shù)據(jù)采集系統(tǒng)的設計與開發(fā);?
2、協(xié)助實現(xiàn)數(shù)據(jù)采集策略和防屏蔽規(guī)則;?
3、協(xié)助維護和優(yōu)化已有數(shù)據(jù)采集服務;?
4、協(xié)助實現(xiàn)數(shù)據(jù)采集服務核心算法的策略優(yōu)化研究,充分利用資源,提升網(wǎng)頁抓取的效率和質(zhì)量。?
5、完成上級交辦的其他工作任務(簡單數(shù)據(jù)采集任務、數(shù)據(jù)統(tǒng)計需求)。?
?
任職要求:?
1、大專以上學歷,計算機軟件相關專業(yè),具有扎實的操作系統(tǒng)、網(wǎng)絡、數(shù)據(jù)庫相關基礎知識;?
2、了解python多進程、多線程、協(xié)程、網(wǎng)絡編程,具有有實際應用經(jīng)驗;?
3、熟悉Linux操作系統(tǒng),熟練使用常用命令,掌握MySQL、MongDB、Redis常用操作;?
4、了解網(wǎng)頁抓取原理及技術、深度抓取、動態(tài)網(wǎng)頁技術抓取、瀏覽器模擬抓取技術,從結構化的和非結構化的數(shù)據(jù)中獲取信息;?
5、熟悉Scrapy、Selenium等爬蟲框架/工具中的一種或多種;?
6、了解常用驗證碼識別技術,熟悉行為驗證碼識別、模擬登陸,熟悉各種反爬機制和解決措施;?
7、有團隊觀念,善于學習提升。