職位職責(zé):
1)負責(zé)開發(fā)分布式網(wǎng)絡(luò)爬蟲系統(tǒng),進行多平臺信息的抓取和分析;
2)負責(zé)網(wǎng)頁信息抽取、數(shù)據(jù)清洗、數(shù)據(jù)融合等研發(fā)和優(yōu)化工作;
?
崗位要求:
1)3年以上開發(fā)經(jīng)驗,2年以上實際的爬蟲項目經(jīng)驗;
2)精通Python編程,熟悉java開發(fā),熟悉Linux命令;
3)精通開源爬蟲框架scrapy、xxl-crawler;熟悉selenium,熟悉反爬蟲、驗證碼識別技術(shù);
4)精通網(wǎng)頁抓取原理及技術(shù),精通正則表達式,從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息;
5)熟練使用MySQL、MongoDB、ElasticSearch、Kafka;
6)熟悉抓包工具,如fiddler,charles等;
7)熟練使用版本管理工具git;
?
加分項:
1)了解大數(shù)據(jù)Hadoop、Spark、Nifi、Storm、HDFS、NFS、Hive等?
2)具有數(shù)據(jù)挖掘、自然語言處理、信息檢索、機器學(xué)習(xí)背景者優(yōu)先
職位福利:餐補、周末雙休、彈性工作、五險一金、績效獎金、定期體檢、帶薪年假、14薪