工作職責(zé):
1.?負(fù)責(zé)設(shè)計(jì)和開發(fā)分布式網(wǎng)絡(luò)爬蟲系統(tǒng),進(jìn)行多平臺(tái)信息的抓取和分析工作;
2.?負(fù)責(zé)網(wǎng)頁信息和APP數(shù)據(jù)抽取、清洗、消重等工作,提升平臺(tái)的抓取效率;
3.?負(fù)責(zé)驗(yàn)證碼、反爬、api、js注入破解,提升平臺(tái)的數(shù)據(jù)采集量;
4.?參與爬蟲核心算法和策略優(yōu)化,熟悉采集系統(tǒng)的調(diào)度策略;
5.?負(fù)責(zé)數(shù)據(jù)可視化實(shí)時(shí)監(jiān)控爬蟲的進(jìn)度和預(yù)警反饋。
任職要求:
1.???萍耙陨蠈W(xué)歷;
2.?3年及以上相關(guān)工作經(jīng)驗(yàn),有扎實(shí)的算法和數(shù)據(jù)結(jié)構(gòu)能力;
3.?熟悉?Linux開發(fā)環(huán)境,熟悉后端Java,scala?編程語言;
4.?熟悉kafka、zookeeper、java多線程以及定時(shí)任務(wù)等技術(shù);
5.?熟悉mysql數(shù)據(jù)庫,對(duì)于有sql優(yōu)化經(jīng)驗(yàn)者優(yōu)先;
6.?掌握rocksDB存儲(chǔ)引擎;
7.?熟悉爬蟲原理,熟悉常見的反爬技術(shù),有爬蟲相關(guān)項(xiàng)目開發(fā)經(jīng)驗(yàn)者優(yōu)先;
8.?對(duì)于項(xiàng)目有分布式項(xiàng)目經(jīng)驗(yàn)開發(fā)者優(yōu)先;
9.?掌握HTTP協(xié)議,熟練使用selenium、正則表達(dá)式、XPATH、CSS選擇器等爬蟲開發(fā)常用技能;
10.?熟練使用http代理工具和抓包工具,如Fiddler等;
11.?熟悉jetty;
12.?熟悉git、maven、sbt等工具。