崗位職責:
1、負責機票網(wǎng)站的抓取、分析、調(diào)度、存儲,為公司業(yè)務提供數(shù)據(jù)支持;
2、負責公司爬蟲引擎核心功能開發(fā)及優(yōu)化;
3、負責目標站點的結(jié)構(gòu)與URL特點分析,網(wǎng)頁信息抽取算法的研究和優(yōu)化,和數(shù)據(jù)清洗等研發(fā)和優(yōu)化工作;
4、分析爬蟲系統(tǒng)瓶頸,設計實現(xiàn)相應策略和算法,提升爬蟲的抓取效率和質(zhì)量;
崗位要求:
1、?熟悉搜索、旅行、機票、酒店的一類并有此類項目經(jīng)驗者優(yōu)先考慮。
2、?熟練使用正則表達式、xpath解析數(shù)據(jù)、搜索策略、算法、數(shù)據(jù)聚類、重組技術,熟悉反爬蟲、驗證碼識別;
3、?精通抓包工具至少一種,熟悉使用正則表達式;精通網(wǎng)絡通信編程,網(wǎng)頁抓取原理及技術,熟悉HTTP傳輸協(xié)議,能模擬各類操作爬蟲;熟悉爬蟲實現(xiàn)原理機制;對分布式和多線程技術有一定了解;
4、?抓取策略熟悉(1、深度優(yōu)先遍歷策略?2、寬度優(yōu)先遍歷策略?3、反向鏈接數(shù)策略?4、Partial?PageRank策略?5、OPIC策略策略?6、大站優(yōu)先策略);
5、?能承受較大的工作壓力,有較強團隊合作精神,有良好的敬業(yè)精神,富于創(chuàng)新精神,具有較強的溝通能力、學習能力;
6、?2年以上垂直搜索爬蟲,分布式網(wǎng)絡爬蟲開發(fā)經(jīng)驗,至少獨立負責過1個完整爬蟲項目;