任職要求:?
1.?熟悉掌握JAVA編程,有腳本語言使用經(jīng)驗,并能熟練使用正則表達式,熟練DOM分析網(wǎng)頁結(jié)構:?
2.?熟悉各種網(wǎng)站、網(wǎng)頁、鏈接的形態(tài),了解它們的特點和規(guī)律;??
3?熟悉heritrix框架,了解提升spider、heritrix的抓取的方法。
4.?對網(wǎng)絡爬蟲、網(wǎng)頁信息抽取、網(wǎng)頁結(jié)構分析有類似開發(fā)工作經(jīng)驗;?
5.?精通網(wǎng)絡編程、對算法設計和數(shù)據(jù)結(jié)構有較深深刻的理解;
6.?具有較強的溝通能力、團隊合作精神及抗壓能力
工作職責:
1.?參與網(wǎng)絡信息獲取方向的研究與開發(fā);?
2.?開發(fā)研究海量網(wǎng)頁抓取、信息精準提取等搜索核心技術;?
3.?根據(jù)公司制定的規(guī)則要求,編寫網(wǎng)絡爬蟲軟件,從網(wǎng)上抓取對應內(nèi)容資料