崗位職責:
1、負責對互聯(lián)網(wǎng)上相關(guān)領(lǐng)域的文本數(shù)據(jù)進行抓取、分析與整理;
2、模式識別相關(guān)數(shù)據(jù)的處理,智能數(shù)據(jù)分析模塊編寫。
3、研究相關(guān)站點的網(wǎng)站特征,發(fā)現(xiàn)它們的特點和規(guī)律,設(shè)計各種爬蟲策略和算法;
4、開發(fā)爬蟲程序,提取文本、鏈接、圖片、文件等各類信息,并持續(xù)提升爬蟲的抓取效果;
5、持續(xù)分析爬蟲的技術(shù)缺陷,并做出合理地調(diào)整或改進;
6、智能抽取工具的開發(fā)。
任職資格:
1、熟悉Linux平臺,對CCJavaPython中至少一種熟練掌握。
2、精通Java網(wǎng)絡(luò)編程,熟悉HTTP傳輸協(xié)議,能模擬瀏覽器操作爬蟲;
3、精通網(wǎng)頁抓取原理及技術(shù),精通正則表達式,從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息;
4、熟悉LuceneNutchHeritrixlarbinHtmlClientHtmlParser等開源工具;
5、熟悉HBase,MongoDB等NoSQL數(shù)據(jù)庫,并至少精通一種關(guān)系型數(shù)據(jù)庫的開發(fā),如Mysql、Oracle、MSSQL等;
6、熟悉搜索引擎和網(wǎng)絡(luò)爬蟲相關(guān)技術(shù),如有分詞、spider、分類、聚類、索引、檢索等相關(guān)開發(fā)經(jīng)驗者優(yōu)先。