崗位職責:1、負責爬蟲系統(tǒng)的核心技術研究、架構設計、系統(tǒng)規(guī)劃;2、負責爬蟲核心算法的策略優(yōu)化,提升網頁抓取的效率和質量;3、負責分布式網絡爬蟲研發(fā),通過對抓取、解析、調度、存儲等模塊的拆分與優(yōu)化,形成具有特色的定向爬蟲引擎,持續(xù)改進與迭代完善,推進開放服務建設;4、不斷滿足精細化運營需求,在保證抓取系統(tǒng)不斷前進的基礎上,完成日常抓取與解析任務,對數據的穩(wěn)定性負責。5、研究各種網頁、微信、app接口,實現多通道抓??;6、負責網頁信息抽取、數據清洗,構建數據分析與挖掘體系,研發(fā)數據挖掘類產品與應用,負責海量數據的分析挖掘。任職要求:1、熟悉Python/C++/Java三種編程語言中的至少一種,熟悉爬蟲方向開發(fā)和應用;2、熟悉網絡編程、熟悉多線程機制、有過Socket?HTTP網絡編程項目經驗,具有爬蟲系統(tǒng)框架設計能力,以及爬蟲項目規(guī)劃能力;3、熟悉HTML,熟練正則、XPath等Web信息提取技術;4、熟悉常見的加解密算法及其原理,具有大型web登錄分析和搜索相關技術研發(fā)經驗者優(yōu)先;5、熟悉多線程編程,有高并發(fā)分布式服務器開發(fā)經驗優(yōu)先;6、熟悉Mysql,redis,mongdb三者至少之一,有過數據庫調優(yōu)和海量數據存儲經驗優(yōu)先;7、具有數據挖掘、自然語言處理、信息檢索、機器學習背景者優(yōu)先。8、具備良好的溝通能力、對數據的渴望、敏銳的判斷、堅韌不拔、團隊精神。