職位描述:
1、負(fù)責(zé)設(shè)計(jì)和開(kāi)發(fā)分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),進(jìn)行數(shù)據(jù)抓取和分析;
2、設(shè)計(jì)爬蟲(chóng)策略和防屏蔽規(guī)則,提升網(wǎng)頁(yè)抓取的效率和質(zhì)量;
3、參與分布式爬蟲(chóng)和數(shù)據(jù)采集系統(tǒng)的架構(gòu)設(shè)計(jì)和開(kāi)發(fā),快速響應(yīng)業(yè)務(wù)變動(dòng);
4、負(fù)責(zé)網(wǎng)絡(luò)數(shù)據(jù)抓取規(guī)劃、定期爬取指定網(wǎng)站的數(shù)據(jù);
5、參與數(shù)據(jù)層建設(shè),專注于垂直領(lǐng)域數(shù)據(jù)爬取,進(jìn)行多平臺(tái)信息的抓取和分析;
6、實(shí)現(xiàn)數(shù)據(jù)提取、清洗、結(jié)構(gòu)化、入庫(kù)、統(tǒng)計(jì)分析等需求;
7、研究?jī)?yōu)化算法,提升爬蟲(chóng)系統(tǒng)的穩(wěn)定性、可擴(kuò)展性。
任職要求:
1、本科及以上學(xué)歷,5年以上爬蟲(chóng)抓取采集相關(guān)工作經(jīng)驗(yàn),爬蟲(chóng)基礎(chǔ)扎實(shí);
2、熟練Python和常用的開(kāi)源庫(kù),熟練使用Django/Flask等至少一種主流的web開(kāi)發(fā)框架;
3、熟練Mysql,MongoDB, Redis,Es,隊(duì)列等數(shù)據(jù)庫(kù)的使用和優(yōu)化;
4、對(duì)進(jìn)程、線程、協(xié)程、異步、非阻塞有一定了解和使用;
5、熟練掌握爬蟲(chóng)主流框架Scrapy、Selenium、gocolly,webmagic等(深入了解其中一種);
6、熟悉應(yīng)用IP代理池、Headers認(rèn)證和Cookie等;
7、熟悉分布式爬蟲(chóng),JS防護(hù)、混淆、逆向分析等技能,熟悉各種瀏覽器檢測(cè)/反檢測(cè)手段;
8、熟悉Python/Java/Go/C++其中一種語(yǔ)言,具備扎實(shí)的編碼能力;
9、責(zé)任心強(qiáng)、工作積極、良好的服務(wù)意識(shí)、較強(qiáng)的工作適應(yīng)能力,自我驅(qū)動(dòng);
10、加分項(xiàng):逆向、分布式、數(shù)據(jù)分析、數(shù)據(jù)挖掘;有訓(xùn)練過(guò)自己的模型;github或者碼云有相關(guān)開(kāi)源項(xiàng)目;有海量代理池搭建經(jīng)驗(yàn);有采集政府網(wǎng)址經(jīng)驗(yàn)優(yōu)先考慮;
職位類(lèi)別:
軟件工程師
舉報(bào)