久久久精品一区ed2k-女人被男人叉到高潮的视频-中文字幕乱码一区久久麻豆樱花-俄罗斯熟妇真实视频

go語(yǔ)言學(xué)習(xí)爬蟲(chóng)框架總結(jié)-創(chuàng)新互聯(lián)

??最近主攻go的學(xué)習(xí),在學(xué)完了基礎(chǔ)語(yǔ)法,看完了無(wú)聞翻譯的《The way to go》和ccmouse大神的慕課網(wǎng)課程后,感覺(jué)基礎(chǔ)差不多了,繼續(xù)深入挖掘ccmouse大神的爬蟲(chóng)項(xiàng)目,收獲頗豐,感覺(jué)還是有一定的難度的,會(huì)繼續(xù)啃下去,學(xué)習(xí)之余感覺(jué)自己實(shí)在是井底之蛙,無(wú)數(shù)光陰盡數(shù)浪費(fèi),無(wú)所建樹(shù),思維停留在最原始的層面,無(wú)法向前邁進(jìn);慶幸現(xiàn)在有所覺(jué)悟,人生匆匆?guī)资d,時(shí)間是最寶貴的,不論哪個(gè)領(lǐng)域,選擇一個(gè)自己認(rèn)定的,低下頭向前沖刺,豐富自己的頭腦,提升自己的認(rèn)知。好像扯得有點(diǎn)遠(yuǎn)了,下面是項(xiàng)目的總結(jié)。

主要從事網(wǎng)頁(yè)設(shè)計(jì)、PC網(wǎng)站建設(shè)(電腦版網(wǎng)站建設(shè))、wap網(wǎng)站建設(shè)(手機(jī)版網(wǎng)站建設(shè))、成都響應(yīng)式網(wǎng)站建設(shè)公司、程序開(kāi)發(fā)、微網(wǎng)站、小程序開(kāi)發(fā)等,憑借多年來(lái)在互聯(lián)網(wǎng)的打拼,我們?cè)诨ヂ?lián)網(wǎng)網(wǎng)站建設(shè)行業(yè)積累了豐富的成都網(wǎng)站設(shè)計(jì)、成都做網(wǎng)站、網(wǎng)絡(luò)營(yíng)銷(xiāo)經(jīng)驗(yàn),集策劃、開(kāi)發(fā)、設(shè)計(jì)、營(yíng)銷(xiāo)、管理等多方位專業(yè)化運(yùn)作于一體,具備承接不同規(guī)模與類型的建設(shè)項(xiàng)目的能力。
  1. 項(xiàng)目有一個(gè)main.go的入口文件,然后是各個(gè)子目錄功能文件夾;如圖:go語(yǔ)言學(xué)習(xí)爬蟲(chóng)框架總結(jié) engine是總的控制文件,把請(qǐng)求和正則解析push到總的slice []request中,fetcher主要是通過(guò)http庫(kù)去獲取頁(yè)面body信息,model是要保存的人的信息struct
  2. 說(shuō)完了目錄結(jié)構(gòu),接下來(lái)介紹下流程:go語(yǔ)言學(xué)習(xí)爬蟲(chóng)框架總結(jié)
  3. 整個(gè)單機(jī)版爬蟲(chóng)項(xiàng)目比較簡(jiǎn)單,但對(duì)我來(lái)說(shuō)收貨還是比較大的,其中涉及到一些技術(shù)細(xì)節(jié),如接口定義,結(jié)構(gòu)方法的使用,
  4. 后面還有并發(fā)版本和分布式版本,就比較復(fù)雜了,并發(fā)版是充分使用go的goroutine和chan,要在大的方向上理清楚思路,抽象出一些公用的方法和結(jié)構(gòu),重要的正則解析要做test工作,然后在此指引下一步步構(gòu)建,不可盲目前進(jìn)。首先并發(fā)版需要兩個(gè)chan,一個(gè)in :=chan Request和另一個(gè)out:=chan ParseResult,并發(fā)版啟動(dòng)WorkerCount個(gè)goroutine去并發(fā)獲取in chan url內(nèi)容并解析出新url推送到out chan,同時(shí)并發(fā)版有一個(gè)scheduler調(diào)度器, 將初始的爬取Request(包括url和對(duì)應(yīng)的parser,因?yàn)槊總€(gè)網(wǎng)址的parser規(guī)則不同所以要成組傳輸)放進(jìn)scheduler里的workerChan即前面定義的in chan, 他倆是一個(gè)chan, 程序開(kāi)始并發(fā)執(zhí)行,由于執(zhí)行的比較快會(huì)被爬取網(wǎng)站斷掉, 可以用time.Tike(time)來(lái)限制速度,另爬取時(shí)可能要設(shè)置相應(yīng)的header頭,否則會(huì)被屏蔽掉.
  5. 由于并發(fā)版多個(gè)worker都在爭(zhēng)搶Request去執(zhí)行,控制力度比較小,只適用于單機(jī),不適合多機(jī)器分布式部署,故演化出第三個(gè)版本:隊(duì)列實(shí)現(xiàn).隊(duì)列執(zhí)行效率和并發(fā)版執(zhí)行效率差不多. scheduler調(diào)度器中有rqquestChan chan Request 和 workerChan chan chan Request(注意這里是兩個(gè)chan), 在run方法中定義一個(gè)out chan ParseResult,和并發(fā)版相比而言,隊(duì)列版多了workerChan 這個(gè)chan,主要用來(lái)實(shí)現(xiàn)隊(duì)列的調(diào)度。試著描述下整個(gè)過(guò)程不一定清晰:go語(yǔ)言學(xué)習(xí)爬蟲(chóng)框架總結(jié)
  6. 下面附上幾張ccmouse大神的講課ppt供大家理解,如有不清楚的歡迎下方留言討論。go語(yǔ)言學(xué)習(xí)爬蟲(chóng)框架總結(jié)go語(yǔ)言學(xué)習(xí)爬蟲(chóng)框架總結(jié)go語(yǔ)言學(xué)習(xí)爬蟲(chóng)框架總結(jié)

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

分享標(biāo)題:go語(yǔ)言學(xué)習(xí)爬蟲(chóng)框架總結(jié)-創(chuàng)新互聯(lián)
當(dāng)前地址:http://sd-ha.com/article28/goscp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站制作、營(yíng)銷(xiāo)型網(wǎng)站建設(shè)、搜索引擎優(yōu)化全網(wǎng)營(yíng)銷(xiāo)推廣、App開(kāi)發(fā)、面包屑導(dǎo)航

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都seo排名網(wǎng)站優(yōu)化