這篇文章給大家分享的是有關(guān)如何使用hadoop archive合并小文件并進(jìn)行mapreduce來(lái)減少map的數(shù)量的內(nèi)容。小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,一起跟隨小編過(guò)來(lái)看看吧。
成都創(chuàng)新互聯(lián)專(zhuān)注于太谷網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗(yàn)。 熱誠(chéng)為您提供太谷營(yíng)銷(xiāo)型網(wǎng)站建設(shè),太谷網(wǎng)站制作、太谷網(wǎng)頁(yè)設(shè)計(jì)、太谷網(wǎng)站官網(wǎng)定制、成都小程序開(kāi)發(fā)服務(wù),打造太谷網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供太谷網(wǎng)站排名全網(wǎng)營(yíng)銷(xiāo)落地服務(wù)。
如下:原始文件 四個(gè)文件
經(jīng)過(guò)hadoop archive之后:
執(zhí)行的命令是:hadoop archive -archiveName words.har -p /words -r 1 /wordhar
生成的文件在/wordhar/words.har
其中part-0是數(shù)據(jù)文件
在mapreduce中,會(huì)忽略以下劃線(xiàn)開(kāi)頭的文件,也就是說(shuō)上圖的_SUCCESS,_index,_masterindex是不會(huì)處理的
那么這樣一來(lái)就只會(huì)處理數(shù)據(jù)文件part-0
job設(shè)置的輸入路徑是
運(yùn)行mapreduce中執(zhí)行的map數(shù)量是1
分片為一個(gè)
map數(shù)量為一個(gè)
課件通過(guò)hadoop archive的文件也可以進(jìn)行mapreduce
感謝各位的閱讀!關(guān)于“如何使用hadoop archive合并小文件并進(jìn)行mapreduce來(lái)減少map的數(shù)量”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí),如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!
網(wǎng)站欄目:如何使用hadooparchive合并小文件并進(jìn)行mapreduce來(lái)減少map的數(shù)量
鏈接分享:http://sd-ha.com/article6/pephig.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供商城網(wǎng)站、移動(dòng)網(wǎng)站建設(shè)、小程序開(kāi)發(fā)、品牌網(wǎng)站制作、品牌網(wǎng)站建設(shè)、用戶(hù)體驗(yàn)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)