大數(shù)據(jù)入門(mén)：循序漸進(jìn)，了解Hive是什麼！

來(lái)源：奇酷教育發(fā)表於：2019-03-29 10:15:30

Hive基於類(lèi)似SQL的語言完成對(duì)hdfs數(shù)據(jù)的查詢分析。那麼它到底做了什麼呢？1 它支持各種命令，比如dfs的命令、腳本的執(zhí)行2 如果你輸(shū)入的是

Hive基於類(lèi)似SQL的語言完成對(duì)hdfs數(shù)據(jù)的查詢分析。

那麼它到底做了什麼呢？

1 它支持各種命令，比如dfs的命令、腳本的執(zhí)行
2 如果你輸(shū)入的是sql，它會(huì)交給一個(gè)叫做Driver的東東，去編譯解析。
3 把編譯出來(lái)的東西交給hadoop去跑...然後返回查詢結(jié)果。

說(shuō)了這麼多，其實(shí)你就可以把hive理解成搭建在hadoop(hdfs和mapreduce)之上的語言殼子...

如何搭建？如何使用？

學(xué)習(xí)如何使用Hive還是個(gè)很重要的部分的！這裡就不詳細(xì)的說(shuō)了，都舉個(gè)小例子，具體的還是去擼官網(wǎng)吧！

創(chuàng)建

在Hive裡面創(chuàng)建表和在普通的資料庫(kù)中創(chuàng)建表示類(lèi)似的，都是先創(chuàng)建（或者使用默認(rèn)的）資料庫(kù)，然後創(chuàng)建表。


create database xxx; -- 創(chuàng)建資料庫(kù)

use xxx; --使用資料庫(kù)

create table student(id string,name string,age int); --創(chuàng)建表

導(dǎo )入導(dǎo )出數(shù)據(jù)

數(shù)據(jù)的導(dǎo )入最常用的就是從hdfs的文件導(dǎo )入或者本地文件導(dǎo )入，也可以從某個(gè)查詢結(jié)果直接創(chuàng)建或者導(dǎo )入。

Hive還支持把查詢結(jié)果導(dǎo )出到文件...

數(shù)據(jù)的導(dǎo )入

查詢

最普通的查詢，就是select from句式了，Hive還是做得比較通用的


--普通查詢

select * from xxx;

--帶條件的查詢

select * from xxx where age>30;

--限制返回列

select name,age from xxx;

--內(nèi)連接

select a.*,b.* from tablea a join tableb b on a.id=b.sid;

--左連接

select * from a left outer join b on a.id=b.sid;

--右連接

select * from a right outer join b on a.id=b.sid;

函數(shù)

Hive支持一大堆的函數(shù)，比如普通的函數(shù)UDF：


floor、ceil、rand、cast等等

還支持聚合類(lèi)型的函數(shù)UDAF：


count、avg、min、max、sum

還支持生成多行的函數(shù)。

更厲害的是，支持自定義擴展~~ 比如你們公司有個(gè)mapreduce的專(zhuān)家，可以封裝很多的函數(shù)，然後別的會(huì)sql的分析人員，就可以使用這些函數(shù)做數(shù)據(jù)倉(cāng )庫(kù)的分析了。

存儲(chǔ)

首先需要說(shuō)明的是，Hive在存儲(chǔ)的時(shí)候是不做任何處理的。不像是資料庫(kù)，存進(jìn)去的數(shù)據(jù)要先進(jìn)行特定的解析，比如解析成一個(gè)一個(gè)的欄位，然後挨個(gè)存儲(chǔ)。每個(gè)資料庫(kù)的存儲(chǔ)引擎不同，解析的方式就不太一樣。

在Hive中的數(shù)據(jù)都是存儲(chǔ)在hdfs中的，如果沒有特殊的聲明，會(huì)以文本的形式存儲(chǔ)，即不會(huì)再存儲(chǔ)前做任何操作。簡(jiǎn)直就相當(dāng)於是原封不動(dòng)的拷貝。當(dāng)你執(zhí)行查詢的時(shí)候，會(huì)按照預先指定的解析規(guī)則解析，然後返回。

舉個(gè)例子更好理解點(diǎn)：


你的文件：

1,a

2,b

3,c

那麼創(chuàng)建表的時(shí)候會(huì)這樣：



create table xxx(a string,b string) row format delimited fields terminated by ',';



這個(gè)fields terminated by ','就聲明了欄位按照逗號(hào)進(jìn)行分割。

那麼當(dāng)hive執(zhí)行查詢的時(shí)候，就會(huì)遍歷文件，遇到逗號(hào)就分隔成一個(gè)欄位~最後把結(jié)果返回。

畢竟hdfs還是按照塊來(lái)存儲(chǔ)數(shù)據(jù)的....這也是為什麼Hive不支持局部的修改和刪除，只能整體的覆蓋、刪除。

除了前面說(shuō)的文本格式（TextFile），Hive還支持SequenceFile、RCFile，各有各的優(yōu)勢(shì)。sequenceFile相當(dāng)於把數(shù)據(jù)切分了，然後可以局部的記錄或者塊進(jìn)行壓縮。RCFile則是列式存儲(chǔ)，這樣可以提高壓縮比；還可以在查詢的時(shí)候跳過(guò)不必要的列。

分區(qū)

在Hive中資料庫(kù)和表其實(shí)都是hdfs中的一個(gè)目錄，比如你的a資料庫(kù)下的表b，存儲(chǔ)的路徑是這樣的:


/user/hive/warehouse/a.db/b

後面兩(liǎng)個(gè)部分a.db/b是很關(guān)鍵的，即“資料庫(kù)名.db/表名”

在Hive還支持分區(qū)的概念。即按照某個(gè)特定的欄位，對(duì)表進(jìn)行劃(huà)分。通常這個(gè)欄位都是虛擬的，比如時(shí)間....


create table aa(a string,b string) partitioned by(c string);

這樣就創(chuàng)建了分區(qū)表，如果c欄位有"aaa"和"bbb"兩(liǎng)個(gè)值，最終的目錄就是醬嬸的！


/user/hive/warehouse/a.db/b/c=aaa

/user/hive/warehouse/a.db/b/c=bbb

注意都是目錄哦！真正的文件在這些目錄下面。

由於都是目錄，就很好理解，為什麼分區(qū)查詢會(huì)快了！因為在hive中所有的查詢，基本都相當(dāng)於是全表的掃描，因此要是能通過(guò)分區(qū)欄位進(jìn)行過(guò)濾，那麼可以跳過(guò)很多不必要的文件了。

在Hive中支持靜態(tài)分區(qū)（即你導(dǎo )數(shù)據(jù)的時(shí)候指定分區(qū)欄位的值）、動(dòng)態(tài)分區(qū)（按照欄位的值來(lái)定分區(qū)的名稱(chēng)）。需要注意的是，動(dòng)態(tài)分區(qū)會(huì)有很多潛在的風(fēng)險(xiǎn)，比如太多了！所以一定要合理規(guī)劃(huà)你的表存儲(chǔ)的設(shè)計(jì)。

索引

在hive0.7.0+的版本中，也是支持索引的。比如：


CREATE INDEX table02_index ON TABLE table02 (column3) AS 'COMPACT' WITH DEFERRED REBUILD;



CREATE INDEX table03_index ON TABLE table03 (column4) AS 'BITMAP' WITH DEFERRED REBUILD;

你也可以自定義索引的實(shí)現(xiàn)類(lèi)，只要替換(huàn)AS ''裡面的東西，變成自己的包名類(lèi)名就行。

不過(guò)一樣的，添加索引雖然會(huì)加快索引。可是也意味著增加了存儲(chǔ)的負(fù)擔(dān)...所以自己衡量吧！

下一篇:最後一頁(yè) 上一篇:大數(shù)據(jù)基礎(chǔ)架構(gòu )總結(jié)

日韩亚洲一区二_久久vs国产综合色大全_国产精品福利在线_欧美在线一级A片免费观看欧美在线_女同性毛片60分钟

大數(shù)據(jù)入門(mén)：循序漸進(jìn)，了解Hive是什麼！

如何搭建？如何使用？

創(chuàng)建

導(dǎo )入導(dǎo )出數(shù)據(jù)

查詢

函數(shù)

存儲(chǔ)

分區(qū)

索引

欄目導(dǎo )航

奇酷熱點(diǎn)

常見(jiàn)問(wèn)題

奇酷技術(shù)交流中心

相關(guān)文章

日韩 亚洲一区二_久久vs国产综合色大全_国产精品福利在线_欧美在线一级A片免费观看欧美在线_女同性毛片60分钟

大數(shù)據(jù)入門(mén)：循序漸進(jìn)，了解Hive是什麼！

如何搭建？如何使用？

創(chuàng)建

導(dǎo )入導(dǎo )出數(shù)據(jù)

查詢

函數(shù)

存儲(chǔ)

分區(qū)

索引

欄目導(dǎo )航

奇酷熱點(diǎn)

常見(jiàn)問(wèn)題

奇酷技術(shù)交流中心

相關(guān)文章

日韩亚洲一区二_久久vs国产综合色大全_国产精品福利在线_欧美在线一级A片免费观看欧美在线_女同性毛片60分钟

大數(shù)據(jù)入門(mén)：循序漸進(jìn)，了解Hive是什麼！