使用spark加载并读取parquet格式的文件——之使用scala版

前言

It has been a long time.

最近有需求读取并测试parquet格式的文件。目前hive、impala、spark等框架均支持parquet。

本文是采用scala接口的spark进行简单的hello world。

进入spark-shell环境

[root@hadoop01 ~]# su - spark
[spark@hadoop01 ~]$ spark-
spark-class   spark-shell   spark-sql     spark-submit  
[spark@hadoop01 ~]$ spark-shell 
15/10/10 10:24:11 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
15/10/10 10:24:12 INFO SecurityManager: Changing view acls to: spark
15/10/10 10:24:12 INFO SecurityManager: Changing modify acls to: spark
15/10/10 10:24:12 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(spark); users with modify permissions: Set(spark)
15/10/10 10:24:12 INFO HttpServer: Starting HTTP Server
15/10/10 10:24:12 INFO Server: jetty-8.y.z-SNAPSHOT
15/10/10 10:24:12 INFO AbstractConnector: Started SocketConnector@0.0.0.0:48566
15/10/10 10:24:12 INFO Utils: Successfully started service 'HTTP class server' on port 48566.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 1.3.1
      /_/

Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_71)
Type in expressions to have them evaluated.
Type :help for more information.
15/10/10 10:24:17 INFO SparkContext: Running Spark version 1.3.1
<strong>[…A lot of spark log output…]</strong>
15/10/10 10:24:28 INFO SparkILoop: Created spark context..
Spark context available as sc.
15/10/10 10:24:29 INFO SparkILoop: Created sql context (with Hive support)..
SQL context available as sqlContext.

scala>

[root@hadoop01 ~]# su - spark

[spark@hadoop01 ~]$ spark-

spark-class spark-shell spark-sql spark-submit

[spark@hadoop01 ~]$ spark-shell

15/10/10 10:24:11 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

15/10/10 10:24:12 INFO SecurityManager: Changing view acls to: spark

15/10/10 10:24:12 INFO SecurityManager: Changing modify acls to: spark

15/10/10 10:24:12 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(spark); users with modify permissions: Set(spark)

15/10/10 10:24:12 INFO HttpServer: Starting HTTP Server

15/10/10 10:24:12 INFO Server: jetty-8.y.z-SNAPSHOT

15/10/10 10:24:12 INFO AbstractConnector: Started SocketConnector@0.0.0.0:48566

15/10/10 10:24:12 INFO Utils: Successfully started service 'HTTP class server' on port 48566.

Welcome to

____ __

/ __/__ ___ _____/ /__

_\ \/ _ \/ _ `/ __/ '_/

/___/ .__/\_,_/_/ /_/\_\ version 1.3.1

/_/

Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_71)

Type in expressions to have them evaluated.

Type :help for more information.

15/10/10 10:24:17 INFO SparkContext: Running Spark version 1.3.1

[…A lot of spark log output…]

15/10/10 10:24:28 INFO SparkILoop: Created spark context..

Spark context available as sc.

15/10/10 10:24:29 INFO SparkILoop: Created sql context (with Hive support)..

SQL context available as sqlContext.

scala>

注意：

输出可以看到这里用的是spark1.3.1
spark-shell自动为你注册了Spark context，该对象名字为：sc。后面直接使用sc对象进行设置。
看到scala提示符，就意味着可以进行编程测试了。

注册SQLContext并进行配置

scala> val sqlContext = new org.apache.spark.sql.SQLContext(sc)
sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@1530f74e

scala> sqlContext.setConf("spark.sql.parquet.binaryAsString","true")

scala>

scala> val sqlContext = new org.apache.spark.sql.SQLContext(sc)

sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@1530f74e

scala> sqlContext.setConf("spark.sql.parquet.binaryAsString","true")

scala>

步骤：

使用sc（Spark context）对象注册SQLContext
使用setConf对SQLContext进行配置
可配置的参数见：http://spark.apache.org/docs/1.3.1/sql-programming-guide.html#parquet-files
可配置的参数在1.5.1的最新版本中增加了很多

导入parquet文件

导入文件：

scala> val parquetFile = sqlContext.parquetFile("/tmp/me.parquet")
15/10/10 10:47:12 WARN DomainSocketFactory: The short-circuit local reads feature cannot be used because libhadoop cannot be loaded.
SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
SLF4J: Defaulting to no-operation (NOP) logger implementation
SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.
parquetFile: org.apache.spark.sql.DataFrame = [CONTRACTID: string, TDATETIME: string, CONTRACTNAME: string, LASTPX: double, HIGHPX: double, LOWPX: double, CQ: double, TQ: double, LASTQTY: double, INITOPENINTS: double, OPENINTS: double, INTSCHG: double, TURNOVER: double, RISELIMIT: double, FALLLIMIT: double, PRESETTLE: double, PRECLOSE: double, OPENPX: double, CLOSEPX: double, SETTLEMENTPX: double, LIFELOW: double, LIFEHIGH: double, AVGPX: double, BIDIMPLYQTY: double, ASKIMPLYQTY: double, SIDE: string, S1: double, B1: double, SV1: double, BV1: double, S5: double, S4: double, S3: double, S2: double, B2: double, B3: double, B4: double, B5: double, SV5: double, SV4: double, SV3: double, SV2: double, BV2: double, BV3: double, BV4: double, BV5: double, PREDELTA: double, CURRDELTA: double, CHG...

scala> val parquetFile = sqlContext.parquetFile("/tmp/me.parquet")

15/10/10 10:47:12 WARN DomainSocketFactory: The short-circuit local reads feature cannot be used because libhadoop cannot be loaded.

SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".

SLF4J: Defaulting to no-operation (NOP) logger implementation

SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.

parquetFile: org.apache.spark.sql.DataFrame = [CONTRACTID: string, TDATETIME: string, CONTRACTNAME: string, LASTPX: double, HIGHPX: double, LOWPX: double, CQ: double, TQ: double, LASTQTY: double, INITOPENINTS: double, OPENINTS: double, INTSCHG: double, TURNOVER: double, RISELIMIT: double, FALLLIMIT: double, PRESETTLE: double, PRECLOSE: double, OPENPX: double, CLOSEPX: double, SETTLEMENTPX: double, LIFELOW: double, LIFEHIGH: double, AVGPX: double, BIDIMPLYQTY: double, ASKIMPLYQTY: double, SIDE: string, S1: double, B1: double, SV1: double, BV1: double, S5: double, S4: double, S3: double, S2: double, B2: double, B3: double, B4: double, B5: double, SV5: double, SV4: double, SV3: double, SV2: double, BV2: double, BV3: double, BV4: double, BV5: double, PREDELTA: double, CURRDELTA: double, CHG...

打印parquet文件的schema：

scala> parquetFile.printSchema()
root
 |-- CONTRACTID: string (nullable = false)
 |-- TDATETIME: string (nullable = false)

scala> parquetFile.printSchema()

root

|-- CONTRACTID: string (nullable = false)

|-- TDATETIME: string (nullable = false)

注意：如果sqlContext.setConf(“spark.sql.parquet.binaryAsString”,”false”)，则列数据类型将为原始的binary。这里自动进行了转换。

将parquet文件注册为临时表

scala> parquetFile.registerTempTable("parquetFile")

1	scala> parquetFile.registerTempTable("parquetFile")

parquet表的DML操作

执行sql：

scala> val tdatetime = sqlContext.sql("SELECT TDATETIME FROM parquetFile")
tdatetime: org.apache.spark.sql.DataFrame = [TDATETIME: string]

1 2	scala> val tdatetime = sqlContext.sql("SELECT TDATETIME FROM parquetFile") tdatetime: org.apache.spark.sql.DataFrame = [TDATETIME: string]

遍历结果：

scala> contractid.map(t => "TDATETIME: " + t(0)).collect().foreach(println)
15/10/10 10:17:56 INFO MemoryStore: ensureFreeSpace(223942) called with curMem=276682, maxMem=15558896517
[…A lot of spark log output…]
15/10/10 10:17:56 INFO DAGScheduler: Stage 1 (collect at <console>:26) finished in 0.265 s
15/10/10 10:17:56 INFO DAGScheduler: Job 1 finished: collect at <console>:26, took 0.284977 s
TDATETIME: 2015-05-04 08:45:35.223
TDATETIME: 2015-05-04 08:46:36.067
TDATETIME: 2015-05-04 08:47:36.940
[……]

scala> contractid.map(t => "TDATETIME: " + t(0)).collect().foreach(println)

15/10/10 10:17:56 INFO MemoryStore: ensureFreeSpace(223942) called with curMem=276682, maxMem=15558896517

[…A lot of spark log output…]

15/10/10 10:17:56 INFO DAGScheduler: Stage 1 (collect at <console>:26) finished in 0.265 s

15/10/10 10:17:56 INFO DAGScheduler: Job 1 finished: collect at <console>:26, took 0.284977 s

TDATETIME: 2015-05-04 08:45:35.223

TDATETIME: 2015-05-04 08:46:36.067

TDATETIME: 2015-05-04 08:47:36.940

[……]

香蕉与打火机 2015年10月10日 let's spark, 小云云 0 Read more >

【翻译】HBase 集群安装与配置

单机模式安装、启动 HBase

安装 HBase Master

安装HBase Master

yum install hbase-master

1	yum install hbase-master

启动HBase Master服务

[root@hadoop01 ~]# service hbase-master start
starting master, logging to /var/log/hbase/hbase-hbase-master-hadoop01.out
Started HBase master daemon (hbase-master):[  OK  ]

[root@hadoop01 ~]# service hbase-master start

starting master, logging to /var/log/hbase/hbase-hbase-master-hadoop01.out

Started HBase master daemon (hbase-master):[ OK ]

安装及启动HBase Thrift Server

安装HBase Thrift Server

[root@hadoop01 ~]# yum install hbase-thrift
Loaded plugins: fastestmirror, refresh-packagekit, security
Setting up Install Process
Loading mirror speeds from cached hostfile
c6-http                                                                    | 2.9 kB     00:00     
cdh5.3.1                                                                   | 2.9 kB     00:00     
cm5.3.1                                                                    | 2.9 kB     00:00     
Resolving Dependencies
--> Running transaction check
---> Package hbase-thrift.x86_64 0:0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6 will be installed
--> Finished Dependency Resolution

Dependencies Resolved

==================================================================================================
 Package           Arch        Version                                        Repository     Size
==================================================================================================
Installing:
 hbase-thrift      x86_64      0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6        cdh5.3.1      5.2 k

Transaction Summary
==================================================================================================
Install       1 Package(s)

Total download size: 5.2 k
Installed size: 4.5 k
Is this ok [y/N]: y
Downloading Packages:
hbase-thrift-0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6.x86_64.rpm            | 5.2 kB     00:00     
Running rpm_check_debug
Running Transaction Test
Transaction Test Succeeded
Running Transaction
  Installing : hbase-thrift-0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6.x86_64                    1/1 
  Verifying  : hbase-thrift-0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6.x86_64                    1/1 

Installed:
  hbase-thrift.x86_64 0:0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6                                   

Complete!

[root@hadoop01 ~]# yum install hbase-thrift

Loaded plugins: fastestmirror, refresh-packagekit, security

Setting up Install Process

Loading mirror speeds from cached hostfile

c6-http | 2.9 kB 00:00

cdh5.3.1 | 2.9 kB 00:00

cm5.3.1 | 2.9 kB 00:00

Resolving Dependencies

--> Running transaction check

---> Package hbase-thrift.x86_64 0:0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6 will be installed

--> Finished Dependency Resolution

Dependencies Resolved

==================================================================================================

Package Arch Version Repository Size

==================================================================================================

Installing:

hbase-thrift x86_64 0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6 cdh5.3.1 5.2 k

Transaction Summary

==================================================================================================

Install 1 Package(s)

Total download size: 5.2 k

Installed size: 4.5 k

Is this ok [y/N]: y

Downloading Packages:

hbase-thrift-0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6.x86_64.rpm | 5.2 kB 00:00

Running rpm_check_debug

Running Transaction Test

Transaction Test Succeeded

Running Transaction

Installing : hbase-thrift-0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6.x86_64 1/1

Verifying : hbase-thrift-0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6.x86_64 1/1

Installed:

hbase-thrift.x86_64 0:0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6

Complete!

启动HBase Thrift Server

[root@hadoop01 ~]# service hbase-thrift start
starting thrift, logging to /var/log/hbase/hbase-hbase-thrift-hadoop01.out
Started HBase thrift daemon (hbase-thrift):[  OK  ]

[root@hadoop01 ~]# service hbase-thrift start

starting thrift, logging to /var/log/hbase/hbase-hbase-thrift-hadoop01.out

Started HBase thrift daemon (hbase-thrift):[ OK ]

安装配置HBase REST

安装HBase REST

[root@hadoop01 ~]# yum install hbase-rest
Loaded plugins: fastestmirror, refresh-packagekit, security
Setting up Install Process
Loading mirror speeds from cached hostfile
Resolving Dependencies
--> Running transaction check
---> Package hbase-rest.x86_64 0:0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6 will be installed
--> Finished Dependency Resolution

Dependencies Resolved

==================================================================================================
 Package          Arch         Version                                       Repository      Size
==================================================================================================
Installing:
 hbase-rest       x86_64       0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6       cdh5.3.1       4.7 k

Transaction Summary
==================================================================================================
Install       1 Package(s)

Total download size: 4.7 k
Installed size: 4.5 k
Is this ok [y/N]: y
Downloading Packages:
hbase-rest-0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6.x86_64.rpm              | 4.7 kB     00:00     
Running rpm_check_debug
Running Transaction Test
Transaction Test Succeeded
Running Transaction
  Installing : hbase-rest-0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6.x86_64                      1/1 
  Verifying  : hbase-rest-0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6.x86_64                      1/1 

Installed:
  hbase-rest.x86_64 0:0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6                                     

Complete!

[root@hadoop01 ~]# yum install hbase-rest

Loaded plugins: fastestmirror, refresh-packagekit, security

Setting up Install Process

Loading mirror speeds from cached hostfile

Resolving Dependencies

--> Running transaction check

---> Package hbase-rest.x86_64 0:0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6 will be installed

--> Finished Dependency Resolution

Dependencies Resolved

==================================================================================================

Package Arch Version Repository Size

==================================================================================================

Installing:

hbase-rest x86_64 0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6 cdh5.3.1 4.7 k

Transaction Summary

==================================================================================================

Install 1 Package(s)

Total download size: 4.7 k

Installed size: 4.5 k

Is this ok [y/N]: y

Downloading Packages:

hbase-rest-0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6.x86_64.rpm | 4.7 kB 00:00

Running rpm_check_debug

Running Transaction Test

Transaction Test Succeeded

Running Transaction

Installing : hbase-rest-0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6.x86_64 1/1

Verifying : hbase-rest-0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6.x86_64 1/1

Installed:

hbase-rest.x86_64 0:0.98.6+cdh5.3.1+74-1.cdh5.3.1.p0.17.el6

Complete!

配置REST端口（如果采用默认的60050则不需配置）

修改hbase-site.xml

<property>
  <name>hbase.rest.port</name>
  <value>60050</value>
</property>

<name>hbase.rest.port</name>

</property>

启动HBase REST

[root@hadoop01 ~]# service hbase-rest start
starting rest, logging to /var/log/hbase/hbase-hbase-rest-hadoop01.out
Started HBase rest daemon (hbase-rest):[  OK  ]

[root@hadoop01 ~]# service hbase-rest start

starting rest, logging to /var/log/hbase/hbase-hbase-rest-hadoop01.out

Started HBase rest daemon (hbase-rest):[ OK ]

安装至此，即可单机享用HBase。

HBase分布式安装配置

集群机器规划

按照以下规划安装对应的软件包

Node Name	Master	ZooKeeper	RegionServer
hadoop01	yes	yes	no
hadoop02	backup	yes	yes
hadoop03	no	yes	yes

Node Name

Master

ZooKeeper

RegionServer

hadoop01

yes

hadoop02

backup

yes

hadoop03

yes

安装软件包命令

master

yum install hbase-master

1	yum install hbase-master

region server

yum install hbase-regionserver

1	yum install hbase-regionserver

准备hadoop01

配置region server

编辑/etc/hbase/conf/regionservers，添加hadoop02、03.

[root@hadoop01 conf]# vim regionservers 

hadoop02
hadoop03

[root@hadoop01 conf]# vim regionservers

hadoop02

hadoop03

配置hadoop02为backup master

新增文件/etc/hbase/conf/backup-masters，添加一行hadoop02

[root@hadoop01 conf]# vim backup-masters

hadoop02

[root@hadoop01 conf]# vim backup-masters

hadoop02

配置HBase为分布式模式

编辑/etc/hbase/conf/hbase-site.xml

<property>
  <name>hbase.cluster.distributed</name>
  <value>true</value>
</property>
<property>
  <name>hbase.rootdir</name>
  <value>hdfs://hadoop01:8020/hbase</value>
</property>

<name>hbase.cluster.distributed</name>

</property>

<name>hbase.rootdir</name>

<value>hdfs://hadoop01:8020/hbase</value>

</property>

配置zookeeper

在/etc/hbase/conf/hbase-site.xml添加参数

  <property>
    <name>hbase.zookeeper.quorum</name>
    <value>hadoop01,hadoop02,hadoop03</value>
  </property>
  <property>
    <name>hbase.zookeeper.property.dataDir</name>
    <value>/var/lib/zookeeper</value>
  </property>

<name>hbase.zookeeper.quorum</name>

<value>hadoop01,hadoop02,hadoop03</value>

</property>

<name>hbase.zookeeper.property.dataDir</name>

<value>/var/lib/zookeeper</value>

</property>

其中dataDir参数参考本机的/etc/zookeeper/conf/zoo.cfg。

在HDFS上创建/hbase目录

hdfs dfs -mkdir /hbase
hdfs dfs -chown hbase /hbase

1 2	hdfs dfs -mkdir /hbase hdfs dfs -chown hbase /hbase

配置hadoop02、03

拷贝hadoop01配置文件到02、03

[root@hadoop01 conf]# scp backup-masters hbase-site.xml regionservers hadoop02:/etc/hbase/conf
backup-masters                                                  100%    9     0.0KB/s   00:00    
hbase-site.xml                                                  100% 3291     3.2KB/s   00:00    
regionservers                                                   100%   52     0.1KB/s   00:00    
[root@hadoop01 conf]# scp backup-masters hbase-site.xml regionservers hadoop03:/etc/hbase/conf
backup-masters                                                  100%    9     0.0KB/s   00:00    
hbase-site.xml                                                  100% 3291     3.2KB/s   00:00    
regionservers                                                   100%   52     0.1KB/s   00:00

[root@hadoop01 conf]# scp backup-masters hbase-site.xml regionservers hadoop02:/etc/hbase/conf

backup-masters 100% 9 0.0KB/s 00:00

hbase-site.xml 100% 3291 3.2KB/s 00:00

regionservers 100% 52 0.1KB/s 00:00

[root@hadoop01 conf]# scp backup-masters hbase-site.xml regionservers hadoop03:/etc/hbase/conf

backup-masters 100% 9 0.0KB/s 00:00

hbase-site.xml 100% 3291 3.2KB/s 00:00

regionservers 100% 52 0.1KB/s 00:00

分别启动服务

在hadoop01、02启动hbase-master

service hbase-master start

1	service hbase-master start

在hadoop02、03启动hbase-regionserver

service hbase-regionserver start

1	service hbase-regionserver start

检查服务状态

在各服务器执行：jps

hadoop01：

[root@hadoop01 ~]# jps
2917 ResourceManager
9145 NameNode
2773 NodeManager
2349 
32369 Jps
<strong>32138 HMaster</strong>
2139 JournalNode
3333 RunJar
4114 Worker
3867 Master
3511 RunJar
2667 JobHistoryServer
2604 Bootstrap
<strong>1992 QuorumPeerMain</strong>
8950 DataNode

[root@hadoop01 ~]# jps

2917 ResourceManager

9145 NameNode

2773 NodeManager

2349

32369 Jps

32138 HMaster

2139 JournalNode

3333 RunJar

4114 Worker

3867 Master

3511 RunJar

2667 JobHistoryServer

2604 Bootstrap

1992 QuorumPeerMain

8950 DataNode

hadoop02：

[root@hadoop02 ~]# jps
7365 -- process information unavailable
4764 Jps
3387 Worker
16481 -- process information unavailable
2537 NodeManager
<strong>4450 HMaster</strong>
3140 Master
<strong>1799 QuorumPeerMain</strong>
7511 DataNode
2171 
2379 Bootstrap
1960 JournalNode
<strong>4618 HRegionServer</strong>

[root@hadoop02 ~]# jps

7365 -- process information unavailable

4764 Jps

3387 Worker

16481 -- process information unavailable

2537 NodeManager

4450 HMaster

3140 Master

1799 QuorumPeerMain

7511 DataNode

2171

2379 Bootstrap

1960 JournalNode

4618 HRegionServer

hadoop03：

[root@hadoop03 ~]# jps
3316 Worker
5521 DataNode
2749 RunJar
2477 NodeManager
18027 Jps
<strong>17887 HRegionServer</strong>
2199 
1979 JournalNode
<strong>1837 QuorumPeerMain</strong>
2417 Bootstrap
3070 Master

[root@hadoop03 ~]# jps

3316 Worker

5521 DataNode

2749 RunJar

2477 NodeManager

18027 Jps

17887 HRegionServer

2199

1979 JournalNode

1837 QuorumPeerMain

2417 Bootstrap

3070 Master

参考

单机模式安装、启动 HBase：http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_hbase_standalone_start.html

HBase分布式安装配置：http://hbase.apache.org/book.html#_introduction

HBase分布式安装配置（伪分布式）:

http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_hbase_pseudo_configure.html

HBase分布式安装配置（伪分布式->集群）：

http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_hbase_cluster_deploy.html

香蕉与打火机 2015年4月9日小云云 0 Read more >

【翻译】hbase installation

原文：（安装）http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_hbase_install.html

（BlockCache）http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/admin_hbase_blockcache_configure.html

Installing HBase（安装Hbase）

[root@hadoop01 conf]# yum install hbase

1	[root@hadoop01 conf]# yum install hbase

配置HBase（Configuration Settings for HBase）

使用hdfs的线程数参数（Using `dfs.datanode.max.transfer.threads` with HBase）

HDFS datanode有最大伺服文件数限制。该上限由dfs.datanode.max.transfer.threads参数控制。在加载HBase之前，确认已经在$HADOOP_HOME/conf/hdfs-site.xml文件中配置了该参数：

<property>
  <name>dfs.datanode.max.transfer.threads</name>
  <value>4096</value>
</property>

<name>dfs.datanode.max.transfer.threads</name>

</property>

将配置文件发送到集群，并重启HDFS以生效。

否则会报与block相关的奇怪错误。

配置HBase的BlockCache（Configuring the HBase `BlockCache）`

扩展阅读：

堆内存与堆外内存：http://bananalighter.com/java-off-heap-on-heap/

块缓存１：http://www.cnblogs.com/panfeng412/archive/2012/09/24/hbase-block-cache-mechanism.html

块缓存２：http://punishzhou.iteye.com/blog/1277141

HBase提供了堆内存及堆外内存两种块缓存的实现。

堆内存：默认的堆内存块缓存实现是LruBlockCache（java）。桶缓存可以用堆内存，也可以用堆外内存。

结合：如果操作的数据超出堆容量，可以使用桶缓存作为堆内存LruBlockCache的二级缓存（L2 cache）。这个实现在CombinedBlockCache中有涉及。

香蕉与打火机 2015年4月8日小云云 0 Read more >

【翻译】部署hive

安装及配置Metastore：

http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_hive_metastore_configure.html

安装及配置HiveServer2：

http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_hiveserver2_configure.html

配置hive运行内存：

http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_hive_install.html

预安装环境参考：

yarn：http://bananalighter.com/cdh-yarn-installation/

zookeeper： http://bananalighter.com/cdh-install-zookeeper

物理环境：hadoop01、02、03三台机器。

1.Hive metastore server安装

(1) 安装hive包

选用hadoop01作为元数据服务所在机器，安装hive-metastore

yum install hive-metastore hive-server2

(2) 在hadoop02上安装metastore所用的mysql数据库

yum install mysql-server

service mysqld start

chkconfig mysqld on

yum install mysql-connector-java

ln -s /usr/share/java/mysql-connector-java.jar /usr/lib/hive/lib/mysql-connector-java.jar

yum install mysql-server

service mysqld start

chkconfig mysqld on

yum install mysql-connector-java

ln -s /usr/share/java/mysql-connector-java.jar /usr/lib/hive/lib/mysql-connector-java.jar

mysql初始化安装

mysql_secure_installation

[...]

Enter current password for root (enter for none):

OK, successfully used password, moving on...

[...]

Set root password? [Y/n] y

New password:

Re-enter new password:

Remove anonymous users? [Y/n] Y

[...]

Disallow root login remotely? [Y/n] N

[...]

Remove test database and access to it [Y/n] Y

[...]

Reload privilege tables now? [Y/n] Y

All done!

mysql初始化安装

mysql_secure_installation

[...]

Enter current password for root (enter for none):

OK, successfully used password, moving on...

[...]

Set root password? [Y/n] y

New password:

Re-enter new password:

Remove anonymous users? [Y/n] Y

[...]

Disallow root login remotely? [Y/n] N

[...]

Remove test database and access to it [Y/n] Y

[...]

Reload privilege tables now? [Y/n] Y

All done!

(3) 修改hive-site.xml参数

参照1-（1）表修改参数。

注意以下参数请根据自己实际情况填写，主机、账号及密码不要搞错。

javax.jdo.option.ConnectionURL	jdbc:mysql://hadoop01/metastore
javax.jdo.option.ConnectionUserName	hive
javax.jdo.option.ConnectionPassword	yourpassword
hive.metastore.uris	thrift://hadoop01:9083

(4) 创建metastore所用的mysql实例及账号

数据库的示例脚本位置为：/usr/lib/hive/scripts/metastore/upgrade/mysql/hive-schema-0.13.0.mysql.sql;

注意hive schema的版本应该与metastore一致，否则会报schema的错。

$ mysql -u root -p

Enter password:

mysql> CREATE DATABASE metastore;

mysql> USE metastore;

mysql> SOURCE /usr/lib/hive/scripts/metastore/upgrade/mysql/hive-schema-0.13.0.mysql.sql;

 

mysql> CREATE USER 'hive'@'hadoop01' IDENTIFIED BY 'mypassword';

...

mysql> REVOKE ALL PRIVILEGES, GRANT OPTION FROM 'hive'@'hadoop01';

mysql> GRANT ALL PRIVILEGES ON metastore.* TO 'hive'@'hadoop01';

mysql> FLUSH PRIVILEGES;

mysql> quit;

$ mysql -u root -p

Enter password:

mysql> CREATE DATABASE metastore;

mysql> USE metastore;

mysql> SOURCE /usr/lib/hive/scripts/metastore/upgrade/mysql/hive-schema-0.13.0.mysql.sql;

mysql> CREATE USER 'hive'@'hadoop01' IDENTIFIED BY 'mypassword';

...

mysql> REVOKE ALL PRIVILEGES, GRANT OPTION FROM 'hive'@'hadoop01';

mysql> GRANT ALL PRIVILEGES ON metastore.* TO 'hive'@'hadoop01';

mysql> FLUSH PRIVILEGES;

mysql> quit;

2.安装Hive server2

(1) 安装hive包

为三台测试机hadoop01~03安装hive server2。

yum install hive-metastore hive-server2

1	yum install hive-metastore hive-server2

(2) 配置到zookeeper的连接参数

参考表中的内容配置hadoop01。

与Hive server2有关的配置
hive.support.concurrency	true	Enable Hive’s Table Lock Manager Service
hive.zookeeper.quorum	hadoop01,hadoop02,hadoop03	Zookeeper quorum used by Hive’s Table Lock Manager
hive.zookeeper.client.port	2181	The port at which the clients will connect.

然后拷贝hive-site.xml文件到hadoop02、hadoop03的对应位置。

本步骤未正确配置会引发hive server无法获得锁的错误。

3.创建Hive在hdfs上的工作目录

在hdfs上创建 /user/hive/warehouse目录，并将权限修改为1777.

该目录为hive的默认工作目录。如果需要指定，则需要在hive-site.xml文件中配置参数：hive.metastore.warehouse.dir

4.启动hive metastore及hive server2

(1) 启动metastore service

在hadoop01上执行：

service hive-metastore start

1	service hive-metastore start

（本步骤需要正确部署zookeeper，zookeeper部署参考文初链接）

(2) 启动hive server2

在hadoop01-03上执行：

[root@hadoop01 ~]# service hive-server2 start

Started Hive Server2 (hive-server2):[  OK  ]

[root@hadoop01 ~]# service hive-server2 start

Started Hive Server2 (hive-server2):[ OK ]

(3) 检查日志

检查/var/log/hive目录下*.log文件内容有无异常、报错。有就搜索引擎解决吧。

5.使用配置

(1) reducer设置

参数：hive.exec.reducers.bytes.per.reducer

说明：每个reducer读取的字节数大小。假如输入是10G，本属性值为1G，则系统将会分配10个reducer。

修改方法：

编辑hive-site.xml，添加：

<property>

  <name>hive.exec.reducers.bytes.per.reducer</name>

  <value>256MB</value>

  <description>Size per reducer.</description>

</property>

<name>hive.exec.reducers.bytes.per.reducer</name>

<description>Size per reducer.</description>

</property>

重启HiveServer2生效。

参数：mapred.reduce.tasks

说明：设置reducer任务数量。设置-1则系统自动根据情况

修改方法：

编辑hive-site.xml，添加：

<property>

<name>mapred.reduce.tasks</name>

<value>-1</value>

</property>

<name>mapred.reduce.tasks</name>

</property>

重启HiveServer2生效。

(2) HiveServer2内存

拷贝/etc/hive/conf/hive-env.sh.template 为/etc/hive/conf/hive-env.sh

下面的例子配置HiveServer2及Metastore的运行内存为2G，hive client的总内存为2G

# Hive Client memory usage can be an issue if a large number of clients

# are running at the same time. The flags below have been useful in

# reducing memory usage:

#

 if [ "$SERVICE" = "cli" ]; then

   if [ -z "$DEBUG" ]; then

     export HADOOP_OPTS="$HADOOP_OPTS -XX:NewRatio=12 -Xmx2048m -Xms10m -XX:MaxHeapFreeRatio=40 -XX:MinHeapFreeRatio=15 -XX:+UseParNewGC -XX:-UseGCOverheadLimit"

   else

     export HADOOP_OPTS="$HADOOP_OPTS -XX:NewRatio=12 -Xmx2048m -Xms10m -XX:MaxHeapFreeRatio=40 -XX:MinHeapFreeRatio=15 -XX:-UseGCOverheadLimit"

   fi

 fi
 

# The heap size of the jvm stared by hive shell script can be controlled via:

#

 export HADOOP_HEAPSIZE=1024

#

# Larger heap size may be required when running queries over large number of files or partitions.

# By default hive shell scripts use a heap size of 256 (MB).  Larger heap size would also be

# appropriate for hive server (hwi etc).

# Hive Client memory usage can be an issue if a large number of clients

# are running at the same time. The flags below have been useful in

# reducing memory usage:

if [ "$SERVICE" = "cli" ]; then

if [ -z "$DEBUG" ]; then

export HADOOP_OPTS="$HADOOP_OPTS -XX:NewRatio=12 -Xmx2048m -Xms10m -XX:MaxHeapFreeRatio=40 -XX:MinHeapFreeRatio=15 -XX:+UseParNewGC -XX:-UseGCOverheadLimit"

else

export HADOOP_OPTS="$HADOOP_OPTS -XX:NewRatio=12 -Xmx2048m -Xms10m -XX:MaxHeapFreeRatio=40 -XX:MinHeapFreeRatio=15 -XX:-UseGCOverheadLimit"

# The heap size of the jvm stared by hive shell script can be controlled via:

export HADOOP_HEAPSIZE=1024

# Larger heap size may be required when running queries over large number of files or partitions.

# By default hive shell scripts use a heap size of 256 (MB). Larger heap size would also be

# appropriate for hive server (hwi etc).

重启HiveServer2及Metastore生效。

(3) 关闭任务推测式执行

修改hive-site.xml文件，添加：

<property>

  <name>hive.mapred.reduce.tasks.speculative.execution</name>

  <value>false</value>

  <description>Whether speculative execution for reducers should be turned on.</description>

</property>

<name>hive.mapred.reduce.tasks.speculative.execution</name>

<value>false</value>

<description>Whether speculative execution for reducers should be turned on.</description>

</property>

重启HiveServer2生效

修改mapred-site.xml文件，添加：

<property>

<name>mapreduce.reduce.speculative</name>

<value>false</value>

</property>

<name>mapreduce.reduce.speculative</name>

<value>false</value>

</property>

重启hadoop-yarn-resourcemanager生效

(4) cli设置

编辑hive-site.xml，添加：

<property>

  <name>hive.cli.print.header</name>

  <value>true</value>

  <description>Whether to print the names of the columns in query output.</description>

</property>

<property>

  <name>hive.cli.print.current.db</name>

  <value>true</value>

  <description>Whether to include the current database in the Hive prompt.</description>

</property>

<name>hive.cli.print.header</name>

<description>Whether to print the names of the columns in query output.</description>

</property>

<name>hive.cli.print.current.db</name>

<description>Whether to include the current database in the Hive prompt.</description>

</property>

展示效果：

hive (lesson1)> select * from goods_price;

OK

goods_price.id  goods_price.name        goods_price.price       goods_price.supplier    goods_price.class_name

20151001        mengniu 2.0     yihaodian       niunai

20151002        yili    2.5     yihaodian       niunai

20151003        UHT     3.0     yihaodian       niunai

Time taken: 0.829 seconds, Fetched: 3 row(s)

hive (lesson1)> select * from goods_price;

goods_price.id goods_price.name goods_price.price goods_price.supplier goods_price.class_name

20151001 mengniu 2.0 yihaodian niunai

20151002 yili 2.5 yihaodian niunai

20151003 UHT 3.0 yihaodian niunai

Time taken: 0.829 seconds, Fetched: 3 row(s)

香蕉与打火机 2015年3月30日小云云 0 Read more >

HiveQL

参考链接：

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML

1.数据定义语言（DDL）

创建、修改、删除数据库

创建数据库

CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name

[COMMENT database_comment]

[LOCATION hdfs_path]

[WITH DBPROPERTIES (property_name=property_value, …)];

语法解释：

数据库注释：COMMENT
在hdfs上的路径： LOCATION
使用Key-value的方式为数据库注释

使用实例：

create database lesson1test comment ‘lesson1test’ with dbproperties(‘user’=’banana’);

修改数据库的key-value注释

ALTER (DATABASE|SCHEMA) database_name SET DBPROPERTIES (property_name=property_value, …);

— (Note: SCHEMA added in Hive 0.14.0)

修改数据库的用户

ALTER (DATABASE|SCHEMA) database_name SET OWNER [USER|ROLE] user_or_role;

— (Note: Hive 0.13.0 and later; SCHEMA added in Hive 0.14.0)

删除数据库

DROP (DATABASE|SCHEMA) [IF EXISTS] database_name [RESTRICT|CASCADE];

使用实例

alter database lesson1test set dbproperties(‘user’=’lighter’);

alter database lesson1test set owner user hdfs;

drop database if exists lesson1test;

创建、截断、删除表（带分区）

创建表

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name

[(col_name data_type [COMMENT col_comment], …)]

[COMMENT table_comment]

[PARTITIONED BY (col_name data_type [COMMENT col_comment], …)]

[

[ROW FORMAT row_format]

[STORED AS file_format]

| STORED BY ‘storage.handler.class.name’ [WITH SERDEPROPERTIES (…)] — (Note: Available in Hive 0.6.0 and later)

]

[LOCATION hdfs_path]

语法解释：

是否是外部表： EXTERNAL
表格注释： COMMENT
定义分区信息：PARTITIONED BY
行格式化方式（1.决定了是否使用hive自带的序列化函数2.可用于指定属性分隔符）： ROW FORMAT

创建表使用实例：

CREATE TABLE goods_price(

id INT,

name STRING,

price FLOAT

)

COMMENT ‘Goods table’

PARTITIONED BY(supplier STRING, class_name STRING)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ‘,’

STORED AS TEXTFILE;

复制表结构：

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name

LIKE existing_table_or_view_name

[LOCATION hdfs_path];

使用实例：

create table if not exists copy_table like lesson1.goods_price;

截断表（保留表结构，删除数据）：

TRUNCATE TABLE table_name [PARTITION partition_spec];

partition_spec:

(partition_column = partition_col_value, partition_column = partition_col_value, …)

使用实例（可指定一个partition_column，也可都指定）：

truncate table copy_table partition (supplier=’yihaodian’,class_name=’shupian’);

truncate table copy_table partition (supplier=’yihaodian’);

删除表（任何删除动作都会删除相关的元数据）：

DROP TABLE [IF EXISTS] table_name [PURGE]; — (Note: PURGE available in Hive 0.14.0 and later)

语法解释：

不指定PURGE，则被删除数据被移到.Trash/Current。

使用PURGE则直接删除（不可恢复）。

使用实例：

drop table if exists copy_table;

修改表、分区、列

修改表名（保留表结构，删除数据）：

ALTER TABLE table_name RENAME TO new_table_name;

使用实例：

alter table goods_price rename to new_goods_price;

增加表分区（未修改表结构，只是多了一个分区值）：

ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec

[LOCATION ‘location1’] partition_spec [LOCATION ‘location2′] …;

partition_spec:

: (partition_column = partition_col_value, partition_column = partition_col_value, …)

使用实例：

alter table new_goods_price add if not exists partition (supplier=’taobao’,class_name=’shupian’);

alter table new_goods_price add if not exists partition (supplier=’jingdong’,class_name=’shupian’) location ‘/user/hive/warehouse/lesson1.db/goods_price/supplier=jingdong/class_name=shupian’;

表知识扩展——内部表和外部表

表类型	语句	是否将数据拷贝到warehouse	删除表是否删除数据
内部表	create table;	是	是
外部表	create external table;	否	否

Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径。

内部表不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。

表知识扩展——表分区

意义：避免全表扫描。Where语句采用分区限定的话，表查询会限制在分区内进行，提高效率和准确率。

数据通过存储目录划分分区。
指定多个分区时，hdfs上存储目录按照分区创建顺序形成树形结构。
分区字段的选择：时间段、不同服务的数据、IP段等等。

两个分区时的二级树形存储目录（先supplier后class_name），由下图可见supplier目录是class_name的上级目录。

2.数据操作语言（DML）

文件数据导入表

命令：

LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 …)]

语法解释：

指定数据文件目录： INPATH
覆盖原有数据： OVERWRITE
指定分区（顺序无先后，但需要明确指定每一个分区）

partition(supplier=’yihaodian’,class_name=’niunai’);

使用实例：

load data local inpath ‘/tmp/20150313/niunai’ into table goods_price partition(supplier=’yihaodian’,class_name=’niunai’);

查询结果数据插入表

命令（增加数据）：

INSERT INTO TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 …)] select_statement1 FROM from_statement;

使用实例：

insert into table copy_table partition(class_name=’niunai’,supplier=’yihaodian’) select id,name,price from goods_price;

命令（覆盖原有数据）：

INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 …) [IF NOT EXISTS]] select_statement1 FROM from_statement;

使用实例：

insert overwrite table copy_table partition(class_name=’niunai’,supplier=’yihaodian’) select id,name,price from overwrite_table;

UPDATE&DELETE

命令：

UPDATE tablename SET column = value [, column = value …] [WHERE expression]

DELETE FROM tablename [WHERE expression]

使用实例：

Hive 0.14支持，目前最新发行版为Hive 0.13

香蕉与打火机 2015年3月30日小云云 0 Read more >

安装HUE

Configuring CDH Components for Hue

参考：http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_cdh_hue_configure.html

Hue install

yum install hue
yum install hue-server

1 2	yum install hue yum install hue-server

HttpFS Configuration

配置HUE成为其他用户及组的代理，HUE将接管其他用户的任意动作。

HttpFS: Verify that /etc/hadoop-httpfs/conf/httpfs-site.xml has the following configuration:

<!-- Hue HttpFS proxy user setting -->
<property>
  <name>httpfs.proxyuser.hue.hosts</name>
  <value>*</value>
</property>
<property>
  <name>httpfs.proxyuser.hue.groups</name>
  <value>*</value>
</property>

<name>httpfs.proxyuser.hue.hosts</name>

</property>

<name>httpfs.proxyuser.hue.groups</name>

</property>

Verify that core-site.xml has the following configuration:

<property>  
<name>hadoop.proxyuser.httpfs.hosts</name>  
<value>*</value>  
</property>  
<property>  
<name>hadoop.proxyuser.httpfs.groups</name>  
<value>*</value>  
</property>

<name>hadoop.proxyuser.httpfs.hosts</name>

</property>

<name>hadoop.proxyuser.httpfs.groups</name>

</property>

如果需要新添上述参数，则要重启hadoop以生效。

root下编辑/etc/hue/conf.empty/hue.ini

更新hadoop.hdfs_clusters.default.webhdfs_url参数（直接在文中搜索webhdfs_url）。

将webhdfs_url参数改为如下（注意是14000端口）：

webhdfs_url=http://FQDN:14000/webhdfs/v1/

1	webhdfs_url=http://FQDN:14000/webhdfs/v1/

Hive Configuration

HUE需要指向HiveServer2。因此需要更新hue.ini如下：

[beeswax]
  # Host where Hive server Thrift daemon is running.
  # If Kerberos security is enabled, use fully-qualified domain name (FQDN).
  ## hive_server_host=localhost

 hive_server_host=localhost


 # Port where HiveServer2 Thrift server runs on.
 ## hive_server_port=10000

 hive_server_port=10000


 # Hive configuration directory, where hive-site.xml is located
 ## hive_conf_dir=/etc/hive/conf

 hive_conf_dir=/etc/hive/conf

[beeswax]

# Host where Hive server Thrift daemon is running.

# If Kerberos security is enabled, use fully-qualified domain name (FQDN).

## hive_server_host=localhost

hive_server_host=localhost

# Port where HiveServer2 Thrift server runs on.

## hive_server_port=10000

hive_server_port=10000

# Hive configuration directory, where hive-site.xml is located

## hive_conf_dir=/etc/hive/conf

hive_conf_dir=/etc/hive/conf

Start Hue server

service hue start

1	service hue start

香蕉与打火机 2015年3月26日小云云 0 Read more >

【翻译】Hive 架构设计

原文：https://cwiki.apache.org/confluence/display/Hive/Design

Hive 架构

图左展现了Hive的组件及其与hadoop的接口。

UI——用户接口。将用户查询或其他操作提交到系统。2011年以后拥有命令行接口及基于web的图形化接口。
Driver——接收查询的组件。它实现了会话操作的概念，提供了可基于JDBC/ODBC接口执行及获取API的模型。
Compiler——解析查询，在metastore的表和分区metadata的帮助下，对不同查询块、查询表达式进行语义分析，最终生成执行计划。
Metastore——存储仓库中不同表及分区，包括列及列属性的全部的结构信息。串行器及解串行器需要读写数据及存储对应数据的HDFS文件。
Execution Engine——执行Compiler产生的执行计划。执行计划是各阶段的有向无环图。执行引擎管理不同阶段的依赖，并在恰当的系统组件上执行前述阶段。

上图同时展现了一次查询的处理过程。UI调用了Driver的执行接口（step 1）。Driver创建了一个查询会话，并将查询发送给Compiler来生成执行计划（step 2）。Compiler从metastore中获取必要的元数据（steps 3和4）。元数据用来检查查询树中的表达式格式，并根据查询预期来削减分区。Compiler产生的执行计划（step 5）是map或reduce各种任务阶段的有向无环图，是一次元数据操作或者HDFS的操作。对map/reduce阶段来说，执行计划包含map的执行树（执行树在mappers上执行）以及reduce的执行树（需要reducers的操作）。执行引擎将各种状态提交给恰当的组件（steps 6, 6.1, 6.2 and 6.3）。每个任务中关联了表或中间输出的解串器被用于从HDFS中读取行，前述操作过程将通过相应的操作树。一旦产生了输出，结果会被串行器写入HDFS的临时文件（发生在不需要reduce的mapper中）。临时文件用于向随后的map/reduce执行计划阶段提供数据。DML操作的最终临时文件将被移动到表所在位置，保证脏数据不会被读取到。对于查询来讲，临时文件的内容是作为Driver获取命令的一部分，由执行引擎直接从HDFS读取的（steps 7、8和9）。

Hive 数据模型

Hive中的数据组织形式为：

表——与关系型数据库中的表类似。可以过滤、投影、连接和合并。此外，表中所有数据存储在HDFS中。Hive同时支持外部表的概念，一个表可以在一个已存在的HDFS文件或目录上创建，方式是向表格创建DDL提供对应的目录。表内行的组织形式为各数据类型的列，与关系型数据库类似。
分区——每个表可以拥有一到多个分区键，用来定义数据储存方式。例如：表T的数据分区ds用于存储日期，其数据文件在HDFS上存储目录为：<table location>/ds=<date>。分区使得系统可以通过查询预测减少检索的数据量。例如：一个针对T表中行的查询，如果符合T.ds = ‘2008-09-01’ 的预期，则仅需要查找 <table location>/ds=2008-09-01/ 目录下的文件。
桶——（你们大学计算机数据结构课程的内容终于用上了！）请参考桶排序与哈希表的相关知识。在Hive中，每个桶作为分区目录中的一个文件存储。桶使得系统可以依据数据例子迅速定位查询（有一些查询是使用表上的SAMPLE字句完成的）。

除了常见的列数据类型（整数、浮点数、字符串、日期和布尔值），Hive同时支持数组和图。此外，用户可以组合基本类型来自定义数据类型。类型系统与序列化及对象检查器接口（object inspector interfaces）紧密捆绑。用户可以通过实现对象检查器来创建类型，使用对象检查器可以实现对象在HDFS上的序列化。前述两个接口使得Hive具有了扩展能力，使得Hive可以理解其他数据格式及复杂类型。内建对象检查器为创建复杂类型提供了基础类型。图和数组格式内建了诸如大小、索引等功能。内嵌数据类型通过圆点查看，例如a.b.c = 1, 这个公式查看了a的b域内的c域，并与1进行比较。

METASTORE

动机

元数据存储提供了两个重要却常被忽视的数据仓库功能：数据抽象及数据发现。

数据抽象：如果没有Hive提供的数据抽象功能，用户需要在查询的时候同时提交数据格式、数据提取器及数据装载信息。在Hive中，前述数据在表创建时即给出，每次表被引用时都会重用。这与传统数据仓库很相似。

数据发现：使得用户可以发现及浏览数据仓库中的相关或者特定数据。可以使用元数据构建其他工具来对外提供数据，丰富数据信息，提高可用性等。

Hive通过提供元数据仓库实现了前述两大功能。元数据仓库服务与Hive查询进程紧密集成在一起，因此hive数据及其元数据是同步的。

Metadata Objects

数据库——表命名空间。未来可用作管理单元。非用户提供的表将放入default数据库。
表——一张表的元数据包括列的清单，所有人信息，存储信息，还包括序列化信息。还可以包含任何用户提供的键值、数据值。存储信息包含其下数据的存储路径、文件输入输出格式及桶信息。序列化信息包括串行器解串器的实现类，以及其他实现所需信息。所有信息都可以在建表时指定。
分区——每个分区可以拥有自己的列、序列化及存储信息。

Metastore Architecture

元数据存储是数据库或文件对象的存储仓库。数据库备份仓库采用……（这段翻译的性价比有点低，意会吧）

Hive Query Language

HiveQL是类SQL语言。创建表，表载入数据，表查询上与SQL语法类似。允许用户嵌入MapReduce脚本。兼容任何语言编写的，使用简单行数据流接口的脚本——从标准输入读入行，向标准输出写入行。另一个HiveQL独有的特性是多表插入（理解为将一份输入看成多个表，提供给多个查询请求，而且其扫描过程还是共享的：扫一次，提供给多个查询）。这个概念中，用户可以对一个输入使用一条HiveQL语句执行多种查询。Hive优化了查询，可以在多个查询中共享对输入数据的扫描，这将查询的吞吐能力提高了几个量级。其他内容见：https://cwiki.apache.org/confluence/display/Hive/LanguageManual。

Compiler

语法分析器——将查询字符串转化为语法分析树的表述。
语义分析器——将语法分析树转化为内部查询表述（依然基于块而不是执行树）。
逻辑计划发生器——将内部查询表述转化为逻辑计划，逻辑计划由执行器的树组成。
查询计划发生器——将逻辑计划转化为一系列的MapReduce任务。

香蕉与打火机 2015年3月10日小云云 0 Read more >

cdh zookeeper安装

一、安装zookeeper包

在hadoop01~03上安装：

yum install zookeeper zookeeper-server

1	yum install zookeeper zookeeper-server

二、生成myid

hadoop01:

service zookeeper-server init --myid=1

1	service zookeeper-server init --myid=1

hadoop02:

service zookeeper-server init --myid=2

1	service zookeeper-server init --myid=2

hadoop03

service zookeeper-server init --myid=3

1	service zookeeper-server init --myid=3

三、编辑配置文件（以下是默认参数）

/etc/zookeeper/conf/zoo.cfg

maxClientCnxns=50
# The number of milliseconds of each tick
tickTime=2000
# The number of ticks that the initial
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
dataDir=/var/lib/zookeeper
# the port at which the clients will connect
clientPort=2181
server.1=hadoop01:2888:3888
server.2=hadoop02:2888:3888
server.3=hadoop03:2888:3888

maxClientCnxns=50

# The number of milliseconds of each tick

tickTime=2000

# The number of ticks that the initial

# synchronization phase can take

initLimit=10

# The number of ticks that can pass between

# sending a request and getting an acknowledgement

syncLimit=5

# the directory where the snapshot is stored.

dataDir=/var/lib/zookeeper

# the port at which the clients will connect

clientPort=2181

server.1=hadoop01:2888:3888

server.2=hadoop02:2888:3888

server.3=hadoop03:2888:3888

四、测试zookeeper

zookeeper-client -server hostname:port

1	zookeeper-client -server hostname:port

参考：http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_zookeeper_package_install.html

香蕉与打火机 2015年3月9日小云云 0 Read more >

【翻译】安装Hive

参考：http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_hive_install.html

一、安装Hive

1.安装hive包

yum install hive-metastore hive-server2

1	yum install hive-metastore hive-server2

2.配置hive组件的堆大小及垃圾回收（暂时保持默认）

二、配置Hive元存储

Hive元数据服务使用关系型数据库存储Hive表及分区的信息。使用元数据服务API对外提供前述信息的客户端连接。接下来的部分介绍部署选项及推荐配置。

1.元数据部署模式

嵌入式模式

默认安装模式。将元数据存储在derby中。数据库及及元数据服务都嵌入在HiveServer进程中，随HiveServer一起启动。这种模式配置最简单，但同时仅支持一个活动用户，不能用于生产。

本地模式

hive_localmetastore

Hive元数据服务内嵌在HiveServer中，但元数据数据库在单独进程中执行，并可以在分离的主机上。内嵌的元数据服务通过JDBC与元数据数据库通信。

远程模式（CDH推荐的生产环境部署方案）

元数据服务在独立的JVM进程中，HiveServer2, HCatalog, Cloudera Impala™,及其他进程与元数据服务通过网络API（通过 hive.metastore.uris 参数进行配置）通信。元数据服务通过JDBC与元数据数据库通信（通过 javax.jdo.option.ConnectionURL 参数进行配置）。元数据服务、元数据数据库及HiveServer可以在同一主机上运行，但是将HiveServer分离到单独的主机可以提供更好的可用性和扩展性。

远程模式较之本地模式先进之处在于：远程模式不需要管理员为每一个Hive用户共享JDBC登陆信息。HCatalog需要这种模式。

2.安装元数据数据库

（1）安装mysql

yum install mysql-server
service mysqld start
yum install mysql-connector-java
ln -s /usr/share/java/mysql-connector-java.jar /usr/lib/hive/lib/mysql-connector-java.jar
mysql_secure_installation

yum install mysql-server

service mysqld start

yum install mysql-connector-java

ln -s /usr/share/java/mysql-connector-java.jar /usr/lib/hive/lib/mysql-connector-java.jar

mysql_secure_installation

[...]
Enter current password for root (enter for none):
OK, successfully used password, moving on...
[...]
Set root password? [Y/n] y
New password:
Re-enter new password:
Remove anonymous users? [Y/n] Y
[...]
Disallow root login remotely? [Y/n] N
[...]
Remove test database and access to it [Y/n] Y
[...]
Reload privilege tables now? [Y/n] Y
All done!

[...]

Enter current password for root (enter for none):

OK, successfully used password, moving on...

[...]

Set root password? [Y/n] y

New password:

Re-enter new password:

Remove anonymous users? [Y/n] Y

[...]

Disallow root login remotely? [Y/n] N

[...]

Remove test database and access to it [Y/n] Y

[...]

Reload privilege tables now? [Y/n] Y

All done!

chkconfig mysqld on

1	chkconfig mysqld on

（2）创建mysql实例及账号

$ mysql -u root -p
Enter password:
mysql> CREATE DATABASE metastore;
mysql> USE metastore;
mysql> SOURCE /usr/lib/hive/scripts/metastore/upgrade/mysql/hive-schema-0.12.0.mysql.sql;

mysql> CREATE USER 'hive'@'hadoop01' IDENTIFIED BY 'mypassword';
...
mysql> REVOKE ALL PRIVILEGES, GRANT OPTION FROM 'hive'@'hadoop01';
mysql> GRANT ALL PRIVILEGES ON metastore.* TO 'hive'@'hadoop01';
mysql> FLUSH PRIVILEGES;
mysql> quit;

$ mysql -u root -p

Enter password:

mysql> CREATE DATABASE metastore;

mysql> USE metastore;

mysql> SOURCE /usr/lib/hive/scripts/metastore/upgrade/mysql/hive-schema-0.12.0.mysql.sql;

mysql> CREATE USER 'hive'@'hadoop01' IDENTIFIED BY 'mypassword';

...

mysql> REVOKE ALL PRIVILEGES, GRANT OPTION FROM 'hive'@'hadoop01';

mysql> GRANT ALL PRIVILEGES ON metastore.* TO 'hive'@'hadoop01';

mysql> FLUSH PRIVILEGES;

mysql> quit;

3.配置元数据服务相关参数（hive-site.xml）

配置连接到mysql数据库的参数。可以将此配置文件传播到每一台hive主机上。每一台Hive的相关主机（client, metastore, HiveServer）都需要配置hive.metastore.uris。该文件中其他的参数仅用于配置metastore服务所在主机。

<property>
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://hadoop01/metastore</value>
  <description>the URL of the MySQL database</description>
</property>

<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.jdbc.Driver</value>
</property>

<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>hive</value>
</property>

<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>mysql2015</value>
</property>

<property>
  <name>datanucleus.autoCreateSchema</name>
  <value>false</value>
</property>

<property>
  <name>datanucleus.fixedDatastore</name>
  <value>true</value>
</property>

<property>
  <name>datanucleus.autoStartMechanism</name> 
  <value>SchemaTable</value>
</property> 

<property>
  <name>hive.metastore.uris</name>
  <value>thrift://hadoop01:9083</value>
  <description>IP address (or fully-qualified domain name) and port of the metastore host</description>
</property>

<property>
<name>hive.metastore.schema.verification</name>
<value>true</value>
</property>

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://hadoop01/metastore</value>

<description>the URL of the MySQL database</description>

</property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

</property>

<name>javax.jdo.option.ConnectionUserName</name>

</property>

<name>javax.jdo.option.ConnectionPassword</name>

<value>mysql2015</value>

</property>

<name>datanucleus.autoCreateSchema</name>

<value>false</value>

</property>

<name>datanucleus.fixedDatastore</name>

</property>

<name>datanucleus.autoStartMechanism</name>

<value>SchemaTable</value>

</property>

<name>hive.metastore.uris</name>

<value>thrift://hadoop01:9083</value>

<description>IP address (or fully-qualified domain name) and port of the metastore host</description>

</property>

<name>hive.metastore.schema.verification</name>

</property>

三、配置HiveServer2

1.向hive-site.xml添加参数

适当的配置Hive表锁管理器。这需要安装zookeeper。

<property>
  <name>hive.support.concurrency</name>
  <description>Enable Hive's Table Lock Manager Service</description>
  <value>true</value>
</property>

<property>
  <name>hive.zookeeper.quorum</name>
  <description>Zookeeper quorum used by Hive's Table Lock Manager</description>
  <value>hadoop01,hadoop02,hadoop03</value>
</property>

<name>hive.support.concurrency</name>

<description>Enable Hive's Table Lock Manager Service</description>

</property>

<name>hive.zookeeper.quorum</name>

<description>Zookeeper quorum used by Hive's Table Lock Manager</description>

<value>hadoop01,hadoop02,hadoop03</value>

</property>

2.创建hive在hdfs上的工作目录

在hdfs上创建 /user/hive/warehouse目录，并将权限修改为1777。

hdfs dfs -mkdir -p /user/hive/warehouse
hdfs dfs -chmod 1777 /user/hive/warehouse

1 2	hdfs dfs -mkdir -p /user/hive/warehouse hdfs dfs -chmod 1777 /user/hive/warehouse

四、打开服务

1.启动元数据服务

在hadoop01上：

service hive-metastore start

1	service hive-metastore start

2.启动hive server2

在hadoop01~03上：

[root@hadoop01 ~]# service hive-server2 start
Started Hive Server2 (hive-server2):[  OK  ]

1 2	[root@hadoop01 ~]# service hive-server2 start Started Hive Server2 (hive-server2):[ OK ]

3.检查启动日志（/etc/hive/conf/hive-site.xml），没有报错则可测试hive。

五、测试使用

1.测试连接

[root@hadoop01 hive]# beeline 
Beeline version 0.13.1-cdh5.3.1 by Apache Hive
beeline> !connect jdbc:hive2://hadoop01:10000 hive yourpassword org.apache.hive.jdbc.HiveDriver
Connecting to jdbc:hive2://hadoop01:10000
Connected to: Apache Hive (version 0.13.1-cdh5.3.1)
Driver: Hive JDBC (version 0.13.1-cdh5.3.1)
Transaction isolation: TRANSACTION_REPEATABLE_READ
0: jdbc:hive2://hadoop01:10000>

[root@hadoop01 hive]# beeline

Beeline version 0.13.1-cdh5.3.1 by Apache Hive

beeline> !connect jdbc:hive2://hadoop01:10000 hive yourpassword org.apache.hive.jdbc.HiveDriver

Connecting to jdbc:hive2://hadoop01:10000

Connected to: Apache Hive (version 0.13.1-cdh5.3.1)

Driver: Hive JDBC (version 0.13.1-cdh5.3.1)

Transaction isolation: TRANSACTION_REPEATABLE_READ

0: jdbc:hive2://hadoop01:10000>

2.测试执行

0: jdbc:hive2://hadoop01:10000> show tables;                                                                       
+-----------+--+
| tab_name  |
+-----------+--+
+-----------+--+
No rows selected (0.232 seconds)
0: jdbc:hive2://hadoop01:10000>

0: jdbc:hive2://hadoop01:10000> show tables;

+-----------+--+

| tab_name |

+-----------+--+

No rows selected (0.232 seconds)

0: jdbc:hive2://hadoop01:10000>

大功告成。

香蕉与打火机 2015年3月9日小云云 0 Read more >

【翻译】在集群上部署MapReduce v2 (YARN)

原文：http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_yarn_cluster_deploy.html#topic_11_4

环境hadoop01~03三台机器，其中hadoop01为rm及JobHistory Server。

一、修改mapred-site.xml

在configuration之间添加内容（标明使用yarn代替MapReduce1的框架功能）：

  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>

<name>mapreduce.framework.name</name>

</property>

二、yarn-site.xml中一定要配的参数

1.添加以下内容以确保ResourceManager配置到正确的主机（日志位置要对应在hdfs上创建好目录，否则执行时会无报错的卡住）。

<configuration>
 <property>
 <name>yarn.resourcemanager.hostname</name>
 <value>hadoop01</value>
 </property>

 <property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
 </property>

 <property>
 <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
 <value>org.apache.hadoop.mapred.ShuffleHandler</value>
 </property>

 <property>
 <name>yarn.log-aggregation-enable</name>
 <value>true</value>
 </property>

 <property>
 <description>List of directories to store localized files in.</description>
 <name>yarn.nodemanager.local-dirs</name>
 <value>file:///var/lib/hadoop-yarn/cache/${user.name}/nm-local-dir</value>
 </property>

 <property>
 <description>Where to store container logs.</description>
 <name>yarn.nodemanager.log-dirs</name>
 <value>file:///var/log/hadoop-yarn/containers</value>
 </property>

 <property>
 <description>Where to aggregate logs to.</description>
 <name>yarn.nodemanager.remote-app-log-dir</name>
 <value>hdfs://hadoop01:8020<strong>/var/log/hadoop-yarn/apps</strong></value>
 </property>

 <property>
 <description>Classpath for typical applications.</description>
 <name>yarn.application.classpath</name>
 <value>
 $HADOOP_CONF_DIR,
 $HADOOP_COMMON_HOME/*,$HADOOP_COMMON_HOME/lib/*,
 $HADOOP_HDFS_HOME/*,$HADOOP_HDFS_HOME/lib/*,
 $HADOOP_MAPRED_HOME/*,$HADOOP_MAPRED_HOME/lib/*,
 $HADOOP_YARN_HOME/*,$HADOOP_YARN_HOME/lib/*
 </value>
 </property>
</configuration>
~

<name>yarn.resourcemanager.hostname</name>

<value>hadoop01</value>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.log-aggregation-enable</name>

</property>

<description>List of directories to store localized files in.</description>

<name>yarn.nodemanager.local-dirs</name>

<value>file:///var/lib/hadoop-yarn/cache/${user.name}/nm-local-dir</value>

</property>

<description>Where to store container logs.</description>

<name>yarn.nodemanager.log-dirs</name>

<value>file:///var/log/hadoop-yarn/containers</value>

</property>

<description>Where to aggregate logs to.</description>

<name>yarn.nodemanager.remote-app-log-dir</name>

<value>hdfs://hadoop01:8020/var/log/hadoop-yarn/apps</value>

</property>

<description>Classpath for typical applications.</description>

<name>yarn.application.classpath</name>

<value>

$HADOOP_CONF_DIR,

$HADOOP_COMMON_HOME/*,$HADOOP_COMMON_HOME/lib/*,

$HADOOP_HDFS_HOME/*,$HADOOP_HDFS_HOME/lib/*,

$HADOOP_MAPRED_HOME/*,$HADOOP_MAPRED_HOME/lib/*,

$HADOOP_YARN_HOME/*,$HADOOP_YARN_HOME/lib/*

</value>

</property>

</configuration>

2.创建对应的hdfs上的目录

sudo -u hdfs hadoop fs -mkdir -p /var/log/hadoop-yarn
sudo -u hdfs hadoop fs -chown yarn:mapred /var/log/hadoop-yarn

1 2	sudo -u hdfs hadoop fs -mkdir -p /var/log/hadoop-yarn sudo -u hdfs hadoop fs -chown yarn:mapred /var/log/hadoop-yarn

三、配置history server

如果在集群上使用YARN代替MRv1. 需要运行MapReduce JobHistory server。

1.以下是需要配置到mapred-site.xml文件的参数。

Property	Recommended value	Description
`mapreduce.jobhistory.address`	`historyserver.company.com:10020`	The address of the JobHistory Server `host:port`
`mapreduce.jobhistory.webapp.address`	`historyserver.company.com:19888`	The address of the JobHistory Server web application`host:port`

In addition, make sure proxying is enabled for the mapred user; configure the following properties in core-site.xml:

2.在core-site.xml文件中配置以下参数，以确保mapred用户的代理功能可用。

Property	Recommended value	Description
`hadoop.proxyuser.mapred.groups`	`*`	Allows the `mapred`user to move files belonging to users in these groups
`hadoop.proxyuser.mapred.hosts`	`*`	Allows the `mapred`user to move files belonging on these hosts

JobHistory Server的参考：http://dongxicheng.org/mapreduce-nextgen/hadoop-2-0-jobhistory-log/

3.创建对应的目录

sudo -u hdfs hadoop fs -mkdir -p /user/history
sudo -u hdfs hadoop fs -chmod -R 1777 /user/history
sudo -u hdfs hadoop fs -chown mapred:hadoop /user/history

sudo -u hdfs hadoop fs -mkdir -p /user/history

sudo -u hdfs hadoop fs -chmod -R 1777 /user/history

sudo -u hdfs hadoop fs -chown mapred:hadoop /user/history

四、配置staging 目录

1.配置mapred-site.xml文件

<property>
<name>yarn.app.mapreduce.am.staging-dir</name>
<value>/user</value>
</property>

<name>yarn.app.mapreduce.am.staging-dir</name>

</property>

2.创建hdfs上的目录

sudo -u hdfs hadoop fs -mkdir -p /user/history
sudo -u hdfs hadoop fs -chmod -R 1777 /user/history
sudo -u hdfs hadoop fs -chown mapred:hadoop /user/history

sudo -u hdfs hadoop fs -mkdir -p /user/history

sudo -u hdfs hadoop fs -chmod -R 1777 /user/history

sudo -u hdfs hadoop fs -chown mapred:hadoop /user/history

五、将各配置文件部署到其余两个节点

scp core-site.xml mapred-site.xml yarn-site.xml root@hadoop02:/etc/hadoop/conf/
scp core-site.xml mapred-site.xml yarn-site.xml root@hadoop03:/etc/hadoop/conf/

1 2	scp core-site.xml mapred-site.xml yarn-site.xml root@hadoop02:/etc/hadoop/conf/ scp core-site.xml mapred-site.xml yarn-site.xml root@hadoop03:/etc/hadoop/conf/

六、安装启停脚本

1.在hadoop01上安装ResourceManager的启停脚本，JobHistory Server的启停脚本

yum install hadoop-yarn-resourcemanager.x86_64
yum install hadoop-mapreduce-historyserver.x86_64

1 2	yum install hadoop-yarn-resourcemanager.x86_64 yum install hadoop-mapreduce-historyserver.x86_64

2.在hadoop01~3上安装NodeManager的启停脚本

yum install hadoop-mapreduce-historyserver.x86_64

1	yum install hadoop-mapreduce-historyserver.x86_64

七、启动

1.在hadoop01上启动Resource Manager

[root@hadoop01 conf]# service hadoop-yarn-resourcemanager start
starting resourcemanager, logging to /var/log/hadoop-yarn/yarn-yarn-resourcemanager-hadoop01.out
Started Hadoop resourcemanager:[  OK  ]

[root@hadoop01 conf]# service hadoop-yarn-resourcemanager start

starting resourcemanager, logging to /var/log/hadoop-yarn/yarn-yarn-resourcemanager-hadoop01.out

Started Hadoop resourcemanager:[ OK ]

2.在hadoop01~3上启动nodemananger

sudo service hadoop-yarn-nodemanager start

1	sudo service hadoop-yarn-nodemanager start

3.启动JobHistory Server

service hadoop-mapreduce-historyserver start

1	service hadoop-mapreduce-historyserver start

三、测试yarn

1.建立测试目录及文件

[root@hadoop01 hadoop-mapreduce]# su - hdfs
-sh-4.1$ hadoop fs -mkdir /wordcount
-sh-4.1$ cd /tmp/
-sh-4.1$ mkdir wordcount
-sh-4.1$ cd wordcount/
-sh-4.1$ ls
-sh-4.1$ echo "hello world, good bye world" > file01.txt
-sh-4.1$ ls
file01.txt
-sh-4.1$ cat file01.txt 
hello world, good bye world
-sh-4.1$ hadoop fs -mkdir /wordcount/input
-sh-4.1$ hadoop fs -copyFromLocal file01.txt /wordcount/input
-sh-4.1$ hadoop fs -ls /wordcount/input
Found 1 items
-rw-r--r--   3 hdfs supergroup         28 2015-02-27 10:30 /wordcount/input/file01.txt

[root@hadoop01 hadoop-mapreduce]# su - hdfs

-sh-4.1$ hadoop fs -mkdir /wordcount

-sh-4.1$ cd /tmp/

-sh-4.1$ mkdir wordcount

-sh-4.1$ cd wordcount/

-sh-4.1$ ls

-sh-4.1$ echo "hello world, good bye world" > file01.txt

-sh-4.1$ ls

file01.txt

-sh-4.1$ cat file01.txt

hello world, good bye world

-sh-4.1$ hadoop fs -mkdir /wordcount/input

-sh-4.1$ hadoop fs -copyFromLocal file01.txt /wordcount/input

-sh-4.1$ hadoop fs -ls /wordcount/input

Found 1 items

-rw-r--r-- 3 hdfs supergroup 28 2015-02-27 10:30 /wordcount/input/file01.txt

2.YARN测试

-sh-4.1$ yarn jar
RunJar jarFile [mainClass] args...
-sh-4.1$ yarn jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.1.jar wordcount /wordcount/input /wordcount/output
15/02/27 10:36:02 INFO client.RMProxy: Connecting to ResourceManager at hadoop01/10.62.228.211:8032
15/02/27 10:36:03 INFO input.FileInputFormat: Total input paths to process : 1
15/02/27 10:36:03 INFO mapreduce.JobSubmitter: number of splits:1
15/02/27 10:36:03 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1424968955716_0001
15/02/27 10:36:04 INFO impl.YarnClientImpl: Submitted application application_1424968955716_0001
15/02/27 10:36:04 INFO mapreduce.Job: The url to track the job: http://hadoop01:8088/proxy/application_1424968955716_0001/
15/02/27 10:36:04 INFO mapreduce.Job: Running job: job_1424968955716_0001

-sh-4.1$ yarn jar

RunJar jarFile [mainClass] args...

-sh-4.1$ yarn jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.1.jar wordcount /wordcount/input /wordcount/output

15/02/27 10:36:02 INFO client.RMProxy: Connecting to ResourceManager at hadoop01/10.62.228.211:8032

15/02/27 10:36:03 INFO input.FileInputFormat: Total input paths to process : 1

15/02/27 10:36:03 INFO mapreduce.JobSubmitter: number of splits:1

15/02/27 10:36:03 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1424968955716_0001

15/02/27 10:36:04 INFO impl.YarnClientImpl: Submitted application application_1424968955716_0001

15/02/27 10:36:04 INFO mapreduce.Job: The url to track the job: http://hadoop01:8088/proxy/application_1424968955716_0001/

15/02/27 10:36:04 INFO mapreduce.Job: Running job: job_1424968955716_0001

3.查看结果

[root@hadoop01 conf]# hadoop fs -ls /wordcount/output
Found 2 items
-rw-r--r--   3 hdfs supergroup          0 2015-02-27 17:19 /wordcount/output/_SUCCESS
-rw-r--r--   3 hdfs supergroup         29 2015-02-27 17:19 /wordcount/output/part-r-00000
[root@hadoop01 conf]# hadoop fs -cat /wordcount/output/part-r-00000
bye     1
good    1
hello   1
world   2

[root@hadoop01 conf]# hadoop fs -ls /wordcount/output

Found 2 items

-rw-r--r-- 3 hdfs supergroup 0 2015-02-27 17:19 /wordcount/output/_SUCCESS

-rw-r--r-- 3 hdfs supergroup 29 2015-02-27 17:19 /wordcount/output/part-r-00000

[root@hadoop01 conf]# hadoop fs -cat /wordcount/output/part-r-00000

bye 1

good 1

hello 1

world 2

四、故障及排除

1.卡map0% reduce0%：

hdfs namenode -format

删除datanode在本地的存储

2.卡map 100% reduce0%

修改/etc/hosts

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4

1	127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4

删掉各种域，变为：

127.0.0.1   localhost

1	127.0.0.1 localhost

香蕉与打火机 2015年2月28日小云云 0 Read more >

小云云

前言

进入spark-shell环境

注册SQLContext并进行配置

导入parquet文件

导入文件：

打印parquet文件的schema：

将parquet文件注册为临时表

parquet表的DML操作

执行sql：

遍历结果：

单机模式安装、启动 HBase

安装 HBase Master

安装HBase Master

启动HBase Master服务

安装及启动HBase Thrift Server

安装HBase Thrift Server

启动HBase Thrift Server

安装配置HBase REST

安装HBase REST

配置REST端口（如果采用默认的60050则不需配置）

启动HBase REST

HBase分布式安装配置

集群机器规划

按照以下规划安装对应的软件包

安装软件包命令

master

region server

准备hadoop01

配置region server

配置hadoop02为backup master

配置HBase为分布式模式

配置zookeeper

在HDFS上创建/hbase目录

配置hadoop02、03

拷贝hadoop01配置文件到02、03

分别启动服务

在hadoop01、02启动hbase-master

在hadoop02、03启动hbase-regionserver

检查服务状态

参考

Installing HBase（安装Hbase）

配置HBase（Configuration Settings for HBase）

使用hdfs的线程数参数（Using dfs.datanode.max.transfer.threads with HBase）

配置HBase的BlockCache（Configuring the HBase BlockCache）

1.Hive metastore server安装

(1) 安装hive包

(2) 在hadoop02上安装metastore所用的mysql数据库

(3) 修改hive-site.xml参数

(4) 创建metastore所用的mysql实例及账号

2.安装Hive server2

(1) 安装hive包

(2) 配置到zookeeper的连接参数

3.创建Hive在hdfs上的工作目录

4.启动hive metastore及hive server2

(1) 启动metastore service

(2) 启动hive server2

(3) 检查日志

5.使用配置

(1) reducer设置

参数：hive.exec.reducers.bytes.per.reducer

参数：mapred.reduce.tasks

(2) HiveServer2内存

(3) 关闭任务推测式执行

(4) cli设置

1.数据定义语言（DDL）

创建、修改、删除数据库

创建数据库

修改数据库的key-value注释

修改数据库的用户

删除数据库

使用实例

创建、截断、删除表（带分区）

创建表

复制表结构：

截断表（保留表结构，删除数据）：

删除表（任何删除动作都会删除相关的元数据）：

修改表、分区、列

修改表名（保留表结构，删除数据）：

增加表分区（未修改表结构，只是多了一个分区值）：

使用hdfs的线程数参数（Using `dfs.datanode.max.transfer.threads` with HBase）

配置HBase的BlockCache（Configuring the HBase `BlockCache）`