HDFS(Hadoop distributed file system):

Name node:

Data node治理

メタ情报治理

 

Data node:

涣散してファイルを保留

同じファイルが三つのノード以上に保持し、

Data nodeの障害に対応できるように设定するのが一样平常的

 

クライアントは

Name nodeにメタ情报を问い合わせ

Data node上のファイルにアクセスする

 

MapReduce:

MapReduceとは、データの并列処理を行うためのアルゴリズム

「○○単位に」「××する」という処理を并列に行うことができる

 

YARN(Yet another resource negotiator):

YARNはHadoopクラスタのリソース治理と、ジョブスケジューリングを行う。

ResourceManagerとNodeManagerで组成される。

 

クライアント:MapReduceのジョブを投入。

ResourceManager:リソース治理スケジューリング。

NodeManager:ジョブを并列実行。

(map, reduce, shuffleを実施)


Hadoop Clusterは、各ノードに涣散保留されているデータに対して、

そのノード上で処理を実施できるので効率が良い。

(処理対象データを取得する为の通讯が不要)


Hiveコマンドは以下の処理を行う:

HiveQLの受付

HiveQL⇒MapReduceジョの変换

変换してMapReduceジョブをHadoopに渡す(処理はHadoopで実行)


metastoreは、HiveQLでクエリで见るテーブル界说情报を格纳

実体はHadoopクラスタ上、メタ情报はRDBに格纳


Hiveのテーブルは、ファイルシステムの指定ディレクトリ配下に格纳

パテーションを用いると、サブディレクトリで治理することができる


Hiveのテーブルの実体は、ファイルシステム上のファイル、

通常の(externalではない)テーブルの场所、create tableでテーブルを作成してinsertするとファイルが作成される。

external tableを使うと、HDFSなどに设置したファイル(tsvなど)をhiveのテーブルとして扱うことができる