Hadoop-コンセプト
HDFS(Hadoop distributed file system):
Name node:
Data node治理
メタ情报治理
Data node:
涣散してファイルを保留
同じファイルが三つのノード以上に保持し、
Data nodeの障害に対応できるように设定するのが一样平常的
クライアントは
①Name nodeにメタ情报を问い合わせ
②Data node上のファイルにアクセスする
MapReduce:
MapReduceとは、データの并列処理を行うためのアルゴリズム
「○○単位に」「××する」という処理を并列に行うことができる
YARN(Yet another resource negotiator):
YARNはHadoopクラスタのリソース治理と、ジョブスケジューリングを行う。
ResourceManagerとNodeManagerで组成される。
クライアント:MapReduceのジョブを投入。
ResourceManager:リソース治理スケジューリング。
NodeManager:ジョブを并列実行。
(map, reduce, shuffleを実施)
Hadoop Clusterは、各ノードに涣散保留されているデータに対して、
そのノード上で処理を実施できるので効率が良い。
(処理対象データを取得する为の通讯が不要)
Hiveコマンドは以下の処理を行う:
HiveQLの受付
HiveQL⇒MapReduceジョの変换
変换してMapReduceジョブをHadoopに渡す(処理はHadoopで実行)
metastoreは、HiveQLでクエリで见るテーブル界说情报を格纳
実体はHadoopクラスタ上、メタ情报はRDBに格纳
Hiveのテーブルは、ファイルシステムの指定ディレクトリ配下に格纳
パテーションを用いると、サブディレクトリで治理することができる
Hiveのテーブルの実体は、ファイルシステム上のファイル、
通常の(externalではない)テーブルの场所、create tableでテーブルを作成してinsertするとファイルが作成される。
external tableを使うと、HDFSなどに设置したファイル(tsvなど)をhiveのテーブルとして扱うことができる
0
珍藏
欢迎进入进入sunbet官网手机!Sunbet 申博提供申博开户(sunbet开户)、SunbetAPP下载、Sunbet客户端下载、Sunbet代理合作等业务。