hadoop学习笔记之hdfs

来源：筏尚旅游网

hadoop distributed file system

（1）hdfs的架构和原理：

hdfs采用master/slave的结构来存储数据，这种架构主要有四个部分组成：client、namenode、datanode、secondary namenode；

client：就是客户端

1、文件切分。在上传文件的时候，client将文件切分为一个个的block。然后进行存储。

2、和namenode进行交互，获取文件的存储信息。

3、和datanode进行交互，读或写数据。

4、client可以提供一些命令来管理和访问hdfs

namenode：就是master，是元数据的管理者

1、管理hdfs的名称空间。

2、管理block的映射信息。

3、配置副本策略。

4、处理客户端提出的请求。

datanode：就是slave，完成namenode下达的命令

1、存储数据

2、进行读写操作

secondary namenode：namenode的备份

************************************

hdfs的常用shell命令：

hdfs dfs -ls [option]

查看文本文件：

hdfs hfs -cat [option]

hdfs dfs -mkdir [option]

hdfs dfs -rm [option]

本地和hfds的文件操作：

本地->hdfs: hdfs dfs -copyFromLocal(put) [option1] [option2]

hdfs->本地: hdfs dfs -copyToLocal(get) [option1] [option2]

查看压缩文件的内容：

hdfs dfs -text [option] | more

查看文件的大小：

hfds dfs -du -h [option]

创建文件：

hdfs dfs -touchz [option]

查看命令的帮助信息：

hdfs dfs -usage [option]

**********************************************

关于hdfs文件存储的一些原理：

1、hdfs的

**********************************************

（2）hdfs的API应用

流程/步骤：

加载配置：

Configuration conf = new Configuration();

获得hdfs集群对象的引用：

FileSystem fs = FileSystem.get(conf);

将给定的路径封装成Path对象：

Path path = new Path("[option]");

********************

对hdfs的数据进行IO操作

********************

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

hadoop学习笔记之hdfs