hadoop distributed file system
(1)hdfs的架构和原理:
hdfs采用master/slave的结构来存储数据,这种架构主要有四个部分组成:client、namenode、datanode、secondary namenode;
client:就是客户端
1、文件切分。在上传文件的时候,client将文件切分为一个个的block。然后进行存储。
2、和namenode进行交互,获取文件的存储信息。
3、和datanode进行交互,读或写数据。
4、client可以提供一些命令来管理和访问hdfs
namenode:就是master,是元数据的管理者
1、管理hdfs的名称空间。
2、管理block的映射信息。
3、配置副本策略。
4、处理客户端提出的请求。
datanode:就是slave,完成namenode下达的命令
1、存储数据
2、进行读写操作
secondary namenode:namenode的备份
************************************
hdfs的常用shell命令:
hdfs dfs -ls [option]
查看文本文件:
hdfs hfs -cat [option]
hdfs dfs -mkdir [option]
hdfs dfs -rm [option]
本地和hfds的文件操作:
本地->hdfs: hdfs dfs -copyFromLocal(put) [option1] [option2]
hdfs->本地: hdfs dfs -copyToLocal(get) [option1] [option2]
查看压缩文件的内容:
hdfs dfs -text [option] | more
查看文件的大小:
hfds dfs -du -h [option]
创建文件:
hdfs dfs -touchz [option]
查看命令的帮助信息:
hdfs dfs -usage [option]
**********************************************
**********************************************
关于hdfs文件存储的一些原理:
1、hdfs的
**********************************************
(2)hdfs的API应用
流程/步骤:
加载配置:
Configuration conf = new Configuration();
获得hdfs集群对象的引用:
FileSystem fs = FileSystem.get(conf);
将给定的路径封装成Path对象:
Path path = new Path("[option]");
********************
对hdfs的数据进行IO操作
********************
因篇幅问题不能全部显示,请点此查看更多更全内容