我们都知道,在HDFS中不宜存储大量的小文件。所谓小文件,就是大小远小于dfs.block.size的文件。如果有大量小文件的话,会浪费block,使元数据增加,挤占宝贵的NameNode内存。另外,大文件能够发挥磁盘顺序读写的优势,小文件会产生很多随机读写,性能下降。前几天编写了SparkStre
阅读全文
前面写过一篇java上传文件至hdfs的文章,实现方式上每次操作hdfs都会创建一个新的hdfs连接,这种方式极易产生奇奇怪怪的问题(内存泄漏等等),所以简单研究了一下commons-pool2实现了一个Hdfs连接池,记录一下。先上github地址:https://github.com/AF-lm
阅读全文
上传之前,需要本机安装Hadoop并且配置环境变量,可以参考之前的文章MacOS安装Hadoop并配置环境变量,然后修改hosts文件,映射HDFSNameNodeIP-主机名。引入依赖<dependency><groupId>org.apache.hadoop</gr
阅读全文
MAC系统安装Hadoop2.7.31.查看是否安装了Java打开终端,运行java-version命令,可以查看java版本。2.下载hadoop地址http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.6/hadoop-2.7
阅读全文