Hadoop运维笔记之 Snappy创建libhadoop.so导致datanode报错

为了解决上一篇文章中提到的bug，我们将线上的cdh5升级到了目前最新的cdh5.2.0，但升级之后，有一部分服务器的datanode不能正常启动，报错如下： 2014-11-20 19:54:52,071 warn org.apache.hadoop.hdfs.server.datanode.datanode: unexpected exception in b
为了解决上一篇文章中提到的bug，我们将线上的cdh5升级到了目前最新的cdh5.2.0，但升级之后，有一部分服务器的datanode不能正常启动，报错如下：
2014-11-20 19:54:52,071 warn org.apache.hadoop.hdfs.server.datanode.datanode: unexpected exception in block pool block pool (datanode uuid unassigned) service to idc1-server1/10.100.1.100:8020com.google.common.util.concurrent.executionerror: java.lang.unsatisfiedlinkerror: org.apache.hadoop.io.nativeio.nativeio.link0(ljava/lang/string;ljava/lang/string;)v at com.google.common.util.concurrent.futures.wrapandthrowexceptionorerror(futures.java:1126) at com.google.common.util.concurrent.futures.get(futures.java:1048) at org.apache.hadoop.hdfs.server.datanode.datastorage.linkblocks(datastorage.java:870) at org.apache.hadoop.hdfs.server.datanode.blockpoolslicestorage.linkallblocks (blockpoolslicestorage.java:570) at org.apache.hadoop.hdfs.server.datanode.blockpoolslicestorage.doupgrade (blockpoolslicestorage.java:379) at org.apache.hadoop.hdfs.server.datanode.blockpoolslicestorage.dotransition (blockpoolslicestorage.java:313) at org.apache.hadoop.hdfs.server.datanode.blockpoolslicestorage.recovertransitionread (blockpoolslicestorage.java:187) at org.apache.hadoop.hdfs.server.datanode.datastorage.recovertransitionread (datastorage.java:309) at org.apache.hadoop.hdfs.server.datanode.datanode.initstorage(datanode.java:1109) at org.apache.hadoop.hdfs.server.datanode.datanode.initblockpool(datanode.java:1080) at org.apache.hadoop.hdfs.server.datanode.bpofferservice.verifyandsetnamespaceinfo (bpofferservice.java:320) at org.apache.hadoop.hdfs.server.datanode.bpserviceactor.connecttonnandhandshake (bpserviceactor.java:220) at org.apache.hadoop.hdfs.server.datanode.bpserviceactor.run(bpserviceactor.java:824) at java.lang.thread.run(thread.java:744)caused by: java.lang.unsatisfiedlinkerror: org.apache.hadoop.io.nativeio.nativeio.link0 (ljava/lang/string;ljava/lang/string;)v at org.apache.hadoop.io.nativeio.nativeio.link0(native method) at org.apache.hadoop.io.nativeio.nativeio.link(nativeio.java:838) at org.apache.hadoop.hdfs.server.datanode.datastorage$2.call(datastorage.java:862) at org.apache.hadoop.hdfs.server.datanode.datastorage$2.call(datastorage.java:855) at java.util.concurrent.futuretask.run(futuretask.java:262) at java.util.concurrent.threadpoolexecutor.runworker(threadpoolexecutor.java:1145) at java.util.concurrent.threadpoolexecutor$worker.run(threadpoolexecutor.java:615) ... 1 more2014-11-20 19:54:52,073 warn org.apache.hadoop.hdfs.server.datanode.datanode: ending block pool service for: block pool (datanode uuid unassigned) service to idc1-server1/10.100.1.100:8020
但搜遍了google也未能找到匹配的信息，唯一沾点边的都是一些在windows平台上因为缺少lib导致的问题。
而在我们的环境中，只有一部分的服务器有以上问题，对比了所有hadoop相关的软件包之后都没法发现有什么不同，这给我们分析问题带来了很大的干扰。
最后，我们尝试通过strace来跟踪datanode的进程。
yum install strace
strace -f -f -o /tmp/strace.output.txt /etc/init.d/hadoop-hdfs-datanode start
lsof | grep libhadoop.so
java 18527 hdfs mem reg 253,0 122832 270200 /usr/java/jdk1.7.0_45/jre/lib/amd64/libhadoop.so
发现它读取了一个lib文件：/usr/java/jdk1.7.0_45/jre/lib/amd64/libhadoop.so，而其它正常的服务器的datanode进程则是读取的/usr/lib/hadoop/lib/native/libhadoop.so。
经过验证发现/usr/java/jdk1.7.0_45/jre/lib/amd64/libhadoop.so是在安装snappy软件包时创建的，在移走了它之后，datanode终于正常启动了。
看来，虽然datanode在启动时指定了 -djava.library.path=/usr/lib/hadoop/lib/native，但jre中的lib被载入的优先级还是要高一些。
原文地址：hadoop运维笔记之 snappy创建libhadoop.so导致datanode报错, 感谢原作者分享。

Hadoop运维笔记 之 Snappy创建libhadoop.so导致datanode报错

推荐信息

Hadoop运维笔记之 Snappy创建libhadoop.so导致datanode报错