基于Storm构建分布式实时处理应用初探

基于Storm构建分布式实时处理应用初探

Hadoop 3周前 (11-05) 浏览: 13 评论: 0

最近利用闲暇时间,又重新研读了一下Storm。认真对比了一下Hadoop,前者更擅长的是,实时流式数据处理,后者更擅长的是基于HDFS,通过MapReduce方式的离线数据分析计算。对于Hadoop,本身不擅长实时的数据分析处理。两者的共同点都是分布式架构,而且都类似有主/从关系的概念。 本文我不会具体阐述Storm集群和Zookeeper集群如何部署的问题,这里想通过一个实际的案例切入,分析一下

Hadoop集群搭建(二) HDFS

Hadoop集群搭建(二) HDFS

Hadoop 1个月前 (10-18) 浏览: 23

HDFS只是Hadoop最基本的一个服务,很多其他服务,都是基于HDFS展开的。所以部署一个HDFS集群,是很核心的一个动作,也是大数据平台的开始。 安装Hadoop集群,首先需要有Zookeeper才可以完成安装。如果没有Zookeeper,请先部署一套Zookeeper。另外,JDK以及物理主机的一些设置等。都请参考下文: Hadoop集群搭建(一) Zookeeper 下面开始HDFS的安装

Hadoop集群搭建(一) Zookeeper

Hadoop集群搭建(一) Zookeeper

Hadoop 1个月前 (10-17) 浏览: 23

作为Hadoop初学者,自然要从安装入手。而hadoop的优势就是分布式,所以,也一定要安装分布式的系统。 整体安装步骤,包括Zookeeper+HDFS+Hbase,为了文章简洁,我会分三篇blog记录我的安装步骤。 本文记录的是集群环境准备,zookeeper的安装步骤。 ~~~~~~~~~~~环境准备部分~~~~~~~~~~~~~~~~~ IP部署规划(准备了三个虚拟机,操作系统是Cento

Hadoop入门扫盲:hadoop发行版介绍与选择

Hadoop入门扫盲:hadoop发行版介绍与选择

Hadoop 4个月前 (08-02) 浏览: 31 评论: 0

一、hadoop发行版介绍 目前Hadoop发行版非常多,有Intel发行版,华为发行版、Cloudera发行版(CDH)、Hortonworks版本等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,是由于Apache Hadoop的开源协议决定的:任何人可以对其进行修改,并作为开源或商业产品发布/销售。 目前而言,不收费的Hadoop版本主要有三个,都是国外厂

同程旅游 Hadoop 安全实践

同程旅游 Hadoop 安全实践

Hadoop 10个月前 (01-17) 浏览: 126 评论: 0

0x01 背景 当前大一点的公司都采用了共享Hadoop集群的模式。 共享Hadoop是指:数据存储方面,公有/私有的文件目录混合存放在hdfs上,不同的用户根据需求访问不同的数据; 计算资源方面,管理员按部门或业务划分若干个队列,每个队列分配一定量的资源,每个用户/组只能使用某个队列中得资源。这种模式可以减小维护成本,避免数据过度冗余,减少硬件成本。但这种类似于云存储/云计算的方式,面临的一个最

Hadoop集群datanode磁盘不均衡的解决方案

Hadoop集群datanode磁盘不均衡的解决方案

Hadoop 1年前 (2016-09-20) 浏览: 104 评论: 0

一、引言: Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点,节点与节点之间磁盘大小不一样等等。当hdfs出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。 二、问题: 因业务需要搭建一个新hadoop集群,并将老的hadoop集群中的数据迁移至新的had

Hadoop MapReduce如何进行WordCount自主编译运行

Hadoop MapReduce如何进行WordCount自主编译运行

Hadoop 1年前 (2016-09-20) 浏览: 56 评论: 0

上次我们已经搭建了Hadoop的伪分布式环境,并且运行了一下Hadoop自带的例子–WordCount程序,展现良好。但是大多数时候还是得自己写程序,编译,打包,然后运行的,所以做一次自编译打包运行的实验。 编辑程序 在Eclipse或者NetBeans中编辑WordCount.java程序,用IDE的好处就是我们可以更方便的选择各种依赖的jar包,并且它会帮我们编译好,我们只需要去workspa

用Python端对端数据分析识别机器人“僵尸粉

用Python端对端数据分析识别机器人“僵尸粉

Hadoop 1年前 (2016-08-22) 浏览: 79 评论: 0

导读:不仅微博,在twitter中也存在大批的“僵尸粉”。Twitter中的“僵尸粉”不仅能够在无人干预下撰写和和发布推文的程序,并且所产生的推文相当复杂。如何识别这批“僵尸粉”或者说“机器人粉丝”?下面我们将通过Python的Pandas库、自然语言处理学习NLTK和scikit-learn创建分类器对Twitter机器人进行识别。 在本文中,我想要讨论一个互联网现象:机器人,特别是Twitte

使用Eclipse编译运行MapReduce程序 Hadoop2.6.0_Ubuntu/CentOS

使用Eclipse编译运行MapReduce程序 Hadoop2.6.0_Ubuntu/CentOS

Hadoop 1年前 (2016-08-20) 浏览: 118 评论: 0

本教程介绍的是如何在 Ubuntu/CentOS 中使用 Eclipse 来开发 MapReduce 程序,在 Hadoop 2.6.0 下验证通过。虽然我们可以使用命令行编译打包运行自己的MapReduce程序,但毕竟编写代码不方便。使用 Eclipse,我们可以直接对 HDFS 中的文件进行操作,可以直接运行代码,省去许多繁琐的命令。本教程由厦门大学数据库实验室出品,转载请注明。 环境 本教程

使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0

使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0

Hadoop 1年前 (2016-08-20) 浏览: 119 评论: 0

网上的 MapReduce WordCount 教程对于如何编译 WordCount.java 几乎是一笔带过… 而有写到的,大多又是 0.20 等旧版本版本的做法,即 javac -classpath /usr/local/hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jar WordCount.java,但较新的 2.X 版本中,已经没有 hadoop-core*

切换注册

登录

忘记密码 ?

切换登录

注册

扫一扫二维码分享