基于Storm构建分布式实时处理应用初探

基于Storm构建分布式实时处理应用初探

3周前 (11-05) 浏览: 13 评论: 0

最近利用闲暇时间,又重新研读了一下Storm。认真对比了一下Hadoop,前者更擅长的是,实时流式数据处理,后者更擅长的是基于HDFS,通过MapReduce方式的离线数据分析计算。对于Hadoop,本身不擅长实时的数据分析处理。两者的共同点都是分布式架构,而且都类似有主/从关系的概念。 本文我不会具体阐述Storm集群和Zookeeper集群如何部署的问题,这里想通过一个实际的案例切入,分析一下

Hadoop集群搭建(二) HDFS

Hadoop集群搭建(二) HDFS

1个月前 (10-18) 浏览: 23

HDFS只是Hadoop最基本的一个服务,很多其他服务,都是基于HDFS展开的。所以部署一个HDFS集群,是很核心的一个动作,也是大数据平台的开始。 安装Hadoop集群,首先需要有Zookeeper才可以完成安装。如果没有Zookeeper,请先部署一套Zookeeper。另外,JDK以及物理主机的一些设置等。都请参考下文: Hadoop集群搭建(一) Zookeeper 下面开始HDFS的安装

Hadoop集群搭建(一) Zookeeper

Hadoop集群搭建(一) Zookeeper

1个月前 (10-17) 浏览: 23

作为Hadoop初学者,自然要从安装入手。而hadoop的优势就是分布式,所以,也一定要安装分布式的系统。 整体安装步骤,包括Zookeeper+HDFS+Hbase,为了文章简洁,我会分三篇blog记录我的安装步骤。 本文记录的是集群环境准备,zookeeper的安装步骤。 ~~~~~~~~~~~环境准备部分~~~~~~~~~~~~~~~~~ IP部署规划(准备了三个虚拟机,操作系统是Cento

Hadoop入门扫盲:hadoop发行版介绍与选择

Hadoop入门扫盲:hadoop发行版介绍与选择

4个月前 (08-02) 浏览: 31 评论: 0

一、hadoop发行版介绍 目前Hadoop发行版非常多,有Intel发行版,华为发行版、Cloudera发行版(CDH)、Hortonworks版本等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,是由于Apache Hadoop的开源协议决定的:任何人可以对其进行修改,并作为开源或商业产品发布/销售。 目前而言,不收费的Hadoop版本主要有三个,都是国外厂

同程旅游 Hadoop 安全实践

同程旅游 Hadoop 安全实践

10个月前 (01-17) 浏览: 126 评论: 0

0x01 背景 当前大一点的公司都采用了共享Hadoop集群的模式。 共享Hadoop是指:数据存储方面,公有/私有的文件目录混合存放在hdfs上,不同的用户根据需求访问不同的数据; 计算资源方面,管理员按部门或业务划分若干个队列,每个队列分配一定量的资源,每个用户/组只能使用某个队列中得资源。这种模式可以减小维护成本,避免数据过度冗余,减少硬件成本。但这种类似于云存储/云计算的方式,面临的一个最

Hadoop集群datanode磁盘不均衡的解决方案

Hadoop集群datanode磁盘不均衡的解决方案

1年前 (2016-09-20) 浏览: 104 评论: 0

一、引言: Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点,节点与节点之间磁盘大小不一样等等。当hdfs出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。 二、问题: 因业务需要搭建一个新hadoop集群,并将老的hadoop集群中的数据迁移至新的had

Hadoop MapReduce如何进行WordCount自主编译运行

Hadoop MapReduce如何进行WordCount自主编译运行

1年前 (2016-09-20) 浏览: 56 评论: 0

上次我们已经搭建了Hadoop的伪分布式环境,并且运行了一下Hadoop自带的例子–WordCount程序,展现良好。但是大多数时候还是得自己写程序,编译,打包,然后运行的,所以做一次自编译打包运行的实验。 编辑程序 在Eclipse或者NetBeans中编辑WordCount.java程序,用IDE的好处就是我们可以更方便的选择各种依赖的jar包,并且它会帮我们编译好,我们只需要去workspa

用Python端对端数据分析识别机器人“僵尸粉

用Python端对端数据分析识别机器人“僵尸粉

1年前 (2016-08-22) 浏览: 79 评论: 0

导读:不仅微博,在twitter中也存在大批的“僵尸粉”。Twitter中的“僵尸粉”不仅能够在无人干预下撰写和和发布推文的程序,并且所产生的推文相当复杂。如何识别这批“僵尸粉”或者说“机器人粉丝”?下面我们将通过Python的Pandas库、自然语言处理学习NLTK和scikit-learn创建分类器对Twitter机器人进行识别。 在本文中,我想要讨论一个互联网现象:机器人,特别是Twitte

使用Eclipse编译运行MapReduce程序 Hadoop2.6.0_Ubuntu/CentOS

使用Eclipse编译运行MapReduce程序 Hadoop2.6.0_Ubuntu/CentOS

1年前 (2016-08-20) 浏览: 118 评论: 0

本教程介绍的是如何在 Ubuntu/CentOS 中使用 Eclipse 来开发 MapReduce 程序,在 Hadoop 2.6.0 下验证通过。虽然我们可以使用命令行编译打包运行自己的MapReduce程序,但毕竟编写代码不方便。使用 Eclipse,我们可以直接对 HDFS 中的文件进行操作,可以直接运行代码,省去许多繁琐的命令。本教程由厦门大学数据库实验室出品,转载请注明。 环境 本教程

使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0

使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0

1年前 (2016-08-20) 浏览: 119 评论: 0

网上的 MapReduce WordCount 教程对于如何编译 WordCount.java 几乎是一笔带过… 而有写到的,大多又是 0.20 等旧版本版本的做法,即 javac -classpath /usr/local/hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jar WordCount.java,但较新的 2.X 版本中,已经没有 hadoop-core*

你一定要了解的大数据与小趋势

你一定要了解的大数据与小趋势

1年前 (2016-08-14) 浏览: 67 评论: 0

本文根据TalkingData副总裁高铎先生在“世界O2O博览会暨IN+2016创新大会”上的演讲整理而成。 这是1997年比尔·克林顿总统就职演说,然而其实大选期间民调显示出没有一个候选人有明显能够胜出的趋势。对于克林顿的竞选顾问而言,他们最重要的目标是帮助克林顿找到最能够影响竞选结果的群体。他们最终发现了什么样的群体呢?这个群体在美国有一个非常有名的专有名词叫“足球妈妈”,指的是在足球场边看着

助你保护大数据应用安全的步骤和工具

助你保护大数据应用安全的步骤和工具

1年前 (2016-08-07) 浏览: 113 评论: 0

大数据应用的安全性方面往往被忽视或者被视为次要的需求。但是,数据的安全性在数据处理过程有着十分巨大的影响。本文将介绍一些保护大数据应用的步骤和工具。 随着大数据在不同的领域蔓延,安全方面受到越来越多的关注。以前,我们使用具有中心控制的安全系统,但这并不足以保护你的应用程序免受入侵。大数据带来了另外一些安全关切问题,与正常的应用程序有很大不同。 在当今世界,安全性相关的探索非常困难,前进方向也难以界

天天在做大数据,你的时间都花在哪了?

天天在做大数据,你的时间都花在哪了?

1年前 (2016-06-06) 浏览: 161 评论: 0

前言 我每天都在思考,思考很重要,是一个消化和不断深入的过程。 正如下面的一句话: 我们从出生开始如果没思考过人生本身这件事情,一切按照社会的习惯前行,那人生是没有意义的。因为你连人生都没有想过。 那么延生出来,我们有没有想过大数据本身? 大数据到底是在做什么,为什么我做了这么多年的大数据,总是做不完呢? 大数据本质是:随着科学技术发展,更多的数据能够被存储了,能被分析了。所以有了大数据的概念。

Java程序员使用的20几个大数据工具

Java程序员使用的20几个大数据工具

2年前 (2016-01-31) 浏览: 267 评论: 0

最近我问了很多Java开发人员关于最近12个月内他们使用的是什么大数据工具。 这是一个系列,主题为: 语言 web框架 应用服务器 SQL数据访问工具 SQL数据库 大数据 构建工具 云提供商 今天我们就要说说大数据。根据维基百科,大数据是数据集的一个广义的术语,并且该数据集是如此庞大和复杂,以致于传统的数据处理应用程序无法胜任。 在许多情况下,使用SQL数据库用于存储/检索数据就足够了。但在另一

切换注册

登录

忘记密码 ?

切换登录

注册

扫一扫二维码分享