同程旅游 Hadoop 安全实践

同程旅游 Hadoop 安全实践

2个月前 (01-17) 浏览: 40 评论: 0

0x01 背景 当前大一点的公司都采用了共享Hadoop集群的模式。 共享Hadoop是指:数据存储方面,公有/私有的文件目录混合存放在hdfs上,不同的用户根据需求访问不同的数据; 计算资源方面,管理员按部门或业务划分若干个队列,每个队列分配一定量的资源,每个用户/组只能使用某个队列中得资源。这种模式可以减小维护成本,避免数据过度冗余,减少硬件成本。但这种类似于云存储/云计算的方式,面临的一个最

Hadoop集群datanode磁盘不均衡的解决方案

Hadoop集群datanode磁盘不均衡的解决方案

6个月前 (09-20) 浏览: 45 评论: 0

一、引言: Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点,节点与节点之间磁盘大小不一样等等。当hdfs出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。 二、问题: 因业务需要搭建一个新hadoop集群,并将老的hadoop集群中的数据迁移至新的had

Hadoop MapReduce如何进行WordCount自主编译运行

Hadoop MapReduce如何进行WordCount自主编译运行

6个月前 (09-20) 浏览: 17 评论: 0

上次我们已经搭建了Hadoop的伪分布式环境,并且运行了一下Hadoop自带的例子–WordCount程序,展现良好。但是大多数时候还是得自己写程序,编译,打包,然后运行的,所以做一次自编译打包运行的实验。 编辑程序 在Eclipse或者NetBeans中编辑WordCount.java程序,用IDE的好处就是我们可以更方便的选择各种依赖的jar包,并且它会帮我们编译好,我们只需要去workspa

用Python端对端数据分析识别机器人“僵尸粉

用Python端对端数据分析识别机器人“僵尸粉

7个月前 (08-22) 浏览: 39 评论: 0

导读:不仅微博,在twitter中也存在大批的“僵尸粉”。Twitter中的“僵尸粉”不仅能够在无人干预下撰写和和发布推文的程序,并且所产生的推文相当复杂。如何识别这批“僵尸粉”或者说“机器人粉丝”?下面我们将通过Python的Pandas库、自然语言处理学习NLTK和scikit-learn创建分类器对Twitter机器人进行识别。 在本文中,我想要讨论一个互联网现象:机器人,特别是Twitte

使用Eclipse编译运行MapReduce程序 Hadoop2.6.0_Ubuntu/CentOS

使用Eclipse编译运行MapReduce程序 Hadoop2.6.0_Ubuntu/CentOS

7个月前 (08-20) 浏览: 37 评论: 0

本教程介绍的是如何在 Ubuntu/CentOS 中使用 Eclipse 来开发 MapReduce 程序,在 Hadoop 2.6.0 下验证通过。虽然我们可以使用命令行编译打包运行自己的MapReduce程序,但毕竟编写代码不方便。使用 Eclipse,我们可以直接对 HDFS 中的文件进行操作,可以直接运行代码,省去许多繁琐的命令。本教程由厦门大学数据库实验室出品,转载请注明。 环境 本教程

使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0

使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0

7个月前 (08-20) 浏览: 59 评论: 0

网上的 MapReduce WordCount 教程对于如何编译 WordCount.java 几乎是一笔带过… 而有写到的,大多又是 0.20 等旧版本版本的做法,即 javac -classpath /usr/local/hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jar WordCount.java,但较新的 2.X 版本中,已经没有 hadoop-core*

你一定要了解的大数据与小趋势

你一定要了解的大数据与小趋势

7个月前 (08-14) 浏览: 30 评论: 0

本文根据TalkingData副总裁高铎先生在“世界O2O博览会暨IN+2016创新大会”上的演讲整理而成。 这是1997年比尔·克林顿总统就职演说,然而其实大选期间民调显示出没有一个候选人有明显能够胜出的趋势。对于克林顿的竞选顾问而言,他们最重要的目标是帮助克林顿找到最能够影响竞选结果的群体。他们最终发现了什么样的群体呢?这个群体在美国有一个非常有名的专有名词叫“足球妈妈”,指的是在足球场边看着

助你保护大数据应用安全的步骤和工具

助你保护大数据应用安全的步骤和工具

8个月前 (08-07) 浏览: 39 评论: 0

大数据应用的安全性方面往往被忽视或者被视为次要的需求。但是,数据的安全性在数据处理过程有着十分巨大的影响。本文将介绍一些保护大数据应用的步骤和工具。 随着大数据在不同的领域蔓延,安全方面受到越来越多的关注。以前,我们使用具有中心控制的安全系统,但这并不足以保护你的应用程序免受入侵。大数据带来了另外一些安全关切问题,与正常的应用程序有很大不同。 在当今世界,安全性相关的探索非常困难,前进方向也难以界

天天在做大数据,你的时间都花在哪了?

天天在做大数据,你的时间都花在哪了?

10个月前 (06-06) 浏览: 112 评论: 0

前言 我每天都在思考,思考很重要,是一个消化和不断深入的过程。 正如下面的一句话: 我们从出生开始如果没思考过人生本身这件事情,一切按照社会的习惯前行,那人生是没有意义的。因为你连人生都没有想过。 那么延生出来,我们有没有想过大数据本身? 大数据到底是在做什么,为什么我做了这么多年的大数据,总是做不完呢? 大数据本质是:随着科学技术发展,更多的数据能够被存储了,能被分析了。所以有了大数据的概念。

Java程序员使用的20几个大数据工具

Java程序员使用的20几个大数据工具

1年前 (2016-01-31) 浏览: 219 评论: 0

最近我问了很多Java开发人员关于最近12个月内他们使用的是什么大数据工具。 这是一个系列,主题为: 语言 web框架 应用服务器 SQL数据访问工具 SQL数据库 大数据 构建工具 云提供商 今天我们就要说说大数据。根据维基百科,大数据是数据集的一个广义的术语,并且该数据集是如此庞大和复杂,以致于传统的数据处理应用程序无法胜任。 在许多情况下,使用SQL数据库用于存储/检索数据就足够了。但在另一

掰一掰GitHub上优秀的大数据项目

掰一掰GitHub上优秀的大数据项目

1年前 (2016-01-28) 浏览: 149 评论: 0

VMware CEO Pat Gelsinger曾说:   数据科学是未来,大数据分析则是打开未来之门的钥匙 企业正在迅速用新技术武装自己以便从大数据项目中获益。各行业对大数据分析人才的需求也迫使我们升级自己的技能以便寻找更好的职业发展。 跳槽之前最好先搞清楚一个岗位会接触到的项目类型,这样你才能掌握所有需要的技能,工作的效率也会更高。 下面我们尽量列出了一些流行的开源大数据项目。根据它们各自的授

大数据时代留给数据分析师的羁绊

大数据时代留给数据分析师的羁绊

1年前 (2016-01-26) 浏览: 150 评论: 0

大数据搭着信息时代的快车来到了我们的面前,数据的价值逐渐为人们所重视,同时也让数据分析师的身价倍增。而随着大数据分析工具等大数据应用技术的出现,未来的数据分析师又将遇到怎样的挑战和机遇呢? 工具抢了人的饭碗? 很多大数据分析工具的设计起点非常高,定位了数据分析过程中所需要的大部分功能。比如国云数据的大数据魔镜,功能涵盖了从数据前期整合、收集到挖掘、分析乃至末端的数据可视化的整个数据分析过程,功能不

切换注册

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

切换登录

注册

扫一扫二维码分享