IBM 软件部 云中的 Hadoop 通过 IBM BigInsights for Apache Hadoop 以轻 松且经济实惠的方式利用大数据分析
云中的 Hadoop
1 2 3 4 5
简介 云和分析:全新的业务发展引擎
在云中利用 BigInsights 增强 Hadoop
IBM Watson Foundations:完整的云分析功能
资源
云中的 Hadoop
1 简介 2 云和分析:全新的业务发展引擎
3 在云中通过 BigInsights增强 Hadoop
4 IBM Watson Foundations:完整的云分析功能
5 资源
简介
Apache Hadoop 是大数据领域中最热门的
技术之一,它是一种开放式源代码软件框
架,用于对大量数据进行可靠的管理。
Hadoop 旨在从单服务器扩展至数千台具有
高级容错能力的机器,支持企业从大量结
构化数据、非结构化数据和半结构化数据
中提取有价值的洞察。
鉴于需要大量先期投资,对其灵活性存有
顾虑,且在评估技术和培养 Hadoop 技能
方面存在特殊的挑战,这些都阻碍了组织
在整个企业内采用和部署 Hadoop。对于
无需持续性处理的高影响力项目,偶尔使
用 Hadoop 也是不切实际的。
3
云中的 Hadoop
1 简介 2 云和分析:全新的业务发展引擎
3 在云中通过 BigInsights增强 Hadoop
4 IBM Watson Foundations:完整的云分析功能
5 资源
但好消息是您可以通过云计算来克服这些
资本需求障碍。仅在需要时为所需资源付
费的云模型可以为实验和评估提供支持,
并且是构建技能的理想选择。它也是短期
或偶尔使用的项目的理想选择,因为在此
类情况下,投资专用集群需要大量成本。
云有哪些优点?
云计算势头强劲是有充分理由的。有人用它来节省整体 IT 成本。有些人因其减少资
本支出的承诺而受到吸引。还有人希望解决各种紧迫问题,例如,数据中心空间长期
不足,或者资源供应周期太长(见图 1)。
云计算即通过因特网即服务按需交付计算资源 – 可交付从应用程序到数据中心在内的
一切。其基本的“即服务”概念很简单:用户可以专注于满足其业务需求,而无需担忧
复杂的 IT 系统的维护和改进。云能使业务和 IT 双方面受益,它可以交付:
•弹性资源,用于快速向上或向下调整规模,满足需求激增和骤降
•多种付款选项,从现收现付到按小时或按月许可
•针对技术资源的自助服务访问权
4
云中的 Hadoop
1 简介 2 云和分析:全新的业务发展引擎
3 在云中通过 BigInsights增强 Hadoop
4 IBM Watson Foundations:完整的云分析功能
5 资源
我们需要降低 IT
成本
我们的数据中心需要更
多空间
我们需要腾出高技能资
源来处理其他工作
本电子书探讨了如何在云中使用 IBM 增强的
Hadoop 功能来以经济实惠的方式为组织内
的所有用户部署深层分析 – 让所有人都能享
受到大数据带来的优势。
.
我们需要为远程团
队提供支持
我们需要降低资本
支出
我们需要提高业务
敏捷性
我们需要提供更好
的弹性
我们需要集成基于
Web 的数据
图1. 云采用的动因
5
云中的 Hadoop
1 简介 3 在云中通过 BigInsights 增强 Hadoop 3 在云中通过 BigInsights 增
强 Hadoop
4 IBM Watson Foundations:完整的云分析功能
5 资源esources
2 云和分析:全新的业务发展引擎
The new grow th engine for business
云和分析:
全新的业务发展引擎
根据 IBM 的观点,云不仅只是一种管理成
本或更快获取服务的方式 – 它是实现业务
发展的关键途径。云计算和大数据分析提
供了随时随地获得信息、洞察和制定决策
的可能。
因为云计算支持获取无限制的计算能力,
并且简化处理大量数据的方式,这使它成
为大数据分析的理想部署模型。IBM 在各
行各业中结合云计算和大数据分析,实现
了诸多利益,包括:
• 发现改变生活的药物
• 更准确地预测天气模式
• 创新节能技术
• 安全性异常洞察
• 更有效的用水和节水方法
• 针对客户偏好和趋势的更深入洞察
• 针对市场营销活动的实时反馈
迈向云计算的潮流同样印证了大数据和分
析必须在当今企业中占据更中心的角色,
成为帮助推动业务发展的引擎。企业需要
从围绕信息碎片设计的被动、封闭的“记录
系统”转变为“互动系统”,这是更广泛的整
合技术,鼓励同级交互,并且频繁利用云
技术来支持此类交互。
这两种系统之间的差异以及这些差异导致
的衍生后果非常显著。例如,要集成系统
并支持增强的协作(互动系统的核心原
则),企业需要部署相应的技术。这些格式
包括软件即服务 (SaaS)、平台即服务
(PaaS) 或基础结构即服务 (IaaS) 服务产
品,并且可部署在公共云、私有云或混合
模型中。
6
云中的 Hadoop
1 简介 3 在云中通过 BigInsights 增强 Hadoop 3 在云中通过 BigInsights 增
强 Hadoop
4 IBM Watson Foundations:完整的云分析功能
5 资源esources
2 云和分析:全新的业务发展引擎
The new grow th engine for business
在云中通过 IBM BigInsights for Apache Hadoop 增强 Hadoop
云计算支持您克服 Hadoop 的需求障碍。
但是开放式源代码 Hadoop 缺少企业级管
理技术和性能,并且可能需要企业学习或
获 取 新 技 能 。 企 业 可 以 通 过 IBM®
Biglnsights for Apache™ Hadoop®(企业
就绪的 Hadoop 版本)来克服这些障碍。
除 Hadoop 技术外,BigInsights 提供了专
门旨在应对现代化企业 IT 挑战的独特价
值:
• 扩展 Hadoop:BigInsights 完全基于开放
式源代码 Hadoop。它通过企业级技术对
Hadoop 进行了扩展,包括管理和集成功能、可视化、发现工具以及安全性、审计
历史和性能管理。
• 提高了性能:相比于开放式源代码
Hadoop,性能提升平均达到 4 倍。1
• 易用性:BigInsights 针对各种角色(包括
集成开发人员、管理员、数据科学家、分
析师和业务线)进行了优化。
• 集成 IBM Watson™ Foundations 大数
据平台:BigInsights 捆绑了搜索和流分
析功能。
• 分析:针对机器数据、社交数据、文本和
Big R 的内置 Hadoop 分析功能支持您从
Hadoop
集群中寻求切实可行的洞察,而无
需移动数据。
开放式源代码 Hadoop 与来自 IBM 的增
值企业功能的组合可以部署在云上。 IBM
提供预构建的映像和/或模板用于在云中快
速部署 Hadoop 集群,并通过 RightScale
提供多种 BigInsights 云模板。在云上部
署 BigInsights 集群还使用户无需再寻找
(和购买)额外的设备和机架。
7
云中的 Hadoop
1 简介 2 云和分析:全新的业务发展引擎
3 在云中通过 BigInsights 增强 Hadoop
4 IBM Watson Foundations:完整的云分析功能
5 资源
行业 云分析用例
零售业 支持数据量的不断增长,以更有效的方式分析
客户数据,获取更深入且更宝贵的洞察。
医疗卫生业 分析数百万条患者记录并执行统计性指导决策
支持,以减少诊断错误并提高护理质量。
能源和 实施主动的资源优化和分配,执行资产管理
公用事业 和维护优化。 .
优势
降低成本并提高营销有效性。
改进成果并获取对治疗趋势和关系的更
好的洞察。
更高效的资源利用,潜在地缩短
了停机时间或减少了容量短缺现
象
银行业
从日志数据中识别客户模式,以改进客户
洞察并提供更有针对性的优惠和服务。为
数据发现创建一站式购物环境。
增加追加销售和交叉销售商机;更
细化的客户群细分
分析在云中的诸多角色
IaaS 和 PaaS 选项将供开发人员使用,但
是业务负责人也将见证由此产生的显著影
响。例如,在云上部署 BigInsights 的客户
的硬件和软件成本更低,避免了将来的扩
展成本、简化了开发和管理流程,并且显
著提升了性能。查看下表以获取云分析如
何为现实世界带来的诸多益处的更多示
例。
8
云中的 Hadoop
1 简介
2 云和分析:全新的业务发展引擎
3 在云中通过 BigInsights 增强 Hadoop
4 IBM Watson Foundations:完整的云分析功能
5 资源
IBM Watson Foundations:
完整的云分析功能
BigInsights 作为 IBM Watson Foundations
大数据投资组合的关键元素,可以获取更
大的优势。IBM Watson Foundations 可以
提供全面的功能来帮助您满足自己的大数
据和分析目标:
• 实时分析:基于当前发生的状况动态更新
业务规则和流程。分析动态数据以获取实
时洞察。
• 实时应用程序开发:快速获取、分析和关
联数千种实时来源的数据。通过拖放操
作、可视化编辑器和性能监控轻松构建应
用程序 。动态添加新数据源。在云中创
建、编辑、可视化、测试、调试和运行应
用程序。
• 分析工具箱和加速程序:部署 IBM 研究
院开发的深层分析,例如,地理空间、时
间序列、R 分析、文本分析等等。
性能、可扩展性和深层分析功能使 IBM
大数据解决方案独领风骚。这些解决方
案可以实现:
• 数量更多:在相同硬件上,每秒处理记
录数达到其他开放式源代码复杂事件
处理 (CEP) 供应商的 10 倍 2。
• 种类更多:分析和强大的建模适用于所
有数据类型
• 速度更快:相比于其他开放式源代码复
杂事件处理 (CEP) 供应商,达到十分
之一到千分之一的延迟 3
9
云中的 Hadoop
1 简介
2 云 和分析:全新的业务发展 引擎
3 在云中通过 BigInsights 增强 Hadoop
5 资源
4 IBM Watson Foundations:完整的云分析功能
云开放
无风险定价
IBM Watson Foundations 还可提供专为
云优化的关键大数据和分析功能
(见图 2)。
• 虚拟化
• 在云中管理应用程序
云就绪技术
云就绪定价
• 自带应用程序许可证
• 现收现付
• 快速启动解决
方案
• 已建立的开发
人员社区
• 通过卓越中心提供专家
服务
IBM Watson
Foundations
• 针对任何云模型就
绪的解决方案 – 包括
私有云、公共云或混合云
云开放
图 2. IBM Watson Foundations 大数据平台提供的云功能.
10
云中的 Hadoop
1 简介
2 云 和分析:全新的业务发展 引擎
3 在云中通过 BigInsights 增强 Hadoop
5 资源
4 IBM Watson Foundations:完整的云分析功能
相互配合的解决方案投资
组合
作为 IBM Watson Foundations 的一部分,
BigInsights 与其他 IBM 大数据解决方案
(例如,InfoSphere Streams)协作来实现非凡的结果。
例 如 , 温 布 尔 敦 网 球 公 开 赛 使 用
InfoSphere Streams 和 BigInsights 以 4.33
亿页面浏览数实现了新的突破,提供总计
达到 155 TB 的数据 – 等同于超过 35 年的
CD 质量音频记录。更详细且更全面的当前
数据和历史数据分析使巡回赛组织者为
1970 万唯一 用户创造了更有趣且更有吸引
力的内容。
IBM 系统从场内传感器和记分员以及场外
社交媒体分析人员和全球球迷收集了大量
实时数据,然后将这些数据与其他结构化
数据源和非结构化数据源集成,以分发至
分析工具、Web 站点、移动应用和现场评
论员。比赛数据的实时分析揭示了优胜模
式;分析也被用于预测需求,支持云基础
架构自动调整资源。
11
云中的 Hadoop
1 简介 2 云和分析:全新的业务发展引擎
3 在云中通过 BigInsights 增强 Hadoop
5 资源 4 IBM Watson Foundations:完整的云分析功能
面向云的 BigInsights 允许组织通过以更
经济实惠的方式分析海量的数据,从而更
快速地响应不断变化的业务环境。它支持
组织以其本机格式分析所有数据,从而向
决策流程添加现实世界的信息。组织可通
过近似线性的处理器可扩展性,将其用于
扩展至数 PB 数据和数千用户,所有这一
切都是在可靠且安全的平台上实现的。
12
云中的 Hadoop
1 简介
3 在云中通过 BigInsights 增强 Hadoop
3 在云中通过 BigInsights 增强 Hadoop
4 IBM Watson Fundations:完整的云分析功能
5 资源
资源
在这个大数据时代中,您需要支持自己以
轻松且经济实惠的方式来解锁企业数据价
值的解决方案。许多分析解决方案由于无
法处理当今大量的大数据、部署耗时太长
或者需要巨额全新的先期投资,因此令用
户感到沮丧或失望。
是时候采用新方法了。通过 BigInsights 在云中进行分析使您可以轻松且经济实惠地利用
Hadoop 和大数据的力量。要了解有关如何利用 BigInsights 和 IBM 云服务产品的更多信
息,请访问以下资源:
IBM BigInsights 概述
BigInsights Quick Start Edition
IBM Watson Foundations
IBM 云计算
13
© Copyright IBM Corporation 2015
IBM Corporation
Softw are Group
Route 100
Somers, NY 10589
美国印刷
2015 年 3 月
IBM、 IBM 徽标、 ibm.com、BigInsights 、 IBM Watson 和
InfoSphere 是 International Business Machines Corp. 在全球许
多管辖区域注册的商标。其他产品和服务名称可能是 IBM 或其
他公司的商标。以下 Web 站点上的“Copyright and trademark
information” 部 分 提 供 了 IBM 商 标 的 最 新 列 表 :ibm.com/legal/copytrade.shtml
截至最初的发布日期,本文档为最新版本,IBM 可随时对其进
行更改。并非在所有 IBM 开展业务的国家或地区中提供所有产
品。
本文档中的信息“按现状”提供,不附有任何种类的(无论是明示
的还是暗含的)保证,不包含任何有关适销、适用于某种特定
用途的保证以及有关非侵权的任何保证或条件。IBM 产品根据
提供这些产品时所依据的协议的条款和条件提供保证。
1 4 倍 是 是 近 似 值 。 测 试 采 用 SWIM 基 准
(https://github.com/SWIMProjectUCB/SWIM) 以及派生自生
产工作负载跟踪的作业。测试是在受控制的实验室条件下开
展的。请参阅“STAC 报告:使用 SWIM 对 IBM InfoSphere
BigInsights Enterprise Edition 与 Apache Hadoop 进行比
较。” www.stacresearch.com/node/15370
2, 3 IBM InfoSphere Streams v3.0 绩效报告。2013 年 2 月
https://www14.software.ibm.com/w ebapp/iw m/web/
signup.do?source=sw-infomgt&S_PKG=500012717&S_CMP=is_ dwwp14_ppo
请回收利用
IMM14153-CNZH-01