Top Banner
版版版版 © 2012 Oracle 版 / 版版版版版版 版版版版版版版 。。 Exadata Storage Server 版版 版版版 Oracle 版版版版版版版版版 版版 64 版 Intel 版 Sun Fire 版版版 版版版版版版版Exadata Storage Server 版版 Oracle Linux x86_64 版版版版版版版版版 Exadata Storage Server
80

Exadata training

Jun 12, 2015

Download

Technology

Louis liu

Exadata-overview
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Exadata training

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Exadata Storage Server 简介

适用于 Oracle 数据库的高性能存储基于 64 位 Intel 的 Sun Fire 服务器预先安装的软件:– Exadata Storage Server 软件– Oracle Linux x86_64

– 驱动程序和实用程序

Exadata StorageServer

Page 2: Exadata training

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Exadata 单元

磁盘

Exadata 单元

磁盘

Exadata单元软件

Linux OS Linux OS

Exadata Storage Server 体系结构:概览Oracle 数据库服务器

Exadata单元软件

Page 3: Exadata training

50% 的

I/O

16% 的

I/O

34% 的

I/O

Exadata Storage Server 功能:概览Oracle 数据库服务器

智能存储操作 I/O 资源管理

高性能存储网络

智能闪存高速缓存

存储整合(对数据库透明)

数据压缩

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 4: Exadata training

处理器 2 个六核 IntelXeonL5640 处理器 (2.26GHz)

内存 24GB(6x4GB)

本地磁盘 12x600GB15KRPM 高性能 SAS

或 12x2TB7.2KRPM 高容量 SAS

闪存 4x96GBSunFlashAcceleratorF20PCIe 卡

磁盘控制器 具有由电池供电的 512MB 高速缓存的磁盘控制器 HBA

网络 两个 InfiniBand4XQDR(40Gb/s) 端口( 1 个双端口 PCIe2.0HCA )四个嵌入式千兆位以太网端口

远程管理 1 个以太网端口 (ILOM)

电源 2 个可热交换的冗余电源

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Exadata Storage Server X2-2 硬件详细信息(Sun Fire X4270 M2)

Page 5: Exadata training

HP磁盘 HC磁盘1

Exadata智能闪存高速缓存384GB 384GB

1

原始磁盘容量7.2TB 24TB

2

未压缩数据容量3.25TB 10.75TB

原始磁盘吞吐量 1.8GB/s 1.0GB/s

闪存吞吐量 5.4GB/s 4.6GB/s

每秒磁盘 I/O数 (IOPS) 3,600 1,800

每秒闪存 I/O数 (IOPS) 100,000 100,000

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Exadata Storage Server X2-2 规格

1 - 通过使用 1 GB = 1000 x 1000 x 1000 字节和 1 TB = 1000 x 1000 x 1000 x 1000 字节计算得出的原始容量。

2 - 用户数据:未压缩的最终用户数据的实际空间,在单个镜像( ASM 正常冗余)后计算得出,同时还提供足够的空间以在磁盘出现故障后重新建立镜像保护。实际用户数据容量因应用程序而异。

Page 6: Exadata training

Database Machine X2-2 全机架

14 台 Exadata Storage8 台基于 Intel 的 2 CPUSun Fire 数据库服务器

键盘、视频、鼠标(Keyboard, Video, Mouse,KVM) 硬件

背部有 2 个配电设备 (PowerDistribution Unit, PDU)

Server (全部为高性能的或全部为高容量的)

1 台 Cisco 以太网交换机( 48 个端口)

3 台 Sun DatacenterInfiniBand Switch 36(管理 36 个端口的 QDR

交换机 - 40 GB/s )备件套件:• 两个硬盘驱动器(高性能或

高容量)• 两个 96 GB 闪存卡• 备用 InfiniBand 电缆

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 7: Exadata training

处理器 2 个六核 IntelXeonX5670 处理器 (2.93GHz)

内存 96GB(12x8GB) ,可扩展到 144GB(18x8GB)

本地磁盘 四个 300GB10KRPMSAS 磁盘

磁盘控制器 具有由电池供电的 512MB 高速缓存的磁盘控制器 HBA

网络 两个 QDR(40Gb/s)InfiniBand 端口( 1 个双端口 PCIe2.0HCA )四个 1GB 以太网端口两个 10GB 以太网 SFP+ 端口( 1 个基于 Intel8259910GbE 控制器技术的双端口 10GbEPCIe2.0

网卡)

远程管理 1 个以太网端口 (ILOM)

电源 2 个可热交换的冗余电源

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

X2-2 数据库服务器硬件详细信息(Sun Fire X4170 M2)

Page 8: Exadata training

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

从小规模起步,逐步扩展

X2-2全机架

X2-2四分之一机架

X2-2半机架

Page 9: Exadata training

2 台基于 Intel 的 8 CPU SunFire 数据库服务器

背部有 2 个配电设备 (PowerDistribution Unit, PDU)

Database Machine X2-8 全机架

14 台 Exadata StorageServer (全部为高性能的或全部为高容量的)

1 台 Cisco 以太网交换机( 48 个端口)

3 台 Sun DatacenterInfiniBand Switch 36(管理 36 个端口的 QDR交换机 - 40 Gb/s )

备件套件:• 两个硬盘驱动器(高性能或

高容量)• 两个 96 GB 闪存卡• 备用 InfiniBand 电缆

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 10: Exadata training

处理器 8x 八核 IntelXeonX7560 处理器 (2.26GHz)

内存 1TB(64x16GB)

本地磁盘 八个 300GB10KRPMSAS 磁盘

磁盘控制器 具有由电池供电的 512MB 高速缓存的磁盘控制器 HBA

网络 八个 InfiniBand4XQDR(40Gb/s) 端口(四个双端口 PCE2.0express 模块)两个 NetworkExpressModule(NEM) ,总共可提供八个 1GbE 以太网端口和八个 10GbE 以太网 SFP+ 端口(使用 Intel8259910GbE 控制器技术的四个 FabricExpressModule(FEM) )

远程管理 一个以太网端口 (ILOM)

电源 四个可热交换的冗余电源

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

X2-8 数据库服务器硬件详细信息(Sun Fire X4800)

Page 11: Exadata training

X2-2

四分之一机架

X2-2

半机架X2-2

全机架X2-8

全机架

高性能1

原始磁盘容量高容量

21TB 50TB 100TB 100TB

72TB 168TB 336TB 336TB

1

闪存容量1.1TB 2.6TB 5.3TB 5.3TB

高性能2

用户数据容量高容量

9.5TB 22.5TB 45TB 45TB

31.5TB 75TB 150TB 150TB

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Database Machine 容量

1 - 通过使用 1 GB = 1000 x 1000 x 1000 字节和 1 TB = 1000 x 1000 x 1000 x 1000 字节计算得出的原始容量。

2 - 用户数据:未压缩的最终用户数据的实际空间,在单个镜像( ASM 正常冗余)后计算得出,同时还提供足够的空间以在磁盘出现故障后重新建立镜像保护。实际用户数据容量因应用程序而异。

Page 12: Exadata training

X2-2

四分之一机架

X2-2

半机架X2-2

全机架X2-8

全机架

3

磁盘吞吐量 高性能 5.4GB/s 12.5GB/s 25GB/s 25GB/s

高容量 3GB/s 7GB/s 14GB/s 14GB/s

3

闪存吞吐量 高性能高容量

16GB/s 37.5GB/s 75GB/s 75GB/s

13.5GB/s 32GB/s 64GB/s 64GB/s

4

磁盘 IOPS高性能 10,800 25,000 50,000 50,000

高容量 5,400 12,500 25,000 25,000

4

闪存 IOPS370,000 750,000 1,500,000 1,500,000

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Database Machine 性能

3 - 吞吐量为峰值物理扫描吞吐量,假定没有压缩。4 - 每秒 IO 数 (IO per second, IOPS) - 基于 8K 大小的 IO 请求。

Page 13: Exadata training

四分之一机架

半机架 全机架

ExadataStorageServer 4 9 18

InfiniBand交换机 2 3 3

原始磁盘容量 96TB 216TB 432TB

闪存容量 1.5TB 3.4TB 6.75TB

用户数据容量 42.5TB 97TB 194TB

磁盘吞吐量 4GB/s 9GB/s 18GB/s

闪存吞吐量 18GB/s 41GB/s 82GB/s

磁盘 IOPS 7,200 16,000 32,000

闪存 IOPS 425,000 950,000 1,900,000

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Exadata 存储扩展机架

Page 14: Exadata training

InfiniBand 网络InfiniBand:

是 Database Machine 互连结构:– 提供可用的最高性能 - 每个方向 40 Gb/s– 自 2002 年以来广泛用于高性能计算

用于存储联网、 RAC 互连和高性能外部连接:– 更少的配置、更低的成本、更高的性能

看起来像连接主机软件的普通以太网:– 所有基于 IP 的工具都以透明方式运行 - TCP/IP 、 UDP 、 SSH

等等使用高性能 SDP InfiniBand 协议 :

– 零复制、零丢失数据报协议– Oracle 开发的开源软件– CPU 开销非常低

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 15: Exadata training

InfiniBand 网络体系结构•

Sun Datacenter 36 端口托管 QDR (40 Gb/s) 交换机– 两台用于连接服务器 InfiniBand 端口的叶交换机。– 一台中心交换机(仅限于全机架和半机架配置中)。

Exadata Storage Server 和 X2-2 数据库服务器– 每台服务器都有一个双端口 QDR (40 Gb/s) InfiniBand HCA 。– 每个 HCA 端口都连接到一台不同的叶交换机以实现高可用性。

X2-8 数据库服务器– 每台服务器都有四个双端口 QDR (40 Gb/s) InfiniBand HCA 。– 在每个接合对中,每个 HCA 端口都连接到一台不同的叶交换

机以实现高可用性。

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 16: Exadata training

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Database Machine 网络体系结构

Page 17: Exadata training

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

X2-2 全机架叶交换机拓扑

Page 18: Exadata training

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

中心和叶拓扑

Page 19: Exadata training

扩展性能和容量

可伸缩••

通过添加电缆可扩展到八个机架。通过添加 2 台 InfiniBand 交换机可从 9 个机架扩展到 36 个机架。扩展到数百台存储服务器可支持多拍字节数据库。

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

冗余和容错•

任一组件发生故障都是可以承受的。数据在存储服务器之间进行了镜像。

Page 20: Exadata training

扩展到八个机架

基于胖树拓扑的单个 InfiniBand 网络– 现有交换机最多支持 8 个机架– 数据库和存储服务器电缆连接不变

两机架示例:

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 21: Exadata training

扩展到八个以上的机架

基于胖树拓扑的单个 InfiniBand 网络– 通过添加两个外部中心交换机可扩展到 36 个机架– 胖树拓扑中将增加一个层次示例:

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 22: Exadata training

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

安装和配置之后的结果

DB 服务器 1

DB 实例: dbm1

ASM 实例: +ASM1

群集: eidm

eidmdb01-priv192.168.10.1

DB 服务器 2

DB 实例: dbm2

ASM 实例: +ASM2

群集: eidm

eidmdb02-priv192.168.10.2

eidmcel01-priv192.168.10.3

DBFS_DG

DATA_EIDM

RECO_EIDM

Exadata 服务器 1

eidmcel02-priv192.168.10.4

DBFS_DG

DATA_EIDM

RECO_EIDM

Exadata 服务器 2

eidmcel03-priv192.168.10.5

DBFS_DG

DATA_EIDM

RECO_EIDM

Exadata 服务器 3

InfiniBand 存储网络

eidm01 172.16.1.101

eidm01-vip 172.16.1.103

eidm02 172.16.1.102

eidm02-vip 172.16.1.104

eidmdb0110.7.7.101

eidmdb0210.7.7.102

eidmdb01-ilom10.7.7.106

eidmdb02-ilom10.7.7.107

eidmcel0110.7.7.103

eidmcel01-ilom10.7.7.108

eidmcel0210.7.7.104

eidmcel02-ilom10.7.7.109

eidmcel0310.7.7.105

eidmcel03-ilom10.7.7.110

eidm-scan 172.16.1.105172.16.1.106172.16.1.107

Page 23: Exadata training

InfiniBand 网络外部连接

•每台叶交换机为外部连接预留了六个端口。外部连接端口可用于:– 连接到用于磁带备份的介质服务器– 连接到外部 ETL 服务器– 客户机或应用程序访问

— 包括 Oracle Exalogic Elastic Cloud

Page 24: Exadata training

OracleLinux

CELLSRV

IORM

MS

RS

OracleLinux

CELLSRV

IORM

MS

RS

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Database Machine 软件体系结构:概览

ASM

LIBCELL

数据库服务器数据库实例

DBRM

单实例数据库 RAC 数据库

EnterpriseManager

ASM

LIBCELL

InfiniBand 存储网络

ASM

LIBCELL

单元控制 CLI(cellcli/dcli)

SSH

Exadata 单元 Exadata 单元 Exadata 单元

数据库服务器

数据库实例DBRM

数据库服务器

数据库实例DBRM

CELLSRV

IORM

MS

RS

转移的 iDB 协议

Oracle Linux

单个ASM 群集

基于 InfiniBand且配有路径故障

Page 25: Exadata training

Database Machine 软件体系结构详细信息

Exadata 单元 数据库服务器

diskmon

dskm

RDBMS 实例SGA

ASM

I/O dskm进程

LIBCELL

iDB 协议 iDB 协议

cellinit.ora

/etc/oracle/cell/network-config

cellip.ora

列出本地接口 IP

列出可访问的Exadata 单元

InfiniBand 网络

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

bond0

cellsrv

RSCELLSRV

ADR

adrci

cellinit.ora

MS 内部字典与CELLSRV 内部参数

和本地接口 IP

config.xml

数据

/opt/oracle/cell/cellsrv/deploy/

config

cell_disk_

智能闪存高速缓存

CellCLIMS

ASM 实例SGA

ASM

I/O进程

LIBCELL

css

Page 26: Exadata training

闪存存储实体和关系

Exadata 单元

闪存 LUN 或

LUN 单元磁盘 ASM 磁盘网格磁盘

闪存高速缓存或

闪存

单元磁盘

CellCLI> CREATE FLASHCACHE ...CellCLI> CREATE GRIDDISK ... FLASHDISK ...

闪存高速缓存

闪存高速缓存

网格磁盘对 ASM

可见

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 27: Exadata training

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Exadata 单元 (CELL1) Exadata 单元 (CELL2)

磁盘组配置

SQL> CREATE DISKGROUP

DATA_1磁盘组

FRA_1磁盘组

CELL1 故障组

CELL1 故障组

CELL2 故障组

CELL2 故障组

Page 28: Exadata training

Traditional Scan Processing• With traditional storage, all

database intelligence resides in the database hosts

• Very large percentage of data returned from storage is discarded by database servers

• Discarded data consumes valuable resources, and impacts the performance of other workloads

I/Os Executed:1 terabyte of data returned to hosts

DB Host reduces terabyte of data to 1000 customer names that are returned to client

Rows Returned

SELECT customer_name FROM calls WHERE amount > 200;

Table Extents Identified

I/Os Issued

Page 29: Exadata training

Exadata Smart Scan Processing• Only the relevant columns

– customer_nameand required rows – where amount>200are are returned to hosts

• CPU consumed by predicate evaluation is offloaded

• Moving scan processing off the database host frees host CPU cycles and eliminates massive amounts of unproductive messaging– Returns the needle, not the

entire hay stack

2MB of data returned to server

Rows Returned

Smart Scan Constructed And Sent To Cells

Smart Scan identifies rows and columns within terabyte table that match request

Consolidated Result Set Built From All Cells

SELECT customer_name FROM calls WHERE amount > 200;

Page 30: Exadata training

Exadata 智能存储功能

联接处理:– 在 Exadata Storage Server 内执行星形联接处理

扫描加密数据扫描压缩数据对数据挖掘评分

– 例如:

SELECT cust_idFROM customersWHERE region = 'US'AND prediction_probability(churnmod,'Y' using *) > 0.8;

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 31: Exadata training

Exadata 智能扫描横向扩展:示例

数据库服务器 dbs1

edsc14edsc13

InfiniBand 存储网络最高 40 Gb/s

Exadata单元

磁盘( 12 个 /单元)

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

每个单元可提供 1.8 GB/s 。

总共 14 个单元可提供14 x 1.8 = 25.2 GB/s

edsc1 edsc2

Page 32: Exadata training

Exadata 智能扫描横向扩展:示例

select /*+ full(lineitem) */ count(*)from lineitem

where l_orderkey < 0;不使用智能扫描数据库要求执行完整表扫描以检索

所有块,然后过滤匹配的行。

如果表均匀地分布在所有磁盘中,每个单元向数据库实例发送的数据不能超过

40/14 = 2.85 Gb/s = 0.357 GB/s 。

0.357 GB/s

磁盘受到网络带宽限制!

磁盘( 12 个 /单元)

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

edsc1 edsc2 edsc14edsc13

dbs1数据库服务器

如果表的大小为 4800 GB ,完整扫描将耗时大约 16 分钟。

Exadata单元

Page 33: Exadata training

Exadata 智能扫描横向扩展:示例

每个单元都能够以1.8 GB/s 的速度

进行扫描并将其匹配的行发送至数据库示例。这表示扫描的总速度为

25.2 GB/s!

1.8 GB/s

如果表均匀地分布在所有磁盘中,每个单元向数据库实例发送的数据不能超过

40/14 = 2.85 Gb/s = 0.357 GB/s 。如果表的大小为 4800 GB ,

扫描整个表将在大约 3 分 10 秒内完成!

Exadata单元edsc1 edsc2

磁盘( 12 个 /单元)

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

edsc14edsc13

select /*+ full(lineitem) */ count(*)from lineitem

where l_orderkey < 0;

数据库要求 Exadata 单元

数据库

dbs1服务器

返回所有匹配行。

使用智能扫描

Page 34: Exadata training

Exadata 混合列式压缩:概览

仓库压缩针对速度进行优化

• 10 倍的平均存储节省• 10 倍的扫描 I/O 缩减• 针对查询性能进行优化

降低仓库大小更出色的性能

可以按分区混合压缩类型以进行信息生命周期管理

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

归档压缩针对空间进行优化

• 15 倍的平均存储节省– 对于某些数据高达 50 倍

• 较大的访问开销• 适用于冷数据或历史数据

回收磁盘保持数据联机

Page 35: Exadata training

压缩单元是跨多个数据库块的逻辑结构。压缩单元内的每一行都是独立的。在加载数据时按列组织数据。每一列都分别进行压缩。支持智能扫描。

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Exadata 混合列式压缩数据结构

压缩单元块头

CU 头C1

C2

块头C2

C3C4

C5

块头C5

C6

块头C8C7

Page 36: Exadata training

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Exadata 智能闪存高速缓存:概览

用于经常访问的对象的高性能缓存非常适用于缓存重复的随机读取允许按应用程序表优化

每秒数百个 I/O 每秒数万个 I/O

Page 37: Exadata training

Exadata 智能闪存高速缓存智能缓存

Exadata 智能闪存高速缓存了解各种类型的数据库 I/O :•

缓存经常访问的数据和索引块。缓存控制文件读取和写入。缓存文件头读取和写入。DBA 可以设定缓存优先级。

不缓存镜像副本的 I/O 。不缓存备份相关 I/O 。不缓存数据泵 I/O 。不缓存数据文件格式设置。表扫描不独占缓存。

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 38: Exadata training

确认

cells

rv

读取

请求

cells

rv

读取

请求

cells

rv

使用 Exadata 智能闪存高速缓存

DB DB DB

3 1

2 4

3

1

2

3

1

2

写入操作 读取操作基于之前缓存的数据

读取操作基于未缓存的数据

4

Exadata 智能闪存高速缓存

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 39: Exadata training

Exadata 智能闪存日志:概览

• Exadata 智能闪存日志为重做日志写入提供高性能、低延迟的可靠临时存储:–

日志写入将被定向到磁盘和 Exadata 智能闪存日志。将以最快速度进行确认并继续进行处理。其概念类似于多路复用重做日志。Exadata Storage Server 自动管理智能闪存日志并确保所有日志条目都保存到磁盘。

重做日志记录

最快速确认后继续处理

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 40: Exadata training

表 T1

A B C D

… 1 … …

… 3 … …

… 5 … …

表 T1

A B C D

… 5 … …

… 8 … …

… 3 … …

表 T2

E F G

a … 4

d … 7

j … 9

… 1MB

1ASM 磁盘

Exadata 存储索引:概览

最小 B = 3最大 B = 8

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

最小 B = 1最大 B = 5

内存中的存储索引

区域索引

B:1/5 B:3/8 ……E:a/j

G:4/9

1 ASM AU

存储区域

DBA

只有第一个块可以匹配

SELECT * FROM T1 WHERE B<2;

Page 41: Exadata training

订单号 ORDER_DATE(分区键)

SHIP_DATE 物品

1 2007 2007

2 2008 2008

3 2009 2009

使用分区的存储索引:示例

对 SHIP_DATE 的查询不会从 ORDER_DATE 分区中获益:– 但是, SHIP_DATE 与 ORDER_DATE 高度相关

存储索引可增强对 SHIP_DATE 的查询的性能:– 利用分区创建的排序

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 42: Exadata training

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

数据库文件系统

数据库文件系统 (Database File System, DBFS) 使得数据库可以用作文件系统。文件作为 SecureFile LOB 存储在数据库表内:– 与任何 Oracle 数据一样受保护 - ASM 镜像、 Data Guard 、

闪回等– 为 ETL 暂存、脚本、报告以及其他应用程序文件共享存储– 在全机架 Database Machine 上具备 5 到 7 GB/s 的文件系统

I/O 吞吐量能力将文件复制到 DBFS

转换并加载到数据库表中

Page 43: Exadata training

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

I/O 资源管理:概览

Exadata Storage Server

传统存储服务器

您无法影响 I/O调度程序

FIFO 磁盘队列H L H L L L

高优先级工作负荷

请求

低优先级工作负荷

请求

RDBMSI/O 请求

I/O 请求

基于优先级模式的 I/O 调度程序

H H

L L L L

RDBMS L H H H

Page 44: Exadata training

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

优势倍增

多 TB 的用户数据通常需要多 TB 的 I/O

存储索引跳过无价值的 I/O

使用 Exadata 混合列式压缩可减少 I/O

智能扫描意味着仅将结果返回到数据库

使用分区删减可进一步减少 I/O

在 DatabaseMachine 上

可以实时获取结果

Page 45: Exadata training

Exadata Storage Server 管理:概览

每台 Exadata Storage Server 是单独管理的。可使用 CellCLI 执行大多数管理:– CellCLI 只能在要管理的单元上执行。– CellCLI 与 MS 配合使用来执行管理任务。– CellCLI 会话示例:

[celladmin@cell01 ~]$ cellcliCellCLI: Release 11.2.1.2.0 - Production ...

CellCLI> list cellcell01 online

CellCLI> exitquitting

[celladmin@cell01 ~]$

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 46: Exadata training

Exadata Storage Server 管理用户帐户

为每台 Exadata Storage Server 配置了三个操作系统用户:•

root 用户可以:– 编辑配置文件(如 cellinit.ora 和 cellip.ora )– 更改网络配置设置– 运行位于 /opt/oracle.SupportTools 目录下的支持和诊断实用程序

– 运行 CellCLI CALIBRATE 命令– 执行 celladmin 用户可以执行的所有任务celladmin 用户可以:– 使用 CellCLI 实用程序执行管理任务( CREATE 、 DROP 、

ALTER ,等等)– 使用 adrci 实用程序为 Oracle 支持对事件进行打包cellmonitor 用户使用 CellCLI 实用程序只能查看 (LIST)Exadata 单元对象。

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 47: Exadata training

使用 CALIBRATE 测试 Storage Server 性能

磁盘带宽

指标 = IOPS

需要高 RPM 和快速查找时间

OLTP(小型随机 I/O )

通道带宽

指标 = MBPS

需要大型I/O 通道

DW/OLAP(大型顺序 I/O )

CALIBRATE

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 48: Exadata training

CALIBRATE :示例

[root@cell01 ~]# cellcliCellCLI: Release 11.2.1.2.0 - Production on Mon Nov 02 16:42:06 PST 2009

Copyright (c) 2007, 2009, Oracle. All rights reserved.

Cell Efficiency ratio: 1.0

CellCLI> CALIBRATE FORCECalibration will take a few minutes...Aggregate random read throughput across all hard disk luns: 1601 MBPSAggregate random read throughput across all flash disk luns: 4194.49 MBPSAggregate random read IOs per second (IOPS) across all hard disk luns: 4838Aggregate random read IOs per second (IOPS) across all flash disk luns: 137588Controller read throughput: 1615.85 MBPSCalibrating hard disks (read only) ...Lun 0_0 on drive [20:0 ] random read throughput: 152.81 MBPS, and 417 IOPSLun 0_1 on drive [20:1 ] random read throughput: 154.72 MBPS, and 406 IOPS...Lun 0_10 on drive [20:10 ] random read throughput: 156.84 MBPS, and 421 IOPSLun 0_11 on drive [20:11 ] random read throughput: 151.58 MBPS, and 424 IOPSCalibrating flash disks (read only, note that writes will be significantly slower).Lun 1_0 on drive [[10:0:0:0]] random read throughput: 269.06 MBPS, and 19680 IOPSLun 1_1 on drive [[10:0:1:0]] random read throughput: 269.18 MBPS, and 19667 IOPS...Lun 5_2 on drive [[11:0:2:0]] random read throughput: 269.15 MBPS, and 19603 IOPSLun 5_3 on drive [[11:0:3:0]] random read throughput: 268.91 MBPS, and 19637 IOPSCALIBRATE results are within an acceptable range.

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 49: Exadata training

配置 Exadata Cell Server 软件

[celladmin@cell01 ~]$ cellcliCellCLI: Release 11.2.1.2.0 - Production on Mon Nov 02 17:46:13 PST 2009

All rights reserved.Copyright (c) 2007, 2009, Oracle.Cell Efficiency ratio: 1.0

-----

CellCLI> ALTER CELL smtpServer='my_mail.example.com',smtpFromAddr='[email protected]',smtpPwd=<email_address_password>smtpToAddr='[email protected]',notificationPolicy='critical,warning,clear',notificationMethod='mail'

Cell cell01 successfully altered

CellCLI>

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 50: Exadata training

启动和停止 Exadata Cell Server 软件

[celladmin@cell01 ~]$ cellcliCellCLI: Release 11.2.2.1.0 - Production on Wed Jul 20 17:54:21 EDT 2011

Copyright (c) 2007, 2009, Oracle. All rights reserved.

Cell Efficiency Ratio: 19M

CellCLI> ALTER CELL RESTART SERVICES ALL

Stopping the RS, CELLSRV, and MS services...The SHUTDOWN of services was successful.Starting the RS, CELLSRV, and MS services...Getting the state of RS services...running

Starting CELLSRV services...The STARTUP of CELLSRV services was successful.Starting MS services...The STARTUP of MS services was successful.

CellCLI>

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 51: Exadata training

配置单元磁盘

CellCLI>CellDisk...CellDiskCellDisk

CREATE CELLDISK ALL HARDDISKCD_00_cell01 successfully created

CD_10_cell01 successfully createdCD_11_cell01 successfully created

CellCLI> LIST CELLDISK

CD_00_cell01...CD_10_cell01CD_11_cell01FD_00_cell01...FD_14_cell01FD_15_cell01

normal

normalnormalnormal

normalnormal

CellCLI>

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 52: Exadata training

配置网格磁盘

CellCLI> CREATE GRIDDISK ALL PREFIX=data, SIZE=300GGridDisk data_CD_00_cell01 successfully created...GridDisk data_CD_11_cell01 successfully created

CellCLI> CREATE GRIDDISK ALL PREFIX=fraGridDisk fra_CD_00_cell01 successfully created...GridDisk fra_CD_11_cell01 successfully created

CellCLI> LIST GRIDDISKdata_CD_00_cell01 active...data_CD_11_cell01 activefra_CD_00_cell01...fra_CD_11_cell01

active

activeCellCLI> exit[celladmin@cell01 ~]$

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

使用最快的磁盘部分

单元磁盘

网格磁盘

之前 之后

Page 53: Exadata training

网格

磁盘

1 从

磁盘

的较

高性

能外侧

磁轨受益

。网

格磁

盘 3 和

网格

磁盘

4 的性

能更均匀平衡

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

交错的网格磁盘

50% 50%

快速磁轨 最慢的磁轨网格磁盘 4

最快的磁轨 较慢的磁轨

较慢的磁轨 最慢的磁轨网格磁盘 2

最快的磁轨 快速磁轨

50% 50%

默认网格磁盘分配

网格磁盘 1

交错的网格磁盘

网格磁盘 3

Page 54: Exadata training

创建基于闪存的网格磁盘

CellCLI> DROP FLASHCACHEFlash cache cell01_FLASHCACHE successfully dropped

CellCLI> CREATE FLASHCACHE ALL SIZE=100GFlash cache cell01_FLASHCACHE successfully created

CellCLI>GridDisk

CREATE GRIDDISK ALL FLASHDISK PREFIX=flashflash_FD_00_cell01 successfully createdflash_FD_01_cell01 successfully createdGridDisk

...GridDisk

flash_FD_00_cell01...flash_FD_15_cell01

active

activeCellCLI> exit[celladmin@cell01 ~]$

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

闪存flash_FD_15_cell01 successfully created 高速缓存

网格磁盘

CellCLI> LIST GRIDDISK...

之前闪存

之后高速缓存

Page 55: Exadata training

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

CellCLI> DROP FLASHCACHEFlash cache cell01_FLASHCACHE successfully dropped

CellCLI> CREATE FLASHLOG ALLFlash log cell01_FLASHLOG successfully created

CellCLI> CREATE FLASHCACHE ALLFlash cache cell01_FLASHCACHE successfully created

CellCLI> exit[celladmin@cell01 ~]$

创建智能闪存日志

Page 56: Exadata training

配置主机访问 Exadata 单元

• 通过每台数据库服务器上的配置文件,可实现对 Exadata存储的访问。– cellinit.ora 标识数据库服务器上的存储网络接口。– cellip.ora 标识可供数据库服务器访问的 Exadata 单元。– 示例:

$ cat /etc/oracle/cell/network-config/cellinit.oraipaddress1=192.168.50.23/24

$ cat /etc/oracle/cell/network-config/cellip.oracell="192.168.51.27"cell="192.168.51.28"cell="192.168.51.29"

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 57: Exadata training

配置 ASM 和数据库实例以访问 Exadata 单元

确保使用的是兼容版本的 Oracle 数据库软件:– 有关适用于 Database Machine 软件组件的受支持版本的最新列表,请参见 My Oracle Support 公告 888828.1

设置 ASM_DISKSTRING ASM 初始化参数:– ASM_DISKSTRING='o/*/*'

设置 COMPATIBLE 数据库初始化参数:– COMPATIBLE='11.2.0.0.0'

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 58: Exadata training

使用 Exadata 存储配置 ASM 磁盘组

磁盘组 DATA故障组 cell01

o/<cell01 IP address>/data_cd_00_cell01o/<cell01 IP address>/data_cd_01_cell01

...

o/<cell01 IP address>/data_cd_11_cell01

o/<cell01 IP address>/fra_cd_00_cell01o/<cell01 IP address>/fra_cd_01_cell01

...o/<cell01 IP address>/fra_cd_11_cell01

故障组 cell02o/<cell02 IP address>/data_cd_00_cell02o/<cell02 IP address>/data_cd_01_cell02

...

o/<cell02 IP address>/data_cd_11_cell02

o/<cell02 IP address>/fra_cd_00_cell02o/<cell02 IP address>/fra_cd_01_cell02

...o/<cell02 IP address>/fra_cd_11_cell02

cell01 和 cell02 上的所有候选磁盘

CREATE DISKGROUP data NORMAL REDUNDANCYDISK 'o/*/data*'ATTRIBUTE 'compatible.rdbms' = '11.2.0.0.0',

'compatible.asm' = '11.2.0.0.0','cell.smart_scan_capable' = 'TRUE','au_size' = '4M';

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 59: Exadata training

闪存使用情况– 每个 Exadata Storage Server 均包含 384 GB 的高性能闪

存。可能的用途:• Exadata 智能闪存高速缓存:

– 加速访问频繁访问的数据– 默认使用大多数可用的闪存– 可自动进行管理以实现最大效率

» 用户可以提供可选提示来影响高速缓存优先级– 有益于OLTP 和数据仓库工作负荷

• 基于闪存的永久存储:– 使用闪存作为高级存储设备– 必须由管理员进行配置– 需要深思熟虑的计划以有效使用– 为特定应用程序提供附加优势

• Exadata 智能闪存日志:– 用于重做日志记录的小型 (512 MB) 高性能临时存储– 由 Exadata Storage Server 软件自动进行管理

Page 60: Exadata training

压缩使用情况

Page 61: Exadata training

索引使用情况

– 需要先前系统上的索引的查询使用Exadata Database– Machine 和智能扫描可能会效率更好。– 如果智能扫描提供了可接受的性能,可考虑删除索引。– 删除不必要的索引:

• 提高DML 性能• 节省存储空间

– 通过使索引不可见来测试删除索引的影响:

Page 62: Exadata training

ASM 分配单元大小– 默认情况下,ASM 使用的分配单元 (allocation unit, AU)大小为1 MB

– 对于Exadata 存储,建议的AU 大小为4 MB• 创建磁盘组时必须设置AU 大小• 创建磁盘组后无法再更改AU 大小• AU 大小是使用AU_SIZE 磁盘组属性设置的• 示例:

Page 63: Exadata training

操作系统参数建议– 将共享内存段数 (SHMMNI) 设置为大于数据库的数量。– 将最大共享内存段大小 (SHMMAX) 设置为物理内存大小的

85%。– 将系统信号的最大总数 (SEMMNS) 设置为大于所有数据库进程的总和。

– 将信号集内信号的最大数量 (SEMMSL) 设置为大于任何一个数据库中的最大进程数。

– 对于 Linux,如果 /proc/meminfo 中的PageTables大于物理内存大小的2%,请考虑将HugePages 设置为等于所有共享内存段的总和。• 请参见My Oracle Support 说明401749.1 和361468.1。

Page 64: Exadata training

数据库内存建议

– 对于OLTP:• 每台服务器上所有数据库的总和

(PGA_AGGREGATE_TARGET + SGA_TARGET) 应小于服务器物理内存大小的75%。

– 对于数据仓库:• 每台服务器上所有数据库的总和

((3 x PGA_AGGREGATE_TARGET) + SGA_TARGET) 应小于服务器物理内存大小的75%。

Page 65: Exadata training

CPU 管理建议

– 使用实例锁定防止单个数据库使用过多的CPU。– 建议的CPU_COUNT 参数设置:

• 对于关键 pod:总和 (CPU_COUNT) < CPU 内核总数的 75%• 其他:

– 对于占用大量CPU 的数据库:总和 (CPU_COUNT) <= CPU 内核的总数

– 对于使用少量CPU 的数据库:总和 (CPU_COUNT) <= CPU 内核总数的 3 倍

– 使用数据库资源管理器控制每个数据库中的CPU 分配。• 使用MAX_UTILIZATION_LIMIT 指令属性来限制使用者组的 CPU 利用率

Page 66: Exadata training

其他建议– 配置 I/O 资源管理– DB_RECOVERY_FILE_DEST_SIZE 设置:

• 总和 (DB_RECOVERY_FILE_DEST_SIZE) < 可用 FRA 大小– 进程管理:

• PARALLEL_THREADS_PER_CPU = 1• X2-2:总和 (PARALLEL_MAX_SERVERS) <= 240• X2-8:总和 (PARALLEL_MAX_SERVERS) <= 1280

– 进程和连接准则:• 活动进程 <= 4 x CPU_COUNT• 使用连接池管理应用程序连接• 使用连接速率限制器防止连接风暴

Page 67: Exadata training

结合使用 RMAN 与 Database Machine

20-4

在 Database Machine 上使用 RMAN 与在其他地方使用RMAN 基本相同。

– 相同的概念。– 相同的命令。改进了增量备份性能:

– 块过滤负载转移到了 Exadata Storage Server 。– 只有很少的块需要由 RMAN 进行处理。– 负载转移处理是自动且透明的。

Exadata 混合列式压缩功能可帮助进一步提高备份性能:– 降低了数据大小,因而备份更小且速度更快。

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 68: Exadata training

针对 RMAN 的一般建议

使用 RMAN 备份和恢复 Database Machine 上的数据库:•

20-5

使用 RMAN 增量备份和块更改跟踪。使用外部 RMAN 恢复目录系统信息库。将 DB_RECOVERY_FILE_DEST_SIZE 设置为快速恢复区中使用的限制空间。

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 69: Exadata training

基于磁盘的备份策略

对于基于磁盘的数据库备份, Oracle 建议:•

20-6

使用快速恢复区执行 0 级(完整)初始备份执行定期 1 级增量备份

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 70: Exadata training

基于磁带的备份策略

对于基于磁带的数据库备份, Oracle 建议:•

20-9

使用集成有 RMAN 的介质管理软件,例如 Oracle SecureBackup

执行定期 0 级(完整)数据库备份更频繁地执行 1 级累积备份,并备份 Oracle SecureBackup 目录

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 71: Exadata training

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。20-10

基于磁带的备份体系结构

Database Machine Sun StorageTekSL500

Oracle Secure Backup管理服务器

(Sun Fire X4170)

Oracle Secure Backup介质服务器

(Sun Fire X4275)

光纤通道 SANInfiniband网络

Page 72: Exadata training

基于磁带的备份建议

• 介质服务器到 Database Machine 之间的网络的配置建议:– 使用 InfiniBand 获得最佳备份速率:

配置介质服务器 InfiniBand 接口的接合。更新介质服务器上的 OpenFabrics Enterprise Distribution 。配置 IP over InfiniBand 连接模式以获得最佳性能。对于 InfiniBand 接口,将消息传输单元 (message transfer unit,MTU) 大小设置为 65520 。配置介质管理软件以使用 InfiniBand 网络。

20-11

介质服务器 SAN 配置建议:– 为磁带设备配置持久绑定。

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 73: Exadata training

20-13

使用以太网连接介质服务器

如果吞吐量足够,可以使用以太网:– GigE :预期每个接口最高 120 MB/ 秒– 10GigE :预期每个接口最高 1 GB/ 秒

建议:– 使用专用备份网络:

— 在每台 Database Machine 数据库服务器上配置专用网络接口– 使用接合的网络接口:

— 配置 LACP 以获得最大吞吐量:—

断开一个链路后仍保持可用性介质服务器、网络交换机和数据库服务器上所需的配置

— 或者使用主动 -被动接合以获得高可用性:—

配置数据库服务器和介质服务器不需要执行特定的交换机配置

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 74: Exadata training

• 在所有可用数据库实例之间运行 RMAN :– 创建一个在群集中运行的数据库服务:

$ srvctl add service –d <dbname> -s <service name>-r <instance1>, ... ,<instancen>

– 使用服务名称和 SCAN 地址来连接 RMAN :$ rman target sys/<passwd>@<scan_address>/<service_name>catalog …

20-14

为每个磁带机分配一个 RMAN 通道。配置 IORM 和 DBRM 以控制在备份和应用程序工作负荷之间的资源分配。

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

基于磁带的备份建议

Page 75: Exadata training

混合备份策略

• 混合备份策略组合了基于磁盘和基于磁带的备份方法:– 0 级(完整)数据库备份存储在磁带上:

— 相对便宜的备份介质,可以存储在场外– 1 级增量备份存储在 FRA 中的磁盘上:

— 可以轻松进行高性能访问

20-15

请同时遵循针对这两种方法的建议。

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 76: Exadata training

还原和恢复建议

20-16

还原到现有数据文件(如果可能):– 还原性能更好。– 使用所有数据库实例进行还原。如果不存在任何现有数据文件,请使用最多两个数据库实例进行还原。建议的 RMAN 通道数:

– 对于基于磁盘的还原,请为每个数据库实例使用两个到四个RMAN 通道。

– 对于基于磁带的还原,请根据磁带机的总数设置 RMAN 通道数。

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 77: Exadata training

20-17

备份和恢复 Database Machine 软件

• 数据库服务器软件– 执行文件系统级备份和恢复:

使用您选择的文件系统备份管理软件,也可以使用 OracleSecure Backup 。Oracle 群集注册表的副本是在数据库服务器文件系统上自动维护的,并且应包含在数据库服务器文件系统备份中。

• Exadata Storage Server 软件– 建议不要执行文件系统级备份:

— 系统区域已镜像:— 如果一个系统磁盘发生故障,请使用 CellCLI 命令进行恢复。

— 如果两个系统磁盘同时发生故障,请使用 Exadata 软件援救过程:—该援救过程使用内置的 USB 闪存驱动器。

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 78: Exadata training

关闭和打开 Database Machine 电源•

— 确保所有数据库服务器都已关闭,然后再继续。

— 确保所有存储服务器都已关闭,然后再继续。3. 机架,包括网络交换机

• 打开电源顺序:1. 机架,包括网络交换机

— 通电几分钟后再继续。2. Exadata Storage Server :

— 检查所有单元是否都在运行,然后再继续。3. 数据库服务器

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

电源关闭顺序:1. 数据库服务器:

# <Grid_Home>/bin/crsctl stop cluster

# shutdown -h -y now

2. Exadata Storage Server :# shutdown -h -y now

Page 79: Exadata training

安全地关闭单个 Exadata Storage Server

•— 单元服务会自动启动。

安全关闭顺序:– 检查以确保关闭存储服务器将不会使任何 ASM 磁盘组脱机:

CellCLI > LIST GRIDDISK WHERE asmdeactivationoutcome != ’Yes’

– 使所有网格磁盘都处于非活动状态:CellCLI> ALTER GRIDDISK ALL INACTIVE

– 检验所有网格磁盘是否都处于非活动状态:CellCLI> LIST GRIDDISK WHERE STATUS != 'inactive'

– 关闭存储服务器。启动顺序:

– 启动存储服务器:

– 使所有网格磁盘都处于活动状态:CellCLI> ALTER GRIDDISK ALL ACTIVE

– 检验所有网格磁盘是否都处于活动状态:CellCLI> LIST GRIDDISK ATTRIBUTES name, asmmodestatus

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

Page 80: Exadata training

更换损坏的闪存卡

CellCLI> LIST PHYSICALDISK DETAILname: [9:0:2:0]diskType: FlashDisk...slotNumber: "PCI Slot: 1; FDOM: 2"status: critical

确定损坏的闪存卡。1

如果该卡包含基于闪存的网格磁盘,则监视 ASM 以确认重新添加了磁盘。

SQL> SELECT NAME, STATE FROM V$ASM_DISK

SQL> SELECT * FROM GV$ASM_OPERATION

版权所有 © 2012 , Oracle 和 / 或其附属公司。保留所有权利。

5

关闭单元的电源。2 更换闪存卡。3 打开单元的电源。4