内容安全技术

内容安全技术主讲人：刘凯

S310060029

内容提要：

“ 内容”与“信息”有联系也有区别。内容安全主要是指数字内容的复制、传播和流动得到人们预期的控制，而内容安全技术就是指实施这类控制的技术。

本章重点：

内容安全的概念文本过滤的基本方法话题发现和追踪的基本过程内容安全分级监管多媒体内容安全技术的基本内容

12.1 内容安全的概念

1.信息与内容的区别轮廓性主观性

2. 图像压缩中的信息与内容

简单介绍哈夫曼图像压缩算法

1.引言随着网络与多媒体技术的兴起，人们需要存储和传输的数据越来越多，数据量越来越大，以前带宽有限的传输网络和容量有限的存储介质难以满足用户的需求。特别是声音、图像和视频等媒体在人们的日常生活和工作中的地位日益突出，这个问题越发显得严重和迫切。如今，数据压缩技术早已是多媒体领域中的关键技术之一。　　


Huffman( 哈夫曼 ) 算法在上世纪五十年代初提出来了，它是一种无损压缩方法，在压缩过程中不会丢失信息，而且可以证明 Huffman 算法在无损压缩算法中是最优的。 Huffman 原理简单，实现起来也不困难，在现在的主流压缩软件得到了广泛的应用。对应用程序、重要资料等绝对不允许信息丢失的压缩场合， Huffman 算法是非常好的选择。　　


2. 哈夫曼图像压缩算法原理

　　 Huffman 编码是 1952 年由 Huffman 提出的对统计独立信源能达到最小平均码长的编码方法。这一年，他发表了著名论文“ A Method for the Construction of Minimum Redundancy Codes” ，即最短冗余码的构造方法。之后， Huffman 编码及其一些改进方法一直是数据压缩领域的研究热点之一。　　 Huffman 码是一种变长码，其基本思想是：先统计图像 ( 已经数字化 ) 中各灰度出现的概率，出现概率较大的赋以较短的码字，而出现概率较小的则赋以较长的码字。　　


2. 哈夫曼图像压缩算法原理

在整个编码过程中，统计图像各灰度级出现的概率和编码这两步都很简单，关键的是 Huffman树的构造。不但编码的时候需要用到这颗树，解码的时候也必须有这颗树才能完成解码工作，因此， Huffman树还得完整的传输到解码端。首先对统计出来的概率从小到大进行排序，然后将最小的两个概率相加；到这儿的时候，先把已经加过的两个概率作为树的两个节点，并把他们从概率队列中删除；然后把相加所得的新概率加入到队列中，对这个新队列进行排序。 Huffman树就建立起来了。


3. 哈夫曼图像压缩算法软件实现

以 Turbo C为例来说明软件实现 Huffman 图像压缩算法的一些关键技术。　　为了叙述方便，我们不妨假设处理的图像的灰度级变化范围从 0 到 255 ，即具有 256 个灰度级。我们先来统计输入图像的概率，实际上是要统计各个灰度级在整幅图像中出现的次数。为此，我们先定义一个具有 256 个元素的数组。　　　



然后对输入图像信号进行扫描，每出现一个灰度，就把它存入实现定义好的一个数组中的相应元素中(让这个元素的值自增 1) 。最后，通过读取数组中各元素的值就可以求出各个灰度出现的频数。接下来就该构造 Huffman树了。为了构造Huffman树，我们要用到 C语言中链表的概念。我们必须用一个结构体来表示 Huffman树的节点。对于每个节点而言我们需要这样几个信息：本节点的权重 ( 就是灰度的频数 ) 、指向父节点的指针和分别指向左右子叶节点的指针。　　　



于是，我们可以定义这样一个结构体：　 Struct Node{　　 Float weight;　　 Node * father;　　 Node * left;　　 Node * right; }Huffman_Node　　　



我们需要先确定权最低的两个自由结点，这将是最初的 left 和 right节点。然后建立这两个结点的父结点，并让它的权等于这两个结点的权之和。接着将这个父结点增加到自由结点的序列中，而两个子结点则从序列中去掉。重复前面的步骤直到只剩下一个自由结点，这个自由结点就是 Huffman树的根。　　　



Huffman 编码树作为一个二叉树从叶结点逐步向上建立。 Huffman树建立好以后，为了把权、概率等数值转化码字，我们还得对整个 Huffman树进行扫描。请注意，在建立 Huffman树的时候，我们是从树叶开始的，而在对 Huffman树分配码字的时候却刚好相反，是从树根开始，沿着各个树枝的走向“顺藤摸瓜”似的对各个系数进行编码。对于一个节点的两个子节点 (left 和 right) ，其中一个节点对应的位为 0 ，而另一个结点则人为地设置成为 1 。解码的时候也是完全相同的一颗 Huffman树完成的。　　　


4. 哈夫曼图像压缩算法性能评价

(1) 压缩比的大小 ;(2)恢复效果的好坏，也就是能否尽可能的恢复原始数据 ;(3) 算法的简单易用性以及编、解码的速度。

　　



首先分析一下对压缩比的影响因素 ( 压缩比等于压缩之前的以比特计算的数据量比上压缩之后的数据量 ) 。对于 Huffman 编码来说，我们因为要用额外的位保存和传输 Huffman树而“浪费”掉一些存储位，也就是说，为了编、解码的方便，我们把本已减少的数据量又增加了一些。　　如果文件比较大的话，这一点多余的数据根本算不了什么，所占比例很小。但是，如果压缩的文件本来就很小的话，那么这笔数据就很可观了。一般来说，经典的 Huffman 算法的压缩比不是很高，这是无损压缩的“通病”。

　　



由于它是无损压缩，能够完全恢复压缩之前图像的本来面貌。 Huffman 压缩方法在压缩的过程中，我们进行了两次扫描，第一次是为了统计各个灰度出现的频数而扫描整幅图像，第二次则是为了分配码字而扫描整个 Huffman树。　　这样一来，对较大的文件进行编码时，频繁的磁盘读写访问必然会降低数据编码的速度，如果用于网络的话，还会因此带来一些延时，不利于实时压缩和传输。　　


5. 图像压缩算法总结

Huffman 算法目前已经得到了广泛的应用，软件和硬件都已经实现。基于 Huffman 经典算法的缺陷，不少人提出了一些自适应算法。前面的算法中， Huffman树是整个图像全部输入扫描完成后构造出来的，而自适应算法 (或称动态算法 ) 则不必等到全部图像输入完成才开始树的构造，并且可以根据后面输入的数据动态的对 Huffman树进行调整。实际上，实用的 Huffman树都是经过某种优化后的动态算法

3.“ 内容”一词主要来源于一下三个方面：

1）前述内容与信息的细微差别；2）当前国际上讲数字视频、音频和电子出版物等称为数字内容；3）一些文献中的“内容”专指应用层或应用中的数据和消息。

4. 内容安全的危害和需求

1）数字版权侵权及其控制2）不良内容传播及其控制3）敏感内容泄露及其控制

数字版权保护技术

1. 数字版权保护技术

数字版权保护技术，简称 DRM ，是以一定的计算方法，实现对数字内容的保护。 DRM将成为网络出版中的主流技术，特别是 eBook 网络出版领域， DRM 已经成为必需的技术。 DRM 技术的研究内容涉及数据加密、 DRM 系统的体系结构、数字版权描述等多个方面，其中在 eBook紧密相关的是EBX 技术。基于 EBX 技术框架的 eBook DRM 系统，在保护 eBook 的版权方面较完整，包括 eBook 的计数、二次传播等版权的控制。



随着互联网的发展，网上电子书、音乐、电影、图片等数字内容的传播越来越多，由于数字内容很容易复制、修改，网络上传播的数字内容存在大量的盗版和侵权问题。因此，针对数字内容的版权保护越来越重要。数字版权保护技术就是以一定的计算方法，实现对数字内容的保护，包括电子书（ eBook）、视频、音频、图片等数字内容。



DRM 技术的目的是保护数字内容的版权，从技术上防止数字内容的非法复制，或者在一定程度上使复制很困难，最终用户必须得到授权后才能使用数字内容。 DRM涉及的主要技术包括数字标识技术、安全和加密技术、存储技术、电子交易技术等等。


2. DRM 技术综述

数字版权保护方法主要有两类，一类是采用数字水印技术，另一类是以数据加密和防拷贝为核心的DRM 技术。


2. DRM 技术综述

　　数字水印（ Digital Watermark）技术是在数字内容中嵌入隐蔽的标记，这种标记通常是不可见的，只有通过专用的检测工具才能提取。数字水印可以用于图片、音乐和电影的版权保护，在基本不损害原作品质量的情况下，把著作权相关的信息，隐藏在图片、音乐或电影中，而产生的变化通过人的视觉或听觉是发现不了的。但是，目前市场上的数字水印产品在应用方面还不成熟，容易被破坏或破解，而且数字水印方法，只能在发现盗版后用于取证或追踪，不能在事前防止盗版。


2. DRM 技术综述

　　数据加密和防拷贝为核心的 DRM 技术，是把数字内容进行加密，只有授权用户才能得到解密的密钥，而且密钥是与用户的硬件信息绑定的。加密技术加上硬件绑定技术，防止了非法拷贝，这种技术能有效地达到版权保护的目的，当前国内外大部分计算机公司和研究机构的 DRM 技术采用这种方法，针对各个应用领域，有不同的 DRM 系统。


3. DRM相关研究内容

　　最近几年，进行 DRM 研究的科研人员逐渐增多，为此，美国计算机协会从 2001 年开始，每年举办一次 ACM DRM 会议“ ACM Workshop on Digital Rights Management” ，涉及的研究内容包括多个方面，主要有 DRM 系统的体系结构、 DRM 中对数字内容使用的跟综和审核、数字内容交易的商业模式及其安全性需求、多媒体数据的加密、身份识别、 DRM 系统中的密钥管理、数字权利的转移问题、数字版权描述等等。


4. DRM 技术在电子书出版中的应用

　　 eBook 的商业流程中，涉及了很多的角色，包括作者、出版社、发行者、图书馆、书店以及读者， DRM 技术需要在 eBook 的流通过程中，保护这些角色的合法利益。通过 DRM 技术，应该使作者和出版社的版权和相应的收入有保障，这就要求，只有购买了 eBook的读者才能在指定机器上阅读，把 eBook拷贝到其他机器是无法阅读的。



在出版社的出版工具方面，从制作印刷书到制作电子书，要有方便、一致的工具；在很长的时期内，印刷书和电子书是并存的，需要作到一次排版，印刷和 eBook同时适用。为了使出版社得到应有的收入，网上电子书店销售的 eBook 应该是可计数的，也就是书店卖了多少“本” eBook ，出版社要知道，以便准备地结算。网上电子书店也需要通过 DRM 技术，从出版社得到 eBook 的销售许可，并且读者付钱后才能得到相应的 eBook 。



　　数字图书馆通过 DRM 技术，让 eBook 实现借和还的过程，即保留图书馆对书的借、还服务，同时又保护的出版社的版权。另外，在数字图书馆中， eBook 是以一定的复本数存在，例如，数字图书馆有一本书的三个复本，则同时只能有三个读者借阅，第四个人必须等其他读者还回 eBook 后才能借阅。



　　为了保护 eBook 流通过程中各个角色的合法利益， DRM 技术至少要在四个方面体现 eBook 的版权控制：

1) DRM 技术要保证 eBook 不能被复制， eBook 与阅读的机器是绑定的，计算机文件拷贝到别的机器无法阅读。2) DRM 技术要保证 eBook 不能被篡改，包括 eBook的内容、 eBook 的定价、出版社名称等信息。



3) DRM 技术要保证 eBook 可以计数。可计数性包括两个含义：第一，读者买 eBook ，按“本”购买；网络电子书站卖书，按“本”卖；数字图书馆按“本”买 eBook ，一本一本地借给读者。第二，出版社能知道网络书店卖了几本书、图书馆买了几本书，该统计数据通过技术保证其公正和不可篡改。



4) DRM 技术可以控制 eBook 的二次传播。例如图书馆购买的书，可以借给读者阅读，读者的 eBook 到了借期后不能继续阅读等等目前，只有方正 Apabi 和部分国外的 eBook DRM 技术，采用了 EBX 的技术框架，在这四个方面实现了对 eBook 的版权保护。当然，实现这几个方面保护时，需要用到对称加密技术、非对称加密技术（ PKI）、数据通讯安全技术、版式文件的数据加密以及XML 等多种技术，在这些技术的基础上，才能构成完整的 eBook DRM 系统。

5. 内容安全技术分为：

1）被动内容安全技术2）主动内容安全技术

区别：预处理预处理包括：对内容添加分级标志、数字签名、数字水印等可识别信息。

6. 内容安全技术

1）广义的包括：数字版权保护、数字水印、多媒体取证内容认证、内容过滤和监控、垃圾邮件防范、网络敏感内容搜索、舆情控制、信息泄露防范等。2）狭义的包括广义内容安全技术中涉及内容搜索和监控的部分。主要包括：网络多媒体制品的非授权散步控制、内容过滤和监控、垃圾邮件防范、网络敏感内容搜索、舆情控制、信息泄露防范等。

12.2 文本过滤

串匹配算法

文本的向量空间模型

串匹配算法

　　串匹配（ String Matching）问题是计算机科学中的一个基本问题，也是复杂性理论中研究的最广泛的问题之一。它在文字编辑处理、图像处理、文献检索、自然语言识别、生物学等领域有着广泛的应用。而且，串匹配是这些应用中最耗时的核心问题，好的串匹配算法能显著地提高应用的效率。因此，研究并设计快速的串匹配算法具有重要的理论价值和实际意义。

串匹配算法

　　串匹配问题实际上就是一种模式匹配问题，即在给定的文本串中找出与模式串匹配的子串的起始位置。最基本的串匹配问题是关键词匹配（ KeywordMatching）。所谓关键词匹配，是指给定一个长为 n的文本串 T [1 ， n] 和长为m 的模式串 P [1 ， m] ，找出文本串 T 中与模式串所有精确匹配的子串的起始位置。串匹配问题包括精确串匹配、随机串匹配和近似串匹配。另外还有多维串匹配和硬件串匹配等。

串匹配算法

1. KMP串匹配算法

KMP 算法首先是由 D.E. Knuth 、 J.H. Morris 以及V.R. Pratt 分别设计出来的，所以该算法被命名为KMP 算法。 KMP串匹配算的基本思想是：对给出的的文本串 T [1 ， n] 与模式串 P [1 ， m] ，假设在模式匹配的进程中，执行 T [i] 和 P [j] 的匹配检查。若T [i]=P [j] ，则继续检查 T [i+1] 和 P [j+1] 是否匹配。若 T [i]≠P [j] ，则分成两种情况：若 j=1 ，则模式串右移一位，检查 T [i+1] 和 P [1] 是否匹配；若 1<j≤m ，则模式串右移 j － next(j) 位，检查 T [i] 和 P [next(j)]是否匹配（其中 next 是根据模式串 P [1 ， m] 的本身局部匹配的信息构造而成的）。重复此过程直到j=m 或 i=n结束。

串匹配算法

2. 随机串匹配算法

　　采用 KMP 算法虽然能够找到所有的匹配位置，但是算法的复杂度十分高，在某些领域并不实用。而随机串匹配算法主要采用了散列（ Hash）技术的思想，它能提供对数的时间复杂度。其基本思想是：为了处理模式长度为m 的串匹配问题，可以将任意长为 m 的串映射到 O(logm) 整数位上，映射方法须得保证两个不同的串映射到同一整数的概率非常小。所得到的整数之被视为该串的指纹（ Fingerprint），如果两个串的指纹相同则可以判断两个串相匹配。

串匹配算法

3. 近似串匹配算法

前两种串匹配算法均属于精确串匹配技术，它要求模式串与文本串的子串完全匹配，不允许有错误。然而在许多实际情况中，并不要求模式串与文本串的子串完全精确地匹配，因为模式串和文本串都有可能并不是完全准确的。例如，在检索文本时，文本中可能存在一些拼写错误，而待检索的关键字也可能存在输入或拼写错误。在这种情况下的串匹配问题就是近似串匹配问题。

串匹配算法

3. 近似串匹配算法

　　近似串匹配问题主要是指按照一定的近似标准，在文本串中找出所有与模式串近似匹配的子串。近似串匹配问题的算法有很多，按照研究方法的不同大致分为动态规划算法，有限自动机算法，过滤算法等。但上述所有算法都是针对一般的近似串匹配问题，也就是只允许有插入、删除、替换这三种操作的情况。本节中还考虑了另外一种很常见的错误－换位，即文本串或模式串中相邻两字符的位置发生了交换，这是在手写和用键盘进行输入时经常会发生的一类错误。为修正这类错误引入了换位操作，讨论了允许有插入、删除、替换和换位四种操作的近似串匹配问题。

1. 分词

1）整词二分法这种算法的数据结构简单、占用空间小，构建及维护也较简单，但由于采用全词匹配的查询过程，效率较低。2 ） Trie索引树法优点：在分词中，在系统对被分解语句的一次扫描过程中，无须预知待查询词的长度，沿树下行逐字匹配即可。缺点：构造和维护比较复杂，存储开销也较大。

2. 特征提取

1）布尔向量表示法易于实现速度快，但在反应文章含义方面非常粗糙。

2）统计特征词条在文本中出现的频率

3. 内容分类

指过滤系统检查流经的文本、根据特征数据库判断文本属于哪一类文本的操作。

内容安全技术

Documents