数据挖掘的主要问题

本书强调数据挖掘的主要问题,考虑挖掘技术、用户界面、性能和各种数据类型。这些问题介绍如下:

数据挖掘技术和用户界面问题:这反映所挖掘的知识类型、在多粒度上挖掘知识的能力、领域知识的使用、特定的挖掘和知识显示。

1     
在数据库中挖掘不同类型的知识:由于不同的用户可能对不同类型的知识感兴趣,数据挖掘系统应当覆盖广谱的数据分析和知识发现任务,包括数据特征、区分、关联、聚类、趋势、偏差分析和类似性分析。这些任务可能以不同的方式使用相同的数据库,并需要开发大量数据挖掘技术。

2     
多个抽象层的交互知识挖掘:由于很难准确地知道能够在数据库中发现什么,数据挖掘过程应当是交互的。对于包含大量数据的数据库,应当使用适当的选样技术,进行交互式数据探查。交互式挖掘允许用户聚焦搜索模式,根据返回的结果提出和精炼数据挖掘请求。特殊地,类似于
OLAP
在数据方上做的那样,应当通过交互地在数据空间和知识空间下钻、上卷和转轴,挖掘知识。用这种方法,用户可以与数据挖掘系统交互,以不同的粒度和从不同的角度观察数据和发现模式。

3     
结合背景知识:可以使用背景知识或关于所研究领域的信息来指导发现过程,并使得发现的模式以简洁的形式,在不同的抽象层表示。关于数据库的领域知识,如完整性限制和演绎规则,可以帮助聚焦和加快数据挖掘过程,或评估发现的模式的兴趣度。

4     数据挖掘查询语言和特定的数据挖掘:关系查询语言(如 SQL
)允许用户提出特定的数据提取查询。类似地,需要开发高级数据挖掘查询语言,使得用户通过说明分析任务的相关数据集、领域知识、所挖掘的数据类型、被发现的模式必须满足的条件和兴趣度限制,描述特定的数据挖掘任务。这种语言应当与数据库或数据仓库查询语言集成,并且对于有效的、灵活的数据挖掘是优化的。

5     
数据挖掘结果的表示和显示:发现的知识应当用高级语言、可视化表示形式、或其它表示形式表示,使得知识易于理解,能够直接被人使用。如果数据挖掘系统是交互的,这一点尤为重要。这要求系统采用有表达能力的知识表示技术,如树、表、图、图表、交叉表、矩阵或曲线。

6     
处理噪音和不完全数据:存放在数据库中数据可能反映噪音、例外情况、或不完全的数据对象。这些对象可能搞乱分析过程,导致数据与所构造的知识模型过分适应。其结果是,所发现的模式的精确性可能很差。需要处理数据噪音的数据清理方法和数据分析方法,以及发现和分析例外情况的局外者挖掘方法。

7     
模式评估——兴趣度问题:数据挖掘系统可能发现数以千计的模式。对于给定的用户,许多模式不是有趣的,它们表示平凡知识或缺乏新颖性。关于开发模式兴趣度的评估技术,特别是关于给定用户类,基于用户的信赖或期望,评估模式价值的主观度量,仍然存在一些挑战。使用兴趣度度量,指导发现过程和压缩搜索空间,是又一个活跃的研究领域。

性能问题:这包括数据挖掘算法的有效性、可规模性和并行处理。

8     
数据挖掘算法的有效性和可规模性:为了有效地从数据库中大量数据提取信息,数据挖掘算法必须是有效的和可规模化的。换一句话说,对于大型数据库,数据挖掘算法的运行时间必须是可预计的和可接受的。从数据库角度,有效性和可规模性是数据挖掘系统实现的关键问题。上面讨论的挖掘技术和用户交互的大多数问题,也必须考虑有效性和可规模性。

9     
并行、分布和增量挖掘算法:许多数据库的大容量、数据的广泛分布和一些数据挖掘算法的计算复杂性是促使开发并行和分布式数据挖掘算法的因素。这些算法将数据划分成部分,这些部分可以并行处理,然后合并每部分的结果。此外,有些数据挖掘过程的高花费导致了对增量数据挖掘算法的需要。增量算法与数据库更新结合在一起,而不必重新挖掘全部数据。这种算法渐增地进行知识更新,修正和加强先前业已发现的知识。

关于数据库类型的多样性问题:

10    
关系的和复杂的数据类型的处理:由于关系数据库和数据仓库已经广泛使用,对它们开发有效的数据挖掘系统是重要的。然而,其它数据库可能包含复杂的数据对象、超文本和多媒体数据、空间数据、时间数据、或事务数据。由于数据类型的多样性和数据挖掘的目标不同,指望一个系统挖掘所有类型的数据是不现实的。为挖掘特定类型的数据,应当构造特定的数据挖掘系统。这样,对于不同类型的数据,我们可能有不同的数据挖掘系统。

由异种数据库和全球信息系统挖掘信息:局域和广域(如 Internet
)计算机网络连接了许多数据源,形成了大的、分布的和异种的数据库。从具有不同数据语义的结构的、半结构的、和无结构的不同数据源发现知识,对数据挖掘提出了巨大挑战。数据挖掘可以帮助发现多个异种数据库中的数据规律,这些规律多半难以被简单的查询系统发现,并可以改进异种数据库信息交换和协同操作的性能。
Web挖掘发现关于 Web 连接、Web 使用和 Web 动态情况的有趣知识,已经成为数据挖掘的一个非常具有挑战性的领域。

友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:ixiaoyang8@qq.com
QQ群:637538335
关注微信