加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

关联规则(挖掘),数据关联(融合)

发布时间:2020-12-14 04:06:28 所属栏目:大数据 来源:网络整理
导读:3月9日07:49 |? 新浪博客|? 来源:时空交互 |? 查看原文 ? ? ? 关联式规则 关联式规则(Association Rules,AR),又称关联规则,是 数据挖掘 的一个重要课题,用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则解决的常见问题如:“如果一个消费


3月9日07:49|? 新浪博客|? 来源:时空交互|? 查看原文>

?

?

?

关联式规则


关联式规则(Association Rules,AR),又称关联规则,是数据挖掘的一个重要课题,用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则解决的常见问题如:“如果一个消费者购买了产品A,那么他有多大机会购买产品B?”以及“如果他购买了产品C和D,那么他还将购买什么产品?”正如大多数数据挖掘技术一样,关联规则的任务在于减少潜在的大量杂乱无章的数据,使之成为少量的易于观察理解的静态资料。

关联规则一个经典的实例是购物篮分析(Market Basket Analysis)。超市对顾客的购买记录数据库进行关联规则挖掘,可以发现顾客的购买习惯,例如,购买产品X的同时也购买产品Y,于是,超市就可以调整货架的布局,比如将X产品和Y产品放在一起,增进销量。

基本概念

表1:关联规则的简单例子
TID 网球拍 网 球 运动鞋 羽毛球
1 1 1 1 0
2 1 1 0 0
3 1 0 0 0
4 1 0 1 0
5 0 1 1 1
6 1 1 0 0

根据韩家炜等[1],关联规则定义为:

假设

的集合。给定一个交易数据库

,其中每个事务(Transaction)t是I的非空子集,即

,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如

蕴涵式,其中

分别称为关联规则的先导(antecedent或left-hand-side,LHS)和后继(consequent或right-hand-side,RHS) 。关联规则

在D中的支持度(support)是D中事务包含

的百分比,即概率

置信度(confidence)是包含X的事务中同时包含Y的百分比,即条件概率

。如果同时满足最小支持度阈值最小置信度阈值,则认为关联规则是有趣的。这些阈值由用户或者专家设定。

用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍

网球,事务1,2,3,4,6包含网球拍,事务1,6同时包含网球拍和网球,支持度

,置信度

。若给定最小支持度

,最小置信度

,关联规则网球拍

网球是有趣的,认为购买网球拍和购买网球之间存在强关联。

分类

关联规则有以下常见分类[1]

根据关联规则所处理的值的类型

  • 如果考虑关联规则中的数据项是否出现,则这种关联规则是布尔关联规则(Boolean association rules)。例如上面的例子。
  • 如果关联规则中的数据项是数量型的,这种关联规则是数量关联规则(quantitative association rules)。例如年龄("20-25")

    购买("网球拍"),年龄是一个数量型的数据项。在这种关联规则中,一般将数量离散化(discretize)为区间。

根据关联规则所涉及的数据维数

  • 如果关联规则各项只涉及一个维,则它是单维关联规则(single-dimensional association rules),例如购买("网球拍")

    购买("网球")只涉及“购买”一个维度。
  • 如果关联规则涉及两个或两个以上维度,则它是多维关联规则(multi-dimensional association rules),例如年龄("20-25")

    购买("网球拍")涉及“年龄”和“购买”两个维度。

根据关联规则所涉及的抽象层次

  • 如果不涉及不同层次的数据项,得到的是单层关联规则(single-level association rules)。
  • 在不同抽象层次中挖掘出的关联规则称为广义关联规则(generalized association rules)。例如年龄("20-25")

    购买("HEAD网球拍")和年龄("20-25")

    购买("网球拍")是广义关联规则,因为"HEAD网球拍"和"网球拍"属于不同的抽象层次。

算法

Apriori 算法

Apriori算法是种最有影响的挖掘布尔关联规则频繁项集的算法。它的核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集(简称频集),也常称为最大项目集。
在Apriori算法中,寻找最大项目集(频繁项集)的基本思想是:算法需要对数据集进行多步处理。第一步,简单统计所有含一个元素项目集出现的频数,并找出那些不小于最小支持度的项目集,即一维最大项目集。从第二步开始循环处理直到再没有最大项目集生成。循环过程是:第k步中,根据第k-1步生成的(k-1)维最大项目集产生k维侯选项目集,然后对数据库进行搜索,得到侯选项目集的项集支持度,与最小支持度进行比较,从而找到k维最大项目集。
下面以图例的方式说明该算法的运行过程: 假设有一个数据库D,其中有4个事务记录,分别表示为:

TID Items
T1 I1,I3,I4
T2 I2,I5
T3 I1,I2,I5
T4 I2,I5

这里预定最小支持度minSupport=2,下面用图例说明算法运行的过程:

TID Items
T1 I1,I5

扫描D,对每个候选项进行支持度计数得到表C1:

项集 支持度计数
{I1} 2
{I2} 3
{I3} 3
{I4} 1
{I5} 3

比较候选项支持度计数与最小支持度minSupport,产生1维最大项目集L1:

项集 支持度计数
{I1} 2
{I2} 3
{I3} 3
{I5} 3

由L1产生候选项集C2:

项集
{I1,I2}
{I1,I3}
{I1,I5}
{I2,I3}
{I2,I5}
{I3,I5}

扫描D,对每个候选项集进行支持度计数:

项集 支持度计数
{I1,I2} 1
{I1,I3} 2
{I1,I5} 1
{I2,I3} 2
{I2,I5} 3
{I3,I5} 2

比较候选项支持度计数与最小支持度minSupport,产生2维最大项目集L2:

项集 支持度计数
{I1,I5} 2

由L2产生候选项集C3:

项集
{I2,I5}

比较候选项支持度计数与最小支持度minSupport,产生3维最大项目集L3:

项集 支持度计数
{I2,I5} 2

算法终止。

从算法的运行过程,我们可以看出该Apriori算法的优点:简单、易理解、数据要求低,然而我们也可以看到Apriori算法的缺点:(1)在每一步产生侯选项目集时循环产生的组合过多,没有排除不应该参与组合的元素;(2)每次计算项集的支持度时,都对数据库D中的全部记录进行了一遍扫描比较,如果是一个大型的数据库的话,这种扫描比较会大大增加计算机系统的I/O开销。而这种代价是随着数据库的记录的增加呈现出几何级数的增加。因此人们开始寻求更好性能的算法,如下面要介绍的F-P算法。

F-P算法

针对Apriori算法的性能瓶颈问题-需要产生大量候选项集和需要重复地扫描数据库,2000年Jiawei Han等人提出了基于FP树生成频繁项集的FP-growth算法。该算法只进行2次数据库扫描且它不使用侯选集,直接压缩数据库成一个频繁模式树,最后通过这棵树生成关联规则。研究表明它比Apriori算法大约快一个数量级。
FP-growth算法是一种不产生候选模式而采用频繁模式增长的方法挖掘频繁模式的算法。算法只需要扫描2次数据库:第一次扫描数据库,得到1维频繁项集;第二次扫描数据库,利用1维频繁项集过滤数据库中的非频繁项,同时生成FP树。由于FP树蕴涵了所有的频繁项集,其后的频繁项集的挖掘只需要在FP树上进行。FP树挖掘由两个阶段组成:第一阶段建立FP树,即将数据库中的事务构造成一棵FP树;第二阶段为挖掘FP树,即针对FP树挖掘频繁模式和关联规则。
FP-growth算法描述
输入:事务数据库D,最小支持度minSupport。
输出:频繁模式的完全集。
方法:
1 构建FP树:
1.1 扫描事务数据库,收集频繁项集F并统计支持度,对F按支持度降序排序,得到频率排序好的项表L。
1.2 创建FP树的根节点,用“null”标记它。对于D中每个事务T,执行:选择T中的频繁项,并按L中的次序排序。设排序后的频繁项表为[p|P],其中p是第一个元素,而P是剩余元素的表。调用insert_tree([p|P],T)。该过程执行情况如下:如果T有子女N使得N.itemName=p.itemName,则N的计数增加1;否则创建一个新节点N,将其计数设置为1,链接到它的父节点T,并且通过节点链结构将其链接到具有相同itemName的节点。如果P非空,递归地调用insert_tree(P,N)。
2 FP树的规则挖掘(通过FP-growth(Tree,α)函数来实现,初始调用FP-growth(Tree,null)):
if Tree含单个路径P then {
for 路径P中节点的每个组合(记作β)
产生模式β∪α,其支持度support=β中节点的最小支持度; }
else for each αi 在Tree的头部 do {
产生模式β=αi ∪ α,其支持度support=αi.support;
构造β的条件模式基,然后构造β的条件FP树Treeβ;
if Treeβ≠空集 then
调用FP_growth(Treeβ,β) }
end

F-P算法实现

Bash版本:请参考文章FP-growth算法实现

Eclat算法

与fp-growth 和apriori算法不同,Eclat算法加入了倒排的思想,具体就是将事务数据中的项作为key,每个项对应的事务ID作为value。

原输入数据为

tid item
1 A,B
2 B,C
3 A,C
4 A,B,C

转换后为:

item tids
A 1,4
B 1,4
C 2,4

通过转换后的倒排表可以加快频繁集生成速度。 其算法思想是 由频繁k项集求交集,生成候选k+1项集 。对候选k+1项集做裁剪,生成频繁k+1项集,再求交集生成候选k+2项集。如此迭代,直到项集归一。 根据上述数据的情况,具体计算过程为

   算法过程:

1.计算频繁1项集,结果为:

item freq
A 3
B 3
C 3

2.由频繁1项集生成频繁2项集

item freq
A,B 2
A,C 2
B,C 2

3.由频繁2项集生成频繁3项集

item freq
A,C 1

频繁k项集生成频繁k+1项集的过程与由1项集生成2项集的过程完全一致。

这里有个隐含的条件是,两个频繁k项集生成k+1项集时,前k-1项是一致的,A,B+A,C==>A,C

Eclat算法实现

eclat的核心思想就是倒排,这种数据处理方式很适合用关系型数据表示和实现。 具体可参考用关系型数据结构实现Eclat算法——Hive

参考文献

  1. ^?1.0?1.1?J. Han,M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann: 2000
来自“ http://zh.wikipedia.org/w/index.php?title=关联式规则&oldid=25182552
?
?
?
?
?
?
?

关联规则算法

关联规则的定义

设I={i1,i2…,im}为所有项目的集合,设A是一个由项目构成的集合,称为项集。事务T是一个项目子集,每一个事务具有唯一的事务标识Tid。事务T包含项集A,当且仅当AT。如果项集A中包含k个项目,则称其为k项集。D为事务数据库,项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度(support)。如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(或大项集)。
关联规则就是形如XY的逻辑蕴含关系,其中XI,YI且XY=Φ,X称作规则的前件,Y是结果,对于关联规则XY,存在支持度和信任度。
支持度是指规则中所出现模式的频率,如果事务数据库有s%的事务包含XY,则称关联规则XY在D中的支持度为s%,实际上,可以表示为概率P(XY),即support(XY)= P(XY)。信任度是指蕴含的强度,即事务D中c%的包含X的交易同时包含XY。若X的支持度是support(x),规则的信任度为即为:support(XY)/support(X),这是一个条件概率P(Y|X),即confidence(XY)= P(Y|X)。
关联规则就是支持度和信任度分别满足用户给定阈值的规则。

(二)关联规则的算法

1993年,R.Agrawal等人首次提出了挖掘顾客交易数据中项目集间的关联规则问题,其核心是基于两阶段频繁集思想的递推算法。该关联规则在分类上属于单维、单层及布尔关联规则,典型的算法是Aprior算法。
Aprior算法将发现关联规则的过程分为两个步骤:第一步通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;第二步利用频繁项集构造出满足用户最小信任度的规则。其中,挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。
?
?
?
?
?
?

关联规则

??
关联规则

关联规则是形如X→Y的蕴涵式,其中且, X和Y分别称为关联规则的先导(antecedent或left-hand-side,LHS)和后继(consequent或right-hand-side,RHS) 。

什么是关联规则

从啤酒与尿布的故事说起

在描述有关关联规则的一些细节之前,先来看一个有趣的故事: "尿布与啤酒"的故事。
在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。 沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用 数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
按常规思维,尿布与啤酒 风马牛不相及,若不是借助 数据挖掘技术对海量交易数据进行挖掘和分析,沃尔玛是不可能发现数据内在这一有价值的规律的。

数据关联

关联规则的定义

根据 韩家炜等观点,关联规则定义为:
假设I是 的集合。给定一个交易数据库D,其中每个 事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的 标识符TID(Transaction ID)对应。关联规则在D中的 支持度(support)是D中事务同时包含X、Y的百分比,即 概率置信度(confidence)是包含X的事务中同时又包含Y的百分比,即 条件概率。关联规则是有趣的,如果满足 最小支持度阈值最小置信度阈值。这些阈值是根据挖掘需要人为设定。

关联规则的简单例子

基本概念表1:关联规则的简单例子
TID
网球拍
网 球
运动鞋
羽毛球
1
1
1
1
0
2
1
1
0
0
3
1
0
0
0
4
1
0
1
0
5
0
1
1
1
6
1
1
0
0
用一个简单的例子说明。表1是顾客购买记录的数据库D,包含6个事务。项集I={网球拍,羽毛球}。考虑关联规则(频繁二项集):网球拍与网球,事务1,6同时包含网球拍和网球,X^Y=3,D=6,支持度(X^Y)/D=0.5;X=5,置信度(X^Y)/X=0.6。若给定最小支持度α = 0.5,最小置信度β = 0.6,认为购买网球拍和购买网球之间存在关联。

关联规则挖掘的过程

两个阶段

关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。
关联规则挖掘的第一阶段必须从 原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。
关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组{A,B}所产生的规则AB,其信赖度可经由公式(2)求得,若信赖度大于等于最小信赖度,则称AB为关联规则。

案例分析

就沃尔马案例而言,使用关联规则挖掘技术,对交易资料库中的纪录进行资料挖掘,首先必须要设定最小支持度与最小信赖度两个门槛值,在此假设最小支持度min_support=5% 且最小信赖度min_confidence=70%。因此符合此该超市需求的关联规则将必须同时满足以上两个条件。若经过挖掘过程所找到的关联规则「尿布,啤酒」,满足下列条件,将可接受「尿布,啤酒」的关联规则。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此应用范例中的意义为:在所有的交易纪录资料中,至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。Confidence(尿布,啤酒)>=70%于此应用范例中的意义为:在所有包含尿布的交易纪录资料中,至少有70%的交易会同时购买啤酒。因此,今后若有某消费者出现购买尿布的行为,超市将可推荐该消费者同时购买啤酒。这个商品推荐的行为则是根据「尿布,啤酒」关联规则,因为就该超市过去的交易纪录而言,支持了“大部份购买尿布的交易,会同时购买啤酒”的消费行为。
从上面的介绍还可以看出,关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。

关联规则的分类

按照不同情况,关联规则可以进行分类如下:
1.基于规则中处理的变量的类别:
关联规则处理的变量可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。例如:性别=“女”=>职业=“秘书” ,是布尔型关联规则;性别=“女”=>avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。
2.基于规则中数据的抽象层次:
基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则。
3.基于规则中涉及到的数据的维数:
关联规则中的数据,可以分为单维的和多维的。在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=>尿布,这条规则只涉及到用户的购买的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。

关联规则挖掘的相关算法

Apriori算法

Apriori算法:使用候选项集找频繁项集
Apriori算法是一种最有影响的挖掘 布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。
可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺点。

基于划分的算法

基于划分的算法
Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的,可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后,处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈;而另一方面,每个独立的处理器生成频集的时间也是一个瓶颈。

FP-树频集算法

FP-树频集算法
针对Apriori算法的固有缺陷,J. Han等提出了不产生候选挖掘频繁项集的方法:FP-树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树( FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明, FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。

该领域在国内外的应用

关联规则发掘技术在国内外的应用

就目前而言,关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。现在银行天天都在开发新的沟通客户的方法。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。
同时,一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则中规则进行挖掘,然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告。
但是目前在我国,“数据海量,信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。可以说,关联规则挖掘的技术在我国的研究与应用并不是很广泛深入。

近年来关联规则发掘技术的一些研究

由于许多应用问题往往比超市购买问题更复杂,大量研究从不同的角度对关联规则做了扩展,将更多的因素集成到关联规则挖掘方法之中,以此丰富关联规则的应用领域,拓宽支持管理决策的范围。如考虑属性之间的类别层次关系,时态关系,多表挖掘等。近年来围绕关联规则的研究主要集中于两个方面,即扩展经典关联规则能够解决问题的范围,改善经典关联规则挖掘算法效率和规则兴趣性。
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
数据融合理论与应用
作??? 者: 康耀红著
I S B N: 7560604196
页??? 数: 222
封面形式: 简装本
出 版 社: 西安电子科技大学出版社
出版日期: 2006-5-1
内容简介
数据融合是许多传统学科和新兴工程领域相结合而产生的一个新的前沿技术领域,是现代C3I系统的重要组成部分。本书是我国第一本关于多传感器数据融合理论的专著。
全书共分12章。第一章阐述数据融合的意义、理论基础、实现技术和研究现状;第二章和第三章研究多传感器目标检测理论和性能评估;第四章至第八章论述数据关联和目标跟踪的算法与理论;第九章介绍身份估计的基本思想与方法;第十章至第十二章介绍态势评估和威胁估计的基本理论,以及在这一领域有广泛应用前景的条件事件代数理论和规划识别理论。
本书适用于通信、控制和信号处理等领域的大学生、研究生和相关领域的科研、工程技术人员。
本书目录
第一章概论
*1.1数据融合的目的和应用
1.2数据融合的理论基础
1.2.1数据融合的一般处理模型
1.2.2数据融合的概念与结构分类
1.3数据融合的实现技术
1.3.1目标跟踪
1.3.2目标识别
1.3.3态势评估和威胁估计(STA)
1.4数据融合的研究现状和如何推动我国数据融合研究的进展
1.4.1理论研究应着眼未来、强调创新
1.4.2技术研究应面向世界、追求突破
1.4.3人才培养应面向教育
1.4.4加强学术交流,全方位协调发展
补记
参考文献
第二章多传感器目标检测的基本理论
2.1问题描述
2.2贝叶斯方法
2.3Neyman??Pearson方法
2.4系统检测率和系统虚警率
2.5同类传感器情形下的讨论
补记
参考文献
第三章多传感器目标检测的性能评估
3.1传感器检测的基本特性
3.2传感器检测性能分析
3.3传感器的检测性能评估
补记
参考文献
第四章目标跟踪与数据关联概论
4.1多目标跟踪的基本思想
4.2数据关联的概念与方法
4.2.1“最近邻”方法
4.2.2“全邻”最优滤波器
4.2.3概率数据关联滤波器
4.2.4多模型方法
4.2.5相互作用多模型—概率数据关联滤波器
4.2.6联合概率数据关联滤波器
4.2.7多假设方法
4.2.8航迹分裂方法
4.2.9分布式多传感器多目标跟踪与数据关联的一般理论
4.2.10基于神经网络的多目标数据关联方法
补记
参考文献
第五章相互作用多模型—概率数据关联算法
5.1概率数据关联滤波器
5.1.1预备知识
5.1.2概率数据关联滤波器的基本思想
5.1.3关联概率βi(k)的计算
5.1.4协方差P(k|k)的计算
5.2多模型算法(MultipleModelApproach)
5.3相互作用多模型—概率数据关联算法
5.4多传感器相互作用多模型—概率数据关联算法
5.4.1多传感器概率数据关联滤波器
5.4.2多传感器多模型—概率数据关联滤波器
*5.5目标运动模型(TargetMotionModels)
5.5.1基本理论
5.5.2几个典型的目标运动模型
补记
参考文献
第六章联合概率数据关联和多假设滤波器
6.1联合概率数据关联算法
6.1.1联合概率数据关联算法的基本思想
6.1.2联合事件的概率计算
6.1.3协方差计算
6.1.4n=1时JPDA和PDA等价性证明
6.2多假设滤波器
6.2.1假设的产生和假设树的形成
6.2.2假设估计
6.2.3假设管理
补记
参考文献
第七章多传感器多目标跟踪的一般理论
7.1分布式多传感器多目标跟踪的基本思想与功能结构
7.2单目标分布式跟踪
7.2.1中心估计
7.2.2分布式估计
7.3多假设多目标跟踪
7.3.1航迹和假设
7.3.2递归假设估计
7.3.3成批假设估计
7.4分布式多目标跟踪
7.4.1等级多目标跟踪
7.4.2分布式多目标跟踪
补记
参考文献
第八章多目标跟踪系统的性能评估
8.1航迹分类
8.2跟踪评估指标
8.3混合评价指标的设计
8.4一般评价模型
补记
参考文献
第九章身份识别
9.1基于Bayes统计理论的身份识别
9.1.1古典概率理论及其在身份识别中的应用
9.1.2基于Bayes统计理论的身份识别
9.2基于DempsterShafer证据理论的身份识别
9.2.1基本理论
9.2.2单传感器多测量周期可信度分配的融合
9.2.3多传感器多测量周期可信度分配的融合
9.3面向对象的数据融合算法及其神经网络实现[7]
9.3.1分类和跟踪处理模型
9.3.2数据融合算法
9.3.3融合算法的神经网络实现
补记
参考文献
第十章态势评估和威胁估计的基本理论
10.1指挥、控制和通信系统的基础理论
10.1.1兰切斯特(Lanchester)战斗模型
*10.1.2指挥、控制和通信模型
10.2军事问题的一般求解模型
10.2.1状态转移模型
10.2.2SHOR模型
补记
参考文献
第十一章条件事件代数理论
11.1问题提出
11.1.1逻辑与概率表示不相容
11.1.2Simpson悖论[5,6]
11.2条件事件代数的定义及其性质
11.2.1布尔代数
11.2.2Lewis定理
11.2.3GNW(GoodmanNguyenWalker)条件事件代数
11.2.4条件事件代数的运算性质
补记
参考文献
第十二章规划识别理论及其应用
12.1基本概念
12.1.1规划识别理论概述
12.1.2规划识别与规划(Planning)
12.1.3规划识别与态势评估
12.2真实环境下的规划识别的要求
12.2.1真实环境的特点
12.2.2动态性问题
12.3锁孔式规划识别的研究
12.3.1规划识别模型
12.3.2规划识别中认知属性的分析
12.3.3真实环境下规划识别逻辑完备性分析
12.3.4真实环境下的规划识别过程模型
12.3.5FIND过程的研究与设计
12.3.6监测过程的策略
12.4预测式规划识别的理论研究与实现
12.4.1预测式规划识别与态势评估
12.4.2Bayes概率理论和D-S推理
12.4.3Bayes因果网络
12.4.4预测与Bayes因果网络
12.5真实环境下的规划识别模型及其性能分析
12.5.1综合模型
12.5.2综合模型性能分析
补记
参考文献
?
?
?
?
?
?
?
?

强关联

维基百科,自由的百科全书
跳转至:? 导航、? 搜索

强关联,又称强关联电子系统(Strongly correlated electronic systems),是指电子间的交互作用不可忽略的系统,这类材料又称强关联材料(Strongly correlated material)。
在最简单的固体理论中,固体中的电子之间的静电相互作用被忽略了,不会出现在哈密顿算符里。故各个电子被看成是独立的,不会相互影响(唯一的影响来自泡利不相容原理)。然而,在许多物质中(以过渡金属氧化物镧系氧化物最典型,下面以前者为例),3d电子轨道之间交叠很大,d轨道上的电子相互靠近,静电能的增加将不能忽略。把这一部分能量写入哈密尔顿量,就得到强关联模型(又称赫巴德模型(Hubbard model))。
顾名思义,电子此时相互影响,故称强关联。用这个模型,可以很容易的阐述莫特绝缘体(Mott insulator)。多数具有铁磁性反铁磁性的物质,以及高温超导体、自旋材料、铁磁超导体等也是强关联的结果。

来自“ http://zh.wikipedia.org/w/index.php?title=强关联&oldid=10620329

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读