加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据挖掘研究的机遇及挑战 洪胜宏

发布时间:2020-12-14 04:09:11 所属栏目:大数据 来源:网络整理
导读:? ?数据挖掘研究的机遇及挑战 洪胜宏 ? ?【摘要】:随着计算机的大量应用和数据量的急速增长,数据挖掘发挥着越来越重要的作用.数据挖掘经过近二十年的 发展.取得了很大的突破,包括了数据库技术、人工智能技术、数理统计、可视化技术等技术热点.其应用也

? ?数据挖掘研究的机遇及挑战 洪胜宏

? ?【摘要】:随着计算机的大量应用和数据量的急速增长,数据挖掘发挥着越来越重要的作用.数据挖掘经过近二十年的 发展.取得了很大的突破,包括了数据库技术、人工智能技术、数理统计、可视化技术等技术热点.其应用也越来越广泛,同时。 也面临着技术上的一些难题,如流数据挖掘、分布式数据挖掘、基因数据挖掘等等.

? ?【关键词】:数据挖掘应用与机遇挑战 随着数据库技术的迅速发展以及数据库管理系统的广泛应 用,人们积累的数据越来越多.数据呈爆炸性增长。各种数据广 泛存在,数字。图形、文字、表格、声音等都是数据的种种表象,可 谓是数据的海洋.要从这数据的海洋中寻找有用的资料.就要靠 处理数据的手段来挖掘.人类分析数据到现在已经有上千年的 历史了.从远古时代人类开始在木头上计数开始就是一个简单 的数据分析过程.但是近代数据分析是用统计学的概念去处理 数据.随着二战的结束,一些非统计的数据分析工具.如人工智 能方面的技术开始应用到行业经济中.到了二十世纪九十年代. 美国的一些应用者和学者把在数据海洋中寻找知识的过程叫 做”数据挖掘”.数据挖掘”(Data Mining)是一种新的信息处理技 术,其主要特点是对数据库中的大量业务数据进行抽取、转换、 分析和其他模型化处理.从中提取辅助决策的关键性数据.数据 挖掘与传统的数据分析,如查询、报表、OLAP(联机应用分析)、 统计分析等数据分析技术的本质区别是数据挖掘是在明确假设 的前提下去挖掘信息、发现知识.

? ? 1、数据挖掘研究的起源 Usama Fayyadm是数据挖掘的开山师祖.1987年就读密西根 大学时参加通用的暑期工作.目的是从数以万计的维修记录中 找出规则.协助维修人员迅速发现问题.Fayyad发现的pattern算 法.不但成为他1991年论文的主题,也衍生出后来数据挖掘技 术的发展.离开密西根后.Fayyad加入NASA的喷射推进实验 室,他的算法在太空探测、地质研究等工作中均展现出了非常惊 人的潜力.数据挖掘最早被应用于天文学.即由机器学习、类型 辩识及统计等技术.在短短4小时内所发现的行星胜过了20多 位天文学家4年的成果.现在连美国军方也开始应用这样的技 术增强雷达解读与辩识数据的能力. 对数据挖掘的定义存在多种说法:Groth啊认为”数据挖掘” 就是”挖掘”出数据中隐藏的模式,趋势.关系的过程: Beryy&Lino枞为”数据挖掘”是通过自动或半自动的方式在海 量数据中发现有用的模式,规则的过程;Hand,Mannila&Smyth〔田 则认为”数据挖掘”是分析普通的数据(通常是海量的)来发现数 据之间比较稳定地关系.以易于理解的方式将数据总结出来向 数据所有者提供有价值的决策支持:Cabena etalm将”数据挖掘” 定义为从大量的数据库中抽取出此前还没发现的有效实用地的 信息,并且此后使用此信息来帮助制定关键的商业决策的过程.


? ? 综合来说,数据挖掘就是从大量的、不完全的、有噪声的、模 糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不 知道的、但又是潜在有用的信息和知识的过程.数据挖掘是一门 交叉学科。其技术历经了20多年的发展.包括了数据库技术、人 工智能技术、数理统计、可视化技术、并行计算等技术热点.

? ?今天,这些成熟的技术。加上高性能的关系数据库引擎 以及广泛的数据集成.让数据挖掘技术在当前的数据仓库环境 中进入了实用的阶段. 在选择数据挖掘的相关技术以及算法上.数据挖掘的理论 技术可分为传统技术与改良技术两类.传统技术以统计分析为 代表.统计学内所含序列统计、概率论、回归分析、类别数据分析 等都属于传统数据挖掘技术,尤其Data Mining对象多为变量繁 多且样本数庞大的数据.高等统计学里之多变量分析中用来精 简变量的因素分析(Factor Analysis)、用来分类的判别分析(D凶 criminant Analysis).以及用来区隔群体的分群分析(Cluster Analysis)等.在Data Mining过程中特别常用.在改良技术方面. 应用较普遍的有决策树理论(Decision Trees)、类神经网络(Neu. ral Network)以及规则归纳法(Rules Induction)等. 对数据挖掘而言.研究者必须考虑所要进行挖掘分类领域的 一些相关同题:如研究领域的特性、数据的质量、数据库的组成是 否能表现这个议题、决策环境、人员因素以及这些因素间的潜在 互动等等.都是需要考虑的因素.可以用图2来表示这个概念.

? ?2、数据挖掘研究的应用与机遇 作为应用技术.数据挖掘可谓涵盖广泛。尤其在发达国 家.数据挖掘技术的触角已经伸向了各行各业.只要某产业拥有 具分析价值与需求的数据仓储或数据库.皆可利用挖掘工具进 行有目的的挖掘分析.一般较常见的应用案例多发生在零售业、 直效行销界、制造业、财务金融保险、通讯业以及医疗服务等.数 据挖掘的应用领域具体可以分为三类:第一类.商业与电子商务 数据.银行、管理部门、网络应用在商业运作过程中产生大量数 据.这些行业需要通过数据分析做出有效的决策.第二类,科学、 工程学和卫生保健数据.工程领域的数据往往比商业数据更复 杂,此外.科学家和工程师越来越多地使用模拟系统.第三类:网 络数据.网络上的数据不仅在数量上日益膨胀,在内容上也越来 越复杂.网络数据已经不仅仅包括图象、文本,还包括数据流和 数值数据.下面对每一类的具体应用作一介绍.

? ?商业交易:国外的数据挖掘技术主要应用在了银行业,典型 的例子就是信用卡,用数据挖掘技术来分析银行客户的信用等 级和资产发展趋势,用以规避银行风险.保险业借以此技术来防 止保险欺诈行为。并慢慢渗透到税收、零售行业以及国家安全系 统的保障等等.

? ?电子商务:电子商务的发展促使公司内部收集了大量的数 据。并且迫切需要将这些数据转换成有用的信息和知识,为公司  万方数据 福建电脑 2009年第3期 创造更多潜在的利润.数据挖掘在电子商务的应用已进入了实 用阶段.并取得了良好的效果.

? ?基因数据:基因组作序和作图产生大量的数据库,这些数据 库绝大部分尚未被挖掘。因为缺少理想的数据挖掘技术,基因挖 掘容易被忽视.

? ?传感器数据:卫星、浮标、气球还有许多其他传感器产生关 于大气层、海洋、和陆地的大量数据.一个最大的挑战就是研究 这些变量之间的关系,比如:工业污染影响全球气候变暖吗?

? ?模拟系统数据:今天,模拟被认为是继理论和实验之后.科 学的第三种模式.模拟系统同实验一样产生大量数据.数据挖掘 被认为是理论、模拟和实验之间一个关键的连接.

? ?卫生保健数据:卫生保健日益成为国民生产总值中重要的 组成部分.医院、卫生组织和保险公司拥有病人的大量信息:病 人的健康问题、医疗程序、成本和收益,理解它们之间的关系相 当重要.数据挖掘的一个独特的用法就是用来预测手术、用药、 诊断、或是流程控制的效率. 多媒体文本:文本的数量和使用文本的人日益增加,多媒体 技术也越来越容易接触到.同时也越来越难以获取有用的数据. 文本数据挖掘并不是一件容易的事情。尤其是在分析方法方面。 还有很多需要研究的专题.

? ?Web数据:今天.Web主要面向文本和多媒体设备.HTML 虽然已被认为是最强大、最有力的工具。但也受到许多使用者的 批评.未来.Web将是数据处理最重要的工具,以xML为基础的 新一代WWW环境是直接面对Web数据的.不仅可以很好地兼 容原有的Web应用.而且可以更好地实现Web中的信息共享与 交换.随着XML的发展.数据挖掘将可成为网络数据的关键技 术. 未来几年.数据挖掘将是极为重要的成长领域,数据挖掘的 应用越来越广泛.

? ?研究结果显示.企业所处理的数据每五年就会 璺现倍数增长.大部分的企业并没有数据不足的问题.过度的数 据重复与不一致才是大问题.这使得企业无论在使用、有效管 理、以及将这些数据用于决策过程方面都遭遇到了问题.因此市 场需要的是能够将数据转变成可靠与可用信息的系统.不同领 域的专家对数据挖掘都表现出了极大的兴趣.例如在信息服务 业中出现了一些应用.在Internet之数据仓储和线上服务中也给 企业增加了许多生机.同时在产学合作下.又发展出了许多实用 的系统.例如MDT、Coverstory and Spotlight、Nieh work visualiza- tion system LBS、FALCON、FAIS、NYNEX、TASA等等.目前已 被许多研究者视为结合数据库系统和机器学习技术的重要领 域.对于研究者来说.数据挖掘是个充满潜力和机遇无限的研究 领域.

? ?3.数据挖掘研究面临的挑战

? ? 目前.数据挖掘算法虽然已经取得了很大的突破,但在实际 应用中.数据挖掘技术还存在相当多的难题和困难,对于研究者 来说.数据挖掘是个充满挑战性的领域.

? ?3.1流数据挖掘. 一个重要的问题是挖掘大数据库(如100 TS)的数据流,这 些数据流广泛存在互联网、无线通信网络、地质测量、气象、天文 观测等方面,由于数据流迅速、大量、连续地到达,因此现有的数 据挖掘算法在处理如此大量的数据方面速度太慢了,需要研究 新的算法.与此同时.数据流需要以近实时的方式对更新流进行 复杂分析.这对研究者来说也是一个挑战.

? ? 3.2分布式数据挖掘. 出于对安全性、容错性、商业竞争以及法律约束等多方面因 素的考虑.在许多情况下,将所有数据集中在一起进行分析往往 是不可行的.随着各相关学科的飞速发展。各种网络尤其是In- temet的广泛使用.同时,实际应用要求数据挖掘系统具有更好 的可扩展性.分布式数据挖掘系统则可以充分利用分布式计算 的能力对相关的数据进行分析与综合.如研究某种疾病在某地 的发病情况与气候的关系(疾病控制数据库+环境数据库);金融 组织问通过合作防止信用卡欺诈(数据共享);大型跨国公司营 销策略的制定(销售点分散.数据仓库构造十分耗时).分布式数 据挖掘正是在这一背景下产生的.它是数据挖掘技术与分布式 计算的有机结合.主要用于分布式环境下的数据模式发现.分布 式数据挖掘面临的问题是研究算法.实现对不同数据源、多重数 据库间的挖掘.

? ?3.3时问序列数据挖掘. 时问序列是数据存在的特殊形式,序列的过去值会影响到 将来值。这种影响的大小以及影响的方式可由时间序列中的趋 势周期及非平稳等行为来刻画.一般来讲,时间序列数据都具有 噪声、不稳定、随机性等特点,这就使得正确进行短期和长期的 预测都非常困难.如何解决时间序列数据的噪声问题。从而有效 地聚类、分类和预测数据趋势仍然是个有待解决的问题.对于这 类数据的预测方法目前主要有自动回归滑动平均(ARMA)和神 经网络等,但这些方法有一些缺点是很难克服的.ARMA包含的 是线性行为,对于非线性的因素没有包含;而神经网络的结构需 要事先指定或应用启发式算法在训练过程中修正:同时神经网 络得到的解是局部最优而非全局最优.例如在金融时间序列预 测中,虽然小波分析可去掉噪声。但通常会带来滞后的问题,从 而减低了预测的准确程度.现今的数据挖掘方法在处理噪声数 据方面仍然有很大的困难.

? ?3.4生物医学或基因数据挖掘 目前.生物医学或基因学领域的进步产生了大量的数据.对 于生物信息或基因的数据挖掘和通常的数据挖掘相比.无论在 数据的复杂程度、数据量还有分析和建立模型的算法而言。都要 复杂得多.例如:基因和蛋白质在数量上巨大(DNA分子可以有 上亿对),结构非常复杂,彼此之间的作用善未被发现;在生物医 学的许多方面如进化论、生物数据clean、生物序列分析、生物网 络分析.生物图象分析等等.从分析算法上讲.更需要一些新的 和好的算法.现在很多厂商正在致力于这方面的研究.但就技术 和软件而言.还远没有达到成熟的地步.

? ?3.5可视化数据挖掘 目前.在可视化工具方面已经有所发展.可视化工具除了较 常见的柱形或条形统计图表、饼图、曲线、柱状图、箱线图等等, 还有其他工具如几何图形(如平行坐标)、分级技术、图标技术. 可视化数据挖掘对于研究者是个充满吸引力的领域.因为可视 化技术可以帮助研究者更好地解释数据、发现数据的模式.通过 发展技术和系统来寻求数据挖掘过程中的可视化方法.使知识 发现的过程易于被用户理解和操纵.可使数据挖掘过程成为用 户业务流程的一部分.也便于在知识发现的过程中进行人机交 互:包括数据用户化呈现与交互操纵两部分.

? ?3.6过程数据挖掘 一个重要的问题是如何使数据挖掘过程自动化.在数据挖 掘系统里面建立一种方法来帮助用户避免许多数据挖掘中的错 误.如果我们能够将各种数据挖掘过程自动化,就可以大大地减 少劳力.莉用目前的技术虽然可以快速地建模和寻找模式.但 90%的成本浪费在预处理上,减少这些成本将极大地降低建模 的成本.另一个重要的问题是如何将可视化和自动化数据挖掘 技术结合在一起,在很多应用上,数据挖掘的目标和任务不太明 确,特别是在实验性数据分析.可视化可以帮助我们获取数据的 更多信息和明确数据挖掘的任务.

? ? 3.7动态数据、RFID数据和传感器网络数据挖掘 随着传感器网络、GPS、手机和其他移动设备和RFID技术 的普遍。大量动态数据需要被分析.在动态数据、RFID数据和传 感器数据挖掘领域里,还有许多尚未被研究的问题:例如。寻找 关联和规则性来clean有噪音的传感器网络和RnD数据、如何 为这些数据构建数据仓库、如何对千兆字节的RFID数据进行 挖掘、如何chesty多维轨道数据等等.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读