1. 主 页
  2. 游戏新闻
  3. 玩家技术
  4. 地图推荐
当前所在位置:主页 > 游戏新闻 >

KDD活动的开展及其价值分析

时间:2012-01-27 21:26 作者:小编 点击:

  本文作者: 吴颖红
  《现代图书情报技术》2004年第3期图书馆自动化总第108期吴颖红(杭州师范学院图书馆杭州310036)【摘要】介绍了数据库知识发现(KDD)括动的展开要求.着重从它的技术处理流程来分析它的特性及其存在价值与意义。【关键词】数据库知识发现技术处理价值分析【分类号】G250TheKDDActiV“yDevelopmentandValueAnalysiswuYinghongLI。
  Ibrnryt’fHangzhot£TenchersCo“ege.H“ng≈hoH3l0036.C“nn、【AbstractlThisarnckmtr甜ucestkKDDactlⅥ{yther。
  questthat【aunch,andput8greattmpha射sonltscharacterlstlcandvaluPbytechnlqueprocessl“g.【K2ywords】KnowledgediscoveTymd8tab撇Techn‘quepT艚essI“gValueanalysls知识主要来源于人类智慧的积累。
  进入网络时代,知识发现则主要依赖数据库。知识发现与信息检索有很多相似之处,但又有些区别。
  信息检索是从大量信息中查找到特定的信息,而知识发现是在大量似乎无关的数据中发现其中的规律和知识。信息检索主要用途是使用户发现可用的资源,从中找寻满足其检索要求的信息内容,而知识发现则是为了揭示数据库中文档信息的隐含知识而进行的活动。所以,知识发现,一般又被称为数据库知识发现(KnowledgPDiscoveryinDatabase,简称KDD),它的存在。使得大量可信、新颖、有效的数据从数据库中提取并成为人们理解的模式的处理过程的构想成了现实。利用崭新的信息处理技术和数据分析工具,提供高于信息检索的数据分析功能.自动地、智能地将大量数据转变为有用的、系统化的知识.是开展数据库知识发现活动的基本动因,也可以认为,它是为了适应新要求而出现的一种新型数据分析技术。1开展KDD活动的基本要求1.1能以数据库为知识源对大量数据信息进行有效整理数据库一般都有规范的结构,因为数据库的刨建基本目的是为了机器可读,但网络环境下的数据库由于有各种方式可与因特网链接,使得数据库在不断扩收稿日期:2003一lo一27容情况下,规模B益庞大复杂程度也日益提高.对“海量”数据进行有效整理成为开展知识发现的首要任务。要完成数据库原始数据向有价值知识的转化,就要具备把数据库作为知识源,从大量数据进行提取、过滤、转换、集成的能力.从中发现新的知识,不仅做到知识发现速度的及时,更保证发现过程的高效。1.2能够对不同类型的数据信息分类处理在数据库中建屯新的信息资源组织方式.通过对新录用信息、新发现知识的适应结构的系统排查,以确定不同类型数据的分类处理.才能极大地提高检索速度和检索效率。反之.面对瞬息万变的搜索资源,仅靠用户本身的能力来解决搜索专题术语的情况就不能得到改善。机器使用的局限性与分类模式的优势有机结合,能直接影响数据库从输人、检索到输出结果的整个过程,结构严谨的数据库,便于各种信息新技术的应用,不仅能有效分离不同类型数据,也能更有利于知识发现的进展。1.3能让用户在使用过程中共同参与知识发现本身的复杂性在于用户自身也能参与数据挖掘,发现新信息并转化为新知识,也能对有关领域的知识在相应系统的支持下进行评估和选择。
  这就对系统的性能提出较高的要求,交瓦性强成为重要的环节。一方面,交互界面接受用户提出的检索、查询要求和数据挖掘策略,另一方面,交互界面把生成的?29-《现代图书情报技术》2004年第3期图书馆自动化总第108期结果返回给用户。这其中用户参与和系统确认领域知识有效的发现就是一个需要多次交互和多次反复的渐进过程。1.4整个发现过程有严格的组织和有效的提取方法知识发现的一项重要任务,就是按照一定的数据提取,从数据库中发现隐含的、有意义的知识。现在大多数数据采掘都应用于关系数据库和面向对象数据库,它们一般都有完整的结构,可按照预先设定的模式进行组织、存储和存取。如果提取记录与数据库原有记录匹配,正确的术语录用到检索方法当中,这无疑是既简单又有效的一种方法。但如果所选的术语未能匹配,就很少有资源能相对集中,因此,要使KDD活动顺利展开,需要大范围收集数据资源,对之进行严格组织和有效管理。
  目前主要应用的知识提取检索方法有:查找搜索(解决如何有效率地从数据集合中找所需数据项的方法)线性检索(在集合内逐个排查,效率较低)#散列检索(用散列的方法寻找数据元素.可直接访问存储器来查找目标元素,可缩短查询时间)对分检索(从文件中点开始逐层压缩查询范围,也是一种快速查询方法)另外还有全文检索及智能代理技术,一个信息源搜集广泛全面,另一个能进行信息过滤,识别所需的潜在信息的时效性,是一种效率很高的检索方法。1.5通过知识曼新保持发现的动态性不断发展的网络技术为KDD的发展创造了无限契机。尽管信息技术日新月异,但在大规模的数据库内进行有效检索仍有一定的困难,系统要能适应发展变化的情况,通过知识及时更新保持发现的动态性,才能提供有效的决策支持。鉴于知识发现本身就是个动态发展过程,把它的技巧运用到数据库检索中,就能设计出兼容性更强更为复杂的模式处理方法,使两者能够相互补充、相互促进、共同发展。2KDD活动的技术处理过程知识发现是一个能从大量数据中提取出隐藏在其中的有用信息的高级处理过程,它从数据集中识别出以模式来表示的知识。高级的处理过程是指一个多步骤的处理过程,多步骤之间相互影响、反复调整,形成一种螺旋式上升过程。
  其中有可能多次反复,如图1所示。
  2,1准备阶段了解KDD相关领域的有关情况,熟悉有关的背景知识,并弄清楚用户的要求。?30‘图1K【)D技术处理漉程2.2数据的选择与提取根据用户的要求从数据库中选取与KDD有关的数据,从中进行知识提取,利用对数据库的操作完成一些数据处理。目前,随着数据库技术的不断发展,数据处理的方法也在不断完善并趋于成熟。在数据库的知识发新开传奇现中,利用现有的一些数据库技术和专门针对数据库的一些启发式方法,可以用来提取数据库的一些特征知识。2.3数据预处理主要是对前一阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的无效数据进行过滤,对丢失的数据进行填补。其中包括:(1)数据缩减。对经过数据预处理的数据,根据知识发现的任务对数据进行再处理,主要通过投影或数据库中的其它操作减少数据量。(2)确定知识发现的目标。根据用户的要求.确定KDD发现的是何种类型的知识,因为知识发现的要求不同,KDD在具体的知识发现过程中就会采用不同的知识发现算法。(3)确定知识发现的算法。根据既定目标,选择最为合适的知识发现算法。包括选取合适的模式和参数.并且使知识发现算法与整个知识发现的评判标准相一致。2.4数据挖掘运用选定的知识发现算法,从数据中提取出以后所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的方式表示,如产生式规则等。一般而言,知识发现是数据挖掘的结果,它通常可表现为概念(concept)、规则(Rules)、规律(Regularities)、模式(Patt盯ns)、约束(Constraints)、可视化(visualizatlons)等多种形式。这些知识被发现后既可以直接提供给决策者,用以辅助决策过程,也可以提供给该领域专家,修正专家已有的知识体系,还可作为新的知识转存到应用系统中作为决策的依据。(1)数据挖掘的任务。各学科领域数据挖掘的发现任务《现代图书情报技术》2004年第3期圈书馆自动化总第108期都不相同,但从知识发现的角度出发也有共通之处。都是对大型数据库中的海量业务数据进行抽取、转换、分析和模型化处理.从中提取辅助决策的关键性数据和隐藏的预测性信息它通过发现数据间的潜在模式,找出人们可能忽视的信息,便于以理解和观察的形式反映给用户.并给予基于知识的决策意见和结论。(2)数据挖掘的方式。
  数据挖掘是在一些事实或观察数据的集合中寻找模式的决策支持过程.它从理论上和技术上承继了信息处理和数据分析、结论提取等领域的成果,同时又涵盖了其它许多领域如人工智能(AHificlaIInlelligent)、模式识别(PattenRecognitiun)、统计学(statistics)等的发现结果。数据挖掘有两种类型:第一,根据发现知识的种类分类。
  主要包括关联规则、分类规则、特征规则、聚类规则、归总规则、趋势分析、偏差分析等等。第二,根据采用的挖掘技术分类。数据挖掘技术是人工智能领域的一个新的重要分支,它可以综合利用各种人工智能代理技术,比较常用的有:粗集方法(Roughset)、神经网络(NeuralNetwork传奇文章)、决策树归纳法(nbcisionTreeInduction)、最近邻技术(NearestNeIghbor)、规则归纳(Rulelnduction)、可视化(Vlsualizatlon)、聚类法(clustering)、数据仓库(Datawarebouses)等等。2.5模式解释对发现的模式进行解释,在此过程中,为了取得有效的知识,可能返回到前面的某些步骤以反复提取,从而提取出更为有效的知识,发现更有价值的知识。根据数据挖掘的结果可产生的模式有很多,如分类模式、聚类模式、关联模式、序列模式等等。在解决实际问题时,经常同时使用多种模式来降低问题的复杂性,提供给用户较大的灵活性和比较强的分析能力。
  数据库知识发现提供多种途径产生同种模式,在实际应用中效果将更显著。
  2.6知识评价将发现的知识以用户能了解的方式呈现给用户,这期间也包含对知识的一致性的检查,以确定本次发现的知识与以前发现的知识不相抵触。知识评价有利于提高和改善知识发现的质量,也有助于选择知识发现的应用系统。知识发现的评价需要很多方面的共同支持:(L)系统支持。
  允许多种系统运行,便于合理评价。(2)强大的数据存取,处理能力的支持。好的挖掘工具可以使用SQI.语句直接从数据库管理系统中读取数据,简化了数据准备工作.充分利用数据库的优点读取数据。
  (3)可视化的传奇程度。可视化工具提供直接、简洁的方式表达信息,它的种类、质量和灵活性直接影响到KDD的展开和自解释性。(4)易操作性。操作性能直接影响到用户的使用,优化的界面能为用户节省时间.提高效率。有些工具还提供数据挖掘的嵌A技术,通过嵌入到应用程序,不仅缩短开发时间,将模式运用到已存在或新增加的数据上.也可把模式导出到程序或数据库中。(5)数据挖掘的可扩展性程度。鉴于知识发现的更新速度,对数据挖掘的扩展性提出了更高要求,知识发现活动的展开开:仅要能与传统查询工具、可视化工具、联机分析工具兼容,更能以自身的一些优点(如并行计算等)与传统工具相集成,与数据库或数据仓库以组件形式集成于一个信息处理环境中.极大地提高它的效率。3KDD活动的特性及其价值意义从数据库知识发现的技术处理过程可以看出,数据库知识发现主要有以下几个特性:第一,它是从现实世界中存在的一些具体数据中提取知识,这些数据在此之前早已存在,对现实世界很有意义第二,它使用的数据来源于数据库,处理的数据量很大.因此,在知识发现的过程中学习算法效率和可扩充性就显得尤为重要第三,由于它所处理的数据来自于现实世界,数据的完整性、一致性、正确性都很难保证,所以如何将这些数据加工成为可以接受的数据需要进行进一步深入的研究第四,利用目前的数据库技术所取得的研究成果来加快学习过程,提高效率必定将成现实第五,数据库知识发现处理的数据来自实际的数据库,而与这些数据库数据有关的还有其它一些背景知识,如边缘学科、交叉学科等都与之有很强的联系,合理运用效果会很显著。随着DBs在各行各业的迅速普及,即使在科研领域,目前的很多研究也是在大量的数据基础上进行的,而以数据为处理对象,知识发现系统无疑将帮助人们更好的了解数据的含义,更好的利用数据。数据库知识发现的理论意义在于不仅提供了各种学科领域情报分析研究的科学性,而且促进了文献信息研究的进一步深入,丰富和完善了网络信息的研究内涵。同时,数据库知识发现的活动本身也为鉴定和评估数据库提供了模式和趋向。KDD工作与数据库的研究工作是相辅相成、互相促进的。它的实际价值主要体现在两个方面:首先,知识发现通过对数据库的技术挖掘,借鉴了信息检索的查询技术,进一步提高知识发现的效果。其次,可以利用网络挖掘的成果来提高网络信息检索的精准度和效率,改善检索结果的组织结构。比如,它发现统计数据过程的相关性,能够暗示出新的类目或子类目的相互关联,使得数据(下转第67页)?31?《现代图书情报技术》2001年第3期电子政务总第108期量政府信息.仍然是必须蘑点考虑的问题。(4)行业障碍IT部门对信息的形式的处理与传送关注很多,但很少认识到专业知识的限制。他们在信息内容的呈递、描述与规范上.没有专门的培训或训练。
  他们也很少考虑慨忠之间的逻辑关系与知识的映射等。这必然给数据的那样不想玩转换带束问题。5国家电子数据中心的搭建同其它信息_丁程的建设一样.国家电子数据中心的建构必须统一领导、整体规划、合理分工、协调行动。然而,与其它信息工程不一样的是,国家电子数据建设无论是在资金与操作要求上,还是在行动日程、站点选择上,都有自己的特色。本文主要对其设备、地点选择与人员配备及领导问题详细阐述。(1)设备配置在设备的选择上.国家电于数据中心最台理的建构足与地方的档案中心合作共享一些设备。
  当地的档案中心有长期的数据存储经验,以及法定的数据档案存储权力。
  而国家电子数据中心与地方档案中心都要求特定的环境条件。都使用元数据对信息进行访问与检索。因此,两者可结合使用。电子数据处理容量应该被限制到主要的记录系列,比如电子文献、网页以及带档案性的电子信件等。最好开始就安装容量为几千G字节的多重处理器群。(2)地点选择在地点的选择上,电子数据中心的建立应该选择合适的地点.有着良好的自然环境。建筑电子数据中心时.应该设置有计算机实验室与讨论室,也要留有足够的空间为学术团体使用。此外,必须顶留公共使用的面积.比如休息厅、电梯、楼梯等。在此过程中,要合理预算整个项目的开支。(3)人员配备在人员的配备上,电子数据中心的建掏应该包括以卜人鲢:档案中心的工作人员、学术团体的专家以及硬件与软件设施的销售商。其中-学术团体的专家主要参与研究、指导与分析。同时配备有相应的设备经理、规捌人员以及系统管理』、员.并且合理预算薪水。(4)领导班子的组建在领免费公测导问题E,应该成立领导委员会与国家电子数据存档规划组。
  前者包括档案中心职员、政府机关相关人员、地方主管人员、会计审核员、司法人员、信息产业厅人员、大学研究人员、地方各侨会商会等在内统筹指挥委员会.主要对数据中心的设计、发展与建构检查与指导。后者主要负责制定电子数据存储规则、处理程序及相关标准.其目的是帮助实现国家电子数据中心应该实现的功能。国家案卷保管人员将领导规划组t其包括电子存储领域的专家、数据存档专家以及信息处理专家。
  考文献:1I)Slamoulls-DGoustPGeQ。91adIs.I)Martak∞:RPvlsⅢ“gpuh一【nformatlon89ntforeffectJ㈣一g。
  vcrnmentHervices.InformatI。
  nMg㈣呲8LCompulerSrIty.200】(9):1461j32PhE}1pch:ThecrHi8inelectronI。
  g。vernmentrrdkeepinE:As【ratogyfor10“Etermslor89eLIbra’yCompu“ng,l9∞(18):l962023刘家真数字信息保存的策略情报学报,2000(4)4PameIaAHo“ghta【l“gBull出“gm。g。ver力ment’seIecticrccor也archlve.S’g岫l,FaIlsChurch.2。00(53):V(6VGl35Ern船tPerez:MetaDatabases,GILS?andM。98prob】Econt。nt1999‘22)75(作者EⅧil:pan8l706@sohu.com)’^‘‘^‘‘7。_。
  v-oyv“¨vo-■‘^‘??“?“__o_。
  ov“oo^^’“?^“?一(上接第3l页)库的有效价值能得到进一步的澄清和扩充。
  KDD的开展其实是对网络资源极大限度的开发和利用。
  而且根据用户定义的知识发现策略,发现的知识必须是可以理解的。惟有如此才能把发现的知识明确表达,加以掌握和利用,才真正体现出被发现知识的价值。它的开展不仅是知识管理的需要,更是提高网络服务水平、构建学科决策支持系统的需要,它也顺理成章地成为进行科学研究的有力工具。
  参考文献:1严照文等.数据库中知识发现的实现技术研究化T装备技术,2002(1)2熊新阶等.数据库中的知识发现.黄冈师范学院学报.2002(9)3黄晓斌.基于网络的文献知识发现系统研究.情报科学.2003(2)4肖收安等.数据挖掘与氮l识发现的理论方法及技术分析.变通与计算机,2002(”5赵丹群,web资源发现工具的技术分析.情报学报,l999年(增刊)6HanJeL,Mlche【lneKaTTlber.数据挖掘概念与技术北京:机械工业出版社.200l(作者E.maJ】:Jft59@s。hu.ocm)?67?。
  本文《KDD活动的开展及其价值分析》 --- 作者: 吴颖红

上一篇:Moodle环境下的学习准备期设计初探
下一篇:MOODLE在教师技术能力培训中的应用

其它相关文章

RFID技术与档案管理信息化
在软件项目实训中培养学生编码质量控制能力
Portal技术在图书馆个性化知识服务中的应用
股骨干骨折术后钢板、螺钉断裂原因分析及对策
谈谈提高医院门诊药房服务质量的几个问题
幸运住在我隔壁
纵观今日兰展热
修理Comdex
浅谈以学生为主体的《多媒体技术Illustrator》课程设
在校未成年学生人身损害赔偿若干问题分析
2010年供应链技术的十大趋势
知识管理在档案工作中的应用
《供用电系统》课程改革与实践
生产企业物资管理系统的开发与应用
Fujitsu比酷鸟第十六代硬盘
E制造易管理2011的意蕴
《电子技术》课程教学改革探索
远程教育实验教学的实施
KDD活动的开展及其价值分析
自由式滑雪空中技巧比赛场地标准化电子裁判系统的研究与设计