基于数据挖掘的医院防病患欺诈模型研究应该怎么建模是什么,就是具体的模型是什么,还有就是数据哪里找啊!

基于数据挖掘的财务欺诈识别--《西南财经大学》2013年硕士论文
基于数据挖掘的财务欺诈识别
【摘要】:上市公司通过财务信息将企业经营状况和经营成果等传递给企业利益相关者,使他们能够了解企业的过去、现在和未来。目前,上市公司财务欺诈问题严重干扰我国证券市场的健康发展,成为证券监管部门、广大投资者等利益相关者关注的焦点问题,建立一套精确的财务欺诈识别模型具有重要的研究意义。
财务欺诈的识别方法有很多。本文详细阐述了如下的方法:单变量分析、基于案例的推理、Logstic、线性概率模型、神经网络、多元判别分析、支持向量机模型、决策树、贝叶斯分类模型、主成分回归模型。国内外对财务欺诈的识别大都把所有行业的欺诈公司放在一起研究,而针对按行业分类的研究却很少。
本文首先提出研究背景及意义,总结国内外的研究现状,阐明了研究内容和研究方法,然后研究财务欺诈的内涵及界定、财务欺诈的识别方法以及财务欺诈的识别变量。在此基础上,选择了148家财务欺诈企业和与之配对的148家非财务欺诈企业作为研究对象,先用神经网络模型和逻辑回归模型建模,再选出表现最好的模型,最后用这个最好的模型对样本进行分行业建模,分析本研究对财务欺诈识别的效果,并指出研究存在的局限及后续研究方向。
研究结果表明,分行业的建模能够明显提高财务欺诈识别模型的识别精度,它可以有效的帮助政府监管部门、投资者和审计部门正确的识别上市公司财务欺诈行为。
【关键词】:
【学位授予单位】:西南财经大学【学位级别】:硕士【学位授予年份】:2013【分类号】:F275;F276.6;F832.51【目录】:
摘要4-5Abstract5-91 绪论9-18 1.1 研究背景及研究意义9-10
1.1.1 研究背景9-10
1.1.2 研究意义10 1.2 文献综述10-16
1.2.1 国外研究状况10-13
1.2.2 国内研究状况13-16 1.3 研究内容及研究方法16-182 相关理论及其识别方法18-34 2.1 财务欺诈内涵及界定18-22
2.1.1 财务欺诈的内涵18-20
2.1.2 财务欺诈的界定20
2.1.3 财务欺诈的成因20-22 2.2 财务欺诈识别方法评述22-34
2.2.1 单变量分析23
2.2.2 基于案例的推理23-24
2.2.3 线性概率模型24
2.2.4 逻辑回归模型24-26
2.2.5 神经网络模型26-27
2.2.6 贝叶斯分类模型27-28
2.2.7 多元判别分析方法28-29
2.2.8 决策树29
2.2.9 主成分分析29-30
2.2.10 支持向量机30-32
2.2.11 聚类分析32-343 指标体系的选取34-46 3.1 样本选取34-42
3.1.1 样本的来源34-39
3.1.2 财务欺诈识别变量的选择39-42 3.2 两独立样本比较的秩检验42-45 3.3 相关性检验结果45-464 财务欺诈识别模型的建立46-58 4.1 极值处理46-48
4.1.1 极值检测46-48
4.1.2 极值处理48 4.2 数据建模过程48-54 4.3 分行业建模及结果分析54-585 结论58-62 5.1 研究结果与启示58-59 5.2 研究局限性59-60 5.3 研究贡献60 5.4 未来展望60-62参考文献62-67后记67-68致谢68-69科研成果69
欢迎:、、)
支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库
阚京华;[J];财会通讯(学术版);2004年12期
陈骏,王明;[J];财会通讯(学术版);2005年04期
田华臣;[J];财会月刊;2004年05期
蔡宁,梁丽珍;[J];财经理论与实践;2003年06期
阎达五;王建英;;[J];财务与会计;2001年10期
华长生;;[J];当代财经;2008年12期
陈秋梅,陈鹏;[J];河北审计;2003年07期
程永文;;[J];合肥工业大学学报(自然科学版);2006年10期
刘君;王理平;;[J];哈尔滨商业大学学报(社会科学版);2006年03期
马永义,尹丽英;[J];中国注册会计师;2003年05期
【共引文献】
中国期刊全文数据库
杨家全;[J];阿坝师范高等专科学校学报;2003年02期
王昌锐;倪娟;;[J];安徽大学学报(哲学社会科学版);2012年01期
辛钗希;;[J];北方经济;2007年10期
谈江辉;;[J];边疆经济与文化;2005年12期
杨爱义,葛学韬;[J];商业研究;2002年10期
郭建伟,朱丽英;[J];商业研究;2003年07期
李常青,管连云;[J];商业研究;2004年19期
熊亚;[J];商业研究;2005年09期
张栋;[J];商业研究;2005年11期
徐星美;;[J];商业研究;2005年23期
中国重要会议论文全文数据库
高明华;蔡卫星;曾诚;;[A];中国道路:理论与实践——第三届北京中青年社科理论人才“百人工程”学者论坛(2009)论文集[C];2009年
崔学刚;赵颖囡;;[A];“2009年北京批发论坛”论文集[C];2009年
郭唐松;;[A];科学发展观与中国特色社会主义——全国社会科学院系统邓小平理论研究中心第十一届年会暨学术研讨会论文集[C];2006年
马良渝;杨锦乐;;[A];中国会计学会高等工科院校分会2006年学术年会暨第十三届年会论文集[C];2006年
陈丽贤;朱锦余;;[A];舞弊的防范与检查论文汇编[C];2005年
戴璐;孙茂竹;;[A];公司财务研讨会论文集[C];2004年
李备友;苏卫东;;[A];第19届灰色系统全国会议论文集[C];2010年
戴璐;孙茂竹;;[A];中国会计学会第六届理事会第二次会议暨2004年学术年会论文集(上)[C];2004年
曲晓辉;李明辉;;[A];中国会计学会第六届理事会第二次会议暨2004年学术年会论文集(下)[C];2004年
戴璐;孙茂竹;;[A];中国会计学会2005年学术年会论文集(下)[C];2005年
中国博士学位论文全文数据库
邓红平;[D];华中科技大学;2010年
张晓东;[D];东北财经大学;2010年
宋淑琴;[D];东北财经大学;2010年
曾月明;[D];东华大学;2011年
董文辰;[D];大连理工大学;2011年
李秀玉;[D];天津财经大学;2011年
宋洪琦;[D];山东大学;2011年
毛黎明;[D];中南大学;2010年
杨芳;[D];复旦大学;2011年
毋贤祥;[D];武汉理工大学;2011年
中国硕士学位论文全文数据库
曹岩;[D];山东科技大学;2010年
陈小雪;[D];湘潭大学;2010年
任纪霞;[D];中国海洋大学;2009年
陈燕;[D];江西财经大学;2010年
江江;[D];江西财经大学;2010年
张礼文;[D];江西财经大学;2010年
唐丽华;[D];江西财经大学;2010年
熊文娟;[D];江西财经大学;2010年
周军和;[D];华东师范大学;2010年
冯喆;[D];重庆理工大学;2010年
【二级参考文献】
中国期刊全文数据库
陈骏,王明;[J];财会通讯(学术版);2005年04期
高言;[J];财会通讯;1998年03期
何顺文;[J];财会通讯;2000年01期
蔡宁,梁丽珍;[J];财经理论与实践;2003年06期
薛祖云,黄彤;[J];财经理论与实践;2004年04期
郭雯;[J];当代经济科学;2001年02期
马其家;张婧;;[J];法学杂志;2008年01期
潘坚荣;[J];广东审计;2000年05期
李有根,赵西萍,李怀祖;[J];中国工业经济;2001年05期
吴淑琨,刘忠明,范建强;[J];中国工业经济;2001年09期
中国重要报纸全文数据库
东育;[N];中国财经报;2002年
中国硕士学位论文全文数据库
阮锦勤;[D];浙江大学;2003年
【相似文献】
中国期刊全文数据库
谢凌;张伟;;[J];内蒙古财经学院学报(综合版);2008年01期
华长生;;[J];当代财经;2008年12期
何耀;;[J];南华大学学报(社会科学版);2010年03期
葛家澍,杜兴强;[J];财会通讯(综合版);2003年01期
赵丽琴;;[J];财会学习;2006年05期
柏宝春;[J];商业研究;2005年10期
王建琼;王怀东;;[J];软科学;2009年12期
葛家澍;[J];会计研究;2003年01期
冯宇兰;;[J];金融经济;2008年20期
武鹏;;[J];煤;2009年01期
中国重要会议论文全文数据库
杨春然;;[A];决策与管理研究()——山东省软科学计划优秀成果汇编(第七册·下)[C];2009年
周春生;马光;;[A];中国金融学会第八届优秀论文评选获奖论文集[C];2005年
廖雪洁;刘汉民;;[A];第五届(2010)中国管理学年会——公司治理分会场论文集[C];2010年
叶华;;[A];中国会计学会财务管理专业委员会2009年学术年会论文集[C];2009年
刘瑞武;余漱峰;;[A];第九届全国会计信息化年会论文集(上)[C];2010年
黄少安;钟卫东;;[A];2010年(第十届)中国制度经济学年会论文集[C];2010年
叶明华;;[A];中国保险学会第二届学术年会入选论文集(理论卷1)[C];2010年
曹汛;;[A];对外经贸财会论文选第十五辑[C];2003年
浙江省内审协会课题组;;[A];石油杯全国上市公司内部审计理论研讨会暨经验交流论文汇编[C];2003年
;[A];石油杯全国上市公司内部审计理论研讨会暨经验交流论文汇编[C];2003年
中国重要报纸全文数据库
本报记者  李昌鸿;[N];证券时报;2006年
中国人民大学公共管理学院土地管理系
朱哲文 中共盐城市亭湖区委宣传部副部长、区委党校常务副校长
朱月潭;[N];江苏经济报;2010年
陶长高;[N];证券时报;2005年
许威;[N];21世纪经济报道;2010年
中央财经大学会计学院教授
鲁桂华;[N];第一财经日报;2011年
葛红梅;[N];财会信报;2005年
本报记者  陶俊;[N];中国证券报;2006年
方春银;[N];中国保险报;2002年
王建新;[N];中国财经报;2005年
新华社记者
白卫涛;[N];新华每日电讯;2002年
中国博士学位论文全文数据库
任海松;[D];东北财经大学;2006年
胡华夏;[D];武汉理工大学;2006年
黄学敏;[D];厦门大学;2006年
梦然;[D];南京理工大学;2002年
何旭;[D];东北林业大学;2003年
李绪富;[D];复旦大学;2003年
吴琳芳;[D];西北农林科技大学;2004年
杨柏;[D];重庆大学;2004年
李丹;[D];华中科技大学;2004年
潘丽春;[D];浙江大学;2005年
中国硕士学位论文全文数据库
杜华安;[D];西南财经大学;2013年
李俊;[D];湖南大学;2009年
原华英;[D];首都经济贸易大学;2009年
李伟;[D];西南财经大学;2011年
陈凌;[D];中国人民大学;2005年
熊芮卿;[D];西南交通大学;2013年
郭群英;[D];对外经济贸易大学;2004年
鄢波;[D];武汉理工大学;2004年
项琳娜;[D];武汉科技大学;2007年
光荫;[D];广东商学院;2013年
&快捷付款方式
&订购知网充值卡
400-819-9993
《中国学术期刊(光盘版)》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址:北京清华大学 84-48信箱 大众知识服务
出版物经营许可证 新出发京批字第直0595号
订购热线:400-819-82499
服务热线:010--
在线咨询:
传真:010-
京公网安备75号基于数据挖掘的医保诈骗筛选模型研究_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
基于数据挖掘的医保诈骗筛选模型研究
上传于|0|0|暂无简介
阅读已结束,如果下载本文需要使用1下载券
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩1页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢数据挖掘在防电信客户欺诈模型中的应用--《计算机时代》2009年04期
数据挖掘在防电信客户欺诈模型中的应用
【摘要】:首先分析了当前电信客户欺诈背景,提出把数据挖掘技术应用于电信客户欺诈系统中的构想。防范电信欺诈从操作角度来说就是对欺诈人群的行为进行控制,利用数据挖掘等先进技术对电信客户的行为进行分析。文章着重阐述了采用数据挖掘、朴素贝叶斯分类等技术建模以及验证过程。性能测试表明:将先进的数据挖掘贝叶斯分类技术应用于实际的电信客户欺诈系统中,具有一定的市场价值。该模型能挖掘出潜在的风险行为,识别出客户的欺诈行为,从而解决诸多规模小、分散性大的电信欺诈行为。
【作者单位】:
【关键词】:
【分类号】:TP311.13;F626【正文快照】:
0引言随着电信业务的蓬勃发展,现在的管理已经不能满足电信业务进一步发展的需要。电信业务的发展需要我们对电信的未来业务做出一定的预测,能够基于历史数据的分析,从中发现有用的信息,同时对未来业务状况作预言型描述,从而为决策提供支持。欺诈预测系统是根据以前拥有的用
欢迎:、、)
支持CAJ、PDF文件格式,仅支持PDF格式
【共引文献】
中国期刊全文数据库
王恩德,刘国斌;[J];吉林大学学报(信息科学版);2005年04期
范哲;;[J];电脑知识与技术;2006年05期
李雪婵;[J];广东广播电视大学学报;2005年02期
王泽彬,金飞,李夏,王冠;[J];哈尔滨工业大学学报;2005年10期
王颖楠,滕飞,解莉,孙俏;[J];吉林工学院学报(自然科学版);2002年01期
邓英,李明;[J];计算机工程与应用;2001年20期
王丽珍,陈红梅;[J];计算机工程与应用;2002年14期
蒋嶷川,田盛丰;[J];计算机工程;2002年01期
贾兆红,倪志伟,赵鹏;[J];计算机应用;2002年09期
许明旺;施润身;;[J];计算机应用;2006年10期
中国重要会议论文全文数据库
刘震宇;郭宝龙;杨林耀;;[A];2001年中国智能自动化会议论文集(下册)[C];2001年
中国博士学位论文全文数据库
王天真;[D];上海海事大学;2006年
白爱民;[D];天津大学;2006年
陈平;[D];北京邮电大学;2007年
尹世群;[D];西南大学;2008年
中国硕士学位论文全文数据库
李光辉;[D];西安理工大学;2006年
梁中杰;[D];重庆大学;2005年
蒋朝柱;[D];重庆大学;2005年
张峰;[D];中国海洋大学;2006年
汪高明;[D];中国海洋大学;2006年
闫兆振;[D];山东科技大学;2006年
郭维;[D];上海海事大学;2006年
董小川;[D];浙江大学;2006年
任丽君;[D];华东师范大学;2006年
关大伟;[D];吉林大学;2006年
【相似文献】
中国期刊全文数据库
;[J];中国金融电脑;1994年08期
;[J];网络与信息;1995年07期
冯睿;[J];财经论丛;1996年06期
;[J];计算机系统应用;1996年09期
吴新瞻;[J];今日电子;1996年06期
杨则正;[J];管理科学文摘;1996年11期
冯善尧;[J];建筑设计管理;1996年05期
张劲松;[J];冶金管理;1996年12期
罗亦文;[J];中国金融电脑;1996年02期
张文超;[J];中国金融电脑;1996年11期
中国重要会议论文全文数据库
邱志刚;李志真;陈梓雄;邓汉权;;[A];发展的信息技术对管理的挑战——99’管理科学学术会议专辑(上)[C];1999年
吕兰;;[A];福建省图书馆学会“知识经济与图书馆服务”学术研讨会论文集[C];1999年
陈文伟;黄金才;陈元;;[A];系统工程与可持续发展战略——中国系统工程学会第十届年会论文集[C];1998年
邓贵仕;;[A];系统工程与可持续发展战略——中国系统工程学会第十届年会论文集[C];1998年
张劲松;;[A];管理科学与系统科学进展——全国青年管理科学与系统科学论文集(第4卷)[C];1997年
罗蓉;薛模根;胡宝成;;[A];1999年中国智能自动化学术会议论文集(下册)[C];1999年
李永敏;朱善君;吉吟东;陈湘晖;;[A];1998中国控制与决策学术年会论文集[C];1998年
魏定国;;[A];1998中国控制与决策学术年会论文集[C];1998年
张金辉;;[A];1999中国控制与决策学术年会论文集[C];1999年
董伯儒;林少培;王永文;;[A];中国土木工程学会计算机应用分会第七届年会土木工程计算机应用文集[C];1999年
中国重要报纸全文数据库
子文;[N];中国证券报;2000年
孙志永;[N];中国计算机报;2000年
朴华;[N];中国计算机报;2000年
;[N];中国计算机报;2000年
北京北大融通科技发展有限公司
博士;[N];中国计算机报;2000年
方平;[N];计算机世界;2000年
西安交通大学
朱国昱;[N];计算机世界;2000年
;[N];通信产业报;2000年
;[N];网络世界;2000年
四川大学计算机学院
陈华英;[N];网络世界;2000年
中国博士学位论文全文数据库
陈燕;[D];大连理工大学;2000年
马刚;[D];大连理工大学;2000年
李初民;[D];重庆大学;2001年
曹蓟光;[D];浙江大学;2001年
高飞;[D];西安电子科技大学;2001年
陈金玉;[D];重庆大学;2002年
冯红伟;[D];西北工业大学;2002年
张保稳;[D];西北工业大学;2002年
刘业政;[D];合肥工业大学;2002年
孟军;[D];东北农业大学;2002年
中国硕士学位论文全文数据库
胡向阳;[D];大连理工大学;1999年
文海龙;[D];铁道部科学研究院;2000年
蔡刚坤;[D];西安理工大学;2000年
任锦鸾;[D];河北工业大学;2000年
马磊;[D];河北工业大学;2000年
谷宏伟;[D];河北工业大学;2000年
田永鸿;[D];电子科技大学;2000年
王弋;[D];电子科技大学;2000年
李涛;[D];大连理工大学;2000年
王前;[D];大连理工大学;2000年
&快捷付款方式
&订购知网充值卡
400-819-9993
《中国学术期刊(光盘版)》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址:北京清华大学 84-48信箱 大众知识服务
出版物经营许可证 新出发京批字第直0595号
订购热线:400-819-82499
服务热线:010--
在线咨询:
传真:010-
京公网安备75号中国领先的IT技术网站
51CTO旗下网站
做好数据挖掘模型的9条经验总结
也许是因为数据挖掘源于实践而非 理论,在其过程的理解上不太引人注意。20世纪90年代晚期发展的CRISP-DM,逐渐成为数据挖掘过程的一种标准化过程,被越来越多的数据挖掘实践者成功运用和遵循。
作者:lovedata来源:| 11:05
数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。
当前的数据挖掘形式,是在20世纪90年代实践领域诞生的,是在集成数据挖掘算法平台发展的支撑下适合商业分析的一种形式。也许是因为数据挖掘源于实践而非
理论,在其过程的理解上不太引人注意。20世纪90年代晚期发展的CRISP-DM,逐渐成为数据挖掘过程的一种标准化过程,被越来越多的数据挖掘实践者成功运用和遵循。
虽然CRISP-DM能够指导如何实施数据挖掘,但是它不能解释数据挖掘是什么或者为什么适合这样做。在本文中我将阐述我提出数据挖掘的九种准则或&定律&(其中大多数为实践者所熟知)以及另外其它一些熟知的解释。开始从理论上(不仅仅是描述上)来解释数据挖掘过程。
我的目的不是评论CRISP-DM,但CRISP-DM的许多概念对于理解数据挖掘是至关重要的,本文也将依赖于CRISP-DM的常见术语。CRISP-DM仅仅是论述这个过程的开始。
第一,目标律:业务目标是所有数据解决方案的源头
它定义了数据挖掘的主题:数据挖掘关注解决业务业问题和实现业务目标。数据挖掘主要不是一种技术,而是一个过程,业务目标是它的的核心。
没有业务目标,没有数据挖掘(不管这种表述是否清楚)。因此这个准则也可以说成:数据挖掘是业务过程。
第二,知识律:业务知识是数据挖掘过程每一步的核心
这里定义了数据挖掘过程的一个关键特征。CRISP-DM的一种朴素的解读是业务知识仅仅作用于数据挖掘过程开始的目标的定义与最后的结果的实施,这将错过数据挖掘过程的一个关键属性,即业务知识是每一步的核心。
为了方便理解,我使用CRISP-DM阶段来说明:
商业理解必须基于业务知识,所以数据挖掘目标必须是业务目标的映射(这种映射也基于数据知识和数据挖掘知识);
数据理解使用业务知识理解与业务问题相关的数据,以及它们是如何相关的;
数据预处理就是利用业务知识来塑造数据,使得业务问题可以被提出和解答(更详尽的第三条&准备律);
建模是使用数据挖掘算法创建预测模型,同时解释模型和业务目标的特点,也就是说理解它们之间的业务相关性;
评估是模型对理解业务的影响;
实施是将数据挖掘结果作用于业务过程
总之,没有业务知识,数据挖掘过程的每一步都是无效的,也没有&纯粹的技术&步骤。
业务知识指导过程产生有益的结果,并使得那些有益的结果得到认可。数据挖掘是一个反复的过程,业务知识是它的核心,驱动着结果的持续改善。
这背后的原因可以用&鸿沟的表现&(chasm of representation)来解释(Alan
Montgomery在20世纪90年代对数据挖掘提出的一个观点)。Montgomery指出数据挖掘目标涉及到现实的业务,然而数据仅能表示现实的一
部分;数据和现实世界是有差距(或&鸿沟&)的。在数据挖掘过程中,业务知识来弥补这一差距,在数据中无论发现什么,只有使用业务知识解释才能显示其重要
性,数据中的任何遗漏必须通过业务知识弥补。只有业务知识才能弥补这种缺失,这是业务知识为什么是数据挖掘过程每一步骤的核心的原因。
第三,准备律:数据预处理比数据挖掘其他任何一个过程都重要
这是数据挖掘著名的格言,数据挖掘项目中最费力的事是数据获取和预处理。非正式估计,其占用项目的时间为50%-80%。最简单的解释可以概括为&数据是困
难的&,经常采用自动化减轻这个&问题&的数据获取、数据清理、数据转换等数据预处理各部分的工作量。虽然自动化技术是有益的,支持者相信这项技术可以减
少数据预处理过程中的大量的工作量,但这也是误解数据预处理在数据挖掘过程中是必须的原因。
数据预处理的目的是把数据挖掘问题转化为格式化的数据,使得分析技术(如数据挖掘算法)更容易利用它。数据任何形式的变化(包括清理、最大最小值转换、增长
等)意味着问题空间的变化,因此这种分析必须是探索性的。 这是数据预处理重要的原因,并且在数据挖掘过程中占有如此大的工作量,这样数据挖掘者可以从容
地操纵问题空间,使得容易找到适合分析他们的方法。
有两种方法&塑造&这个问题
空间。第一种方法是将数据转化为可以分析的完全格式化的数据,比如,大多数数据挖掘算法需要单一表格形式的数据,一个记录就是一个样例。数据挖掘者都知道
什么样的算法需要什么样的数据形式,因此可以将数据转化为一个合适的格式。第二种方法是使得数据能够含有业务问题的更多的信息,例如,某些领域的一些数据
挖掘问题,数据挖掘者可以通过业务知识和数据知识知道这些。 通过这些领域的知识,数据挖掘者通过操纵问题空间可能更容易找到一个合适的技术解决方案。
因此,通过业务知识、数据知识、数据挖掘知识从根本上使得数据预处理更加得心应手。 数据预处理的这些方面并不能通过简单的自动化实现。
这个定律也解释了一个有疑义的现象,也就是虽然经过数据获取、清理、融合等方式创建一个数据仓库,但是数据预处理仍然是必不可少的,仍然占有数据挖掘过程一
半以上的工作量。此外,就像CRISP-DM展示的那样,即使经过了主要的数据预处理阶段,在创建一个有用的模型的反复过程中,进一步的数据预处理的必要的。
第四,试验律(NFL律:No Free
Lunch):对于数据挖掘者来说,天下没有免费的午餐,一个正确的模型只有通过试验(experiment)才能被发现
机器学习有一个原则:如果我们充分了解一个问题空间(problem
space),我们可以选择或设计一个找到最优方案的最有效的算法。一个卓越算法的参数依赖于数据挖掘问题空间一组特定的属性集,这些属性可以通过分析发
现或者算法创建。但是,这种观点来自于一个错误的思想,在数据挖掘过程中数据挖掘者将问题公式化,然后利用算法找到解决方法。事实上,数据挖掘者将问题公
式化和寻找解决方法是同时进行的&&算法仅仅是帮助数据挖掘者的一个工具。
有五种因素说明试验对于寻找数据挖掘解决方案是必要的:
数据挖掘项目的业务目标定义了兴趣范围(定义域),数据挖掘目标反映了这一点;
与业务目标相关的数据及其相应的数据挖掘目标是在这个定义域上的数据挖掘过程产生的;
这些过程受规则限制,而这些过程产生的数据反映了这些规则;
在这些过程中,数据挖掘的目的是通过模式发现技术(数据挖掘算法)和可以解释这个算法结果的业务知识相结合的方法来揭示这个定义域上的规则;
数据挖掘需要在这个域上生成相关数据,这些数据含有的模式不可避免地受到这些规则的限制
在这里强调一下最后一点,在数据挖掘中改变业务目标,CRISP-DM有所暗示,但经常不易被觉察到。广为所知的CRISP-DM过程不是下一个步骤仅接着上一个步骤的&瀑布&式的过程。事实上,在项目中的任何地方都可以进行任何CRISP-DM步骤,同样商业理解也可以存在于任何一个步骤。业务目标不是简
单地在开始就给定,它贯穿于整个过程。这也许可以解释一些数据挖掘者在没有清晰的业务目标的情况下开始项目,他们知道业务目标也是数据挖掘的一个结果,不是静态地给定。
Wolpert的&没有免费的午餐&理论已经应用于机器学习领域,无偏的状态好于(如一个具体的算法)任何其他可能的问题(数据集)出现的平均状态。这是因为,如果我们考虑所有可能的问题,他们的解决方法是均匀分布的,以至于一个算法(或偏倚)对一个子集是有利的,而对另一个子集是不利的。这与数据挖掘者所知的具有惊人的相似性,没有一个算法适合每一个问题。但是经
过数据挖掘处理的问题或数据集绝不是随机的,也不是所有可能问题的均匀分布,他们代表的是一个有偏差的样本,那么为什么要应用NFL的结论?答案涉及到上
面提到的因素:问题空间初始是未知的,多重问题空间可能和每一个数据挖掘目标相关,问题空间可能被数据预处理所操纵,模型不能通过技术手段评估,业务问题本身可能会变化。由于这些原因,数据挖掘问题空间在数据挖掘过程中展开,并且在这个过程中是不断变化的,以至于在有条件的约束下,用算法模拟一个随机选择的数据集是有效的。对于数据挖掘者来说:没有免费的午餐。
这大体上描述了数据
挖掘过程。但是,在有条件限制某些情况下,比如业务目标是稳定的,数据和其预处理是稳定的,一个可接受的算法或算法组合可以解决这个问题。在这些情况下,
一般的数据挖掘过程中的步骤将会减少。 但是,如果这种情况稳定是持续的,数据挖掘者的午餐是免费的,或者至少相对便宜的。像这样的稳定性是临时的,因为
对数据的业务理解(第二律)和对问题的理解(第九律)都会变化的。
第五,模式律(大卫律):数据中总含有模式
这条规律最早由David Watkins提出。
我们可能预料到一些数据挖掘项目会失败,因为解决业务问题的模式并不存在于数据中,但是这与数据挖掘者的实践经验并不相关。
前文的阐述已经提到,这是因为:在一个与业务相关的数据集中总会发现一些有趣的东西,以至于即使一些期望的模式不能被发现,但其他的一些有用的东西可能会被
发现(这与数据挖掘者的实践经验是相关的);除非业务专家期望的模式存在,否则数据挖掘项目不会进行,这不应感到奇怪,因为业务专家通常是对的。
然而,Watkins提出一个更简单更直接的观点:&数据中总含有模式。&这与数据挖掘者的经验比前面的阐述更一致。这个观点后来经过Watkins修正,基于客户关系的数据挖掘项目,总是存在着这样的模式即客户未来的行为总是和先前的行为相关,显然这些模式是有利可图的(Watkins的客户关系管理定律)。但是,数据挖掘者的经验不仅仅局限于客户关系管理问题,任何数据挖掘问题都会存在模式(Watkins的通用律)。
Watkins的通用律解释如下:
数据挖掘项目的业务目标定义了兴趣范围(定义域),数据挖掘目标反映了这一点;
与业务目标相关的数据及其相应的数据挖掘目标是在这个定义域上的数据挖掘过程产生的;
这些过程受规则限制,而这些过程产生的数据反映了这些规则;
在这些过程中,数据挖掘的目的是通过模式发现技术(数据挖掘算法)和可以解释这个算法结果的业务知识相结合的方法来揭示这个定义域上的规则;
数据挖掘需要在这个域上生成相关数据,这些数据含有的模式不可避免地受到这些规则的限制
总结这一观点:数据中总存在模式,因为在这过程中不可避免产生数据这样的副产品。为了发掘模式,过程从(你已经知道它)&&业务知识开始。
利用业务知识发现模式也是一个反复的过程;这些模式也对业务知识有贡献,同时业务知识是解释模式的主要因素。在这种反复的过程中,数据挖掘算法简单地连接了业务知识和隐藏的模式。
如果这个解释是正确的,那么大卫律是完全通用的。除非没有相关的数据的保证,否则在每个定义域的每一个数据挖掘问题总是存在模式的。
第六,洞察律:数据挖掘增大对业务的认知
数据挖掘是如何产生洞察力的?这个定律接近了数据挖掘的核心:为什么数据挖掘必须是一个业务过程而不是一个技术过程。业务问题是由人而非算法解决的。数据挖
掘者和业务专家从问题中找到解决方案,即从问题的定义域上达到业务目标需要的模式。数据挖掘完全或部分有助于这个认知过程。数据挖掘算法揭示的模式通常不
是人类以正常的方式所能认识到的。综合这些算法和人类正常的感知的数据挖掘过程在本质上是敏捷的。在数据挖掘过程中,问题解决者解释数据挖掘算法产生的结
果,并统一到业务理解上,因此这是一个业务过程。
这类似于&智能放大器&的概念,在早期的人工智能的领域,AI的第一个实际成果不是智能机器,而是被称为&智能放大器&的工具,它能够协助人类使用者提高获取有效信息的能力。数据挖掘提供一个类似的&智能放大器&,帮助业务专家解决他们不能单独完成的业务问题。
总之,数据挖掘算法提供一种超越人类以正常方式探索模式的能力,数据挖掘过程允许数据挖掘者和业务专家将这种能力融合在他们的各自的问题的中和业务过程中。
第七,预测律:预测提高了信息泛化能力
&预测&已经成为数据挖掘模型可以做什么的可接受的描述,即我们常说的&预测模型&和&预测分析&。这是因为许多流行的数据挖掘模型经常使用&预测最可能的结果&(或者解释可能的结果如何有可能)。这种方法是分类和回归模型的典型应用。
但是,其他类型的数据挖掘模型,比如聚类和关联模型也有&预测&的特征。这是一个含义比较模糊的术语。一个聚类模型被描述为&预测&一个个体属于哪个群体,一个关联模型可能被描述为基于已知基本属性&预测&一个或更多属性。
同样我们也可以分析&预测&这个术语在不同的主题中的应用:一个分类模型可能被说成可以预测客户行为&-更加确切的说它可以预测以某种确定行为的目标客户,即使不是所有的目标个体的行为都符合&预测&的结果。一个诈骗检测模型可能被说成可以预测个别交易是否具有高风险性,即使不是所有的预测的交易都有欺诈行为。
&预测&这个术语广泛的使用导致了所谓的&预测分析&被作为数据挖掘的总称,并且在业务解决方案中得到了广泛的应用。但是我们应该意识到这不是日常所说的&预测&,我们不能期望预测一个特殊个体的行为或者一个特别的欺诈调查结果。
那么,在这个意义下的&预测&是什么?分类、回归、聚类和 关
联算法以及他们集成模型有什么共性呢?答案在于&评分&,这是预测模型应用到一个新样例的方式。模型产生一个预估值或评分,这是这个样例的新信息的一部
分;在概括和归纳的基础上,这个样例的可利用信息得到了提高,模式被算法发现和模型具体化。值得注意的是这个新信息不是在&给定&意义上的&数据&,它仅
有统计学意义。
第八,价值律:数据挖掘的结果的价值不取决于模型的稳定性或预测的准确性
准确性和稳定性是预测模型常用的两个度量。准确性是指正确的预测结果所占的比例;稳定性是指当创建模型的数据改变时,用于同一口径的预测数据,其预测结果变
化有多大(或多小)。鉴于数据挖掘中预测概念的核心角色,一个预测模型的准确性和稳定性常被认为决定了其结果的价值的大小,实际上并非如此。
体现预测模型价值的有两种方式:一种是用模型的预测结果来改善或影响行为,另一种是模型能够传递导致改变策略的见解(或新知识)。
对于后者,传递出的任何新知识的价值和准确性的联系并不那么紧密;一些模型的预测能力可能有必要使我们相信发现的模式是真实的。然而,一个难以理解的复杂的
或者完全不透明的模型的预测结果具有高准确性,但传递的知识也不是那么有见地;然而,一个简单的低准确度的模型可能传递出更有用的见解。
准确性和价值之间的分离在改善行为的情况下并不明显,然而一个突出问题是&预测模型是为了正确的事,还是为了正确的原因?&
换句话说,一个模型的价值和它的预测准确度一样,都源自它的业务问题。例如,客户流失模型可能需要高的预测准确度,否则对于业务上的指导不会那么有效。相
反的是一个准确度高的客户流失模型可能提供有效的指导,保留住老客户,但也仅仅是最少利润客户群体的一部分。如果不适合业务问题,高准确度并不能提高模型
模型稳定性同样如此,虽然稳定性是预测模型的有趣的度量,稳定性不能代替模型提供业务理解的能力或解决业务问题,其它技术手段也是如此。
总之,预测模型的价值不是由技术指标决定的。数据挖掘者应该在模型不损害业务理解和适应业务问题的情况下关注预测准确度、模型稳定性以及其它的技术度量。
第九,变化律:所有的模式因业务变化而变化
数据挖掘发现的模式不是永远不变的。数据挖掘的许多应用是众所周知的,但是这个性质的普遍性没有得到广泛的重视。
数据挖掘在市场营销和CRM方面的应用很容易理解,客户行为模式随着时间的变化而变化。行为的变化、市场的变化、竞争的变化以及整个经济形势的变化,预测模型会因这些变化而过时,当他们不能准确预测时,应当定期更新。
数据挖掘在欺诈模型和风险模型的应用中同样如此,随着环境的变化欺诈行为也在变化,因为罪犯要改变行为以保持领先于反欺诈。欺诈检测的应用必须设计为就像处理旧的、熟悉的欺诈行为一样能够处理新的、未知类型的欺诈行为。
某些种类的数据挖掘可能被认为发现的模式不会随时间而变化,比如数据挖掘在科学上的应用,我们有没有发现不变的普遍的规律?也许令人惊奇的是,答案是即使是这些模式也期望得到改变。理由是这些模式并不是简单的存在于这个世界上的规则,而是数据的反应&-这些规则可能在某些领域确实是静态的。
然而,数据挖掘发现的模式是认知过程的一部分,是数据挖掘在数据描述的世界与观测者或业务专家的认知之间建立的一个动态过程。因为我们的认知在持续发展和增
长,所以我们也期望模式也会变化。明天的数据表面上看起来相似,但是它可能已经集合了不同的模式、(可能巧妙地)不同的目的、不同的语义;分析过程因受业
务知识驱动,所以会随着业务知识的变化而变化。基于这些原因,模式会有所不同。
总之,所有的模式都会变化,因为他们不仅反映了一个变化的世界,也反映了我们变化的认知。
这九条定律是关于数据挖掘的简单的真知。这九条定律的大部分已为数据挖掘者熟知,但仍有一些不熟悉(例如,第五、第六、第七)。大多数新观点的解释都和这九条定律有关,它试图解释众所周知的数据挖掘过程中的背后的原因。
我们为什么何必在意数据挖掘过程所采用的形式呢?除了知识和理解这些简单的诉求,有实实在在的理由去探讨这些问题。
数据挖掘过程以现在的形式存在是因为技术的发展&-机器学习算法的普及以及综合其它技术集成这些算法的平台的发展,使得商业用户易于接受。我们是否应该期望因技术的改变而改变数据挖掘过程?最终它会改变,但是如果我们理解数据挖掘过程形成的原因,然后我们可以辨别技术可以改变的和不能改变的。
一些技术的发展在预测分析领域具有革命性的作用,例如数据预处理的自动化、模型的重建以及在部署的框架里通过预测模型集成业务规则。数据挖掘的九条定律及其
解释说明:技术的发展不会改变数据挖掘过程的本质。这九条定律以及这些思想的进一步发展,除了有对数据挖掘者的教育价值之外,应该被用来判别未来任何数据
挖掘过程革命性变化的诉求。【编辑推荐】【责任编辑: TEL:(010)】
大家都在看猜你喜欢
外电头条头条外电头条
24H热文一周话题本月最赞
讲师:5人学习过
讲师:1人学习过
讲师:4人学习过
精选博文论坛热帖下载排行
本书全面深入地介绍了在网络的日常管理中,网络管理员必须掌握的知识,包括系统基本管理、性能调优、故障恢复、域控制器管理、存储资源管理...
订阅51CTO邮刊

我要回帖

更多关于 建模是什么 的文章

 

随机推荐