不做肿瘤研究,数据挖掘发展前景怎么发文章

对于一个编程基础不是很好的学生来说,学习数据挖掘、机器学习之类的并以后从事这样的工作靠谱吗? - 知乎2892被浏览189779分享邀请回答1.7K67 条评论分享收藏感谢收起94 条评论分享收藏感谢收起查看更多回答免费课堂:不想做实验,如何发一篇5分的文章?
我的图书馆
免费课堂:不想做实验,如何发一篇5分的文章?
免费课堂:不想做实验,如何发一篇5分的文章?
依凡 小张聊科研
小张聊科研
功能介绍 聊聊跟科研有关的感想心得,如基金,文章和实验。
近期在Nature子刊Scientific Reports上看到一篇不错的文章。整个文章中,作者没有做任何“湿实验”,却顺利地发了一篇5分的文章,试问这又是如何做到的呢?今天,依凡就带领大家,从“数据挖掘”的角度一起来看一下作者是如何实现的吧。从题目中我们看到,作者研究的研究对象是lncRNA,所用的样本是多种肿瘤组织,研究方法是共表达网分析(co-expression network analysis)。面对这样的题目,我们大家肯定会想到几个问题:第一,如何获得肿瘤样本?特别是多种不同肿瘤?临床工作者如果要收集肿瘤样本,一般是在自己科室完成,而很难去其他科室收集到不同肿瘤组织。第二,就算是克服重重困难,获得了肿瘤组织,那下面又该如何研究下去呢?如何获得肿瘤组织中lncRNA的表达?要做全转录组测序吗?第三,即使花了大价钱,做了测序,那又该如何从这些海量的数据中获得自己想要的信息呢?共表达网络分析又是什么鬼?面对以上的这些难以克服的难题,作者是如何做的呢?首先,为了解决数据来源的问题,作者从SRA, ERP这些著名的公共数据库上下载了4个数据集:然后从数据集出发,开始后续的分析。从简单的分析入手,例如寻找不同肿瘤组织中共同表达的基因:找到差异表达基因,绘制热图:以及高级的共表达网络分析:以上的这些分析,有些是常用的分析手段,有些是较为高级的分析方法。是不是觉得很简单很有趣呢,那么问题来了:我们该如何理解这些图表;关键是我们自己如何才能实现这些图表呢?那么,重点来咯!!!依凡大大于本周四5月11号晚上20:00-21:30,以腾讯课堂的形式先为大家带来一场直播课,对该文进行重现。依凡希望借此能带领大家一起领略“数据挖掘的魅力”,让你不做实验也能发文章哦。心动不?激动不?期待不?快快加入预报名群吧!!!
长按二维码向我转账
受苹果公司新规定影响,微信 iOS 版的赞赏功能被关闭,可通过二维码转账支持公众号。
微信扫一扫关注该公众号
TA的最新馆藏
喜欢该文的人也喜欢【基础研究】一文读懂:数据挖掘如何指导临床科研
如今,在大数据的背景之下,医院信息也成为了临床科研、医院管理工作的热点问题。那么,你知道如何利用医院信息指导临床科研吗?不知道?不要紧,本篇文章结合了小编多年工作经验,一文搞定所有问题!1医院HIS系统的特点医疗信息系统(Hospital Information System)是医院用以保存患者在院就诊的信息系统的统称,包含了门诊、住院患者发生的医疗行为的各种信息,包括疾病信息、诊疗信息、用药、手术等。医院的信息具有如下特点:1、数据量大2、数据种类多样(a)影像,音频数据(b)结构化数据3、针对临床科研方面的数据的利用度不足这些信息如何能够为临床科研服务、为医院管理服务,是临床医生、科研工作人员以及医院管理人员所关心的问题。图1:医院信息系统的组成2基于HIS的临床科研的优点方向大概有这样几个:图2相比之下,基于HIS的临床科研的优点体现在以下方面: &样本·大样本·可提供有效和典型的数据样本数据·可以灵活的增加数据字段·实时收集数据,并没有时间限制研究设计·易于识别潜在的混杂因素&·灵活地进行研究设计&病人识别追踪·易于建立科研随访,自动病人追踪·易于病人识别,尤其是罕见病患者时间和资源节省时间和资源基于HIS的临床科研也存在局限性,主要体现在以下方面: 样本范围·样本局限在某个电子病历系统中(可获得性)数据处理·数据不准确、重复、不一致或缺失数据·缺少标准造成数据交换和数据集成困难研究设计·试验条件不易控制·一些研究变量没有包含在电子病历中3数据挖掘的种类和价值图3图4 决策树—Decision Tree决策树是一种十分常用的分类方法,属于监管学习。所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。相比传统的统计方法,决策树的优点有:对数据分布不敏感 更好地处理交互作用预测效果更好案例这个文章利用到了决策树的方法进行数据挖掘,文章的目标是对比分析功能性便秘和便秘型IBS患者的相关生活因素的差异,由于各自变量间交互作用的存在,文章采用了决策树的分析方法,对患者的饮酒,吸烟,饮食,运动等行为进行分析。和logistic回归模型相比,决策树的分类效果更佳优秀。支持向量机支持向量机是今年应用比较多的有监管的机器学习算法,其思想是将低维空间映射到高维空间进行分类判别,相比传统的判别分析,其优点体现在分类的准确性更高,实现过程更灵活。案例这个文章是利用支持向量机对肿瘤进行分类和预测。聚类—clustering & & & 聚类算法是一种无监管的学习方法,常见的算法有层次聚类,k均值聚类,K邻近聚类等。在医疗应用中,我们常常用到一些监测指标对疾病或人群进行聚类。关联规则—Association Rules关联规则的最广为人知的案例是“啤酒和尿布”,大型购物超市对消费者的消费记录进行分析,最终发现购买尿布的男性奶爸更有可能会顺带买一打啤酒,因此,根据这个结果,超市将啤酒和尿布一起摆放,销量有明显增长。案例数据来自某三级医院住院患者病案首页(年)。黄色表示疾病并发症,绿色表示既往病史。大小表示人次,线的粗细表示偏相关系数大小。这种关联分析的思路也可以用于临床。这个图形展示了一家医院的HIS系统中,糖尿病患者的相关疾病关联关系。 其中,黄色表示并发症,绿色表示既往病史,其中圆圈的大小表示该疾病的患病人次,任意两个圆圈之间的线表示其相关关系,粗细表示关系的强弱。这个图形向我们揭示了在该医院就诊的人群,发生心脏病的患者其发生肾病,视网膜病变和血管病变的关系高。同样,这种关联分析还可以应用到不同的分析方面如用药的分析,患者基本情况和患病情况的分析等等。来自孙闯老师
复制文本链接
好评率 100%
好评率 100%
好评率 100%
好评率 99.76%不做实验,用公开的数据发自己的文章
要发文章,可没有时间做实验?
R 语言、GEO、Genbank 又似懂非懂。
没关系,学习 / 晋升之旅我们陪你一起走。
试播课程:《实用科研数据库挖掘之 R 语言基础 1 》
46节视频课程,手把手教你用公开的数据发 自己的文章。
&平均 ?11 /节,可永久观看&
现在购买课程,可免费进入 VIP 答疑群,有不懂的专业问题可以在群里沟通或者直接请教讲师。讲师每周会固定时间在群里为大家答疑解惑。
从实例出发,针对科研工作中最常用到的数据库,包括肿瘤数据库 TCGA,cBioPortal,SRA,COSMIC;表达谱数据库 GEO,Oncomine;基因组数据库 UCSC,Ensembl;序列数据库 GenBank,Uniprot 等。
结合文献实例的学习和动手操作,循序渐进地带领大家一步步从数据挖掘的「门外汉」到自己动手整理出一篇可以发表的文章。
&点击查看提纲大图&
&可以上下滑动&
点击「阅读原文」,立即领走 46 节系列课程。
责任编辑:
声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
今日搜狐热点

我要回帖

更多关于 数据挖掘发展前景 的文章

 

随机推荐