万字长文揭秘生信高手是怎么练成的

分类:ORA
更新时间:2022-08-19 14:49:15 作者:火狐软件手机版app 来源:火狐体育官网app

  这节课的主题叫做:生信课题设计思路解析,这个是大家从生信小白到生信高手必修的基本素质。

  我在本硕博分别读了三个完全不同的专业。我本科就读于山东中医药大学学中医,硕士呢,我考到了复旦基础医学院读神经生物学,博士期间,我在复旦中山医院跟临床老板做生信研究,负责临床和科研中的生信分析。

  我在本科期间就发表了5篇核心期刊,在硕博期间发表了10余篇SCI。乍一看,这几个专业之间的唯一联系就是生物和医学,学科跨度非常大,但是其科学研究的底层逻辑有其相似之处。万变不离其宗。

  关于生信,我开始也是因为兴趣驱使,自学的,当初我关注各种生信公号,买各种生信课程和代码,和解螺旋社群内的优秀小伙伴请教学习,从生信小白到一步步磕磕绊绊走过来,我也走了很多的弯路。回头想过来,如果再来一次,我可能更有重点地进行生信学习。所以,我特别想借着这个课,给大家做个生信学习的路径规划,让大家少走弯路。

  在这堂课里,我的这个【跨专业学习者】会给大家给大家解决畏难心理,帮大家迅速解决【如何上手】生信这个难题。

  2018年的时候,我是解螺旋的学员的早期学员。最开始从接触解螺旋的公号开始,当初抄了满满几厚本的笔记,后面又在千聊语音酸菜大大讲36策,惊为天人,一见萧郎误终身,后来也成了对我产生最大影响的人之一。当时就特别想认识酸菜大大,在知乎上搜索了很多如何让大佬把他会的教你类似的问题,有解螺旋的各种活动招募都积极参加,也从学员-会员-先锋班学员-到讲师-再到助教,最后在先锋班线下会上遇到酸菜大大随缘收徒弟,最终如愿所偿,因此后续有了和酸菜大大更多接触和学习的机会。

  酸菜大大在2019年就筹备构建生信体系课的课程体系。酸菜大大当初得知我对生信感兴趣,于是和我商量计划构建生信体系课的时候,给大家讲了一节生信研究方法论,打响了解螺旋生信生信体系课课程的第一枪。在当时的学员反响很好,我感受了酸菜大大强大的提炼模型和方法论的能力。

  在后面在生信体系课和一些业务的对接中,有幸近距离观察和学习酸菜大大的思考问题的模式。这堂课里我也会分享作为酸菜大大徒弟,在跟酸菜大大近距离学习过程中的一些心得和思考。

  2019年年底,解螺旋生信体系课上线以来,我在酸菜大大的帮助和指导下,一步步构建了解螺旋的生信社群,挑圈联靠的生信公号,以及接触到了上千位生信学员,帮助上百名学员顺利发表生信SCI。

  在接触各种小白生信学员的过程中,帮学员答疑的过程中,我发现大家都有很多共性的问题,很多生信入门不了的原因,要么是依赖性思维,要么是没有刻意练习,要么是没有掌握正确的学习方法。

  雪球希望通过这堂课,给大家介绍一些实用的生信学习和分析的方法,让大家学了就能用,就像你的朋友一样,站在你身边,帮你补足在生信学习中的短板,少踩一些坑。

  你可以认真问自己个问题,一个生信小白到生信高手的底层逻辑是什么?如果我想学好生信,应该学会哪些必备技能?

  为什么大家同为解螺旋学员,接触到相同的生信课程,有一样的参加解螺旋训练营的机会,有的三个月就能搞定常规生信的SCI图表,有的人学了两年连基本的生信思路都说不清楚?

  会进行生信分析和能顺利把生信SCI投出去并顺利接收,这当中还有一个巨大的横沟。

  雪球在对学员培训生信写作、投稿、返修的时候,发现即使学员们在我们的指导下都顺利完成的分析部分的工作,但是文章接收的快慢还有很大的差别。

  雪球复盘了200多位顺利发表生信SCI的学员,发现优秀的学员都有很强的自驱性,或者叫“气味”。

  比如:写作效率很高,能用空杯心态接受老师建议,擅长调研和找路径。我相信,这种特点和气味儿,不仅能帮他们增加发表生信SCI的成功率,扩展到科研方向的SCI或者课题申请,都会有比较高的成功率。

  雪球在解螺旋生信季的第一节内容的主题是,生信课题设计思路解析,帮你打造生信学习的超强认知。

  如果选择做基础科研,你最起码需要有实验室的一间实验台,需要有科研经费采买各种试剂和瓶瓶罐罐,需要花时间养老鼠,养细胞,基因鉴定,细胞转染,跑 WB,PCR、流式等各种实验,还要自己解决报税、申请伦理、标本收集等各方面的问题。

  毫不夸张的说,有的运气不好的小伙伴,光造动物模型这个事就干了两年多。没办法,模型不成功,后面表达和下游信号通路探索都进行不下去。

  但是基础科研也是后续申请省市级课题的基础,该做还得做,绕不过去,但是作为一穷二白冷启动期,确实只能远观不能亵渎。

  如果选择做临床科研,要么自己科室本身就有大量的患者随访数据,要么靠挖公共的临床数据库的

  资源。在早年间,Meta分析很火,很多医生都赶上了这波红利,汇总一些文章,从不同的角度出发,一年发十几二十篇文章的都大有人在。

  但是因为风头太盛,而且题目里必有“meta”的字眼, 后面meta分析不能作为很多高校的职称晋升和拿学位的标准了,Meta的热度就下来了。

  但是临床研究水平也是临床医生必不可少的技能点。有多少临床课题,有没有高水平的临床文章,也反映了临床医生的江湖地位。

  毕竟,如果有一篇改写指南的代表作,那在你的小圈子里肯定算得上是巨佬级别的人物了。

  随着常规的测序成本下来,稍微有点经费就能做测序,发个2-3分的文章绰绰有余;

  另外,测序又不断有新的测序类型和产品不断涌现,而且高端玩家也能钛金新技术,做第一个用该技术在本领域内的文章,就可以发到高影响力的期刊上;

  公共数据库存储了越来越多的测序数据,或者很多高分测序文章都提供了测序样本的补充材料,可以免费供研究者挖掘;

  可以说,无论你是贫穷还是富有,无论你是小白还是大咖,生信可以高效的满足你科研连续文章产出的需求。

  在老板随手扔给你一个课题方向的时候,你想过如何拆解这个课题,变成一个具有可行性的执行方案吗?

  首先分子怎么来?是看文献一个个盲猜,还是通过自己动手用公共数据筛?接下来信号通路选哪条,表型应该靠哪个?

  而且你写在文章或者课题里,专家总有种你不靠谱的感觉,为什么选了这个不选哪个?

  在数字化和讲究定量的科研时代,没有点生信测序结果,都有点拿不出手。无论是基础文章中的分子、机制、表型的筛选,还是和临床研究结合,用高通量数据构建临床变量的预测模型,都是很好的给科研增加论证维度的升级利器。

  另外,更务实的一点,发生信文章是目前最具有性价比的选择,具有周期短、起效快的特点。

  雪球当年有一篇基础实验一直在投,迟迟不中,后面紧急补了个生信文章,擦着边靠生信文章毕业。

  生信文章的题目还有一定的隐蔽性,有些生信文章起的题目和基础实验类似,在申请课题的时候,专家粗略一瞅,说不定也误认为是基础科研类的文章。

  未来生信在生信研究中的比重肯定会越来越高,也会有越来越的科研工作者掌握生信,生信会逐渐成为医生的刚需技能。

  如果你做的是纯基础或者临床类的研究,在投稿的时候,肯定也会有严谨的审稿人要求你做一组生信解释一下你的分子、机制、表型和临床变量怎么筛选的 。

  趁着今年,还有一些期刊还收纯生信文章,有一些3-5分的期刊对生信的分析难度还没这么高。

  等生信红利期过去,把生信当作自己武器库中的一个常见兵器,有机融入到你在科研中的每个环节,让生信起到为你科研探索方向出现岔路口的投石问路的探路器。

  贝索斯的商业哲学是通过更低的价格,更优的选择,更快的交付,推动其商业帝国的高速运转。对于我们科研工作者也是一样。

  当你在没有资源,没有经费的时候,通过生信红利,有了一些文章的积累之后,会有更多的课题,能有机会申请到名校名导的研究生,获得更好的科研资源和环境,从而进一步促进科研成果的产出,形成正向循环。

  在三年五年,甚至未来几十年的时间维度里,打造你自己的科研壁垒 ,起码做到在同行业内中上的水平。

  当你回过来看的时候,你在职业生涯里转变的那一点,就有可能是当初抓住了生信的红利,发的那几篇文章开始。

  不能说绝对,但是雪球相信,对很大一部分医生来说,生信能力的高低很大程度上是决定了你做科研的成败点。

  如果这么性价比高的SCI科研方案都搞不定,其他费时费钱费力的基础科研,也很难做的很好。

  很多人可能觉得自己在生信这件事上投入的时间和精力够多了,就是因为“笨“或者没有这块学习代码的天赋。可事实真的是这样吗?

  只要多听,多看,多问,多做,就能迅速上手生信了吗?那到底生信学习的捷径在哪里呢?

  著名的心理学家埃里克森在”专业特长科学“潜心几十年,研究了一系列行业或领域中的专家任务:国际象棋大师、顶尖小提琴家、运动明星、记忆高手、拼字冠军、杰出医生等。

  他发现,不论在什么行业或领域,提高技能与能力的最有效方法全都遵循一系列普遍原则,他将这周通用方法命名为”刻意练习“。为此著作了这本书《刻意练习》。

  刻意练习,是专门为了”提升能力“而设计出来的练习方法。刻意练习,有四个必须要素:套路,非舒适区、重复、反馈。

  套路就是门路,门在哪,路在哪,别人都摸索明白了,而你不知道,别人告诉你一套门路,你去学习了就能按图索骥,不进错门不走弯路,快速到达目的地。

  专业人士在基础训练的时候,学的都是套路,比如围棋的定式,编程的算法,数学的公式,物理的定理,都是套路。

  生信的研究套路就是把生信类的文章大量拆解,拆解成各种模块化的要素,有哪些恒量有哪些变量,有哪些加加减减的排列组合,有哪些逻辑链接,掌握了这些,基本上可以完成一个生信课题的设计。

  如果你想成长,在生信领域有所精进,需要跳出舒服的,自动做事的范畴,对标高手,不断挑战难题,才有机会成长。

  在生信研究方面,比如同一类文章套路,你用零代码的方式发表过几篇文章,下一步就需要考虑研究复杂度的升级,不要老是沉迷于老套路,去追一些高分生信文章的课题设计方式和分析方法,争取发表影响因子更高的SCI文章,申请更高规格的课题。

  沉溺于过去的成功经验,并不能代表未来你能始终追赶上生信研究套路的新趋势。

  重复是无聊又是必须的,大量重复有利于你形成肌肉记忆的条件反射,以及对套路内核更深刻的理解。

  在解螺旋生信部面试的时候,我们的技术主管总喜欢问面试者一句话,你一共写过多少行代码。这个问题的本质其实就是问代码的功底的最粗略的评估。

  早年间,雪球在网上学生信的时候,也认识了几个生信大神。他们的生信入门之路都如出一辙,都是比着几本R语言书《R数据科学》《R语言实战》整本书的敲代码敲了几遍。

  如果想写好R语言代码,离不开对常见统计学分析、可视化图表的常见代码的反复练习。多敲R语言代码,练手感的重要性,就好像你在学习武功的时候,练习蹲马步一个道理。

  你在做的过程,需要拿到反馈,告诉你下一步怎么调整。反馈就是起到教练的意义,能以旁观者的角度提供及时反馈。

  不管在练习任何技能或提高能力,大部分人很容易陷入自我而不察觉。相对于球类运动、围棋,科研比较特殊,很难有专门这样的【高水平的教练】。

  解螺旋正是通过大量的课程、生信讲席营,各种主题的训练营,都配有助教老师,就是为了帮助大家及时反馈。

  我们希望大家用科学的方法去做科研,用更高投入产出比的正确姿势更快学好生信。

  总结一下,生信高手都有个刻意练习的过程:套路、非舒适区、重复、反馈,缺一不可。

  今天的课程内容比较多,我们直奔主题吧。这个是雪球总结的“好的生信课题的四要素”。我快速读一下,让大家提前有个框架感。

  生信研究很重要,生信很百搭,那生信研究的本质是什么呢?四个字概括,就是挑圈联靠。

  所谓测序,就是通过大规模对样本不同分组间的基因的检测,得到其在不同维度的定量结果,如果是在基因组层面,就看有哪些基因突变;如果在转录组层面,就看有哪些基因的mRNA表达变化;依此类推。

  所以,拿到整理好的测序数据的第一步,就是找有哪些不一样的基因,把这些异常基因拎出来,也就是我们常说的”挑的这一步。

  我们现在手里有一些异常基因,孤零零的也没啥用啊,于是有人想到可以把这些基因进行分类,将其和生物学功能联系起来,看看这些基因和哪些通路有关、和哪些表型有关、和哪些细胞亚群有关。这一步联系,就是我们“圈”的这步,把基因进行分类。

  除了这些分子进行生物学归类,也可以看看这些分子的内部之间的相互联系,或者对外的相关关系。于是也有了“联”这一步,看看分子之间互作网络,分子的靶基因,分子与其他类型小分子的联系。

  有了生物学的关联,如果测得是人的样本,还可以收集到一些临床变量。我们还可以把测序数据和临床数据联系起来,看看不同亚组之间的基因特征联系,看看构建个临床预测模型,是否有可能成为临床变量的预测因子。这一步就是我们常说的“靠”这一步,看看有哪些临床关联。

  我们现在知道了生信研究的本质,还需要课题拆解、提炼重点、高效验证三步,才能完成一个好的课题设计。

  因为我们本堂课设置的培训的内容很多,这三个要点,雪球在后面几期课程中会给大家详细介绍,这里大家先有一个初步的印象。

  下面这个话题,我会用生信代码分析的思路,给大家拆解一下生信高手成长的IPO模型。

  IPO是《未来简史》中提出来的思考方式:任何计算机的算法意义,人的一生也是一个数据处理的过程,那么认知升级,就是某部分算法迭代和优化的过程。

  但凡算法,就会涉及到三个过程:输入(Input),处理(Process),输出(Output)

  这个是一个非超好的思考模型,任何一个科研工作者对任何一个领域的学习能力,或者学习效率,都可以拆解到这三个环节,然后看看是很差,一般般,比较平庸,还是优秀。

  你可能也观察到身边很多生信高手跟你说他自己的学习习惯,有的人从大量文献检索,然后复现,找资料去模仿,然后学的很好;

  有的人会跟你说,他参加了一些高质量的生信训练营,在营里跟着一天天学习,迅速入门生信;还有人说,他上了网上各种生信课程,东学学西学学,也学的很好。

  上了各种生信的课程?但是也有可能是将各种内容的精华都吸收了,取其精华,也有可能是囫囵吞枣,没有深入思考的能力;

  靠自己复现文章提升生信分析能力?也有可能是阅读了极少经典高质量的文章和代码文档,完成了高质量的思考和练习。

  所以,真正重要的是生信学习者IPO的质量,也就是信息输入、处理和输出的速度和质量,而不是表面上的学习习惯。

  这个环节,雪球准备了一个Checklist自查清单,包括8个关键问题,你可以认真回答一下这些问题,看看你是不是做的到位。

  你听过一句话么?你读什么书,就会变成什么人。这个背后,就是说信息输入的重要性。

  我相信大家都深有体会,随着年龄的增加,时间也会感觉越来越快,老是感觉时间不够用的。

  精力是我们最宝贵的财富,在有限的时间内,建议多多学习生信思路拆解、高水平的生信分析和可视化的教程,以及追新一些在对你略有挑战的文章拆解。

  如果一个生信学习者,生信内容的阅读的信息质量是你的10倍,那几乎可以断定,他的学习效率至少也比你高出几倍。

  刚开始学生信的时候,你可以从1-3分的生信文章看起,等到一定阶段,就应该更新到3-5分的生信文章套路拆解;再过一段时间,再提升文献阅读的质量的难度;

  再比如生信公号的阅读,在学习的初期,应该大量的时间来看生信文章的解读和简单图表的复现,等到后期,应该更多阅读整篇文章的高分文章复现,或者新套路的生信分析方法。

  真正有价值的信息其实是凤毛麟角的,随着学习程度的进阶,你应该不断更新阅读源,来不断提升你的信息质量。

  同样一篇文章,一个课程,一个训练营,让不同的人接触学习,大家最终得到的收获可能完全不同。

  我在协助学员文章返修的时候,经常会遇到审稿人问,你这个生信课题的主要结论是什么?

  当然,课题设计的模板没有固定答案,比如技术路线图放到最后一个图和第一个图没啥差别,有时候生信课题设计中个别分析排列组合的顺序变化一下也是允许的,但是你要理解生信分析合理配置图表的“度”在哪里,要了解各种分析的内涵和外延,以及其适用条件,不能看上去可以就蛮用。

  在生信分析中,也存在着很多功能相似的分析,但是都有其不同的试用条件,在合适的场景取用合适的分析很重要,能够把生信课题讲成一个有前后逻辑、有亮点的故事很重要。

  在生信文献学习和学可视化分析的过程中,需要你学着梳理文章的前后逻辑,每个分析试用的内涵和外延。

  GSEA分析中的输入文件,不仅是基因名,还有所有基因的表达值。这与我们进行GO/Pathway分析时输入差异表达的基因是不同的。

  我们在做GO/Pathway富集分析的时候,是首先判断差异表达基因,然后再看差异表达的基因所参与的功能;而GSEA分析则根据一组基因的整体表达趋势来看该组基因是否有差异。

  常规的GO/Pathway分析是这样:先从10000个基因中找到差异基因800个(倍数1.5倍),然后再分析功能;

  而GSEA则把10000个基因全部放进来,不管差异倍数是1.5还是1.1,统统进行考量和富集。

  再极端一点,如果某条通路的分子大部分都被上调了,但是倍数只有1.3倍,常规的分析会遗漏该通路,而GSEA分析则能找出来。这一点是GSEA与常规富集分析最大的区别。

  另外,在单基因的生信文章套路中,分组是按单基因的表达中值为分界线,把疾病组分成基因高表达组和低表达组进行分析。雪球遇到很多小伙伴就直接拿着疾病组+对照组进行基因表达中值的分组。

  说到底,这两种情况都是不理解每个生信分析的概念,不了解这些分析的内涵和外延;没有把生信分析的逻辑理解透,导致的概念上的问题。

  当你没有整理套路的意识时,你看到的每一篇生信文章,每一个生信分析都是新的,零散在一地的;

  当你有意识把他们进行分类整理成不同套路的时候,你就逐渐建立了一个生信套路的主干,这时候,你看到的每一篇新的文章都是一片叶子,相同的内容可以迅速领会,而不同的内容都会当作一片新的叶子有条理的挂在对应的枝杈上。

  雪球在学生信的时候,也会定期整理不同的套路,在pubmed里输入特定的检索词,积累大量有共同特征的文章套路,然后逐条看过去,列成思维导图或者用Markdown笔记记录整理个别不同分析的亮点和精华,通过这样的方式迅速掌握一类生信课题设计思路。

  这里雪球把自己积累的文件夹放在这里,大家也可以自己对文章套路的汇总梳理方法。具体的分类方法并不是非常重要的,重要的是你开始这个文献梳理的动作。

  最开始接触到一类新套路的时候,你可以先梳理提炼一个最简的课题设计模型;通过大量的文献梳理,充分做加法,了解这个套路的各种变化排列组合方式;

  然后专业做减法,萃取关键知识,通过做笔记、画思维导图的方式,梳理哪些是必备的分析模块,哪些是可以加加减减的组合,哪些是有难度的分析,哪些是创新点,然后提炼出最与你现在的课题相近的科研假设和分析路径。

  很多学员经常问雪球,雪球老师,我的这些生信图表,能发几分,能投哪些期刊?

  所有的答案都在文献中啊,只要你花了这个功夫把这些准备工作做好,雪球相信,你的这些疑问都会迎刃而解。

  在你学生信的过程中,主要的两大难点一个在于生信的课题设计,一个就在于生信的分析和可视化。生信的分析和可视化是术的层面,涉及到大量的重复练习、复盘总结,这里我们主要就道的层面,让大家建立一种对生信文章套路设计的框架感。

  就是当你面临一个研究课题或者分析需求,不是随机寻找解法,而是有一个完备的思考框架,让你完整思考,做出一个完善的设计方案。

  举个例子,比如我做乳腺癌方向,对耐药感兴趣,最好还能和免疫微环境联系起来,后期还想加点实验验证。

  因为实验验证具有不确定性,你没法保证单基因验证就一定能得到阳性结果,因此最少要筛选出3-20个基因来验证,保证实验增加阳性结果验证的可能性。

  2、免疫微环境分析有很多常规的R包,我的数据集的表达矩阵可以整体做免疫浸润分析,同时,我也可以做关键基因与免疫浸润的相关性分析。

  最佳的肯定是找到乳腺癌中耐药/非耐药的样本进行生信分析,如果这些样本没有临床信息,就以关键基因为连接点,看看这些基因在TCGA里的临床意义,做临床预测模型,临床相关性分析等路径。

  第二种解法,是在我要研究的癌种中,没有这样分组要求的样本,这时候我是不是没法研究耐药这个表型了呢?

  当然不是,我们可以选择乳腺癌这个疾病里既往发表的耐药的文章,收集相关基因列表,尤其可以关注高分文献中有没对乳腺癌耐药基因的汇总;

  同时也可以看看表型数据库,或者某类热点表型特定的基因库,看看有没这样的表型基因列表。

  4、接下来,我们可以根据实际获得的样本数据集汇总情况,套用近期发表的类似的套路框架设计课题。

  不同的人,面对同一个材料,吸收的效率可能差三五倍,甚至十几倍,而核心,就是学习方式和深度。

  如果你只是单词被动学习,比如听课、阅读等,学习的效率很低,内容的留存率不到10%。

  而你采用主动学习,比如讨论,实操,或者来解螺旋当生信助教,或者进入解螺旋的生信卓越计划每周与高手讨论,有老师帮你指点和复盘,留存率会是50%—90%。

  所以,你可能注意到,有很多生信高手或者程序员,都会定期写博客,分享代码笔记,或者解螺旋社群内有很多助教老师,都是从当优秀助教做起,后面也促进自己的学术成果的产出,他们都是用这种方式,来沉淀学到的东西。

  雪球希望大家用尝试文章复现,写代码笔记,或者来解螺旋社群当生信助教的方式,来进行定期的自我分析、自我讨论和自我复盘的机会。

  GitHub(代码管理仓库,可以管理自己的代码,也是程序员的“代码版”简历,SCI投稿时可以用上【国内也可以考虑用GIT】