在上一周,谷歌发布了一款叫做DeepVariant的程序。这款程序的作用主要是帮助使用者进行基因组数据的解读。
其实早在1年前,Google Brain和Verily生命科学公司就已经开发出本套工具,并在2016年PrecisionFDA Truth Challenge中赢得了最高SNP性能奖。那么,对于我们来说,这套开源工具的意义在哪里呢?接下来,我们就用通俗易懂的语言来简单剖析一下这套算法中所包含的各种技术。
相信大家都听说过亲子鉴定。归根到底,它在进行的是DNA对比。在每个人的DNA中,有一段重复的碱基重复序列,这段序列有着明显的个人差异。根据孟德尔的遗传定律,只要检测人和被检测人相互对比这一段重复的碱基片段即可判断是否拥有血缘关系。
但基因学的应用并不只限于此。人类的基因组中有着30亿碱基对的序列,对于科学研究来说,基因的完整碱基排序尤为关键。假如某学家们想要识别某种疾病的基因,那么就需要大量的数据以及多次全部的基因排序,这个时候就需要进行完整的测序工作。
目前在科学领域已有多种DNA测序的方法。其中有一项名为HTS( high-throughput sequencing,高通量测序技术)的技术。速度快、成本低让它得到了广泛地商业应用。但是HTS检测出来的基因序列并非完整。
对于人类来说,它每次检测会产生10亿个短的序列,而每个序列仅代表人类基因中30亿个碱基中的100个。这些小的序列在测量的过程中会出现0.1%到10%的错误。所以对于HTS来说,将这些小片段拼凑成一个完整的基因序列并非是一件很容易的事情,其中的一些序列错误也会影响到科学家们的判断。
在瓶中基因组联盟等组织(GIAB)多次测量之后,它们发布了人类标准参考基因组。在HTS产生结果之后,让这些结果与标准参考基因组做对比,就可以发现其中的变异点。而变异点形成的原因有两种,一种是SNP单核苷酸多态性,另外一种则就是自身的程序错误。
而谷歌本次发布的DeepVariant则就是可以通过深度的学习来识别出这两种错误,从而让HTS的结果更为准确。其实在这之前,已经有多套人工设计的算法来进行这项工作。其中最广泛使用的就是GATK。但准确率和时间成本依然很高。
DeepVariant的原理是将拼接完整序列的问题转换成图片,经过对模型的深层学习,来检测图片中的变异点,从而完成对基因变异点的检测。拿个很简单例子来说,这里有相似的多张A类、B类图片。让DeepVariant通过图片特征并经过一个一个步骤,最终将A类、B类图片区分开来。
对于人工算法的GATK来说,DeepVariant在精确度上更胜一筹。
说起现在科技圈里最火的词,那‘人工智能’可以算的上是一个。在前几日的2017中国企业领袖年会上,李开复就对‘人工智能’表达出了厚望。他认为“AI时代是一个必然,会取代人类工作”。那么,事实真的如此吗?
尽管上文中所说的DeepVariant离我们很远,但在现实生活中,我们已经可以看到多个AI的影子。就从我们的手机来说,智能手机上搭配的语音助手,A11、麒麟970等CPU上搭载的神经网络芯片会让你的手机变得更加的聪明智能。它能帮助你在照相的时候区分性别,还能在解锁的时候识别用户。
连续战胜多位棋圣的Alpha Go也是同样运用了人工智能技术。除此之外,例如Netflix就通过AI算法为用户推荐适合它们的节目。当你打开淘宝,你会发现首页有着许多你想要的同类商品。其实在你的生活中,已经有了许许多多的AI案例。
AI可以让我们的生活变得更加便利,甚至让许多不可能的事情变成了可能。在Reedit上就有一位用户利用开源的学习工具伪造出了多名女性的色情电影。他的制作方法也很简单,首先在Google和Youtube上搜索大量的名人脸部图像,之后对这些图像进行编译,最后让AI学习这些脸部并制作影片。
总结起来,目前人工智能的应用可以分为这几类。一、代替人工的许多重复性劳动,减少操作成本,使工作变得更加简便,二、为用户提供定制信息、三、增添机器人格,塑造形象,加深互动。
第一点,语音助手就是个很好的例子,它可以为用户减少操作成本。第二点,就如同Netflix、淘宝这样的应用,为用户定制个人信息,用户可以更直观、更简单的看到自己想要的信息流。第三点的一个很好例子就是汉森机器人技术公司研发的一款机器人,它能够学习适应人类的行为,与人类一起工作。让机器拥有人格,塑造一个形象,完成从机械到人类的认知转变。
当然,这些人工智能可以做到的事情都离不开一个词,‘学习’。当你打开语音助手,冲着它喊:“设定我的名字,我叫XXX“,在下次它喊你的时候,它就会叫出你的名字。当你在闲鱼搜索”iPhone X”,首页就会出现多个二手iPhone X。可以说,人工智能的核心就在于此。
人的大脑可以在瞬间完成对多张照片的处理,并作出反应。机器则不然,机器需要通过算法在多张照片中找出特征点,并且使用大量的模型来学习他们。实际上就是在算法中不断的调整权重比,与真正的所谓强AI还是有着不小的差距。反观DeepVariant,在原理上其实非常简单。甚至DeepVariant的团队在接受采访时,称自己并不是很了解基因学。希望DeepVariant公布之后,能够为其他人工智能公司有着一些思路上的启发。
在此时此刻,像DeepVariant这样的工具也许对我们这样普通的人来说还有些遥远。但不可否认的是,DeepVariant背后隐藏的人工智能技术却与我们每个人息息相关。相信就如李开复先生所说的,“AI时代是一个必然”。在未来,我们的生活周围也许充满了大量人工智能的“影子”,许多常见的职业也已经被机器所取代。
但这又会不禁让我们思索,在一味追求科技的同时,就业减少等负面问题该如何解决。也许在这个快速发展的时代,我们有的时候应该放下脚步,想想未来,这样才能够让AI时代来的更快一些。
评论 (0)