新加坡联合早报中文网即时报道亚洲和国际的评论、商业、体育、生活、科技与多媒体新闻,从世界各个维度报道世界经济新闻,时政新闻,突发新闻等。

当前位置:主页 > 新闻 > 用图像识别做基因预测 谷歌拿到了FDA挑战赛最高分

用图像识别做基因预测 谷歌拿到了FDA挑战赛最高分

来源:联合早报中文网作者:邵湖心更新时间:2020-09-20 20:32:27阅读:

本篇文章2122字,读完约5分钟

新华网北京12月12日电谷歌被公认为是科技界拥有最先进人工智能的公司。

去年,谷歌宣布将从移动优先转向人工智能优先。在过去的几年里,它不仅收购了许多人工智能公司(包括元网络,它专注于语义理解和语义网络;深度学习公司dnnresearch专注于机器学习和神经网络研究的深度思维;聊天机器人api.ai等。),由谷歌的deepmind公司团队开发的alphago最近也成了一个网络红人。去年,它与围棋世界冠军、职业九段棋手李世石进行了一场激动人心的人机大战,并以4:1的总比分获胜。谷歌的张量流深度学习框架也受到了广泛赞扬。

用图像识别做基因预测 谷歌拿到了FDA挑战赛最高分

当然,谷歌必须继续在人工智能领域做事情。

设定超越gatk的目标

Gatk(基因组分析工具包)是目前使用最广泛的第二代测序数据分析软件,它主要侧重于突变搜索、基因分析和重视数据质量。Gatk使用一种人工编码算法,可以将统计数据应用到测序机器经常出错的地方。

2015年6月,谷歌基因组公司宣布与布罗德研究所合作,他们共同推出了云版本的gatk(基因组分析工具包)。谷歌基因组是谷歌为帮助科学界存储、处理和管理大量基因组数据而构建的云平台,于2013年3月推出。科学家可以使用谷歌云提供的api接口来存储、处理、分析和共享dna序列。

用图像识别做基因预测 谷歌拿到了FDA挑战赛最高分

然而,谷歌对此并不满意,并希望开发一套基于人工智能的工具,能够超越gatk。此前,谷歌的人工智能对遗传学一无所知。事实上,这些人工智能工具仅用于识别图像。就像上传到谷歌的识别猫狗照片的神经网络一样,还有很多地方需要学习。

用图像识别做基因预测 谷歌拿到了FDA挑战赛最高分

马克.德普蒂斯托和瑞安.府尹也是盖特克创作团队的成员,他们接手了这项工作。

德普蒂斯托说:(盖特克)不可能取得任何进一步的进展。我们已经建立了许多不同的模式,但它们都是无效的。然后,人工智能技术出现了。

仅仅在过去的八个月里,这个神经网络(由马克·德普蒂斯托和瑞安·府绸领导)准确地判断了dna序列中的突变点,并在fda(食品和药物管理局)挑战赛中获得了最高分。仅在一年之内,这种人工智能就超越了标准的人工编码算法gatk,即谷歌深度变异。

用图像识别做基因预测 谷歌拿到了FDA挑战赛最高分

深度变异的力量是什么?

Deepvariant可以将高通量测序中测量区域的数据转换成完整的基因组图像。它可以自动识别测序数据中的插入基因、缺失突变和单碱基对变异。

像gatk一样,deepvariant解决了变量调用的重要技术问题。当分析dna时,现代测序仪不会返回一个长链,但可能会返回100个碱基以内的短的重叠dna片段。这些片段排成一条直线,并与已知序列的参考基因组进行比较。真正的突变可能发生在不同于参考基因组的片段中。当片段不同于参考基因组和其他片段时,问题就出现了。

用图像识别做基因预测 谷歌拿到了FDA挑战赛最高分

Gatk试图通过大量的数据来解决这个问题。有时候,dna序列发生器在运行时会出错,而gatk团队专注于它的易出错区域(比如base gtg)。他们长期以来一直在思考诸如隐马尔可夫模型的统计模型之类的东西,然后试图预测dna特定位置的实际碱基。

用图像识别做基因预测 谷歌拿到了FDA挑战赛最高分

与gatk不同,deepvariant对dna测序仪一无所知,但它吸收了大量数据。神经网络通常被类比来处理复杂的概念。第一层神经元感知光线,第二层感知形状,第三层感知真实物体。通过数据训练,deepvariant可以判断哪些神经元更重要,哪些可以忽略。最后,可以从误判中辨别出实际的突变点。

用图像识别做基因预测 谷歌拿到了FDA挑战赛最高分

为了使用图像识别人工智能来处理dna测序数据,谷歌决定将数据转换成图像。当科学家识别突变点时,他们经常提取有规律排列的基因片段用于研究。

在这方面,府绸说,如果dna识别被视为一项视觉任务,为什么不直接以视觉形式呈现呢?秉承这一理念,谷歌将图像的概念嵌入到识别任务中。将数据转换为rgb(红色、绿色、蓝色)图像,其中红色标记atcg的四个碱基,绿色标记序列质量,蓝色用于表示dna的正向和反向链。

用图像识别做基因预测 谷歌拿到了FDA挑战赛最高分

之后,我们只需要输入神经网络数据。根据德普蒂斯托的说法,我们在很大程度上改变了处理问题的方式,从研究现有数据到现在发现更多数据。

Deepvariant将人工智能引入未来的基因研究领域

去年12月,该团队发表了一份关于深度变异的预印本。上周,谷歌正式发布了该工具。在此期间,团队不断改进和修订deepvariant。

基于之前对红色、黄色和蓝色的使用,该团队正在考虑添加两个新的数据层。在人们的眼里,这些数据不能形成图像,增加几层数字对机器来说没有任何意义。

Deepvariant本身无法改变现有的基因研究。与gatk相比,这个工具只显示出一点点优势。在某些条件下,速度只能达到盖特克的一半。然而,deepvariant逐渐将人工智能技术引入未来的基因研究领域。

目前,新的测序技术,如牛津纳米孔,正变得越来越受欢迎。在这些技术的帮助下,如果deepvariant能够赶上gatk(gatk(花了五年时间才最终形成)并学会更快地识别突变点,测序技术的应用就可以加快。

根据德普蒂斯托的说法,在基因组中放置数据层可以解决比预测变异更重要的问题。例如,数据层指示基因是否活跃。Deepvariant从三个数据层开始,现在已经发展到七个,最终可能达到几十个。毫无疑问,人工智能可以使人脑中无意义的数据更有价值。

标题:用图像识别做基因预测 谷歌拿到了FDA挑战赛最高分

地址:http://www.6st8.com/zbxw/10497.html

免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。

上一篇:《“一带一路”国家法律研究报告》发布

下一篇:没有了

返回顶部