亲,欢迎光临图书迷!
错缺断章、加书:站内短信
后台有人,会尽快回复!
图书迷 > 都市言情 > 重生之AI教父 > 第179章 蛋白质里的力量
  • 主题模式:

  • 字体大小:

    -

    18

    +
  • 恢复默认

准确地说,此时此刻贾扬清与孟繁岐的情况几乎完全一致。

两个人都还在学校中就读,但同时,又都在谷歌大脑团队担任研究员,又或者叫研究科学家。

这个职位并没有特别强烈的员工性质,谷歌在对研究岗位的管理上也相对宽松。

“你以后跟飞飞教授读博可得小心点,她可见不得你闲着。”贾扬清得知孟繁岐一年后本科毕业要在李飞飞手下读博,连忙传授经验。

“她对学生很好,对我们华人尤其有优待,但坊间传闻她还蛮严厉的。”同为学生,首先会八卦的自然就是导师的那些事情:“别说是她自己的学生了,就是别人家的学生,她也会督促。”

“真的假的,你在伯克利,她在斯坦福,还能管到你?”孟繁岐感到惊奇,这两个学校还是有点距离的,开车也得一个小时。

“骗你作甚,过去十年搞人工智能的实验室哪里还有几个,我们彼此之间走得近嘛。”谷歌大脑来了一个老乡,贾扬清还是相当热情的:“几个实验室老板之间情报都共享了。”

“怎么搞得像是地道战?”求此时贾扬清的心理阴影面积。

“哈哈,那个学期确实划了一点。”

大神嘴里的划,可千万不要信,指不定他们只是从每天十小时变成九小时,唯有学渣傻乎乎地真的去玩了。

“我之前用的主要是阿里克斯的cuda-convnet框架,他的设计思路还是蛮简洁的,一切从简。”阿里克斯的这个最初的框架,和后来孟繁岐熟悉的完全不同。

不过这也正常,它本就是阿里克斯为了科研的实验迭代,随手为之,没有太强的抽象和设计。

说白了就是没有很专业的技术知识,若不能对各个算子了若指掌,恐怕不大能够将这个东西拼装起来。

使用的门槛实在太高。

而贾扬清则潜心悟透了这款框架,并将它设计得更加体系化,更加易用,并且具备完备的测试手段。

起名caffe是因为写这个框架的那段时间实在是喝了太多咖啡。

早期计算机视觉创业公司看到成型后的caffe,那可是一秒钟也不能等了,瞬间就发射出来。

“杰夫最近是不是已经在组织新版框架的事情了?”孟繁岐问了下这件事的进展,由于自己的大量成果迸发,谷歌开发tF的进程想必会快一些。

不过这件事不是他擅长的,杰夫也没有联系他参与,相反,贾扬清的发展路线则非常适合作为核心成员。

“已经有几周了,杰夫抓大型工程,安德烈抓方法突破。谷歌那么大个公司,干活的全是在读的学生。”贾扬清这句玩笑话倒也没说错,谷歌很擅长薅名校在读实习生的羊毛。

“我可等不及tF出来了,我需要你的帮助,为caffe添加并优化几种新的算子。”孟繁岐直截了当,阿尔法fold和fold2中,有一些算子是目前caffe没有的,孟繁岐需要首先解决这个问题,才能够开始后续的任务。

这对孟繁岐本身来说,可能需要好几天的时间,但对贾扬清来说,只要孟繁岐描述清楚,那也就是半天的事情。

解析蛋白质的结构,这一件事情对普通人来说,就是一句每一个字都认识,但合起来就看不懂了的话。

但对施一公,应该有所耳闻。施一公,就是国际着名的结构生物学家。

他有许多在自然和科学杂志上的研究,主要内容和贡献就是解析了一些复合物的结构。

2021年,施一公院士就公开表态,人工智能对蛋白质结构的预测是本世纪最重要的科学突破之一。

先不提原理,这个重要性一下子就出来了。

蛋白质是一切生命活动的基础,人体中许多重要的生物学功能都基于蛋白质,比如血红蛋白在血液中运输氧气,抗体在免疫系统里消灭细菌,激素调节身体活动等。

为了想要了解这些行为的原理,分析到底如何能够改善各种身体的机能,就需要了解这些对应的蛋白质到底是什么结构,它到底长什么样。

作为非常基本非常基础的身体单元,蛋白质的结构不同,自然就会使得它的功能不同。

而这种解析,可从来都不是什么容易的事情。

什么非常高大上的x射线晶体衍射,冷冻电镜一起上,需要海量的时间和金钱不说,解析的效率也不高。

几十年过去了,目前解析出来的比例大约也只在三分之一左右。

想要这样把人类的蛋白质全解析完,那可要了老命了。

到底为什么这个难题如此困难如此棘手,主要是因为,人们需要去预测的是蛋白质的空间结构。

这东西它是3d的。

让人工智能协助分析成为可能的,是蛋白质的一种特性,那就是六十年前的一个发现,也就是安芬森法则:蛋白质的一级结构会决定他的三维空间结构。

这让蛋白质结构的分析问题成为了一个人工智能非常擅长的任务,就是从一种蛋白质的氨基酸序列去猜测这种蛋白质的空间结构长什么样子。

也就是所谓的蛋白质折叠问题。

这下听起来就容易了不少,因为人类的蛋白质氨基酸排列我们已经全部知晓了,那就开推呗!

但进入三维结构,百来个氨基酸至少能有10的三百次方可能,这个问题比围棋的可能性稍微好点,但也够要命的。

因为围棋你只要赢了对面的臭棋篓子就行,穷不穷举不是目的。

但现在,你可是要找出那个唯一结构的,这个可必须找对了才有意义。

这个问题从安芬森法则提出以来,四十年都没什么大的突破,因而从1994年开始,就有人在举办一个名叫cASp的蛋白质结构预测比赛,两年一届。

今年14年是第十一届了。

比赛开始前,主办方会收集百个左右最新实验测定成功的新蛋白质,这些内容外界基本上绝无可能知晓分毫。

把这些新内容作为比赛的内容,交给参赛者们去预测。

最后,根据预测的结果和实验测得的相似度,看谁的预测更加贴近真实实验观测到的。

这个相似分数要到达90以上,这种预测才称得上是像样的答案。

可目前,这个赛事的最好结果普遍还在60左右。

而阿尔法fold和阿尔法fold2的结果则高达70多与恐怖的92左右。

相似度超过92,意味着与原本实验室测定的误差可能也就只有一两个原子的区别了。

属于是测定误差的范围之内,这种情况下,究竟谁才是正确的,都没有人可以确定。

这样伟大的研究前世被开源,孟繁岐也仔细研读过。主要结构没有那么复杂,做出来问题不大。

如今他唯一的担忧只是自己的复现结果距离92会有多少的差距,毕竟现在的数据差了六七年,这是个不小的劣势。