当你生命遇到病痛的时候,不要放弃对生命的思索

555彩票_2019正规网上彩票平台 > 健康食品 >

从莎士比亚的作品到病毒的基因组

2019-05-07 11:02:15 健康食品73℃

  从莎士比亚的作品到病毒的基因组

  2009年2月11日

  揭示莎士比亚戏剧的真正作者身份与识别我们的遗传祖先或分类新的生命形式有何关系?

  所有这些都涉及对长数据的比较分析,所有这些都将受益于劳伦斯伯克利国家实验室(伯克利实验室)研究人员开发的独特的新分析工具。

  与伯克利实验室物理生物科学部和加州大学伯克利分校化学系联合任命的化学家Sung-Hou Kim领导开发了一种名为“特征频率曲线”(FFP)的技术,可以比较几乎可以电子存储的任何类型的线性信息,分类,索引和编目。可以用FFP技术分析的信息种类包括核苷酸碱基和氨基酸序列,书籍,文档和可能的图像。它甚至可以证明是最终的音乐组织者。

  “我将我们的技术称为人口统计学系统发育的工具,因为它使我们能够将大量数据组织成组并找到这些组之间的关系,”Kim说。 “我们的想法是根据关键功能发生的频率将数据集组织成组,然后寻找关系。这与通常所做的相反,您可以在数据集中找到关系,然后将数据集组织成组基于这些关系。“

  使用FFP技术,Kim和他的同事可以创建“家谱”,从而可以轻松地查看数据集中组之间的关系,无论这些组是书籍还是基因组。关键是确定分析的“最佳特征”。对于书籍,最佳特征包括大约八个字母长度的文本序列。对于哺乳动物基因组,光学特征由长度约18个碱基对的核苷酸碱基序列组成。然而,为了保持基因组计算的可控性,Kim和他的同事将四字母DNA字母(腺嘌呤,鸟嘌呤,胸腺嘧啶和胞嘧啶)缩减为两个字母的字母表,使用R表示嘌呤核酸,Y表示嘧啶核酸。 )。在对书籍和基因组进行的一系列测试中,FFP技术提供了比标准分析工具更全面,在某些情况下更准确的分析。

  例如,Kim和他的同事们使用FFP技术创作了一本书,该书由二十多件精选作品组成,这些作品属于哲学,神话,宗教,19世纪小说,科幻小说和儿童小说。他们以FFP为基础。书籍树按类别和作者正确地分组了所有书籍,包括基于标准词频分析在书籍树中放错位置的一些书籍,例如古兰经。在古兰经的情况下,基于FFP的树将它放在与詹姆斯国王圣经和摩门教之书在同一分支上的宗教类别,而频率书树这一词在哲学范畴中分组,与柏拉图的共和国和苏格拉底“道歉”在同一分支上。

  金和他的同事后来应用FFP技术对威廉·莎士比亚的作品,克里斯托弗·马洛等同时代人的作品进行了比较分析,再加上詹姆士时代的一些作品,这些作品曾经归因于莎士比亚,但其作者身份现在受到质疑。结果给莎士比亚带来了新的疑问,因为莎士比亚一直是提尔王子,提尔王子这部戏剧的作者,并且指出了他对喜剧“贵族金斯曼”的作者,过去他只获得了部分功劳。

  “当我看到这种技术与书籍的结合程度时,我感到震惊,”金说。

  下一步是将该技术成功应用于其系统发育树已确立的哺乳动物的全基因组,然后是原核生物(细菌和古细菌)的全基因组,最后是病毒,目前有时比较基因组分析工具无法应用。

  在此项目上与Kim合作的是生物物理学家Gregory Sims,统计数学家Se-Ran Jun和理论物理学家吴国宏。和金一样,他们都与伯克利实验室和加州大学伯克利分校共同任命。

  Kim是国际公认的蛋白质结构权威,也是结构基因组学领域的先驱。 2003年,他公布了蛋白质结构宇宙的三维人口统计图,这是第一次有可能将这种庞大的生物分子组合(超过500亿已知物种和成长)组织成有意义的群体。

  “研究不同生物基因组的科学家面临着与研究蛋白质结构相似的问题,可能更加困难,”金说。 “成千上万的全基因组已经或正在进行测序,我们需要有一种有效的方法来比较和分组,并找到各组之间的关系.FFP方法可以帮助我们挖掘基因编码的功能和特定物种基因组中的非编码核苷酸碱基序列,也可以让我们更好地了解该物种的进化方式,最亲近的亲属和其他有价值的信息。“

  目前,比较基因组学研究的基础是测量被比较物种共有的基因组编码区域中一组选定基因之间的相似性和差异,或基于某些基因存在的基因谱。两种或更多种产生相似性得分。具有较高共享基因数或相似性得分的物种被认为与具有较低数量的物种更密切相关。这两种方法都需要在编码区​​中具有可比对的一组共同基因,但情况并非总是如此,特别是在快速进化的物种的基因组中。 Kim解释说,这种“以基因为中心”的比较也会对比较哺乳动物和其他高阶真核生物带来更大的限制。

  “编码序列(外显子)仅占整个人类基因组的百分之一,其余由非编码序列(内含子)组成,其功能仍然很大程度上未知,”他说。 “我们需要的是一种无需比对的方法,可用于比较可能远距离相关,经历显着重排或不共享一组共同基因的整个基因组或基因组区域。我们还需要一种可以使用的工具。用于分析和比较基因组的非基因区域。“

  Kim通过转向书籍世界开始了这一追求,其中比较分析工具已经确立,以确定作者身份以及揭露欺诈或抄袭。然而,两个问题变得明显。首先,当前的标准文本分析基于不同单词出现的频率,但基因组数据由长字母而不是单词组成。其次,基于词语频率的分析不提供局部语法 - 相邻词之间的关系,这一点在比较基因组学中是关键的,并且在文本比较中也被证明是重要的。

  相关故事许多癌症患者有未确诊的肝炎可能由儿童胃肠道感染引起的疾病病毒显示导致肠功能障碍和腹痛为了克服当前文本比较技术的局限性,Kim和他的同事们首先对韦伯斯特英语词典中的单词进行了分析。并且发现八到九个字母的单词对于频率分析是最佳的。这一发现也证明了所有其他书籍也是如此。

  “长度超过8或9个字母的文字特征不足以频繁地进行频率剖面比较,文字特征的长度不足以为我们提供足够的信息来区分一本书,”Kim说。

  为了将他们的FFP技术应用于书籍的比较分析,他们“分隔”剥离每本书 - 意味着他们剥离了所有标点符号和空格的文本 - 然后将文本转换为单个长串字母。然后,在该字符串上一次一个字母地前进八个字母长度的“窗口”,产生特征的频率分布,其中重叠的文本序列揭示各个特征之间的关系。比较每本分析书的特征频率曲线,产生了令人惊讶的准确树木,按作者,流派或历史时代对书籍进行分组。

  

  “这使我们能够捕捉特定作者的语法特质以及与某种类型或主题相关的独特词汇,”金说。 “当我们看到我们的书树的结果时,我们知道我们已经为基因组做好了准备。”

  将FFP技术应用于哺乳动物的全基因组序列产生了与通过基于遗传,形态学,解剖学和化石数据的传统方法构建的系统发育树完全相同的家谱。 Kim和他的同事们还使用FFP技术研究嵌入基因组非编码区内的“系统发育信号”的存在。

  “我们发现从非编码FFP比较获得的系统发育与已建立的基于基因的共识哺乳动物系统发育之间存在高度相似性,”Kim说。 “它表明进化信号印在整个基因组而不仅仅是基因中。我们认为原因是序列改变机制不知道它们是否在基因组的编码区或非编码区发生变化。 。换句话说,突变同样影响基因组的所有部分,但可以在非编码序列与编码序列中进行不同的选择或过滤。

  在测试的最后阶段,Kim和他的同事将FFP方法应用于总共518个基因组,代表真核生物和原核生物,以及几个随机基因组序列。对于原核生物 - 细菌和古细菌,他们使用氨基酸序列,它们是蛋白质的构建块而不是哺乳动物中使用的碱基序列。这样做是因为与哺乳动物的基因组不同,原核生物的基因组几乎完全由编码蛋白质的序列组成,这意味着这些微生物的“蛋白质组”(它们的完整蛋白质补体)可能是构建准确家谱的关键。对他们来说

  “围绕原核生物存在很多关于人口统计学群体在进化树上首先出现的争议,”金说。 “我们想测试我们的方法是否可以提供有关此问题的任何新见解。”

  他们的研究结果表明,FFP方法可用于将细菌和古菌分为不同的域,门和类,与目前公认的分组一致,但各组之间的进化关系与传统的遗传和形态学不同。学习。通过他们的FFP技术,Kim和他的同事们还能够对之前未被分类的微生物进行分类。他们还成功地用它来分类数百种病毒的基因组。

  “没有人能够找出病毒群体之间的进化关系,但我们的FFP技术能够表明其中一些群体之间的进化关系。我们很高兴看到这一点,”金说。

  Kim表示,FFP技术仍有许多工作要做,而且他们迄今为止所做的一些观察最终可能证明是错误的。但是奠定了基础并进一步改进,FFP技术可以远远超出书本和基因组,进入音乐世界。

  “我们真的可以疯狂了,”金笑着说道,“用它来组织所有的书籍和文件,甚至是所有有用的人口统计分组的音乐。”

  出处:http://www.lbl.gov/

搜索
网站分类