之前「构建系统发育树」一文中已经大致介绍了 MEGA 的使用方法,但有些地方没说清楚,这里就现有资源再解释(shǔi)下。有纰漏的地方还请多多指正。

收集同源序列

使用 BLAST 收集同源序列可以参考「这里」,只是这种收集方法到的序列包含多个物种。如果需要和特定物种进行同源比对,如常用的模式植物拟南芥、水稻,在搜索过程中会有些问题。下面以这两个物种为例,给出我的解决方法。

1. 拟南芥

获取拟南芥基因序列,主要用到两个网站:

  1. TAIR:https://www.arabidopsis.org/
  2. PlnTFDB:http://plntfdb.bio.uni-potsdam.de/v3.0/
TAIR(拟南芥信息资源)提供大量拟南芥的数据,包括完整的基因组序列、基因结构,基因产物信息,基因表达,DNA和种子库,基因组图,遗传和物理标记,出版物以及有关拟南芥研究社区的信息。

PLANT TRANSCRIPTION FACTOR DATABASE(植物转录因子数据库),简称 PlnTFDB,目前包含2657个蛋白质模型,其中拟南芥的蛋白质序列是从 TAIR 上整理的。

在 PlnTFDB 中可以获取常见的序列。如下图,依次点击“Eudicot”、“Arabidopsis thaliana”,进入拟南芥数据库。

点击表格中列出的转录因子家族,如“zf-HD”。

点击“Check all”选中所有序列,再点击“Retrieve”就可以直接下载.fasta格式的序列文件。

如果表格中没有自己想要的基因家族,那么可以用 TAIR 进行 BLAST 搜索。

进入 TAIR 主页,在搜索框中填入基因家族名称,选择蛋白质数据库,点击搜索。

以我的 HSP60 为例,搜索后得到以下结果。选择最接近所需基因,比如最后一个。

点击“Send to BLAST”,在下一个页面点击“Run BLAST”。因为不知道这些参数有啥作用,直接用默认参数进行 BLAST 搜索。

随后就得到了带有 TAIR 登陆号的基因序列列表。

排除掉 E 值大于0.01的部分,保存剩下的部分。因为这是基因的登陆号,所以还要进一步检索对应的蛋白质。

将上述登陆号整理好,利用 TAIR 批量下载 fasta 文件。

打开 TAIR 的批量检索页面:https://www.arabidopsis.org/tools/bulk/index.jsp ,点击 Sequences,开始检索。依照下图填入登陆号,设置参数,获得 fasta 文件。

2.水稻

获取水稻基因序列,主要用到两个网站:

  1. Rice Genome Annotation Project(水稻基因组注释项目):http://rice.plantbiology.msu.edu/
  2. 国家水稻数据中心:http://www.ricedata.cn/gene/

因为先前 HMMER 里已经获取到了 Pfam 码,那么搜索水稻的序列就简单多了。

在 Rice Genome Annotation Project 首页找到 Protein Domain Search,在 Pfam profile 搜索框里填入Pfam 码,点击搜索。

这里就不再贴图了,把搜索结果中“Model”那一列里的登陆号整理出来。

打开水稻基因组注释项目的批量下载页:http://rice.plantbiology.msu.edu/downloads_gad.shtml ,依次选择数据类型、输出格式、填入登陆号,提交。

就可以得到检索结果,复制粘贴保存备用。

整理同源序列

为了在后面建立进化树上尽可能保持美观,我们需要为这些序列重命名。将序列按照蛋白质长度从小到大排序,然后去掉登陆号后面的注释,对登陆号进行重命名。要注意保留原始文件以备不时之需。

批量下载的拟南芥,文件中已经包含LENGTH=1234的字样,序列排序后重命名的格式可以为ATFBA1;而水稻就麻烦些,我目前只知道在 国家水稻数据中心 里利用登陆号搜索,点击基因 ID 可以得到详细的基因数据,其中就有蛋白质长度,序列排序后重命名的格式可以为OsFBA1

全部整理完之后,可以按照下面的示例,每个序列之间空一行,然后将所有种族的序列放到同一个文件里,然后把.txt后缀修改为.fasta

>ATFBA1
序列

>JcFBA2
序列

>OsFBA3
序列

在文件资源管理器上方点击“查看”,勾选“文件扩展名”,然后就可以修改文件后缀了。千万要注意保留原始文件以备不时之需。

构建进化树

1. 序列比对

MEGA主页 根据自己系统下载对应版本程序。根据用新不用旧的道理,这里推荐使用最新版本 MEGA X(64bit)。这里提供 备份下载

在默认安装 MEGA X 的前提下,.fasta文件会默认使用 MEGA X 打开。因此双击整理好的.fasta序列文件,打开它,就会弹出下面的界面。

如果 fasta 文件不能默认用 MEGA X 打开,也可以点击“File”,“Open a file”,找到fasta 文件打开。

然后我们点击上方的“W”,点击 “Align Protein” 来利用内置的 ClustalW 进行序列比对。

在弹出的窗口选择“OK”,选中所有序列。然后在“ClustalW options”里也选择“OK”,在默认配置下进行序列比对。

注意不要关闭窗口,等待比对结束。

序列比对结果
序列比对结果

将比对结果保存。点击 Data,如图示保存为.meg格式。

2. 构建进化树

选择菜单栏上的PHYLOGENY,选中第一栏 Construct/Test Maximum ……,导入上一步生成的.meg文件

之后全部默认,等待程序分析,分析时长依序列数量而定,即可得到进化树。

3. 美化进化树

还没写

4. 导出进化树

点击“Image”,即可输出各种格式的图片,这里建议使用 BMP 格式,如果打开不,可以试试使用 Honeyview 来浏览这类图片。