经过前面的蛋白序列比对,我们已经获得了目标蛋白序列,接下来就要利用 SMART 这类在线分析工具进行蛋白质结构域的分析。

并不专业,仅供参考,如有错误请指正,谢谢!

SMART 基本介绍

SMART 是一个集成了蛋白结构预测和功能分析的在线工具,可以用来预测、分析蛋白结构或是功能,对于初学者来说只要掌握使用方法就够了,毕竟再详细的使用方法我也不会。(我连结果都看不懂……)SMART有两种模式,正常模式(Normal Model)使用的数据库包含 Swiss-Prot,SPTrEMBL 和稳定的 Ensembl 蛋白质组。基因组模式(Genomic Model)仅使用完全测序的基因组的蛋白质组。如果对结果需求较高,推荐使用基因组模式。所以下面以正常模式为例。

SMART 单序列检索

进入正常模式的搜索界面

  1. Sequence ID or ACC 框中输入序列标识符(ID)或登录号(ACC),也可以在 Protein sequence 框中填入序列(我的登录号就没有好使过,建议直接粘贴序列)
  2. 根据需求勾选下方参数
  3. 点击 Sequence SMART 检索

NCBI 批量检索蛋白序列

但一般情况下会有不止一个序列需要检索。那么多序列的 fasta文件该如何获得呢?手动查询复制粘贴创建一个当然是可行的,不过在遇到成百上千条序列时,就需要用到 NCBI 的批量搜索功能。

以上一篇 HMMER 中获取的比对结果为例。我们需要把结果中的登录号复制粘贴到一个txt文本里,你可以截图贴到 QQ 里白嫖马哥的 OCR 图像识别,减轻负担。


随后进入 NCBI 批量检索页:https://www.ncbi.nlm.nih.gov/sites/batchentrez

  1. 选择 protein 数据库
  2. 选择带有登录号的txt文件
  3. 点击 Retrieve
  4. 点击搜索结果
  5. 点击 send to,下载 fasta 格式的序列文件

SMART 批量检索

接下来就用到SMART的批量检索,点击图示中右侧问号,再点击 batch access 就可以进入批量搜索页面。当然你也可以通过这个链接 http://smart.embl.de/smart/batch.pl 进入。

在这个界面,我们可以选择填入多个序列或是直接上传带有多个序列的 fasta 文件。

点击提交,很快就会得到搜索结果。

结果分析

在获取到结果后,需要对结果进行分析。直接查看列出的结构域,如果结构域中显示不是自己检测蛋白的结构域,那么这个登陆号就可以被排除。

其他

如果担心结果不是很准确,可以在其他数据库里搜索。

  1. pfam:http://pfam.xfam.org/search 提交登陆号文本并留下邮箱,等待结果(七八个小时)
  2. CD-search:参考 https://www.omicsclass.com/article/310