经过前面的蛋白序列比对,我们已经获得了目标蛋白序列,接下来就要利用 SMART 这类在线分析工具进行蛋白质结构域的分析。
并不专业,仅供参考,如有错误请指正,谢谢!
SMART 基本介绍
SMART 是一个集成了蛋白结构预测和功能分析的在线工具,可以用来预测、分析蛋白结构或是功能,对于初学者来说只要掌握使用方法就够了,毕竟再详细的使用方法我也不会。(我连结果都看不懂……)SMART有两种模式,正常模式使用的数据库包含 Swiss-Prot,SPTrEMBL 和稳定的 Ensembl 蛋白质组。基因组模式仅使用完全测序的基因组的蛋白质组。如果对结果需求较高,推荐使用基因组模式。所以下面以正常模式为例。
SMART 单序列检索
进入正常模式的搜索界面
- 在 Sequence ID or ACC 框中输入序列标识符(ID)或登录号(ACC),也可以在 Protein sequence 框中填入序列(我的登录号就没有好使过,建议直接粘贴序列)
- 根据需求勾选下方参数
- 点击 Sequence SMART 检索
NCBI 批量检索蛋白序列
但一般情况下会有不止一个序列需要检索。那么多序列的 fasta
文件该如何获得呢?手动查询复制粘贴创建一个当然是可行的,不过在遇到成百上千条序列时,就需要用到 NCBI 的批量搜索功能。
以上一篇 HMMER 中获取的比对结果为例。我们需要把结果中的登录号复制粘贴到一个txt
文本里,你可以截图贴到 QQ 里白嫖马哥的 OCR 图像识别,减轻负担。
随后进入 NCBI 批量检索页:https://www.ncbi.nlm.nih.gov/sites/batchentrez
- 选择 protein 数据库
- 选择带有登录号的txt文件
- 点击 Retrieve
- 点击搜索结果
- 点击 send to,下载 fasta 格式的序列文件
SMART 批量检索
接下来就用到SMART的批量检索,点击图示中右侧问号,再点击 batch access 就可以进入批量搜索页面。当然你也可以通过这个链接 http://smart.embl.de/smart/batch.pl 进入。
在这个界面,我们可以选择填入多个序列或是直接上传带有多个序列的 fasta
文件。
点击提交,很快就会得到搜索结果。
结果分析
在获取到结果后,需要对结果进行分析。直接查看列出的结构域,如果结构域中显示不是自己检测蛋白的结构域,那么这个登陆号就可以被排除。
其他
如果担心结果不是很准确,可以在其他数据库里搜索。
- pfam:http://pfam.xfam.org/search 提交登陆号文本并留下邮箱,等待结果(七八个小时)
- CD-search:参考 https://www.omicsclass.com/article/310
本文作者:mikusa
本文链接:https://www.himiku.com/archives/smart.html
版权声明:所有文章除特别声明外均系本人自主创作,转载及引用请联系作者,并注明出处(作者、原文链接等)。
学计算机的看了半天一口大气不敢喘orz 过于硬核接受不能2333
不是啥太过复杂的东西…只是软件使用说明书 ∠( ᐛ 」∠)_
为啥我逛二次元会逛到这儿来,迷了迷了
阁下是从哪里逛过来的?
啊 忘记哪里来的了 也忘记回复了 看来是学生物信息的大佬可以留个联系方式交流吗 我也算是接触了一丢丢这个领域 有些问题想请教
虽然我也希望自己可以帮到你,但我只是个连工作都找不到的应届生,专业还不是生信的…
学生信是啥QAQ今年情况太特殊了,慢慢来吧,实在不行继续深造也是条好路子。我最近还在忙毕业论文呢,因为也是交叉学科的方向,生物信息学方面的东西一窍不通TAT
发现一个bioinfomatics的大佬。
我一个学金融的知道一丢丢这个。。。也是有一段过去的。
学金融的还知道一丢丢这个??
顺便 bioinformatics 打错了
啊。漏了一个r。本来想学perl,后来放弃了。我高中文科,本科金融,研究生也是金融。虽然数学基础不错,但是没有生物基础。我自己在网上了解了一下,主要看的Rna-Seq相关的内容,感觉应付不来。不知道是不是我自己吓自己。。。。
日常看不懂。 |´・ω・)ノ
看来也是学生物相关学科的~
诶,阁下也是?莫非是大佬
我们是属于交叉学科,有些也算生物相关吧,只是要看具体的方向。
P.S.账号的事情,明白了吗? ヾ (≧∇≦*) ゝ
明白了! (/ω\)
哈哈,欢迎常来~