HMMER 是生物信息学上用来分析基因序列的一款软件,可以快速确定两组序列之间的相似程度,目前最新的版本为 3.1。可是HMMER官网 目前只提供 Linux 版,也许跑序列分析的软件在 Linux 上用得比较顺溜?但据官方文档上的介绍,「我们从2011年起就在进行 HMMER4 的开发,但一直处于缓慢开发的状态」,这可能才是 Windows 端 HMMER 真正的停更理由。

安装 HMMER

1. 下载

既然不能为了使用 Linux HMMER 特地开个虚拟机(好像也不是不行),那就找找看历史版本。通过已知的 Linux 版下载链接,发现 HMMER 把所有的历史软件都放在这个地方 备份着,因此得知最后一个 Windows HMMER 版本为 3.0。传送门 / 备份

下载、解压之后,是一堆看不懂的东西,没有可以直接双击打开的.exe文件,大概是需要敲命令才能启动程序。搜索了一下安装方法1,下面详细演示。

2. 安装

Windows HMMER 安装起来还算简单。

首先打开 控制面板,搜索 环境变量,点击 编辑系统环境变量,选择 环境变量

系统变量 里找到Path,点击 编辑

image-20200318182918857
image-20200318182918857

点击右边的 新建 按钮,填入 HMMER 所在的 路径

image-20200318183107408
image-20200318183107408

如果不知道啥叫路径,进入你放 HMMER 的地方,按照下图把地址栏里的东西复制下来,粘贴进上面的变量里,添加完成后,一路确定就行。

3. 测试

接下来 测试 看能不能用,需要用到可以输入命令的东西。常用的有 CMD 和 Windows PowerShell,二选一即可。

打开CMD:WINDOWS键 + R ,输入 cmd,点击确定打开命令提示符

打开Windows PowerShell:对着开始菜单 右键,选择Windows PowerShell

然后输入

hmmscan -h

建议直接复制粘贴,避免出错。如果出现类似下面的东西,就说明安装上了。

图示
图示

使用 HMMER

参考了网上的教程2,演示下我目前用得到的功能:hmmbuild hmmsearch
hmmbuild :创建hmm模型(大概是这样)
hmmsearch:分析相似度(应该没有错)

1. 获取 pfam ID

需要使用该基因的隐马尔科夫模型才能进行序列比对,而获取隐马尔科夫模型需要先得到该基因的保守蛋白结构域在 pfam 的ID。可以通过参考文献中他人的工作,或是自己在NCBI中搜索来获取 pfam id,下面介绍后者。

进入 NCBI蛋白质数据库,输入关键词,物种关键词需要其拉丁学名或是正式英文,以麻疯树的 MADS-box 基因为例,如 “MADS-box Jatropha curcas”

在搜索结果中随便选择一项查看详情,然后点击右侧“Identify Conserved Domains” 搜索分析该蛋白保守域

从结果中可以看到,目标蛋白在 K-box 家族被命中,而且列表中已经给出 pfam id

2. 下载蛋白保守域对比序列

直接点击上图 pfam id,跳转到该蛋白家族的保守结构域详情,点击来源 pfam

在pfam详情页点击 Alignments,选择 Stockholm 格式,点击 generate 下载多重对比序列,得到的文件格式为.txt

3. 下载物种对比序列

下载麻疯树基因组蛋白数据。进入 NCBI 的 FTP站点 ,找到 genomes ,利用Ctrl+F 在网页搜索其拉丁学名。麻疯树的拉丁学名为 Jatropha curcas ,那么我们可以尝试用 Jatropha 进行搜索

在下一个目录选择 protein ,下载protein.fa.gz ,解压,得到protein.fa文件,这里也有 备份

4. 对比分析

把上面下载的两个文件全部复制到 HMMER 的文件夹里,当然也可以放在别的文件夹里,然后打开命令提示符。

命令提示符默认是在C:\Users\用户> 这个目录里操作,而我们要切换到 HMMER 所在的目录,才能继续操作。

如果 HMMER 不在C盘,就需要切换盘符,比如D盘,就输入

D:

按下回车,就进入D盘了,其他盘方法类似。然后切换到 HMMER 所在的位置

cd HMMER安装位置

比如

cd D:\hmmer

若是报错,可能是因为路径包含中文或其他非英文字符,需要使用英文的单引号将路径包住,比如这样

cd 'D:\假装有中文\hmmer'

接下来,使用hmmbuild命令,将获取的蛋白保守域对比序列转换成 hmm 模型,我下载的文件名为PF01486_seed.txt,那么输入

hmmbuild hmm文件 需要转换的文件

比如

hmmbuild PF01486.hmm PF01486_seed.txt

然后将转换的hmm与麻疯树蛋白序列对比,使用hmmsearch命令,输入

hmmsearch PF01486.hmm protein.fa > PF01486.out

全程参考
全程参考

运行结束,生成PF01486.out文件,右键以记事本打开

就可以看到比对结果了。