GSDS 是由北京大学生物信息学中心提供的用于显示基因外显子、内含子、保守元件的组成和位置的一个在线服务,全英文界面。由于有些地方不是很好操做,这里把我的步骤列在下面。

sequence (FASTA)格式

GSDS 2.0 目前提供四种格式:BED、GenBank Accession Number or GI、GTF/GFF3 和 sequence (FASTA)。前三种我都不会,所以不讲。

选中 sequence (FASTA) 格式后,要求上传 CDS sequence (FASTA) 和 Genomic sequence (FASTA) 两种文件。

1. 获取 CDS sequence (FASTA)

CDS sequence (FASTA) 可以批量获取。打开 NCBI Batch Entrez,选择Protein,上传登陆号文件,具体参考 这个 。旁边 Send to 的时候选择 FASTA CDS 就可以。

2. 获取 Genomic sequence (FASTA)

而 Genomic sequence (FASTA) 获取就较为繁琐,目前我还不知道有啥不用脚本就可以批量下载的方法。超费时间的手动获取方法流程如下:

  1. NCBI Batch Entrez 里选择 Gene,上传登陆号
  2. 点击列表,进入单个基因详情页
  3. 点击右下 FASTA,获取 DNA FASTA,复制结果,粘贴保存到同一个文件里

下拉,找到 mRNA and Protein(s) 这一栏,对应的是蛋白质登陆号。

那么在详情页里获取到的必要信息有:

  • LOC105628049
  • JCGZ_05469
  • NW_012124111.1
  • XP_012064751.1

如果你已经用过 MapChart 绘制染色体定位图,并且已经按照染色体长度排序,且为每个登陆号都绑定了自己重命名的编号,就可以把这些数据全部收集到一起,方便查阅。建议建个表格,比如:

NumberRenameGene NameGene IDACCESSIONProtein Size(aa)MW(Da)PILocation
1JcHSP60-1LOC105628049JCGZ_05469XP_012064751.157461145.435.84LG1

3. 整理数据

批量下载的 CDS sequence (FASTA) 文件大致如下,其中每个 CDS sequence 都包含了 类似XP_012080304.1 这样的蛋白质登陆号。

>lcl|XM_012224914.2_cds_XP_012080304.1_1 [gene=LOC105640534] [db_xref=GeneID:105640534] [protein=T-complex protein 1 subunit delta] [protein_id=XP_012080304.1] [location=209..1813] [gbkey=CDS]
序列

>lcl|XM_012209361.2_cds_XP_012064751.1_1 [gene=LOC105628049] [db_xref=GeneID:105628049] [protein=ruBisCO large subunit-binding protein subunit alpha] [protein_id=XP_012064751.1] [location=436..2196] [gbkey=CDS]
序列

整理的 Genomic sequence (FASTA) 文件大致如下,其中每个 Genomic sequence 都包含了类似 NW_012124182.1 这样的 DNA 登陆号。

>NW_012124182.1:c1896425-1890276 Jatropha curcas cultivar GZQX0401 unplaced genomic scaffold, JatCur_1.0 scaffold84, whole genome shotgun sequence
序列

>NW_012125068.1:c2591815-2589868 Jatropha curcas cultivar GZQX0401 unplaced genomic scaffold, JatCur_1.0 scaffold779, whole genome shotgun sequence
序列

而在上一步里,我们已经整理了大量数据,把 CDS sequence (FASTA) 文件和Genomic sequence (FASTA) 文件全部重命名一遍,每个数据都要一一对应。

最后应该是这样:

CDS sequence (FASTA) 文件

>JcHSP60-1
ATGGCAGCACCGGCAGTCTCCCAGCCTAGATCCTCCAAGACCGAGTCTTATGTTGACAATAAACGCAAGG
AGGATATCCGCCACGCTAATATAGTTGCCGCC以下省略

Genomic sequence (FASTA) 文件

>JcHSP60-1
GGGTAAAACAATTTCCAGTAACTAAACCTTGTCCAAAGCTAAAACCCTACCAAAAGCCCTCGCTTCTGAT
TCTGAATTGCAAACAGAAAAACAGCAGAAAA以下省略

结果

保存之后上传,默认参数不变,结果如图,仅供参考。