GSDS 是由北京大学生物信息学中心提供的用于显示基因外显子、内含子、保守元件的组成和位置的一个在线服务,全英文界面。由于有些地方不是很好操做,这里把我的步骤列在下面。
sequence (FASTA)格式
GSDS 2.0 目前提供四种格式:BED、GenBank Accession Number or GI、GTF/GFF3 和 sequence (FASTA)。前三种我都不会,所以不讲。
选中 sequence (FASTA) 格式后,要求上传 CDS sequence (FASTA) 和 Genomic sequence (FASTA) 两种文件。
1. 获取 CDS sequence (FASTA)
CDS sequence (FASTA) 可以批量获取。打开 NCBI Batch Entrez,选择Protein,上传登陆号文件,具体参考 这个 。旁边 Send to 的时候选择 FASTA CDS 就可以。
2. 获取 Genomic sequence (FASTA)
而 Genomic sequence (FASTA) 获取就较为繁琐,目前我还不知道有啥不用脚本就可以批量下载的方法。超费时间的手动获取方法流程如下:
- 在 NCBI Batch Entrez 里选择 Gene,上传登陆号
- 点击列表,进入单个基因详情页
- 点击右下 FASTA,获取 DNA FASTA,复制结果,粘贴保存到同一个文件里
下拉,找到 mRNA and Protein(s) 这一栏,对应的是蛋白质登陆号。
那么在详情页里获取到的必要信息有:
- LOC105628049
- JCGZ_05469
- NW_012124111.1
- XP_012064751.1
如果你已经用过 MapChart 绘制染色体定位图,并且已经按照染色体长度排序,且为每个登陆号都绑定了自己重命名的编号,就可以把这些数据全部收集到一起,方便查阅。建议建个表格,比如:
Number | Rename | Gene Name | Gene ID | ACCESSION | Protein Size(aa) | MW(Da) | PI | Location |
---|---|---|---|---|---|---|---|---|
1 | JcHSP60-1 | LOC105628049 | JCGZ_05469 | XP_012064751.1 | 574 | 61145.43 | 5.84 | LG1 |
3. 整理数据
批量下载的 CDS sequence (FASTA) 文件大致如下,其中每个 CDS sequence 都包含了 类似XP_012080304.1
这样的蛋白质登陆号。
>lcl|XM_012224914.2_cds_XP_012080304.1_1 [gene=LOC105640534] [db_xref=GeneID:105640534] [protein=T-complex protein 1 subunit delta] [protein_id=XP_012080304.1] [location=209..1813] [gbkey=CDS]
序列
>lcl|XM_012209361.2_cds_XP_012064751.1_1 [gene=LOC105628049] [db_xref=GeneID:105628049] [protein=ruBisCO large subunit-binding protein subunit alpha] [protein_id=XP_012064751.1] [location=436..2196] [gbkey=CDS]
序列
整理的 Genomic sequence (FASTA) 文件大致如下,其中每个 Genomic sequence 都包含了类似 NW_012124182.1
这样的 DNA 登陆号。
>NW_012124182.1:c1896425-1890276 Jatropha curcas cultivar GZQX0401 unplaced genomic scaffold, JatCur_1.0 scaffold84, whole genome shotgun sequence
序列
>NW_012125068.1:c2591815-2589868 Jatropha curcas cultivar GZQX0401 unplaced genomic scaffold, JatCur_1.0 scaffold779, whole genome shotgun sequence
序列
而在上一步里,我们已经整理了大量数据,把 CDS sequence (FASTA) 文件和Genomic sequence (FASTA) 文件全部重命名一遍,每个数据都要一一对应。
最后应该是这样:
CDS sequence (FASTA) 文件
>JcHSP60-1
ATGGCAGCACCGGCAGTCTCCCAGCCTAGATCCTCCAAGACCGAGTCTTATGTTGACAATAAACGCAAGG
AGGATATCCGCCACGCTAATATAGTTGCCGCC以下省略
Genomic sequence (FASTA) 文件
>JcHSP60-1
GGGTAAAACAATTTCCAGTAACTAAACCTTGTCCAAAGCTAAAACCCTACCAAAAGCCCTCGCTTCTGAT
TCTGAATTGCAAACAGAAAAACAGCAGAAAA以下省略
结果
保存之后上传,默认参数不变,结果如图,仅供参考。
本文作者:mikusa
本文链接:https://www.himiku.com/archives/gsds.html
版权声明:所有文章除特别声明外均系本人自主创作,转载及引用请联系作者,并注明出处(作者、原文链接等)。
我的天,看网站名字怎么感觉像是二次元,翻了一下还真是。大佬厉害了。
你好,我想问一下我最后得出的结果图只有CDS和UTR,没有Intron,是我哪里出错了吗
非常抱歉,因为太久没接触生信,我已经忘记了……
好的,没事
你好,我无法找到GSDS的网页,能麻烦给一个使用渠道吗?
文章中第一段不就有吗?
现在官网好像宕机了
一脸懵逼的路过
牛zsbd
屌 zsbd
艹 zsbd