~4.5 GB
基因组序列
~800 MB
GFF3 注释
~350 MB
蛋白质序列
~280 MB
CDS 序列
~180 MB
GO/KEGG 注释
~680 MB
重复元件
基因组序列 · FASTA
格式:.fa.gz · samtools faidx 索引
~4.5 GB 压缩后
| 文件名 | 物种 | 大小 | 染色体数 | MD5 |
|---|
基因结构注释 · GFF3
格式:.gff3.gz · bgzip + tabix 索引
~800 MB 压缩后
| 文件名 | 物种 | 大小 | 基因数 | MD5 |
|---|
蛋白质序列 · FASTA
格式:.protein.fa.gz
~350 MB 压缩后
| 文件名 | 物种 | 大小 | 蛋白数 | MD5 |
|---|
批量下载脚本
在服务器上使用以下脚本批量下载所有物种数据,无需逐一点击。
Bash 脚本(推荐 wget 或 curl)
#!/bin/bash
# CGD 批量下载脚本 — 下载全部40个物种的基因组序列
# 将本脚本上传到服务器后执行:bash download_cgd.sh
BASE_URL="https://cgd.example.edu/data"
DEST="/data/CGD/genomes"
mkdir -p $DEST/fasta $DEST/gff3 $DEST/protein
# 40个物种代码列表
SPECIES="Crot Cyir Cyes Cydi Cype Elvi Elpa Elac Elge Elmo Elma
Car1 Car2 Car3 Car4 Car5 Car6 Car7 Care Rhgl Rhpu
Scpu Scta Blpl Bolm Scam Scla Scfl Fisc Fimi Fuab
Kobe Kosc Isol Pyse Trce Fico Buca Scni Lupe"
for sp in $SPECIES; do
echo "⬇ 下载 $sp ..."
wget -q -O $DEST/fasta/$sp.genome.fa.gz $BASE_URL/fasta/$sp.genome.fa.gz
wget -q -O $DEST/gff3/$sp.gene.gff3.gz $BASE_URL/gff3/$sp.gene.gff3.gz
wget -q -O $DEST/protein/$sp.protein.fa.gz $BASE_URL/protein/$sp.protein.fa.gz
done
echo "✓ 全部下载完成"
datasets CLI(NCBI 官方工具)
# 使用 NCBI datasets 命令行工具按 GCA 编号下载原始数据
conda install -c conda-forge ncbi-datasets-cli
# 创建 GCA 列表文件
cat > gca_list.txt << 'EOF'
GCA_052426515.1
GCA_050947265.1
GCA_042767885.1
... (共40行)
EOF
datasets download genome accession \
--inputfile gca_list.txt \
--include genome,gff3,protein \
--filename cgd_all_genomes.zip
REST API 接口
base: https://cgd.example.edu/api/v1
CGD 提供标准 REST API,可程序化访问所有物种元数据、基因信息和下载链接。
获取所有物种列表
GET /api/v1/species
# 返回示例
{
"total": 40,
"species": [
{
"code": "Crot",
"sci_name": "Cyperus rotundus",
"cn_name": "香附子",
"assembly_level": "Chromosome",
"gene_count": 23280
}, ...
]
}
搜索基因
GET /api/v1/gene/search
?q=ALS&species=Crot&page=1
# 返回示例
{
"total": 3,
"genes": [
{
"gene_id": "Crot_g12345",
"name": "ALS",
"chr": "Chr01",
"start": 1234567,
"go_terms": [...]
}
]
}
完整 API 文档请访问 cgd.example.edu/api/docs,支持 Swagger UI 在线测试。