数据下载

~4.5 GB

基因组序列

~800 MB

GFF3 注释

~350 MB

蛋白质序列

~280 MB

CDS 序列

~180 MB

GO/KEGG 注释

~680 MB

重复元件

基因组序列 · FASTA

格式：.fa.gz · samtools faidx 索引

全选 ~4.5 GB 压缩后

	文件名	物种	大小	染色体数	MD5

基因结构注释 · GFF3

格式：.gff3.gz · bgzip + tabix 索引

全选 ~800 MB 压缩后

	文件名	物种	大小	基因数	MD5

蛋白质序列 · FASTA

格式：.protein.fa.gz

全选 ~350 MB 压缩后

	文件名	物种	大小	蛋白数	MD5

批量下载脚本

在服务器上使用以下脚本批量下载所有物种数据，无需逐一点击。

Bash 脚本（推荐 wget 或 curl）

#!/bin/bash
# CGD 批量下载脚本 — 下载全部40个物种的基因组序列
# 将本脚本上传到服务器后执行：bash download_cgd.sh

BASE_URL="https://cgd.example.edu/data"
DEST="/data/CGD/genomes"
mkdir -p $DEST/fasta $DEST/gff3 $DEST/protein

# 40个物种代码列表
SPECIES="Crot Cyir Cyes Cydi Cype Elvi Elpa Elac Elge Elmo Elma
  Car1 Car2 Car3 Car4 Car5 Car6 Car7 Care Rhgl Rhpu
  Scpu Scta Blpl Bolm Scam Scla Scfl Fisc Fimi Fuab
  Kobe Kosc Isol Pyse Trce Fico Buca Scni Lupe"

for sp in $SPECIES; do
  echo "⬇  下载 $sp ..."
  wget -q -O $DEST/fasta/$sp.genome.fa.gz   $BASE_URL/fasta/$sp.genome.fa.gz
  wget -q -O $DEST/gff3/$sp.gene.gff3.gz    $BASE_URL/gff3/$sp.gene.gff3.gz
  wget -q -O $DEST/protein/$sp.protein.fa.gz $BASE_URL/protein/$sp.protein.fa.gz
done
echo "✓ 全部下载完成"

datasets CLI（NCBI 官方工具）

# 使用 NCBI datasets 命令行工具按 GCA 编号下载原始数据
conda install -c conda-forge ncbi-datasets-cli

# 创建 GCA 列表文件
cat > gca_list.txt << 'EOF'
GCA_052426515.1
GCA_050947265.1
GCA_042767885.1
... (共40行)
EOF

datasets download genome accession \
  --inputfile gca_list.txt \
  --include genome,gff3,protein \
  --filename cgd_all_genomes.zip

REST API 接口

base: https://cgd.example.edu/api/v1

CGD 提供标准 REST API，可程序化访问所有物种元数据、基因信息和下载链接。

获取所有物种列表

GET /api/v1/species

# 返回示例
{
  "total": 40,
  "species": [
    {
      "code": "Crot",
      "sci_name": "Cyperus rotundus",
      "cn_name": "香附子",
      "assembly_level": "Chromosome",
      "gene_count": 23280
    }, ...
  ]
}

搜索基因

GET /api/v1/gene/search
  ?q=ALS&species=Crot&page=1

# 返回示例
{
  "total": 3,
  "genes": [
    {
      "gene_id": "Crot_g12345",
      "name": "ALS",
      "chr": "Chr01",
      "start": 1234567,
      "go_terms": [...]
    }
  ]
}

完整 API 文档请访问 cgd.example.edu/api/docs，支持 Swagger UI 在线测试。

数据 下载