基因学苑生物云平台使用说明

2026 版 · 从登录、传文件到软件环境与 AI 工具

十二、生物信息技能

1 使用iseq下载测序数据

# 推荐通过 bioconda 和 conda-forge 通道安装
mamba create -n iseq -y iseq
# 激活环境
mamab activate iseq

# 下载单个样本的测序数据(自动完成下载、校验和格式转换)
iseq -i SRR11874161

# 使用aspera加速下载
iseq -i SRR11874161 -a

# 批量下载(将多个编号写在 accession_list.txt 中,每行一个)
iseq -i accession_list.txt

# 仅获取该样本的元数据信息(不下载庞大的测序文件,常用于前期调研)
iseq -i SRR11874161 --metadata
# 直接输入项目编号,iseq 会自动解析该项目下的所有测序样本并批量下载
iseq -i PRJNA211801

2 使用datasets工具下载基因组

# 使用bioconda安装
mamba create -n ncbi_datasets -y ncbi-datasets-cli

# 下载人类(Homo sapiens)的参考基因组
datasets download genome taxon "Homo sapiens" --reference

# 下载特定的基因组版本
datasets download genome accession GCF_000001405.40

# 同时下载基因组序列、GFF3 注释文件和蛋白质序列
datasets download genome taxon "Mus musculus" --reference --include genome,gff3,protein

#使用--filename 自定义输出文件名。
datasets download genome taxon mouse --reference --filename mouse_genome.zip

3 使用lftp下载数据库

3.1 下载NCBI数据

lftp ftp://ftp.ncbi.nlm.nih.gov/
>ls
>cd /blast/db
> mget swissprot.tar.gz

3.2 下载NMDC数据

lftp ftp://download.nmdc.cn/
ls
cd tools/conda
mget megahit.tar.gz

3.3 下载GATK数据

lftp ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/
ftp> ls
ftp> cd buldle
#mget或者mirrors进行下载
mirror hg38

ftp://download.nmdc.cn/tools/conda/gtdbtk.tar.gz
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR118/061/SRR11874161/SRR11874161_2.fastq.gz

3.4 下载uniprot数据

lftp ftp.uniprot.org/pub/databases/uniprot/previous_releases/release-2021_01/
mirror knowledgebase/ uniprot