暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

使用rsync下载PDB数据库

biolearn 2018-05-29
1245

从PDB数据库下载复合物的结构有两种方式,一是直接通过网页检索下载,二是使用rsync从PDB ftp端下载。


下载指定ID的PDB

PDB ftp 端的文件命名格式是 pdbID.ent.gz,所以在下载指定名字的PDB文件时,需要按照ftp上的命名规则命名下载,例如,下载名为1aay的结构,下载的文件是gz格式,解压后即为PDB文件。

  1. wget ftp://ftp.wwpdb.org/pub/pdb/data/structures/all/pdb/pdb1aay.ent.gz

  2. gunzip pdb1aay.ent.gz


下载全部的PDB文件

不同文件格式对应的下载命令

PDB格式

  1. rsync -rlpt -v -z --delete --port=33444 rsync.rcsb.org::ftp_data/structures/divided/pdb/ ./pdb

mmCIF格式

  1. rsync -rlpt -v -z --delete --port=33444 rsync.rcsb.org::ftp_data/structures/divided/mmCIF/ ./mmCIF

xml格式

  1. rsync -rlpt -v -z --delete --port=33444 rsync.rcsb.org::ftp_data/structures/divided/XML/ ./XML

解压所有文件

将下载下来的所有.gz的文件进行解压并修改为.pdb的格式并存放在文件夹pdbstructure中的shell脚本

  1. #!/bin/sh

  2. mkdir pdbstructure

  3. for filename in `ls ./pdb`

  4. do

  5.    gunzip ./pdb/$filename/*

  6.    for subfile in `ls ./pdb/$filename`

  7.    do

  8.        target_name=${subfile:3:4}.pdb

  9.        mv ./pdb/$filename/$subfile ./pdbstructure/$target_name

  10.    done

  11. done

参考资料

http://www.wwpdb.org/download/downloads

  

微信ID:biolearn

长按指纹识别二维码关注

文章转载自biolearn,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论