Geneticsとかを買えない貧乏な人達は
http://www.ncbi.nlm.nih.gov/blast/bl2seq/wblast2.cgi
のblast 2 sequenceを使ったりすると思いますが、
これでデフォルト値だと低い相同性は計算できません。
例えば、50アミノ酸あって、1-40だけが相同性を有していて、40-50はばらばらな場合、
このblast 2 sequenceのデフォルト値では、
1-40を比較した結果だけが出ます。
このプログラムを使って、とにかく相同性の低い領域も含めて、
指定した領域に関して、全体的な相同性を出すことはできないのでしょうか?
1の御方がおっしゃってますようにBLASTでは無理があります。ただ、その領域(35-50)だけをとりだしてMatrixの変更gap penaltiesを下げるなどで何とか合わせてくれるかもしれません。
blast 2 sequenceでなく、わざとデーターベースでPSI-blastサーチでiterationをを繰り返すと相同性のあるたんぱく質間から、モチーフのようなものを抽出してその部分の相同性をさらに調べるので、幾らか広範囲の相同性が得られるようになりますが目的の配列をマッチするようになるとは限りません。
もう少し精度のよいアライメントをするには違うアルゴリズムかマルチプルアライメントをするのがいいかもしれません。
2つのあいだで比べるなら
http://www.kenkyuu.net/genetool-03.html
Smith-Waterman
FASTA
で、データーベースからのホモロジーサーチになっているかもしれませんが、興味のあるたんぱく質がデーターベースにあるのであれば、引いてくることができるでしょう。
あと、あまり類似していないと偶然かどうか分からないので合わせようがなくなるわけですが、
そういう時はマルチプルアライメントを使って多数の配列から規則せいを抽出するほうがいいと思います。
興味あるたんぱく質のオートログやホモログをなるべくたくさんあつめて、そうどうせいを見つけるということです。これも合わせたい領域のアミノ酸配列を取り出してやる方が精度がいいです。
ClustalW が有名です。
http://www.ddbj.nig.ac.jp/search/clustalw-j.html
http://www.kenkyuu.net/genetool-04.html
BLASTというアリゴリズムの性質上、不可能です。
BLASTは似た配列のある箇所を少しずつ伸ばしていって相同性が最大になった箇所を出力することで、総当りのドットマトリックス法に比べて格段に速度を上げているわけなので、相同性が最大になった箇所のフラグメントしか出力できません。
http://mikilab.doshisha.ac.jp/dia/research/report/2003/0608/006/...
全体の相同性を出すのなら、perlやエクセルで動的計画法のプログラムを組んでみてはいかがでしょう。
ありがとうございます。
しかし、
僕はバイオインフォマティクスな人間じゃないので、
作られたツールを利用するだけです!
そのような二配列間比較のツールって、ウェブ上にありませんかね?
(なるべく、公式なサイトで。)
http://align.genome.jp/
http://www.ebi.ac.uk/clustalw/
http://www.ebi.ac.uk/clustalw/help.html
http://www.es.embnet.org/Doc/clustalw/clustalx.html
普通にClustalW or X でスコアを解析、では不十分ということでしょうか?
Xなら全領域、領域指定のアライメントも楽だと思うのですが。
ありがとうございます。
不十分っていうか、Clustalwとかってそういうプログラムだったんだ!!知りませんでした。
1の御方がおっしゃってますようにBLASTでは無理があります。ただ、その領域(35-50)だけをとりだしてMatrixの変更gap penaltiesを下げるなどで何とか合わせてくれるかもしれません。
blast 2 sequenceでなく、わざとデーターベースでPSI-blastサーチでiterationをを繰り返すと相同性のあるたんぱく質間から、モチーフのようなものを抽出してその部分の相同性をさらに調べるので、幾らか広範囲の相同性が得られるようになりますが目的の配列をマッチするようになるとは限りません。
もう少し精度のよいアライメントをするには違うアルゴリズムかマルチプルアライメントをするのがいいかもしれません。
2つのあいだで比べるなら
http://www.kenkyuu.net/genetool-03.html
Smith-Waterman
FASTA
で、データーベースからのホモロジーサーチになっているかもしれませんが、興味のあるたんぱく質がデーターベースにあるのであれば、引いてくることができるでしょう。
あと、あまり類似していないと偶然かどうか分からないので合わせようがなくなるわけですが、
そういう時はマルチプルアライメントを使って多数の配列から規則せいを抽出するほうがいいと思います。
興味あるたんぱく質のオートログやホモログをなるべくたくさんあつめて、そうどうせいを見つけるということです。これも合わせたい領域のアミノ酸配列を取り出してやる方が精度がいいです。
ClustalW が有名です。
http://www.ddbj.nig.ac.jp/search/clustalw-j.html
http://www.kenkyuu.net/genetool-04.html
ありがとうございます!
ありがとうございます!