Pfam
Content | |
---|---|
Description | Baza de date Pfam oferă aliniamente și modele Markov ascunse pentru domenii de proteine. |
Data types captured | Familii de proteine |
Organisms | toate |
Contact | |
Research center | EBI |
Primary citation | PubMed |
Access | |
Data format | Stockholm format |
Website | pfam.xfam.org |
Download URL | FTP 1 FTP 2 |
Miscellaneous | |
License | GNU Lesser General Public License |
Version | 33.1 |
Bookmarkable entities | yes |
Pfam este o bază de date a proteine care include adnotările și alinierea secvențelor multiple generate utilizând modelul Markov ascuns.[1][2][3] Cea mai recentă versiune, Pfam 33.1, a fost lansată în mai 2020 și conține 18.259 de familii.[4]
Utilizări
[modificare | modificare sursă]Scopul general al bazei de date Pfam este de a oferi o clasificare completă și precisă a familiilor și domeniilor de proteine.[5] Inițial, raționamentul din spatele creării bazei de date a fost de a avea o metodă semiautomată de curățare a informațiilor privind familiile de proteine cunoscute pentru a îmbunătăți eficiența adnotării genomurilor.[6] Clasificarea Pfam a familiilor de proteine a fost adoptată pe scară largă de biologi datorită acoperirii largi a proteine și convenții de denumire sensibile.[7]
Acesta este utilizată de biologii experimentali care cercetează proteine specifice, de biologii structurali pentru a identifica noi obiective pentru determinarea structurii, de biologii computaționali pentru a organiza secvențe și de biologii evoluționiști care urmăresc originile proteinelor.[8] Proiectele genomului timpuriu, ar fi umane și utilizate pe scară largă de Pfam pentru adnotarea funcțională a datelor genomice.[9][10][11]
Site-ul Pfam permite utilizatorilor să prezinte secvențe de proteine sau ADN pentru a căuta potriviri familiilor din baza de date. Dacă ADN-ul este prezentat, se efectuează un cadru cu șase cadre transtrație, apoi fiecare cadru este căutat.[12] În loc să efectueze o căutare tipică BLAST, Pfam folosește profilul modelele Markov ascunse, care acordă o greutate mai mare potrivirilor la conservată site-uri, permițând o mai bună detectare a homologiei de la distanță, făcându-le mai potrivite pentru adnotarea genomurilor organismelor fără rude apropiate bine adnotate.[13]
Pfam a fost, de asemenea, utilizat în crearea altor resurse, cum ar fi iPfam, care cataloghează interacțiunile domeniu-domeniu în interiorul și între proteine, pe baza informațiilor din bazele de date de structură și cartografierea domeniilor Pfam pe aceste structuri.[14]
Caracteristici
[modificare | modificare sursă]Pentru fiecare familie din Pfam se poate:
- Vedea o descriere a familiei
- Verificarea mai multor aliniamente
- Vedea arhitecturi de domeniu de proteine
- Examinarea distribuției speciilor
- Urmați link-uri către alte baze de date
- Vedea structurile cunoscute de proteine
Intrările pot fi de mai multe tipuri: familie, domeniu, repetări sau motive. Familia este clasa implicită, ceea ce indică pur și simplu că membrii sunt înrudiți. Domeniile sunt definite ca o unitate structurală autonomă sau o unitate secvențială reutilizabilă care poate fi găsită în mai multe contexte proteice. Repetările nu sunt de obicei stabile în mod izolat, ci mai degrabă sunt de obicei necesare pentru a forma repetă tandem în scopul de a forma un domeniu sau o structură extinsă. Motivele sunt, de obicei, unități de secvență mai scurte găsite în afara domeniilor globulare.[9]
Descrierile familiilor Pfam sunt gestionate de publicul larg folosind Wikipedia (a se vedea Istoric).
La eliberarea variantei 29.0, 76.1% din secvențele de proteine în UniprotKB s-a potrivit cu cel puțin un domeniu Pfam.[15]
Referințe
[modificare | modificare sursă]- ^ Finn RD, Tate J, Mistry J, Coggill PC, Sammut SJ, Hotz HR, Ceric G, Forslund K, Eddy SR, Sonnhammer EL, Bateman A (). „The Pfam protein families database”. Nucleic Acids Res. 36 (Database issue): D281–8. doi:10.1093/nar/gkm960. PMC 2238907 . PMID 18039703.
- ^ Finn, R. D.; Mistry, J.; Schuster-Böckler, B.; Griffiths-Jones, S.; Hollich, V.; Lassmann, T.; Moxon, S.; Marshall, M.; Khanna, A.; Durbin, R.; Eddy, S. R.; Sonnhammer, E. L.; Bateman, A. (). „Pfam: clans, web tools and services” (Free full text). Nucleic Acids Research. 34 (Database issue): D247–D251. doi:10.1093/nar/gkj149. ISSN 0305-1048. PMC 1347511 . PMID 16381856.
- ^ Bateman, A.; Coin, L.; Durbin, R.; Finn, R. D.; Hollich, V.; Griffiths-Jones, S.; Khanna, A.; Marshall, M.; Moxon, S.; Sonnhammer, E. L.; Studholme, D. J.; Yeats, C.; Eddy, S. R. (). „The Pfam protein families database”. Nucleic Acids Research. 32 (Database issue): 138D–1141. doi:10.1093/nar/gkh121. ISSN 0305-1048. PMC 308855 . PMID 14681378.
- ^ Finn, Rob; Mistry, Jaina (). „Pfam 31.0 is released”. Xfam Blog. Accesat în .
- ^ Sammut, Stephen; Finn, Robert D.; Bateman, Alex (). „Pfam 10 years on: 10 000 families and still growing”. Briefings in Bioinformatics. 9 (3): 210–219. doi:10.1093/bib/bbn010 . PMID 18344544.
- ^ Sonnhammer, Erik L.L.; Eddy, Sean R.; Durbin, Richard (). „Pfam: A Comprehensive Database of Protein Domain Families Based on Seed Alignments”. Proteins. 28 (3): 405–420. doi:10.1002/(sici)1097-0134(199707)28:3<405::aid-prot10>3.0.co;2-l. PMID 9223186.
- ^ Xu, Qifang; Dunbrack, Roland L. (). „Assignment of protein sequences to existing domain and family classification systems: Pfam and the PDB”. Bioinformatics. 28 (21): 2763–2772. doi:10.1093/bioinformatics/bts533. PMC 3476341 . PMID 22942020.
- ^ Finn, R. D.; Mistry, J.; Tate, J.; Coggill, P.; Heger, A.; Pollington, J. E.; Gavin, O. L.; Gunasekaran, P.; Ceric, G.; Forslund, K.; Holm, L.; Sonnhammer, E. L. L.; Eddy, S. R.; Bateman, A. (). „The Pfam protein families database”. Nucleic Acids Research. 38 (Database): D211–D222. doi:10.1093/nar/gkp985. ISSN 0305-1048. PMC 2808889 . PMID 19920124.
- ^ a b Bateman A, Birney E, Cerruti L, Durbin R, Etwiller L, Eddy SR, Griffiths-Jones S, Howe KL, Marshall M, Sonnhammer EL (). „The Pfam protein families database”. Nucleic Acids Res. 30 (1): 276–80. doi:10.1093/nar/30.1.276. PMC 99071 . PMID 11752314.
- ^ Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne JD, et al. (). „The genome sequence of Drosophila melanogaster”. Science. 287 (5461): 2185–95. Bibcode:2000Sci...287.2185.. CiteSeerX 10.1.1.549.8639 . doi:10.1126/science.287.5461.2185. PMID 10731132.
- ^ Lander, Eric S.; Linton, Lauren M.; Birren, Bruce; Nusbaum, Chad; Zody, Michael C.; et al. (). „Initial sequencing and analysis of the human genome”. Nature. 409 (6822): 860–921. doi:10.1038/35057062 . ISSN 0028-0836. PMID 11237011.
- ^ Finn, Robert D.; Bateman, Alex; Clements, Jody; Coggill, Penelope; Eberhardt, Ruth Y.; Eddy, Sean R.; Heger, Andreas; Hetherington, Kirstie; Holm, Liisa; Mistry, Jaina; Sonnhammer, Erik L. L.; Tate, John; Punta, Marco (). „Pfam: the protein families database”. Nucleic Acids Research. 42 (D1): D222–D230. doi:10.1093/nar/gkt1223. ISSN 0305-1048. PMC 3965110 . PMID 24288371.
- ^ Sonnhammer EL, Eddy SR, Birney E, Bateman A, Durbin R (). „Pfam: multiple sequence alignments and HMM-profiles of protein domains”. Nucleic Acids Res. 26 (1): 320–2. doi:10.1093/nar/26.1.320. PMC 147209 . PMID 9399864.
- ^ Finn, R. D.; Marshall, M.; Bateman, A. (). „iPfam: visualization of protein-protein interactions in PDB at domain and amino acid resolutions”. Bioinformatics. 21 (3): 410–412. doi:10.1093/bioinformatics/bti011 . ISSN 1367-4803. PMID 15353450.
- ^ Finn, Robert D.; Coggill, Penelope; Eberhardt, Ruth Y.; Eddy, Sean R.; Mistry, Jaina; Mitchell, Alex L.; Potter, Simon C.; Punta, Marco; Qureshi, Matloob; Sangrador-Vegas, Amaia; Salazar, Gustavo A.; Tate, John; Bateman, Alex (). „The Pfam protein families database: towards a more sustainable future”. Nucleic Acids Research. 44 (D1): D279–D285. doi:10.1093/nar/gkv1344. ISSN 0305-1048. PMC 4702930 . PMID 26673716.
Legături externe
[modificare | modificare sursă]- Pfam - Baza de date a familiei proteice la EBI Marea Britanie
- iPfam Arhivat în , la Wayback Machine. - Interacțiuni de domenii Pfam în PDB
- PDBfam - Misiuni de domenii Pfam la secvențe în PDB la Fox Chase Cancer Center Statele Unite ale Americii
- PlantTFDB Arhivat în , la Wayback Machine. - Regulile de atribuire a familiei pentru factorii de transcriere a plantelor pe baza domeniilor Pfam