Identificación de sitios en proteínas usando máquinas con vectores de soporte

Contenido principal del artículo

Autores

Jaime Leonardo Bobadilla
Tobías Mojica
Luis Fernando Niño

Resumen

Ante el incremento creciente de estructuras tridimensionales (3D) de proteínas determinadas por rayos X y tecnologías de NMR, así como de estructuras obtenidas mediante métodos computacionales, resulta necesaria la utilización de métodos automatizados para obtener anotaciones iniciales. Hemos desarrollado un nuevo método para reconocer sitios en estructuras tridimensionales de proteínas. Este método está basado en un algoritmo previamente informado para crear descripciones de microambientes proteicos, utilizando propiedades físicas y químicas muy específicas. El método de reconocimiento tiene 3 entradas: 1. Un juego de sitios que comparten alguna función estructural o funcional; 2. Un juego de sitios que no comparten funciones estructurales o funcionales; 3. Un solo sitio para análisis. Una máquina clasificadora con vector de soporte utiliza detalles del vector, donde cada componente representa una propiedad en volumen dado. La validación contra tests independientes muestra que esta prueba de reconocimiento tiene una alta sensibilidad y especificidad. También describimos los resultados de examinar 4 proteínas de unión a calcio (y con el calcio removido) utilizando una rejilla tridimensional de puntos de prueba en un espacio de 1.25Ao. Nuestros resultados muestran que descripciones basadas en propiedades con máquinas de soporte de vectores pueden ser utilizadas para el reconocimiento de sitios de proteínas en estructuras no anotadas.

Palabras clave:

Detalles del artículo

Licencia

Licencia Creative Commons
NOVA por http://www.unicolmayor.edu.co/publicaciones/index.php/nova se distribuye bajo una Licencia Creative Commons Atribución-NoComercial-SinDerivar 4.0 Internacional.

Así mismo,  los autores mantienen sus derechos de propiedad intelectual sobre los artículos.  

Referencias

1. Mojica T, Estrada L. Acerca del genoma humano. Agronomía Colombiana;27:7-12

2. Workshop Report National Research Council Steering Committee: George L. Kenyon, (Chair). Defining the Mandate of Proteomics in the Post-Genomics Era.

3. Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, et al. The Protein Data Bank. Nucleic Acids Research 2000;28:235-42.

4. Simons KT, Kooperberg C, Huang E, Baker D. Assembly of protein tertiary structures from fragments with similar local sequences using simulated anealing and Bayesian scoring functions. J Mol Biol 1997;268:209-25.

5. Altman RB, Klein TE. Challenges for Biomedical Informatics and Pharmacogenomics. Annu Rev Pharmacol Toxicol 2002;42:113-33.

6. Koza JR. Evolution of a Computer Program for Classifying Protein Segments as Transmembrane Domains Using Genetic Programming. Proc of ISMB-94 1994:244-52.

7. Bryant SH, Altschul SF. Statistics of Sequence-structure Threading. Current Opinion in Structural Biology 1995;5:236- 44.

8. Simons KT, Kooperberg C, Huang E, Baker D. Assembly of protein tertiary structures from fragments with similar local sequences using simulated annealing and Bayesian scoring functions. J Mol Biol 1997;268:209-25.

9. Bork P, Dandekar T, Diaz-Lazcoz Y, Eisenhaber F, Huynen M, Yuan Y. Predicting Function: From Genes to Genomes and Back. J Mol Biol 1998;283:707-25.

10. Brown MPS, Grundy WN, Lin D, Cristianini N, Sugent CW, Furey TS, et al. Knowledge-based Analysis of Microarray Gene Expression Data by Using Support Vector Machines. PNAS 2000;97(1):262-7.

11. Koza JR. Evolution of a Computer Program for Classifying Protein Segments as Transmembrane Domains Using Genetic Programming. Proc of ISMB-94 1994:244-52.

12. Lathrop RH. The Protein Threading Problem with Sequence Amino Acid Interaction Preferences is NP-Complete. Protein Engineering 1994;7:9:1059-68.

13. Alberts B, Bray D, Lewis J, Raff M, Roberts K, Watson JD. Molecular Biology of the Cell. 3rd ed. New York and London: Garland Publishing; c1994.

14. Richards FM. Calculation of Molecular Volumes and Areas for Structures of Known Geometry. Methods in Enzymology 1996;115:440-64.

15. Bateman A, Birney E, Cerruti L, Durbin R, Etwiller L, Eddy SR, et al. The Pfam Protein Families Database. Nucleic Acids Research 2002;30(1):276-80.

16. Bagley SC, Altman RB. Characterizing the Microenvironment Surrounding Protein Sites. Protein Science 1995;4:622-35.

17. Baldi P, Brunak S. Bioinformatics: The Machine Learning Approach. Cambridge, MA: MIT Press; 1998.

18. Burges CC.ATutorial on Support Vector Machines for Pattern Recognition. In «Data Mining and Knowledge Discovery», 1998.

19. Berman HM, Bhat TN, Bourne PE, Feng Z, Gilliland G, Weissig H, et al. The Protein Data Bank and the challenge of structural genomics. Nature Structural Biology 2000;7(11):957-9.
-------------------------------------------------------------------------------
DOI: http://dx.doi.org/10.22490/24629448.1058

Descargas

La descarga de datos todavía no está disponible.