Protein sequence analysis



Descargar 59,57 Kb.
Fecha de conversión20.03.2017
Tamaño59,57 Kb.

Protein sequence analysis

  • 2004
  • Fernán Agüero
  • Instituto de Investigaciones Biotecnológicas
  • Universidad Nacional de General San Martín

El flujo de información en biología

  • > DNA
  • AATTCATGAAAATCGTATACTGGTCTGGTACCGGCAACAC
  • TGAGAAAATGGCAGAGCTCATCGCTAAAGGTATCATCGAA
  • TCTGGTAAAGACGTCAACACCATCAACGTGTCTGACGTTA
  • ACATCGATGAACTGCTGAACGAAGATATCCTGATCCTGGG
  • TTGCTCTGCCATGGGCGATGAAGTTCTCGAGGAAAGCGAA
  • TTTGAACCGTTCATCGAAGAGATCTCTACCAAAATCTCTG
  • GTAAGAAGGTTGCGCTGTTCGGTTCTTACGGTTGGGGCGA
  • CGGTAAGTGGATGCGTGACTTCGAAGAACGTATGAACGGC
  • TACGGTTGCGTTGTTGTTGAGACCCCGCTGATCGTTCAGA
  • ACGAGCCGGACGAAGCTGAGCAGGACTGCATCGAATTTGG
  • TAAGAAGATCGCGAACATCTAGTAGA
  • > Proteina
  • MKIVYWSGTGNTEKMAELIAKGIIESGKDVNTINVSDVNI
  • DELLNEDILILGCSAMGDEVLEESEFEPFIEEISTKISGK
  • KVALFGSYGWGDGKWMRDFEERMNGYGCVVVETPLIVQNE
  • PDEAEQDCIEFGKKIANI
  • Gen
  • Función

Conformación proteica

  • Christian Anfinsen Estudios sobre desnaturalización reversible: “la secuencia determina la conformación”
  • Las chaperonas y las enzimas intercambiadoras de disulfuros están involucrados pero no controlan el estado final.
  • A partir de una secuencia proteica recién determinada, que se puede decir acerca de su conformación? Se puede predecir la estructura por métodos computacionales?
  • Respuesta: predicción ab initio (no muy confiable!!!)

Protein sequence analysis

  • Ancestro común?
  • Función conservada?
  • Dominio o secuencia completa?

BLAST

  • Identifica high-scoring segment pairs (HSPs)
    • Un par de secuencias que pueden ser alineados sin gaps
    • Cuando están alineadas tienen un score agregado máximo (no puede ser mejorado por extensión o por recorte del alineamiento)
    • El score debe estar por arriba de un determinado valor (threshold) S.
    • gapped (2.0) o ungapped (1.4)
  • Modos de uso (interfases disponibles)
    • WWW search form http://www.ncbi.nlm.nih.gov/BLAST
    • Unix command line blastall -p progname -d db -i query > outfile
    • E-mail server blast@ncbi.nlm.nih.gov

Algoritmos BLAST

  • Program Query Sequence Target Sequence
  • BLASTN Nucleotide Nucleotide
  • BLASTP Protein Protein
  • BLASTX Nucleotide, Protein
  • six-frame translation
  • TBLASTN Protein Nucleotide,
  • six-frame translation
  • TBLASTX Nucleotide, Nucleotide,
  • six-frame translation six-frame translation

Palabras cercanas (neighborhood words)

  • Query Word (W = 3)
  • Neighborhood Score Threshold
  • (T = 13)
  • Query: GSQSLAALLNKCKTPQGQRLVNQWIKQPLMDKNRIEERLNLVEAFVED
  • PQG 18
  • PEG 15
  • PRG 14
  • PKG 14
  • PNG 13
  • PDG 13
  • PHG 13
  • PMG 13
  • PSG 13
  • PQA 12
  • PQN 12
  • etc.
  • Neighborhood
  • Words

High-scoring segment pairs (HSPs)

  • Query: 325 SLAALLNKCKTPQGQRLVNQWIKQPLMDKNRIEERLNLVEA 365
  • +LA++L TP G R++ +W+ P+ D + ER + A
  • Sbjct: 290 TLASVLDCTVTPMGSRMLKRWLHMPVRDTRVLLERQQTIGA 330
  • PQG 18
  • PEG 15
  • PRG 14
  • PKG 14
  • PNG 13
  • PDG 13
  • PHG 13
  • PMG 13
  • PSG 13
  • PQA 12
  • PQN 12
  • etc.

Requerimientos de una búsqueda de BLAST

  • Una secuencia query, en formato FASTA.
  • Qué programa de BLAST usar.
  • Qué base de datos buscar.
  • Parámetros de la búsqueda.

Secuencia query

  • >N-terminal unknown protein
  • MSSAAAAAAGAAGGGALFQPQSVSTANSSSSNNNNSSTPAALATHSPTSNSPVSGASSASSLLTAAFGNL
  • FGGSSAKMLNELFGRQMKQAQDATSGLPQSLDNAMLAAAMETATSAELLIGSLNSTSKLLQQQHNNN...
  • BLASTP / SWISSPROT / BLOSUM62
  • Un E bajo implica un HSP más significativo – pero siempre hay que mirar los alineamientos!!!
  • Score E
  • Sequences producing significant alignments: (bits) Value
  • sp|P29617|PRO_DROME PROTEIN PROSPERO 948 0.0
  • sp|P34522|HM26_CAEEL HOMEOBOX PROTEIN CEH-26 242 4e-63
  • sp|P48437|PRX1_MOUSE HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 214 7e-55
  • sp|Q92786|PRX1_HUMAN HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 214 7e-55
  • sp|Q91018|PRX1_CHICK HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 213 2e-54
  • sp|P25440|RNG3_HUMAN RING3 PROTEIN (KIAA9001) 35 0.79
  • sp|P31000|VIME_RAT VIMENTIN 34 1.4
  • sp|P48670|VIME_CRIGR VIMENTIN 34 1.4

Requerimientos BLAST

  • Una secuencia query, en formato FASTA.
  • Qué programa de BLAST usar.
  • Qué base de datos buscar.
  • Parámetros de la búsqueda.
  • Extension
  • Cumulative Score
  • T
  • S
  • X
  • E = kNe-S
  • Número de HSPs hallados por puro azar
  • HSP
  • Intenta extender el HSP, siempre que la caída del score sea menos que X (bits). Si lo logra, se repite con el próximo pico.
  • X

Matrices de scoring

  • Esquema empírico de ponderación (weighting) que intenta representar conocimiento biológico (estructural/funcional)
    • Cys : puentes disulfuro o unión a metales: estabilizan la estructura.
    • Pro : relativamente voluminoso y sin grupo N-H para cadenas laterales: ocurre en codos (turns).
    • Trp: cadena lateral voluminosa.
    • Lys/Arg: cadenas laterales cargadas positivamente.
    • Gly: no tiene cadena lateral. Permite rotar a la cadena porlipeptídica: ocurre en codos (turns).
    • Ala: sinpropiedades particulaes. Cadena lateral pequeña: ocurre frecuentemente en alpha-hélices.
    • Glu/Asp: frecuentes al comienzo de alpha-hélices.
    • Lys/Arg: frecuentes hacia el final de alpha-hélices.

Matrices de scoring: importancia

  • Es importante comprender las matrices de scoring
    • Aparecen (y son la base) de todos los análisis que involucran comparación de secuencias.
    • Representan en forma implícita una teoría particular de la evolución.
    • La elección de la matriz puede influenciar fuertemente los resultados que se obtengan.

Estructura de una matriz

  • A R N D C Q E G H I L K M F P S T W Y V B Z X *
  • A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4
  • R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4
  • N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4
  • D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4
  • C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4
  • Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4
  • E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
  • G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4
  • H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4
  • I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4
  • L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4
  • K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4
  • M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4
  • F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4
  • P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4
  • S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4
  • T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4
  • W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4
  • Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4
  • V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4
  • B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4
  • Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
  • X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4
  • * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1

Hay tantas matrices ...

  • Triple-PAM (Altschul, 1991)
    • PAM 40 Alineamientos cortos, alta similitud
    • PAM 120
    • PAM 250 Alineamientos largos, baja similitud
  • BLOSUM 62 (Henikoff, 1993)
    • La más efectiva para detectar miembros de una familia de proteínas. (BLAST default).
  • No hay una matriz que sea la respuesta completa para todas las comparaciones!!!

Matrices PAM

  • Margaret Dayhoff, 1978
  • Point Accepted Mutation (PAM)
    • Se observan los patrones de sustituciones en proteínas relacionadas.
    • La nueva cadena lateral debe funcionar en forma similar a la anterior (aceptación)
    • En promedio 1 PAM, corresponde al cambio de 1 amino ácido cada 100 residuos.
    • 1 PAM ~ 1% divergencia
    • Se extrapola para predecir patterns de mutación a mayores distancias.

Matrices PAM (cont.)

  • Suposiciones
    • Una mutación es independiente de los residuos que la rodean.
    • Las secuencias comparadas son de una composición promedio.
    • Todos los sitios son igualmente reemplazables.
  • Fuentes de error
    • Para derivar las matrices se utilizaron proteínas pequeñas, globulares (desvío de la composición promedio).
    • Los errores en PAM 1 son aumentados al extrapolar hasta PAM 250
    • No considera, ni es flexible para considerar bloques conservados o dominios.

Matrices BLOSUM

  • Henikoff and Henikoff, 1992
  • Blocks Substitution Matrix (BLOSUM)
    • Considera sólo diferencias en regiones conservadas, libres de gaps, de una familia proteica.
    • Más sensible a sustituciones estructurales o funcionales.
    • BLOSUM n
      • Contribución de secuencias > n% idénticas pesan 1.
      • Reduce la contribución de secuencias muy similares.
      • Incrementar n ~ incrementar la distancia PAM.

Protein sequence analysis

  • Ancestro común?
  • Función conservada?
  • Dominio o secuencia completa?

Profiles

  • Representación númerica de un alineamiento múltiple.
  • Depende de patrones (patterns) o motivos (motifs) que contengan residuos conservados.
  • Representan las características comunes de una familia de proteínas.
  • Permite identificar similitud entre secuencias con poca o ninguna identidad.
  • Permite incorporar al análisis secuencias relacionadas en forma distante.

Construcción de profiles

  • Cons A B C D E F G H I K L M N P Q R S T V W Y Z
  • G 17 18 0 19 14 -22 31 0 -9 12 -15 -5 15 10 9 6 18 14 1 -15 -22 11
  • P 18 0 13 0 0 -12 13 0 8 -3 -3 -1 -2 23 2 -2 12 11 17 -31 -8 1
  • H 5 24 -12 29 25 -20 8 32 -9 9 -10 -9 22 7 30 10 0 4 -8 -20 -7 27
  • I -1 -12 6 -13 -11 33 -12 -13 63 -11 40 29 -15 -9 -14 -15 -6 7 50 -17 8 -11
  • V 3 -11 1 -11 -9 22 -3 -11 46 -9 37 30 -13 -3 -9 -13 -6 6 50 -19 2 -8
  • V 5 -9 9 -9 -9 19 -1 -13 57 -9 35 26 -13 -2 -11 -13 -4 9 58 -29 0 -9
  • A 54 15 12 20 17 -24 44 -6 -4 -1 -11 -5 12 19 9 -13 21 19 9 -39 -20 10
  • T 40 20 20 20 20 -30 40 -10 20 20 -10 0 20 30 -10 -10 30 150 20 -60 -30 10
  • P 31 6 7 6 6 -41 19 11 -9 6 -16 -11 0 89 17 17 24 22 9 -50 -48 12
  • G 70 60 20 70 50 -60 150 -20 -30 -10 -50 -30 40 30 20 -30 60 40 20 -100 -70 30
  • APHIIVATPG
  • GCEIVIATPG
  • GVEICIATPG
  • GVDILIGTTG
  • RPHIIVATPG
  • KPHIIIATPG
  • KVQLIIATPG
  • RPDIVIATPG
  • APHIIVGTPG
  • APHIIVGTPG
  • GCHVVIATPG
  • NQDIVVATTG
  • Qué residuos aparecen en cada posición?
  • Cuál es la frecuencia de los residuos observados?
  • Qué posiciones están conservadas?
  • Dónde pueden introducirse gaps?
  • Position-Specific Scoring Table

ProfileScan

  • Compara una secuencia contra una colección de profiles.
  • Bases de datos disponibles
    • PROSITE 17.39 1609 entries
    • Pfam 8.0 5193 entries
  • http://hits.isb-sib.ch/cgi-bin/PFSCAN

Query ProfileScan

  • Selecciono TODAS las bases de datos
  • Sólo matches significativos
  • E-value
  • >C-terminal end
  • MALLQISEPGLSAAPHQRRLAAGIDLGTTNSLVATVRSGQAETLADHEGRHLLPSVVHYQQQGHSVGYDA
  • RTNAALDTANTISSVKRLMGRSLADIQQRYPHLPYQFQASENGLPMIETAAGLLNPVRVSADILKALAAR
  • ATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAAIAYGLDSGQEGVIAVYDLGG
  • GTFDISILRLSRGVFEVLATGGDSALGGDDFDHLLADYIREQAGIPDRSDNRVQRELLDAAIAAKIA...
  • normalized raw from - to Profile|Description
  • 219.3535 27400 pos. 21 - 600 PF00012|HSP70 Heat shock hsp70 proteins
  • NScore SwissProt
  • 7.0 1.8000
  • 8.0 0.1800
  • 9.0 0.0180
  • 10.0 0.0018
  • 219.4 3e-211
  • [IV]-D-L-G-T-[ST]-x-[SC]
  • [LIVMF]-[LIVMFY]-[DN]-[LIVMFS]-G-[GSH]-[GS]-[AST]-x(3)-
  • [ST]-[LIVM]-[LIVMFC]
  • [LIVM]-x-[LIVMF]-x-G-G-x-[ST]-x-[LIVM]-P-x-[LIVM]-x-
  • [DEQKRSTA]
  • Signatures

BLOCKS

  • Steve Henikoff, Fred Hutchinson Cancer Research Center, Seattle
  • Alineamientos múltiples de regiones conservadas en familias de proteínas.
    • 1 “block” = 1 alineamiento corto, sin gaps
    • Cada familia puede definirse por uno o más ‘blocks’
    • Las búsquedas permiten detectar uno o más blocks representantes de una familia.
  • Interfases disponibles
    • E-Mail blocks@howard.fchrc.org
    • Web http://blocks.fhcrc.org/

Query BLOCKS

  • ID HSP70_1; BLOCK
  • AC BL00297A; distance from previous block=(94,187)
  • DE Heat shock hsp70 proteins family proteins.
  • BL PRR motif; width=55; seqs=111; 99.5%=2947; strength=1607
  • >C-terminal end
  • MALLQISEPGLSAAPHQRRLAAGIDLGTTNSLVATVRSGQAETLADHEGRHLLPSVVHYQQQGHSVGYDA
  • RTNAALDTANTISSVKRLMGRSLADIQQRYPHLPYQFQASENGLPMIETAAGLLNPVRVSADILKALAAR
  • ATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAAIAYGLDSGQEGVIAVYDLGG
  • GTFDISILRLSRGVFEVLATGGDSALGGDDFDHLLADYIREQAGIPDRSDNRVQRELLDAAIAAKIA...
  • BL00297A
  • HSCA_ECOLI 136 ALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAA
  • |||||||||||||||||||||||||||||||||||||||||||||||||||||||
  • C-terminal 136 ALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAA
  • Search blocks
  • Examine blocks

BLOCKS entry

  • ID HSP70_1; BLOCK
  • AC BL00297A; distance from previous block=(94,187)
  • DE Heat shock hsp70 proteins family proteins.
  • BL PRR motif; width=55; seqs=111; 99.5%=2947; strength=1607
  • HS70_CHLRE ( 129) KETAQASLGADREVKKAVVTVPAYFNDSQRQATKDAGMIAGLEVLRIINEPTAAA 19
  • HS7L_SBYV ( 132) ALISTASEAFKCQCTGVICSVPANYNCLQRSFTESCVNLSGYPCVYMVNEPSAAA 75
  • HS7R_HUMAN ( 124) KLKETAESVLKKPVVDCVVSVPCFYTDAERRSVMDATQIAGLNCLRLMNETTAVA 45
  • HS7T_MOUSE ( 126) TKMKETAEVFWAPMSQRVITVPAYFNDSQRQATKDAGVIAGLNVLRIINEPTAVA 28
  • YKH3_YEAST ( 160) SLLKDRDARTEDFVNKMSFTIPDFFDQHQRKALLDASSITTGIEETYLVSEGMSV 100
  • DNAK_BACSU ( 95) HLKSYAESYLGETVSKAVITVPAYFNDAERQATKDAGKIAGLEVERIINEPTAAA 7
  • DNAK_BORBU ( 122) KMKETAEAYLGEKVTEAVITVPAYFNDAQRQATKDAGKIAGLEVKRIVNEPTAAA 3
  • DNAK_BRUOV ( 122) KMKETAESYLGETVTQAVITVPAYFNDAQRQATKDAGKIAGLEVLRIINEPTAAA 3
  • DNAK_BURCE ( 123) KMKKTAEDYLGEPVTEAVITVPAYFNDSQRQATKDAGRIAGLEVKRIINEPTAAA 3
  • DNAK_CAUCR ( 122) KMKEAAEAHLGEPVTKAVITVPAYFNDAQRQATKDAGKIAGLEVLRIINEPTAAA 5
  • DNAK_CHLPN ( 125) KMKETAEAYLGETVTEAVITVPAYFNDSQRASTKDAGRIAGLDVKRIIPEPTAAA 10
  • DNAK_CLOPE ( 98) KLKADAEAYLGEKVTEAVITVPAYFNDAERQATKDAGRIAGLDVKTIINEPTAAS 8
  • DNAK_CRYPH ( 122) KLVDDASKYLGESVKQAVITVPAYFNDSQRQATKDAGRIAGLEVLRIINEPTAAS 5
  • DNAK_ECOLI ( 121) KMKKTAEDYLGEPVTEAVITVPAYFNDAQRQATKDAGRIAGLEVKRIINEPTAAA 3
  • DNAK_ERYRH ( 96) YMKSYAEDYLGEKVTKAVITVPAYFNDAQRQATKDAGKIAGLEVERIINEPTAAA 5
  • DNAK_HAEIN ( 120) KMKKTAEDFLGESVTEAVITVPAYFNDAQRQATIDAGKIAGLDVKRIINEPTAAA 6
  • .
  • .
  • .

BLOCK Maker

  • >Histone chk-H5 family
  • 6 sequences are included in 2 blocks
  • HistoneA, width = 31
  • chk-H5 1 SHPTYSEMIAAAIRAEKSRGGSSRQSIQKYI
  • hum-H1 1 SGPPVSELITKAVAASKERSGVSLAALKKAL
  • pea-H1 1 SHPTYEEMIKDAIVSLKEKNGSSQYAIAKFI
  • sce-H1.1 1 SSKSYRELIIEGLTALKERKGSSRPALKKFI
  • sce-H1.2 1 SSLTYKEMILKSMPQLNDGKGSSRIVLKKYV
  • xla-H1 1 SGPSASELIVKAVSSSKERSGVSLAALKKAL
  • HistoneB, width = 15
  • chk-H5 ( 21) 53 IRRLLAAGVLKQTKG
  • hum-H1 ( 21) 53 LKSLVSKGTLVQTKG
  • pea-H1 ( 21) 53 LKKNVASGKLIKVKG
  • sce-H1.1 ( 21) 53 IKKGVEAGDFEQPKG
  • sce-H1.2 ( 21) 53 IKKCVENGELVQPKG
  • xla-H1 ( 21) 53 LKALVTKGTLTQVKG
  • MOTIF/GIBBS
  • >chk-H5
  • SRRSASHPTYSEMIAAAIRAEKSRGGSSRQSIQKYIKSHYKVGHNADLQIKLSIRRLLAAGVLKQTKGVGASGSFRLAKS
  • >hum-H1
  • TPRKASGPPVSELITKAVAASKERSGVSLAALKKALAAAGYDVEKNNSRIKLGLKSLVSKGTLVQTKGTGASGSFKLNKK
  • >pea-H1
  • PRNPASHPTYEEMIKDAIVSLKEKNGSSQYAIAKFIEEKQKQLPANFKKLLLQNLKKNVASGKLIKVKGSFKLSAAAKKP

CD-Search (RPS-BLAST)

  • Compara una secuencia contra una colección de profiles.
  • Bases de datos disponibles
    • Pfam 2478 entries
    • Smart 488 entries
    • Oasis (combined pfam, smart and cdd) 3019 profiles.
  • Buscar usando Blast
  • http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi
  • Buscar la base de datos CDD (Conserved Domains from 3D structures)
    • http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml

PSI-BLAST

  • Position-Specific Iterated BLAST search
  • Easy-to-use version of a profile-based search
    • Hace una búsqueda utilizando BLAST contra una base de datos de proteínas.
    • Utiliza los resultados para derivar una matriz posición-específica (position-specific scoring matrix, PSSM)
    • En la próximas rondas (iteraciones) se utiliza la PSSM en lugar de la secuencia query original
    • Se puede iterar hasta que no aparezcan nuevos alineamientos significativos.
      • Convergencia – todas las secuencias relacionadas fueron encontradas.
      • Divergencia – el query es demasiado amplio, utilizar criterios (cut-offs) más estringentes.

Protein sequence analysis

Predicción de estructura secundaria

  • Dada una secuencia primaria de una proteína
  • GHWIATRGQLIREAYEDYRHFSSECPFIP
  • Predecir el contenido de estuctura secundaria (-hélice, -sheets, coils)
  • CEEEEECHHHHHHHHHHHCCCHHCCCCCC

Predicción de estructura secundaria

  • Predice la posición más probable de alfa-hélices y hojas beta.
  • Cuando la similitud con otras secuencias es baja, confirma características estructurales o funcionales compartidas entre dos secuencias.
  • Guía la selección racional de mutantes específicas para el estudio en el laboratorio.
  • Es la base para futuros estudios estructurales.

-hélice

  • sacacorchos
  • La cadena principal forma un esqueleto del cual las cadenas laterales se proyectan hacia afuera.
  • Puentes de hidrogeno entre
  • Grupo CO en n y grupo NH en n+4
  • Formadores de -helice: Ala, Glu, Leu, Met
  • Helix-breaker: Pro

Hojas 

  • Estructura extendida (plegada)
  • Los enlaces peptídicos apuntan en direcciones opuestas.
  • Las cadenas laterales apuntan en direcciones opuestas.
  • No hay puentes de hidrógeno intra-catenarios.

Hojas 

  • Estabilización a través de puentes de hidrógeno inter-catenarios.
  • Paralelas o anti-paralelas.
  • Variante : beta-turn

nnpredict

  • Estrategia de predicción basada en una red neural (Kneller et al., 1990)
  • Best-case accuracy > 65%
  • Interfases
    • E-mail nnpredict@celeste.ucsf.edu
    • Web http://www.cmpharm.ucsf.edu/
    • ~nomi/nnpredict.html

Red neural que simula un interruptor (gate) booleano

  • X
  • Y
  • Produce 1 si tanto X como Y son mayores a 0
  • X
  • Y
  • Elegir funciones centrales de X e Y y dejar a la computadora decidirla mejor manera de combinar los inputs.
  • Funciones centrales: +,-,*,/,X^2,y^2,etc..
  • Combinar las funciones centrales usando pesos elegidos por la computadora.
  • Out
  • Out
  • Out=w1+w2*X+w3*Y+w4*X*Y+w5*X/Y+w6*Y2+w7*X2

Red Neural

  • Output layer
  • Input layer
  • Hidden layer
  • K
  • P
  • R
  • P
  • S
  • S
  • A
  • Y
  • R
  • Cada input puede o no tener una contribución importante en la predicción final. Esto se determina durante la fase de entrenamiento de la red neural (es necesario proveer a la computadora con ejemplos suficientes para cubrir los grados de libertad en las ecuaciones).

nnpredict query

  • option: a/b
  • >flavodoxin - Anacystis nidulans
  • AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY
  • DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG
  • LAIDEDNQPDLTKNRIKTWVSQLKSEFGL
  • Tertiary structure class: alpha/beta
  • Sequence:
  • AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVG
  • ELQSDWEGIYDDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYW
  • PIEGYDFNESKAVRNNQFVGLAIDEDNQPDLTKNRIKTWVSQLKSEFGL
  • Secondary structure prediction (H = helix, E = strand, - = no prediction):
  • ----EEE------EEEHHHHHHH------EEEH---------------EEEE--------
  • ---------------HHHH---EEEE------------H--HHHHHHHH------E--E-
  • -E--------------HH--E----------------EHHHHH------
  • folding class

SignalP

  • Red neural con entrenamiento basado en filogenia.
    • Gram-negative prokaryotic
    • Gram-positive prokaryotic
    • Eukaryotic
  • Predice péptido señal (secreción, no los involucrados en transducción de señales intracelulares)
  • http://www.cbs.dtu.dk/services/SignalP/

SignalP query

  • ************************* SignalP predictions *************************
  • Using networks trained on euk data
  • >IGF-IB length = 195
  • # pos aa C S Y
  • .
  • .
  • .
  • 46 A 0.365 0.823 0.495
  • 47 T 0.450 0.654 0.577
  • 48 A 0.176 0.564 0.369
  • 49 G 0.925 0.205 0.855
  • 50 P 0.185 0.163 0.376
  • .
  • .
  • .
  • < Is the sequence a signal peptide?
  • # Measure Position Value Cutoff Conclusion
  • max. C 49 0.925 0.37 YES
  • max. Y 49 0.855 0.34 YES
  • max. S 37 0.973 0.88 YES
  • mean S 1-48 0.550 0.48 YES
  • # Most likely cleavage site between pos. 48 and 49: ATA-GP
  • >sp|P05019|IGFB_HUMAN INSULIN-LIKE GROWTH FACTOR IB PRECURSOR
  • MGKISSLPTQLFKCCFCDFLKVKMHTMSSSHLFYLALCLLTFTSSATAGPETLCGAELVDALQFVCGDRG
  • N-terminal end only
  • Eukaryotic set
  • SignalP query
  • ************************* SignalP predictions *************************
  • Using networks trained on euk data
  • >IGF-IB length = 195
  • # pos aa C S Y
  • .
  • .
  • .
  • 46 A 0.365 0.823 0.495
  • 47 T 0.450 0.654 0.577
  • 48 A 0.176 0.564 0.369
  • 49 G 0.925 0.205 0.855
  • 50 P 0.185 0.163 0.376
  • .
  • .
  • .
  • < Is the sequence a signal peptide?
  • # Measure Position Value Cutoff Conclusion
  • max. C 49 0.925 0.37 YES
  • max. Y 49 0.855 0.34 YES
  • max. S 37 0.973 0.88 YES
  • mean S 1-48 0.550 0.48 YES
  • # Most likely cleavage site between pos. 48 and 49: ATA-GP
  • >sp|P05019|IGFB_HUMAN INSULIN-LIKE GROWTH FACTOR IB PRECURSOR
  • MGKISSLPTQLFKCCFCDFLKVKMHTMSSSHLFYLALCLLTFTSSATAGPETLCGAELVDALQFVCGDRG
  • N-terminal end only
  • Eukaryotic set
  • C = cleavage site score
  • S = signal peptide score
  • Y = combined score

PredictProtein

  • Algoritmo predictivo en varios pasos. (Rost et al., 1994)
    • La secuencia de proteína se compara contra SWISS-PROT
    • Se utiliza MaxHom para generar alineamiento multiple baasado en profiles (iterativo) (Sander and Schneider, 1991)
    • El alineamiento multiple se utiliza como input para una red neural (PHDsec)
  • Precisión
    • Average > 70%
    • Best-case > 90%
  • Interfases
    • E-mail predictprotein@embl-heidelberg.de
    • Web http://www.embl-heidelberg.de/
    • predictprotein/

Predict protein query

  • Joe Buzzcut
  • National Human Genome Research Institute, NIH
  • buzzcut@nhgri.nih.gov
  • # flavodoxin - Anacystis nidulans
  • AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY
  • DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG
  • LAIDEDNQPDLTKNRIKTWVSQLKSEFGL
  • Estructura secundaria
  • ....,....1....,....2....,....3....,....4....,....5....,....6
  • AA |AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVG|
  • PHD sec | EEEEEEE HHHHHHHHHHHHH EEEEE HHH HHHH EEEEE |
  • Rel sec |938999736982489999999999767982443213241278631241999861547765|
  • Detail:
  • prH sec |000000000014689999999999821000011112565388764321000001111111|
  • prE sec |058998852000000000000000000003665542100000000014899874120002|
  • prL sec |931000137985310000000000178985222344324511234554000114667776|
  • SWISS-PROT hits
  • Multiple alignment
  • PDB homologues

PHDtopology

  • Estrategia similar a PredictProtein (PHDsec)
  • Precisión total 94.7%
    • Predicción de hélices 92.0%
    • Predicción de loops 96.0%
  • Incluye predicción de topología.
  • Gratuito para uso académico. Licencia comercial disponible.
  • Interfases disponibles
    • E-mail predictprotein@embl-heidelberg.de
    • Web http://www.embl- heidelberg.de/predictprotein/

PHDtopology query

  • Joe Buzzcut
  • National Human Genome Research Institute, NIH
  • buzzcut@nhgri.nih.gov
  • predict htm topology
  • # pendrin
  • MAAPGGRSEPPQLPEYSCSYMVSRPVYSELAFQQQHERRLQERKTLRESLAKCCSCSRKRAFGVLKTLVPILEWLPKYRV
  • KEWLLSDVISGVSTGLVATLQGMAYALLAAVPVGYGLYSAFFPILTYFIFGTSRHISVGPFPVVSLMVGSVVLSMAP...
  • ....,....37...,....38...,....39...,....40...,....41...,....42
  • AA |YSLKYDYPLDGNQELIALGLGNIVCGVFRGFAGSTALSRSAVQESTGGKTQIAGLIGAII|
  • PHD htm | HHHHHHHHHHHHHH HHHHHHHHHH|
  • Rel htm |368899999999999998641104667777655431257778887777621467788888|
  • detail: | |
  • prH htm |310000000000000000124457888888877765321110000111135788899999|
  • prL htm |689999999999999999875542111111122234678889999888864211100000|
  • .
  • .
  • .
  • PHDThtm |iiiiiiiiiiiiiiiiiiiTTTTTTTTTTTTTTTTTToooooooooooooooTTTTTTTT|

Precisión de las predicciones

Protein sequence analysis

  • estructura secundaria
  • módulos de señalización
  • estructura terciaria
  • plegamientos especializados

Predicción de estructura terciaria

  • La secuencia determina la conformación pero no viceversa.
  • La estructura se conserva mucho más que la secuencia.
    • Númer limitado de plegamientos conocidos.
  • Similitud entre proteínas no siempre detectada por métodos ‘tradicionales’.

PDB Growth

ab initio structure prediction

  • Funciones de energía que describan la estructura 3D de una proteína
  • bond energy
  • bond angle energy
  • dihedral angle energy
  • van der Waals energy
  • electrostatic energy
  • Minimizar las funciones y obtener la estructura. En general poco práctico.
    • Computacionalmente costoso
    • Precisión pobre

Threading

  • Predicción de estructura basado en el reconocimiento del fold nativo
    • thread (alinear o acomodar) una proteína query sobre una estructura molde de alguna forma óptima.
    • Un alineamiento bueno provee un backbone aproximado
  • Requerimientos
    • Una biblioteca de moldes
    • Una función de scoring
    • Un alineamiento
    • Evaluar confidencia

Threading: performance

  • Predicted model
  • X-ray structure

Threading: aplicaciones

  • Predecir estructura
  • Identificar homologías distantes
  • Predecir función de proteínas con bajo grado de similitud con otras proteínas

Threading: moldes

  • Bases de datos representativas (no-redundantes)
    • Estructuras secundarias y formas de combinarlas
    • Idealmente de dominios, pero depende de que la partición en dominios se haga correctamente

Clases de plegamientos

  • 
  • Cyt c CD4 Staph Triose
  • nuclease phosphate
  • isomerase
  • Globins Orthogonal Split sandwich TIM barrel
  • Orthogonal Super-barrel Meander Doubly-wound
  • EF-hand Greek key Metal-rich
  • Up-Down Sandwich Open roll
  • Cytochrome Jelly roll OB/UB roll

Proteínas trans-membrana: clases

  • Paquete de hélices (helix bundle) Largas extensiones de amino ácidos apolares.
  • Plegamiento en -hélices trans-membrana. “Positive-inside rule”
    • Receptores de superficie
    • Canales iónicos
    • Transportadores activos y pasivos.
  • Barriles  Hojas anti-paralelas dispuestas en cilindro.
    • Membrana externa de Gram-negativas.
    • Porinas (difusión selectiva, pasiva).

Bases de datos de clasificación de estructuras

  • SCOP
    • Structural Classification of Proteins
    • http://scop.mrc-lmb.cam.ac.uk/scop
    • Basada en definición de similitud estructural a cargo de expertos
    • Luego de clasificar por clase, SCOP clasifica proteínas en una jerarquía que incluye: superfamilia, familia y fold

Clasificación estructural de proteínas

  • CATH
    • Classification by Class, Architecture, Topology and Homology
    • http://www.biochem.ucl.ac.uk/bsm/cath
    • Clasifica por clase, luego por arquitectura, fold, superfamilia y familia
    • Utiliza SSAP (secondary structure alignment) para alinear estructuras

CATH: catherine wheel

  • C: Class level
  • A: Architecture level
  • T: Topology (fold-family)
  • H: Homologous superfamily
  • S: Sequence families

Clasificación estructural de proteínas

  • FSSP
    • Fold Classification based on Structure-Structure alignment of Proteins
    • http://www.ebi.ac.uk/dali/fssp
    • Alineamiento estructural de todas las combinaciones posibles de proteínas en la base de datos PDB
    • Usa DALI (Distance alignment tool)
    • Generación de un set no-redundante de folds
    • 8320 PDB entries  947 estructuras representativas, 1484 dominios, 540 tipos de folds estructuralmente diferentes

DALI Server

  • Comparacion de estructuras 3D
    • Query: coordenadas
    • Search against PDB
  • http://www.ebi.ac.uk/dali

Clasificación estructural de proteínas

  • MMDB
    • Molecular Modelling Database
    • http://www.ncbi.nlm.nih.gov/Entrez
    • Proteínas en PDB agrupadas de acuerdo a similitud estructural usando VAST (Vector Alignment Search Tool)
    • Entrez provee ‘structural neighbors’ como links

Alineamientos estructurales

  • La estructura tridimensional de un dominio proteico se alinea en el espacio con la estructura 3D de un segundo dominio proteico
  • Alineamiento de secuencias  descubrir similitud de secuencias (origen evolutivo común)
  • Alineamiento de estructuras  descubrir similitud estructural
  • Alineamientos significativos entre estructuras no necesariamente indican origen evolutivo común.

Alineamientos estructurales: loops

  • La deleción de un loop ilustra la diferencia entre los dos tipos de alineamientos
  • PHE ASP ILE CYS ARG LEU PRO GLY SER ALA GLU ALA VAL CYS
  • PHE ASN VAL CYS ARG THR PRO --- --- --- GLU ALA ILE CYS
  • PHE ASN VAL CYS ARG --- --- --- THR PRO GLU ALA ILE CYS
  • ARG
  • GLU
  • ALA
  • CYS

Predicción de estructura terciaria

  • En Entrez todas las estructuras tienen una proteína asociada, lo cual facilita linkear una estructura a la base de datos de proteínas.
  • En Entrez, si una proteína no tiene structure links, buscar los protein links relacionados. Luego buscar los structure links de todas estas secuencias relacionadas. Usando Cn3D (NCBI) se puede visualizar la estructura y el alineamiento de la secuencia inicial con la secuencia que tienen su estructura resuelta.
  • Es también posible encontrar una estructura que pegue mejor a la proteína query.

Proceso de predicción de estructura terciaria

  • Query Protein
  • Protein neighbours
  • Structure links
  • Structure neighbours of structures.
  • View in Cn3D
  • Ver en Cn3D, mejor match entre estructura y proteína query, dado que la similitud inicial era débil.

Comparación de estructuras: VAST

  • Ricin Chain B

Comparación de estructuras: VAST (cont.)

  • Paso 2: Obtener un alineamiento óptimo de los vectores estructurales.
  • 1
  • 2
  • 3
  • 4
  • 5
  • 1
  • 2
  • 3
  • 4
  • 1
  • 2
  • 3
  • 4
  • 1
  • 2
  • 3
  • 4
  • 2
  • 3
  • 4
  • 5
  • 1
  • 2
  • 3
  • 4
  • 1
  • 3
  • 4
  • 5
  • 1
  • 2
  • 3
  • 4
  • 1
  • 2
  • 3
  • 4
  • 1
  • 2
  • 3
  • 5
  • 1
  • 2
  • 3
  • 4
  • Proteína 1
  • Proteína 2
  • Alineamiento 1
  • Alineamiento 2
  • Alineamiento 3
  • Alineamiento 4

Comparación de estructuras: VAST (cont.)

  • Paso 3: refinar residuo por residuo el alineamiento
  • Ricin B
  • (both domains)
  • Hisactophilin

SWISS-MODEL

  • Servidor de modelado automatizado de proteínas automatizado.
  • http://swissmodel.expasy.org/
  • Resultados por E-mail
  • Búsqueda BLAST para encontrar secuencias similares en PDB
  • Selecciona moldes con identidad > 25% y un modelo proyectado > 20 aa
  • Genera modelos
  • Minimiza energía
  • Genera archivo PDB para el nuevo modelo

Gene 3D

  • Base de datos de asignaciones estructurales pre-calculadas para proteínas en genomas completos
  • http://www.biochem.ucl.ac.uk/bsm/cath/Gene3D/

Protein sequence analysis

  • Cuando todo lo demás no funciona!
  • Composición
  • Hidrofobicidad

Panorama informativo

  • Nonpolar
  • Polar Neutral
  • Polar Basic
  • Polar Acidic

Funciones comunes asociadas a distintos residuos

  • C disulphide-rich, metallo-thionein,
  • zinc fingers
  • DE acidic proteins (unknown)
  • G collagens
  • H histidine-rich glycoprotein
  • KR nuclear proteins, nuclear localisation
  • P collagen, filaments
  • SR RNA binding motifs
  • ST mucins
  • Polar (C,D,E,H,K,N,Q,R,S,T) - active sites
  • Aromatic (F,H,W,Y) - protein ligand- binding sites
  • Zn+-coord (C,D,E,H,N,Q) - active site, zinc finger
  • Ca2+-coord (D,E,N,Q) - ligand-binding site
  • Mg/Mn-coord (D,E,N,S,R,T) - Mg2+ or Mn2+ catalysis, ligand binding
  • Ph-bind (H,K,R,S,T) - phosphate and sulphate binding

Parámetros físico-químicos

  • Proteínas con los mismo parámetros físico-químicos, a menudo son aisladas juntas.
    • Gel Electrophoresis.
    • Iso-Electric focusing in pH Gradient.
    • 2D Gels
    • Mass Spectroscopy (o Time-of-flight spectroscopy, más precisa) requiere masses of polypeptides
      • MALDI: espectroscopía de masa de péptidos trípticos.
      • Electrospray: producción de péptidos por ruptura física, seguida de espectroscopía de masa.
      • Nano-electrospray: descompone peptidos en los aminoácidos individuales. Requere composición de amino ácidos y peso molecular para identificar péptidos y proteínas.
  • Parámetros clásicos.
    • pI teórico (punto isoeléctrico)
    • Peso molecular (Mass Spectroscopy. Con o sin modificaciones post-traduccionales)
    • Composición aminoacídica. (Mass Spectroscopy)
    • Coeficiente de extinción

Parámetros físico-químicos

  • Proteinas con características físico-químicas similares pueden estar relacionadas.
    • motivos relacionados (contenido de aa similar)
  • Distribución similar de amino ácidos polares o cargados.
    • Proteínas de trans-membrana.
    • Proteínas de membrana.
    • Proteínas de unión a DNA.
    • Hidrofóbicas o hidrofílicas.
    • Señales de localización.

ProtParam

  • Calcula parámetros físico-químicos.
    • Molecular weight
    • Theoretical pI (isoelectric point pH)
    • Amino acid composition
    • Extinction coefficient
  • Query simple
    • SWISS-PROT accession number.
    • Secuencia ingresada por el usuario.
  • http://www.expasy.org/tools/protparam.html

ProtParam query

  • MNGEADCPTDLEMAAPKGQDRWSQEDMLTLLECMKNNLPSNDSSKFKTTESHMDWEKVAFKDFSGDMCKL
  • KWVEISNEVRKFRTLTELILDAQEHVKNPYKGKKLKKHPDFPKKPLTPYFRFFMEKRAKYAKLHPEM...
  • Compute parameters
  • Number of amino acids: 727
  • Molecular weight: 84936.8
  • Theoretical pI: 5.44
  • Amino acid composition:
  • Ala (A) 35 4.8% Leu (L) 57 7.8%
  • Arg (R) 39 5.4% Lys (K) 97 13.3%
  • Asn (N) 28 3.9% Met (M) 25 3.4%
  • Asp (D) 58 8.0% Phe (F) 18 2.5%
  • Cys (C) 6 0.8% Pro (P) 39 5.4%
  • Gln (Q) 36 5.0% Ser (S) 67 9.2%
  • Glu (E) 98 13.5% Thr (T) 22 3.0%
  • Gly (G) 26 3.6% Trp (W) 11 1.5%
  • His (H) 11 1.5% Tyr (Y) 20 2.8%
  • Ile (I) 18 2.5% Val (V) 16 2.2%
  • Asx (B) 0 0.0%
  • Glx (Z) 0 0.0%
  • Xaa (X) 0 0.0%
  • Total number of negatively charged residues (Asp + Glu): 156
  • Total number of positively charged residues (Arg + Lys): 136

PropSearch

  • Utiliza la composición de amino ácidos para detectar relaciones entre proteínas.
  • Puede ser utilizado para distinguir miembros de la misma familia de proteínas.
  • 144 propiedades físicas se utilizan en el análisis (‘vector’)
    • Molecular weight
    • Bulky residue content
    • Average hydrophobicity and charge
  • Búsquedas contra la ‘base de datos de vectores’ (PIR and SWISS-PROT)
  • http://www.infobiosud.univ-montp1.fr/SERVEUR/PROPSEARCH/propsearch.html

PropSearch query

  • Rank ID DIST LEN2 POS1 POS2 pI DE
  • _____________________________________________________________________________________________
  • 1 >p1;s18193 0.00 727 1 727 5.33 autoantigen NOR-90 - human
  • 2 ubf1_human 1.36 764 1 764 5.62 NUCLEOLAR TRANSCRIPTION FACTOR 1
  • 3 ubf1_mouse 1.40 765 1 765 5.55 NUCLEOLAR TRANSCRIPTION FACTOR 1
  • 4 ubf1_rat 1.57 764 1 764 5.61 NUCLEOLAR TRANSCRIPTION FACTOR 1
  • 5 ubf1_xenla 3.95 677 1 677 5.79 NUCLEOLAR TRANSCRIPTION FACTOR 1
  • 6 ubf2_xenla 4.18 701 1 701 6.05 NUCLEOLAR TRANSCRIPTION FACTOR 2
  • 7 >p1;s57552 7.72 606 1 606 6.63 hypothetical protein YPR018w - yeast
  • 8 >p1;i50463 8.49 772 1 772 5.71 protein kinase - chicken
  • 9 >p1;h54024 8.83 768 1 768 5.27 protein kinase (EC 2.7.1.37) cdc2-related
  • 10 >p1;b54024 8.87 777 1 777 5.27 protein kinase (EC 2.7.1.37) cdc2-related
  • 11 >p1;g54024 8.90 766 1 766 5.21 protein kinase (EC 2.7.1.37) cdc2-related
  • 12 >p1;a55817 9.00 783 1 783 5.19 cyclin-dependent kinase p130-PITSLRE - mouse
  • 13 >p1;f54024 9.11 777 1 777 5.30 protein kinase (EC 2.7.1.37) cdc2-related
  • 14 >p1;e54024 9.11 779 1 779 5.42 protein kinase (EC 2.7.1.37) cdc2-related
  • 15 yaa5_schpo 9.45 598 1 598 4.78 HYPOTHETICAL 69.5 KD PROTEIN C22G7.05
  • 16 >p1;s62449 9.45 598 1 598 4.78 hypothetical protein SPAC22G7.05 - fission
  • 17 >f1;i58390 9.45 920 1 920 5.00 retinoblastoma binding protein 1 isoform I
  • 18 >p1;s63193 9.58 590 1 590 6.15 hypothetical protein YNL227c - yeast
  • 19 ynw7_yeast 9.58 590 1 590 6.15 HYPOTHETICAL 68.8 KD PROTEIN IN URE2-SSU72
  • 20 >p1;s49634 9.74 899 1 899 4.79 hypothetical protein YML093w - yeast
  • 21 ymj3_yeast 9.74 899 1 899 4.79 HYPOTHETICAL 103.0 KD PROTEIN IN RAD10-PRS4
  • 22 radi_human 9.76 583 1 583 6.33 RADIXIN.
  • 23 radi_pig 9.81 583 1 583 6.21 RADIXIN (MOESIN B).
  • 24 >f1;i78883 9.83 866 1 866 4.77 retinoblastoma binding protein 1 isoform II
  • 25 >p1;b42997 9.87 754 1 754 5.17 retinoblastoma-associated protein 2 - human
  • 26 >p1;a57467 9.91 647 1 647 5.74 RalBP1 - rat
  • >S18193 autoantigen NOR-90 - human
  • MNGEADCPTDLEMAAPKGQDRWSQEDMLTLLECMKNNLPSNDSSKFKTTESHMDWEKVAFKDFSGDMCKL
  • KWVEISNEVRKFRTLTELILDAQEHVKNPYKGKKLKKHPDFPKKPLTPYFRFFMEKRAKYAKLHPEM...
  • Vector search
  • DIST Odds
  • < 10 87.0%
  • < 8.7 94.0%
  • < 7.5 99.6%

TGREASE

  • Calcula la hidrofobicidad de una proteína
    • Distingue regiones putativas trans-membranas
    • Regiones putativas que formarían el core hidrofóbico de una proteína globular
    • Parte del paquete FASTA (Pearson, U. Virginia)

Protein sequence analysis

Entender los resultados

  • Secuencia
  • Resultados
  • Inspección


La base de datos está protegida por derechos de autor ©absta.info 2016
enviar mensaje

    Página principal