jueves, 17 de febrero de 2011

Conceptos de Identificación Genética


El genoma humano se compone de unos 3 billones de pares de bases, de los cuales la inmensa mayoría es irrelevante (o más bien inabarcable) para la identificación de individuos. Esto se debe a que es prácticamente homóloga para toda la población humana. Por el contrario, una muy reducida fracción,  aproximadamente un 0,1% (en torno a 3 millones de bases) varía entre genomas. Tal es la diana de estudio para los test de identificación basada en el DNA. Estos análisis se fundamentan en el tipado simultáneo de un grupo de loci multialélicos (refiriéndonos a los resultados del mismo como el perfil genético del individuo o su impronta génica) y en la comprobación del grado de homología de los perfiles obtenidos para dos muestras. Independientemente del tipo de marcador empleado, el concepto para la identificación es el mismo: La probabilidad de coincidencia aleatoria (Pm) para un genotipo multilocus entre dos muestras tomadas al azar de una población concreta es equivalente al producto de las frecuencias genotípicas de todos los loci tipados. El procedimiento a seguir para la obtención de tal valor sería:

En primer lugar se debe identificar del perfil genético para todos los loci de estudio mediante el análisis de un extracto de DNA obtenido de una muestra de material biológico. La metodología es variable en función del tipo de secuencia seleccionada (Amplificación por PCR seguida o no por una digestión por enzimas de restricción y una técnica de separación de fragmentos o amplicones como una electroforesis capilar o una espectrometría de masas o bien la secuenciación de los fragmentos así obtenidos). Los actuales métodos de investigación forense se fundamentan en el análisis simultáneo de varios loci STR (Secuencias repetidas en tándem, también llamadas microsatélites).

A continuación se requiere conocer los valores de las frecuencias génicas de los alelos tipados para cada locus. Para ello se recurre a bases de datos sobre grupos étnicos concretos. Es muy importante destacar que el resultado obtenido será muy dependiente de los valores de las frecuencias alélicas empleadas, y que por consiguiente variará en función de la población de estudio. Pongamos como ejemplo un marcador con polimorfismo de longitud de secuencia, el TH01, primer intrón del gen de la tirosina hidroxilasa humana. Aunque ya hablaré de este tipo de secuencias, avanzaré que en tal posición se ubica un motivo repetido un número variable de veces, considerando distintos polimorfismos de longitud. Como se puede comprobar, las frecuencias génicas varían en función del grupo étnico de estudio (Marshall Butler, 2005):

Alelo
(STR)
Motivo
Repetido
P. génica
Caucásicos
(N = 302)
P. génica
Afroamericanos
(N = 258)
P. génica
Hispanos
(N = 140)
5
[AATG]5
0,002
0,004
Ausente
6
[AATG]6
0,232
0,124
0,214
7
[AATG]7
0,190
0,421
0,279
8
[AATG]8
0,084
0,194
0,096
9
[AATG]9
0,114
0,151
0,150
9,3
Variante 9
0,368
0,105
0,246
10
[AATG]10
0,008
0,002
0,014
11
[AATG]11
0,002
Ausente
Ausente
Tabla 1: Frecuencias génicas para los alelos más frecuentes del locus TH01 en los grupos étnicos mayoritarios en los Estados Unidos.

Seguidamente han de calcularse las frecuencias genotípicas para cada locus, asumiendo equilibrio de Hardy-Weinberg. Pongamos un ejemplo práctico (datos tomados de Marshall Butler, 2005. Frecuencias alélicas correspondientes a la población afroamericana estadounidense):

Locus (STR)
TH01
FGA
TPOX
vWA
D3SC1358
D5S818
Genotipo
7
9.3
20
24
8
10
16
15
16
19
11
10
P. alélicas
0,42
0,10
0,06
0,12
0,37
0,09
0,25
0,19
0,34
0,06
0,23
0,07
P. Genotípica
0,09
0,01
0,07
0,09
0,04
0,03
1/11,36
1/ 72,87
1/ 15,07
1/ 10,83
1/ 24,82
1/ 30,82
Tabla 2: Perfil genotípico hallado para un espécimen dado, indicando las frecuencias génicas de los alelos hallados, así como las frecuencias genotípicas esperadas en equilibrio de Hardy-Weinberg para la población afroamericana estadounidense.

Por último se estima la frecuencia del genotipo multilocus obtenido por medio de la regla del producto antes mencionada. Partiendo de los datos del ejemplo anterior, la probabilidad de una concordancia aleatoria total en todos los loci estudiados sería de 9,67 x 10-9. En otras palabras, de cada aproximadamente cien millones de afroamericanos testados se esperaría que uno mostrase tal combinación.

La no coincidencia en alguno de los loci analizados es concluyente: ambas muestras no pueden ser atribuidas a un mismo individuo. Por otra parte, si se obtiene una coincidencia completa para todas las sedes estudiadas, las muestras podrían pertenecer al mismo individuo con una probabilidad dada y que depende de la singularidad de la combinación tipada dentro de la población de estudio. Esta singularidad será dependiente del número de loci analizados, del polimorfismo de los mismos y de las frecuencias alélicas dentro de la población de referencia. Volviendo al ejemplo anterior, si en lugar de emplear las frecuencias genotípicas de la población afroamericana partimos de bases de datos de la población caucásica americana, la frecuencia combinada será 3 veces menor (1 de cada 300 millones). Dentro de la población hispana el perfil genotípico anterior sería incluso más exclusivo, de 1 de cada 560 millones de individuos. Esta variación se debe a que las frecuencias alélicas varían de unas poblaciones a otras, siendo los marcadores encontrados más específicos de la población afroamericana y por ende “más frecuente” dicha combinación que en los restantes grupos étnicos.

Así pues y analizando de forma simultánea un número lo suficientemente alto de marcadores puede tenerse la cuasi certeza estadística de que ambos especímenes proceden de un mismo individuo, siendo tal evidencia más o menos cuestionable a nivel judicial.

Marshall Butler, J. (2005). Forensic DNA typing: biology, technology and genetics of STR markers. Academic Press.

No hay comentarios:

Publicar un comentario