Capítulo 17. Sintetizador de ADN: Creación de Datos Sintéticos con Cadenas de Markov

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Una cadena de Markov es un modelo para representar una secuencia de posibilidades encontradas en un conjunto de datos dado. Es un algoritmo de aprendizaje automático (AM) porque descubre o aprende patrones a partir de datos de entrada. En este ejercicio, mostraré cómo utilizar cadenas de Markov entrenadas en un conjunto de secuencias de ADN para generar secuencias de ADN nuevas.

En este ejercicio, lo harás:

  • Lee un número determinado de archivos de secuencias de entrada para encontrar todos los k-mers únicos para un k dado.

  • Crea una cadena de Markov utilizando estos k-mers para producir un cierto número de secuencias nuevas de longitudes delimitadas por un mínimo y un máximo.

  • Infórmate sobre los generadores.

  • Utiliza una semilla aleatoria para reproducir selecciones aleatorias.

Comprender las cadenas de Markov

En "Una teoría matemática de la comunicación" (1948) de Claude Shannon, el autor de describe un proceso de Markoff que es sorprendentemente similar a los grafos y a los diagramas de estados finitos que he estado utilizando para ilustrar las expresiones regulares. Shannon describe este proceso como "un número finito de estados posibles de un sistema" y "un conjunto de probabilidades de transición" de que un estado conduzca a otro.

Como ejemplo de proceso de Markov, ...

Get Dominar Python para Bioinformática now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.