book

Maîtriser Python pour la bioinformatique

Name: Maîtriser Python pour la bioinformatique
Author: Ken Youens-Clark
ISBN: 9798341613300

by Ken Youens-Clark

November 2024

Intermediate to advanced

456 pages

11h 58m

French

O'Reilly Media, Inc.

Read now

Unlock full access

Préface
Qui devrait lire ceci ?Style de programmation : Pourquoi j'évite la POO et les exceptionsStructureDéveloppement piloté par les testsUtilisation de la ligne de commande et installation de PythonObtenir le code et les testsInstallation des modulesInstallation du programme new.pyPourquoi ai-je écrit ce livre ?Conventions utilisées dans ce livreUtiliser des exemples de codeApprentissage en ligne O'ReillyComment nous contacterRemerciements
I. Les défis de Rosalind.info
1. Fréquence des tétranucléotides : Compter les choses
Pour commencerCréation du programme à l'aide de new.pyUtiliser argparseOutils pour trouver les erreurs dans le codePrésentation des tuples nommésAjouter des types aux tuples nommésReprésenter les arguments avec un NamedTupleLire les données de la ligne de commande ou d'un fichierTester ton programmeExécute le programme pour tester la sortieSolution 1 : Itérer et compter les caractères d'une chaîne de caractèresCompter les nucléotidesRédiger et vérifier une solutionSolutions supplémentairesSolution 2 : Création d'une fonction count() et ajout d'un test d'unitéSolution 3 : Utiliser str.count()Solution 4 : utiliser un dictionnaire pour compter tous les caractèresSolution 5 : ne compter que les bases souhaitéesSolution 6 : Utiliser collections.defaultdict()Solution 7 : Utiliser collections.Counter()Pour aller plus loinRévision
2. Transcription de l'ADN en ARNm : Mutation de chaînes de caractères, lecture et écriture de fichiers
Pour commencerDéfinir les paramètres du programmeDéfinition d'un paramètre optionnelDéfinition d'un ou plusieurs paramètres positionnels requisUtilisation de nargs pour définir le nombre d'argumentsUtilisation de argparse.FileType() pour valider les arguments des fichiersDéfinition de la classe ArgsPrésentation du programme à l'aide d'un pseudocodeItération des fichiers d'entréeCréation des noms de fichiers de sortieOuverture des fichiers de sortieÉcriture des séquences de sortieImprimer le rapport d'étatUtiliser la suite de testsSolutionsSolution 1 : Utiliser str.replace()Solution 2 : Utiliser re.sub()BenchmarkingPour aller plus loinRévision
3. Complément inverse de l'ADN : Manipulation de cordes
Pour commencerItérer sur une chaîne inverséeCréer un arbre de décisionRefonteSolutionsSolution 1 : Utilisation d'une boucle for et d'un arbre de décisionSolution 2 : Utilisation d'un dictionnaire de rechercheSolution 3 : utiliser une liste de compréhensionSolution 4 : Utiliser str.translate()Solution 5 : Utilisation de Bio.SeqRévision
4. Création de la séquence de Fibonacci : Écrire, tester et évaluer les algorithmes
Pour commencerUne approche impérativeSolutionsSolution 1 : une solution impérative utilisant une liste comme pileSolution 2 : Création d'une fonction génératriceSolution 3 : Utilisation de la récursivité et de la mémorisationAnalyse comparative des solutionsTester le bon, la brute et le truandExécuter la suite de tests sur toutes les solutionsPour aller plus loinRévision
5. Calcul du contenu en GC : Analyse FASTA et analyse des séquences
Pour commencerObtenir l'analyse de FASTA à l'aide de BiopythonItération des séquences à l'aide d'une boucle forSolutionsSolution 1 : Utiliser une listeSolution 2 : Annotations de type et tests unitairesSolution 3 : Maintenir une variable Max en cours d'exécutionSolution 4 : utiliser une liste de compréhension avec une gardeSolution 5 : utiliser la fonction filter()Solution 6 : Utilisation de la fonction map() et addition de booléensSolution 7 : Utilisation d'expressions régulières pour trouver des modèlesSolution 8 : Une fonction find_gc() plus complexeBenchmarkingPour aller plus loinRévision
6. Trouver la distance de Hamming : Compter les mutations ponctuelles
Pour commencerItération des caractères de deux chaînes de caractèresSolutionsSolution 1 : Itérer et compterSolution 2 : Créer un test d'unitéSolution 3 : utiliser la fonction zip()Solution 4 : utiliser la fonction zip_longest()Solution 5 : utiliser une liste de compréhensionSolution 6 : Utilisation de la fonction filter()Solution 7 : Utilisation de la fonction map() avec zip_longest()Solution 8 : Utilisation des fonctions starmap() et operator.ne()Pour aller plus loinRévision
7. Traduire l'ARNm en protéines : Programmation plus fonctionnelle
Pour commencerK-mers et CodonsTraduire les codonsSolutionsSolution 1 : Utilisation d'une boucle forSolution 2 : Ajouter des tests unitairesSolution 3 : Une autre fonction et une liste CompréhensionSolution 4 : Programmation fonctionnelle avec les fonctions map(), partial() et takewhile()Solution 5 : Utilisation de Bio.Seq.translate()BenchmarkingPour aller plus loinRévision
8. Trouve un motif dans l'ADN : Explorer la similarité des séquences
Pour commencerTrouver des suitesSolutionsSolution 1 : Utiliser la méthode str.find()Solution 2 : Utiliser la méthode str.index()Solution 3 : Une approche purement fonctionnelleSolution 4 : Utilisation de K-mersSolution 5 : trouver des motifs de chevauchement à l'aide d'expressions régulières.BenchmarkingPour aller plus loinRévision

9. Graphes de chevauchement : Assemblage de séquences à l'aide de K-mères partagées
Pour commencerGérer les messages d'exécution avec STDOUT, STDERR et la journalisationTrouver des chevauchementsRegrouper les séquences en fonction du chevauchementSolutionsSolution 1 : Utiliser les intersections d'ensembles pour trouver les chevauchementsSolution 2 : Utiliser un graphique pour trouver tous les cheminsPour aller plus loinRévision
10. Trouver la plus longue séquence partagée : Trouver des K-mers, écrire des fonctions et utiliser la recherche binaire
Pour commencerTrouver la séquence la plus courte dans un fichier FASTAExtraire les K-mers d'une séquenceSolutionsSolution 1 : compter les fréquences des K-mersSolution 2 : Accélérer les choses avec une recherche binairePour aller plus loinRévision
11. Trouver un motif protéique : Récupérer des données et utiliser des expressions régulières
Pour commencerTéléchargement de fichiers de séquences sur la ligne de commandeTélécharger des fichiers de séquences avec PythonÉcrire une expression régulière pour trouver le motifSolutionsSolution 1 : Utilisation d'une expression régulièreSolution 2 : Rédiger la solution d'un manuelPour aller plus loinRévision
12. Déduire l'ARNm de la protéine : Produits et réductions de listes
Pour commencerCréer le produit des listesÉviter les débordements avec la multiplication modulaireSolutionsSolution 1 : Utilisation d'un dictionnaire pour la table des codons de l'ARNSolution 2 : Retourne le rythmeSolution 3 : coder les informations minimalesPour aller plus loinRévision
13. Sites de restriction de localisation : Utiliser, tester et partager le code
Pour commencerTrouver toutes les suites à l'aide de K-mersTrouver tous les compléments inversésAssembler le toutSolutionsSolution 1 : utiliser les fonctions zip() et enumerate()Solution 2 : Utilisation de la fonction operator.eq()Solution 3 : écrire une fonction revp()Tester le programmePour aller plus loinRévision
14. Trouver des cadres de lecture ouverts
Pour commencerTraduire les protéines à l'intérieur de chaque cadreTrouver les ORF dans une séquence de protéineSolutionsSolution 1 : Utiliser la fonction str.index()Solution 2 : Utilisation de la fonction str.partition()Solution 3 : Utilisation d'une expression régulièrePour aller plus loinRévision
II. Autres programmes
15. Seqmagique : Créer et formater des rapports
Utilisation de Seqmagick pour analyser les fichiers de séquencesVérification des fichiers à l'aide des hachages MD5Pour commencerFormatage des tableaux de texte à l'aide de tabulate()SolutionsSolution 1 : mise en forme avec tabulate()Solution 2 : Mise en forme avec richPour aller plus loinRévision
16. FASTX grep : Création d'un programme utilitaire pour sélectionner des séquences
Recherche de lignes dans un fichier à l'aide de grepLa structure d'un enregistrement FASTQPour commencerDeviner le format du fichierSolutionPour aller plus loinRévision
17. Synthétiseur d'ADN : Création de données synthétiques avec des chaînes de Markov
Comprendre les chaînes de MarkovPour commencerComprendre les graines aléatoiresLire les fichiers de formationGénérer les séquencesStructurer le programmeSolutionPour aller plus loinRévision
18. Échantillonneur FASTX : Sous-échantillonnage aléatoire de fichiers de séquences
Pour commencerExaminer les paramètres du programmeDéfinition des paramètresÉchantillonnage non déterministeStructurer le programmeSolutionsSolution 1 : lecture des fichiers réguliersSolution 2 : lire un grand nombre de fichiers compressésPour aller plus loinRévision
19. Blastomatic : Analyse des fichiers texte délimités
Introduction à BLASTUtilisation de csvkit et csvchkPour commencerDéfinir les argumentsAnalyse des fichiers texte délimités à l'aide du module csvAnalyse des fichiers texte délimités à l'aide du module pandasSolutionsSolution 1 : joindre manuellement les tables à l'aide de dictionnairesSolution 2 : écrire le fichier de sortie avec csv.DictWriter()Solution 3 : lecture et écriture de fichiers à l'aide de pandas.Solution 4 : joindre des fichiers à l'aide de pandasPour aller plus loinRévision
A. Documenter les commandes et créer des flux de travail avec make
Les Makefiles sont des recettesExécuter une cible spécifiqueCourir sans cibleMakefiles Créer des DAGUtiliser make pour compiler un programme CUtiliser make pour un raccourciDéfinir les variablesRédiger un flux de travailAutres gestionnaires de flux de travailPour en savoir plus
B. Comprendre $PATH et installer les programmes en ligne de commande
Épilogue
Index
A propos de l'auteur

Content preview from Maîtriser Python pour la bioinformatique

Chapitre 18. Échantillonneur FASTX : Sous-échantillonnage aléatoire des fichiers de séquences

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Les ensembles de données de séquences en génomique et en métagénomique peuvent atteindre une taille impressionnante, nécessitant beaucoup de temps et de ressources informatiques pour être analysés. De nombreux séquenceurs peuvent produire des dizaines de millions de lectures par échantillon, et de nombreuses expériences impliquent des dizaines ou des centaines d'échantillons, chacun avec plusieurs réplicats techniques, ce qui se traduit par des gigaoctets à des téraoctets de données. Réduire la taille des fichiers d'entrée en sous-échantillonnant aléatoirement les séquences permet d'explorer les données plus rapidement. Dans ce chapitre, je montrerai comment utiliser le module Pythonrandom de Python pour sélectionner une partie des lectures dans les fichiers de séquences FASTA/FASTQ.

Tu apprendras :

Échantillonnage non déterministe

Pour commencer

Le code et les tests de cet exercice se trouvent dans le répertoire 18_fastx_sampler.Commence par copier la solution d'un programme appelé sampler.py:

$ cd 18_fastx_sampler/
$ cp solution.py sampler.py

Les fichiers d'entrée FASTA pour tester ce programme seront générés par le programme synth.py que tu as écrit au chapitre 17. Si tu n'as pas fini d'écrire ce programme, assure-toi de copier la solution dans ce ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Aprende herramientas de inteligencia artificial en Tableau

Publisher Resources

ISBN: 9798341613300

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Maîtriser Python pour la bioinformatique

by Ken Youens-Clark

Chapitre 18. Échantillonneur FASTX : Sous-échantillonnage aléatoire des fichiers de séquences

Pour commencer

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.