book

Basic Applied Bioinformatics

Name: Basic Applied Bioinformatics
ISBN: 9781119244332

by Chandra Sekhar Mukhopadhyay, Ratan Kumar Choudhary, Mir Asif Iquebal

November 2017

Intermediate to advanced

472 pages

11h 21m

English

Wiley-Blackwell

Read now

Unlock full access

Cover
Title Page
Preface
Acknowledgments
List of Abbreviations
SECTION I: Molecular Sequences and Structures
CHAPTER 1: Retrieval of Sequence(s) from the NCBI Nucleotide Database
1.1 INTRODUCTION1.2 COMPONENTS OF THE NCBI NUCLEOTIDE DATABASE1.3 OBJECTIVES1.4 PROCEDURE1.5 SOME USEFUL NUCLEOTIDE SEQUENCE DATABASES OF NCBI1.6 QUESTIONS
CHAPTER 2: Retrieval of Protein Sequence from UniProtKB
2.1 INTRODUCTION2.2 OBJECTIVE2.3 PROCEDURE2.4 QUESTIONS
CHAPTER 3: Downloading Protein Structure
3.1 INTRODUCTION3.2 OBJECTIVE3.3 PROCEDURE3.4 QUESTIONS
CHAPTER 4: Visualizing Protein Structure
4.1 INTRODUCTION4.2 OBJECTIVE4.3 PROCEDURE4.4 QUESTIONS

CHAPTER 5: Sequence Format Conversion
5.1 INTRODUCTION5.2 OBJECTIVE5.3 PROCEDURE5.4 QUESTIONS5.5 BRIEF DESCRIPTION OF SOME OF THE IMPORTANT MOLECULAR SEQUENCE FORMATS
CHAPTER 6: Nucleotide Sequence Analysis Using Sequence Manipulation Suite (SMS)
6.1 INTRODUCTION6.2 OBJECTIVE6.3 PROCEDURE6.4 FORMAT CONVERSION6.5 SEQUENCE ANALYSIS6.6 SEQUENCE FIGURES6.7 RANDOM SEQUENCES6.8 MISCELLANEOUS6.9 QUESTIONS
CHAPTER 7: Detection of Restriction Enzyme Sites
7.1 INTRODUCTION7.2 OBJECTIVE7.3 PROCEDURE (USING NEBCUTTER)7.4 QUESTIONS
SECTION II: Sequence Alignment
CHAPTER 8: Dot Plot Analysis
8.1 INTRODUCTION8.2 OBJECTIVE8.3 PROCEDURE8.4 PARAMETERS OF DOT PLOT ANALYSIS8.5 INTERPRETATION8.6 QUESTIONS
CHAPTER 9: Needleman–Wunsch Algorithm (Global Alignment)
9.1 INTRODUCTION9.2 OBJECTIVE9.3 PROCEDURE9.4 QUESTIONS
CHAPTER 10: Smith–Waterman Algorithm (Local Alignment)
10.1 INTRODUCTION10.2 OBJECTIVE10.3 PROCEDURE10.4 QUESTIONS
CHAPTER 11: Sequence Alignment Using Online Tools
11.1 INTRODUCTION11.2 OBJECTIVE11.3 PROCEDURE11.4 INTERPRETATION OF RESULTS11.5 COLOR SCHEME FOR AMINO ACID RESIDUES11.6 QUESTIONS
SECTION III: Basic Local Alignment Search Tools
CHAPTER 12: Basic Local Alignment Search Tool for Nucleotide (BLASTn)
12.1 INTRODUCTION12.2 OBJECTIVE12.3 PROCEDURE12.4 QUESTIONS
CHAPTER 13: Basic Local Alignment Search Tool for Amino Acid Sequences (BLASTp)
13.1 INTRODUCTION13.2 OBJECTIVE13.3 PROCEDURE13.4 QUESTIONS
CHAPTER 14: BLASTx
14.1 INTRODUCTION14.2 OBJECTIVE14.3 PROCEDURE14.4 INTERPRETATION OF BLASTx RESULTS14.5 QUESTIONS
CHAPTER 15: tBLASTn
15.1 INTRODUCTION15.2 OBJECTIVE15.3 PROCEDURE15.4 ALGORITHM PARAMETERS15.5 INTERPRETATION OF tBLASTn RESULTS15.6 QUESTIONS
CHAPTER 16: tBLASTx
16.1 INTRODUCTION16.2 OBJECTIVE16.3 PROCEDURE16.4 ALGORITHM PARAMETERS16.5 INTERPRETATION OF tBLASTx RESULTS16.6 QUESTIONS
SECTION IV: Primer Designing and Quality Checking
CHAPTER 17: Primer Designing – Basics
17.1 INTRODUCTION17.2 OTHER IMPORTANT FEATURES FOR DESIGNING “GOOD” PRIMERS17.3 QUESTIONS
CHAPTER 18: Designing PCR Primers Using the Primer3 Online Tool
18.1 INTRODUCTION18.2 OBJECTIVE18.3 PROCEDURE18.4 OUTPUT18.5 SELECTION OF THE BEST PRIMER‐PAIRS BY COMPARATIVE EVALUATION OF THE DESIGNED PRIMERS18.6 QUESTIONS
CHAPTER 19: Quality Checking of the Designed Primers
19.1 INTRODUCTION19.2 OBJECTIVE19.3 PROCEDURE19.4 IDT UNAFOLD – CHECKING THE SECONDARY STRUCTURE FORMATION OF THE AMPLICON19.5 PRIMER‐BLAST – TO DETECT POSSIBLE SPURIOUS AMPLIFICATION19.6 QUESTIONS
CHAPTER 20: Primer Designing for SYBR Green Chemistry of qPCR
20.1 INTRODUCTION20.2 QUESTIONS
SECTION V: Molecular Phylogenetics
CHAPTER 21: Construction of Phylogenetic Tree: Unweighted‐Pair Group Method with Arithmetic Mean (UPGMA)
21.1 INTRODUCTION21.2 ASSUMPTIONS21.3 OBJECTIVE21.4 PROCEDURE21.5 INTERPRETATION OF UPGMA TREE21.6 QUESTIONS
CHAPTER 22: Construction of Phylogenetic Tree: Fitch Margoliash (FM) Algorithm
22.1 INTRODUCTION22.2 OBJECTIVE22.3 PROCEDURE22.4 INTERPRETATION OF THE FM TREE22.5 QUESTIONS
CHAPTER 23: Construction of Phylogenetic Tree: Neighbor‐Joining Method
23.1 INTRODUCTION23.2 OBJECTIVE23.3 PROCEDURE23.4 INTERPRETATION OF NJ TREE23.5 QUESTIONS
CHAPTER 24: Construction of Phylogenetic Tree: Maximum Parsimony Method
24.1 INTRODUCTION24.2 OBJECTIVE24.3 PROCEDURE24.4 INTERPRETATION OF MP TREE24.5 QUESTIONS
CHAPTER 25: Construction of Phylogenetic Tree: Minimum Evolution Method
25.1 INTRODUCTION25.2 OBJECTIVE25.3 PROCEDURE25.4 INTERPRETATION OF THE ME TREE25.5 QUESTIONS
CHAPTER 26: Construction of Phylogenetic Tree Using MEGA7
26.1 INTRODUCTION26.2 OBJECTIVE26.3 PROCEDURE26.4 INTERPRETATION OF PHYLOGENETIC TREE26.5 QUESTIONS
CHAPTER 27: Interpretation of Phylogenetic Trees
27.1 INTRODUCTION27.2 UNDERSTANDING PHYLOGENETIC TREES27.3 REPRESENTATION OF PHYLOGENETIC TREES27.4 METHODS FOR CONSTRUCTING EVOLUTIONARY TREES FROM INFERENCES27.5 INFERRING PHYLOGENETIC TREES27.6 QUESTIONS
SECTION VI: Protein Structure Prediction
CHAPTER 28: Prediction of Secondary Structure of Protein
28.1 INTRODUCTION28.2 OBJECTIVE28.3 SECONDARY STRUCTURE PREDICTION USING ONLINE TOOL PSIPRED28.4 SECONDARY STRUCTURE PREDICTION USING THE ONLINE CDM TOOL28.5 QUESTIONS
CHAPTER 29: Prediction of Tertiary Structure of Protein: Sequence Homology
29.1 INTRODUCTION29.2 OBJECTIVE29.3 PROCEDURE (SWISS‐MODEL PROGRAM)29.4 OUTPUT29.5 VISUALIZING THE PREDICTED STRUCTURE29.6 INTERPRETATION OF RESULTS29.7 QUESTIONS
CHAPTER 30: Protein Structure Prediction Using Threading Method
30.1 INTRODUCTION30.2 OBJECTIVE30.3 PROCEDURE30.4 RESULTS AND INTERPRETATION30.5 QUESTIONS
CHAPTER 31: Prediction of Tertiary Structure of Protein: Ab Initio Approach
31.1 INTRODUCTION31.2 OBJECTIVE31.3 PROCEDURE (RAPTORX)31.4 JOB STATUS31.5 OUTPUT AND INTERPRETATION OF RESULTS31.6 QUESTIONS
CHAPTER 32: Validation of Predicted Tertiary Structure of Protein
32.1 INTRODUCTION32.2 OBJECTIVE32.3 PROCEDURE (WHAT IF TOOL FOR VALIDATING THE 3D STRUCTURE PREDICTION RESULTS)32.4 INTERPRETATION OF RESULTS OF WHAT IF32.5 MOLPROBITY TOOL FOR RAMACHANDRAN PLOT32.6 INTERPRETATION OF RAMACHANDRAN PLOT ANALYSIS32.7 QUESTIONS
SECTION VII: Molecular Docking and Binding Site Prediction
CHAPTER 33: Prediction of Transcription Binding Sites
33.1 INTRODUCTION33.2 OBJECTIVE33.3 TRANSFAC33.4 BINDING SITES SEARCHING USING THE MATCH TOOL33.5 QUESTIONS
CHAPTER 34: Prediction of Translation Initiation Sites
34.1 INTRODUCTION34.2 OBJECTIVE34.3 PROCEDURE34.4 QUESTIONS
CHAPTER 35: Molecular Docking
35.1 INTRODUCTION35.2 OBJECTIVE35.3 PROCEDURE35.4 RESULT AND INTERPRETATION35.5 QUESTIONS
SECTION VIII: Genome Annotation
CHAPTER 36: Genome Annotation in Prokaryotes
36.1 INTRODUCTION36.2 OBJECTIVE36.3 PROCEDURE36.4 INTERPRETATION OF GENEMARK OUTPUT36.5 QUESTIONS
CHAPTER 37: Genome Annotation in Eukaryotes
37.1 INTRODUCTION37.2 OBJECTIVE37.3 PROCEDURE37.4 INTERPRETATION OF GENSCAN OUTPUT37.5 QUESTIONS
SECTION IX: Advanced Biocomputational Analyses
CHAPTER 38: Concepts of Real‐Time PCR Data Analysis
38.1 INTRODUCTION38.2 GETTING STARTED WITH RT‐qPCR38.3 PCR FLUORESCENCE CHEMISTRY38.4 RT‐qPCR DATA ANALYSIS: GENE EXPRESSION ANALYSIS38.5 QUESTIONS
CHAPTER 39: Overview of Microarray Data Analysis
39.1 CONCEPT39.2 GETTING STARTED WITH MICROARRAY39.3 MICROARRAY DATA ANALYSIS: GENE EXPRESSION ANALYSIS39.4 STEPS INVOLVED IN MICROARRAY DATA ANALYSIS39.5 FUNCTIONAL INFORMATION USING GENE NETWORKS AND PATHWAYS39.6 LIVESTOCK RESEARCH THAT INVOLVED MICROARRAY ANALYSIS (SOME EXAMPLES)39.7 APPLICATIONS OF MICROARRAY39.8 QUESTIONS
CHAPTER 40: Single Nucleotide Polymorphism (SNP) Mining Tools
40.1 INTRODUCTION40.2 OBJECTIVE40.3 PROCEDURE40.4 INTERPRETATION OF RESULTS40.5 QUESTIONS
CHAPTER 41: In Silico Mining of Simple Sequence Repeats (SSR) Markers
41.1 INTRODUCTION41.2 OBJECTIVE41.3 MISA (MICROSATELLITE IDENTIFICATION TOOL)41.4 RESULT41.5 QUESTIONS
CHAPTER 42: Basics of RNA‐Seq Data Analysis
42.1 INTRODUCTION42.2 AIM OF AN RNA‐SEQ EXPERIMENT42.3 FAST SEQUENCE ALIGNMENT STRATEGIES42.4 QUESTIONS
CHAPTER 43: Functional Annotation of Common Differentially Expressed Genes
43.1 INTRODUCTION43.2 FUNCTIONAL ANNOTATION43.3 QUESTIONS
CHAPTER 44: Identification of Differentially Expressed Genes (DEGs)
44.1 SECTION I. QUALITY FILTERING OF DATA USING PRINSEQ44.2 SECTION II. IDENTIFICATION OF DIFFERENTIALLY EXPRESSED GENES – I (USING CUFFLINKS)44.3 SECTION III. IDENTIFICATION OF DIFFERENTIALLY EXPRESSED GENES – II (USING RSEM‐DE PACKAGES EBSEQ, DESEQ2 AND EDGER)44.4 USE OF DE PACKAGES FOR IDENTIFYING THE DIFFERENTIALLY EXPRESSED GENES44.5 QUESTIONS
CHAPTER 45: Estimating MicroRNA Expression Using the miRDeep2 Tool
45.1 INTRODUCTION45.2 PREPROCESSING OF READS45.3 INPUT FORMATS OF THE DATA FILE45.4 OUTPUT FORMATS THAT CAN BE GENERATED45.5 PRELIMINARY FILES USED IN THE EXAMPLE45.6 QUESTIONS
CHAPTER 46: miRNA Target Prediction
46.1 INTRODUCTION46.2 miRNA TARGET PREDICTION BY TARGETSCAN (http://targetscan.org/)46.3 miRNA TARGET PREDICTION BY TARGETSCAN IN HUMAN46.4 miRNA TARGET PREDICTION BY psRNATARGET (http://plantgrn.noble.org/psRNATarget>/)46.5 miRNA TARGET PREDICTION BY miRANDA (http://www.microrna.org)46.6 QUESTIONS
Appendix A: Usage of Internet for Bioinformatics
Appendix B: Important Web Resources for Bioinformatics Databases and Tools
INTRODUCTION
Appendix C: NCBI Database: A Brief Account
Appendix D: EMBL Databases and Tools: An Overview
INTRODUCTIONTHE EMBL DATABASESTHE EMBL TOOLS
Appendix E: Basics of Molecular Phylogeny
GEOLOGICAL CLOCKMORPHOLOGICAL PHYLOGENY TO MOLECULAR PHYLOGENYBASIS OF MOLECULAR PHYLOGENYMUTATION RATECOMPONENTS OF A PHYLOGENETIC TREETYPES OF PHYLOGENETIC TREES
Appendix F: Evolutionary Models of Molecular Phylogeny
INTRODUCTION
Glossary
References
Webliography
Index
End User License Agreement

Content preview from Basic Applied Bioinformatics

CHAPTER 5Sequence Format Conversion

CS Mukhopadhyay and RK Choudhary

School of Animal Biotechnology, GADVASU, Ludhiana

5.1 INTRODUCTION

A computer file format is a distinct way of encoding data to store in a file. Biological sequence format is an assemblage of distinct file formats, with the aim of rendering the files legible to specific programs.

Note: Biological sequences are generally written in Courier New font. This enables us to arrange the sequences uniformly in each line of the text

Sequence formats are manipulated or inter‐converted by the system in the base level through ASCII (American Standard Code for Information Interchange – i.e. binary code) text – that is, A–Z characters are encoded by 65–90; a–z characters by 97–122. Thus, the sequence formats are the required arrangement of characters, symbols, and keywords that specify the sequence, ID name, comments, and so on.

The sequence formats are needed for two purposes:

Different programs recognize different types of formats. We need to convert one format to an other to use the sequence for that program.
Presentations of the molecular sequence are sometimes required in a particular format.

Commonly used sequence formats.

1. IG/Stanford	7. Fitch	13. Plain/Raw
2. GenBank/GB	8. Pearson/Fasta	14. PIR/CODATA
3. NBRF	9. Zuker (in‐only)	15. MSF
4. EMBL	10. Olsen (in‐only)	16. ASN.1
5. GCG	11. Phylip3.2	17. PAUP
6. DNAStrider	12. Phylip	18. Pretty (out‐only)

5.2 OBJECTIVE

To convert the format of a given molecular sequence to other ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781119244332Purchase book

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design