book

Speech and Audio Signal Processing: Processing and Perception of Speech and Music, Second Edition

by Ben Gold, Nelson Morgan, Dan Ellis

August 2011

Beginner to intermediate

688 pages

21h 28m

English

Wiley-Interscience

Read now

Unlock full access

0.1 WHY WE CREATED A NEW EDITION0.2 WHAT IS NEW0.3 A FINAL THOUGHT
1.1 WHY WE WROTE THIS BOOK1.2 HOW TO USE THIS BOOK1.3 A CONFESSION1.4 ACKNOWLEDGMENTSBIBLIOGRAPHY
2.1 VON KEMPELEN2.2 THE VODER2.3 TEACHING THE OPERATOR TO MAKE THE VODER “TALK”2.4 SPEECH SYNTHESIS AFTER THE VODER2.5 MUSIC MACHINES2.6 EXERCISESBIBLIOGRAPHY
3.1 BACKGROUND3.2 VOICE-CODING CONCEPTS3.3 HOMER DUDLEY (1898–1981)3.4 EXERCISES3.5 APPENDIX: HEARING OF THE FALL OF TROYBIBLIOGRAPHY

4.1 RADIO REX4.2 DIGIT RECOGNITION4.3 SPEECH RECOGNITION IN THE 1950s4.4 THE 1960s4.5 1971–1976 ARPA PROJECT4.6 ACHIEVED BY 19764.7 THE 1980s IN AUTOMATIC SPEECH RECOGNITION4.8 MORE RECENT WORK4.9 SOME LESSONS4.10 EXERCISESBIBLIOGRAPHY
5.1 WHY STUDY AUTOMATIC SPEECH RECOGNITION?5.2 WHY IS AUTOMATIC SPEECH RECOGNITION HARD?5.3 AUTOMATIC SPEECH RECOGNITION DIMENSIONS5.4 COMPONENTS OF AUTOMATIC SPEECH RECOGNITION5.5 FINAL COMMENTS5.6 EXERCISESBIBLIOGRAPHY
6.1 INTRODUCTION6.2 THE TRANSFORM6.3 INVERSE Z TRANSFORM6.4 CONVOLUTION6.5 SAMPLING6.6 LINEAR DIFFERENCE EQUATIONS6.7 FIRST-ORDER LINEAR DIFFERENCE EQUATIONS6.8 RESONANCE6.9 CONCLUDING COMMENTS6.10 EXERCISESBIBLIOGRAPHY
7.1 INTRODUCTION7.2 FILTERING CONCEPTS7.3 TRANSFORMATIONS FOR DIGITAL FILTER DESIGN7.4 DIGITAL FILTER DESIGN WITH BILINEAR TRANSFORMATION7.5 THE DISCRETE FOURIER TRANSFORM7.6 FAST FOURIER TRANSFORM METHODS7.7 RELATION BETWEEN THE DFT AND DIGITAL FILTERS7.8 EXERCISESBIBLIOGRAPHY
8.1 INTRODUCTION8.2 FEATURE EXTRACTION8.3 PATTERN-CLASSIFICATION METHODS8.4 SUPPORT VECTOR MACHINES8.5 UNSUPERVISED CLUSTERING8.6 CONCLUSIONS8.7 EXERCISES8.8 APPENDIX: MULTILAYER PERCEPTRON TRAININGBIBLIOGRAPHY
9.1 INTRODUCTION9.2 A FEW DEFINITIONS9.3 CLASS-RELATED PROBABILITY FUNCTIONS9.4 MINIMUM ERROR CLASSIFICATION9.5 LIKELIHOOD-BASED MAP CLASSIFICATION9.6 APPROXIMATING A BAYES CLASSIFIER9.7 STATISTICALLY BASED LINEAR DISCRIMINANTS9.8 ITERATIVE TRAINING: THE EM ALGORITHM9.9 EXERCISESBIBLIOGRAPHY
10.1 INTRODUCTION10.2 THE WAVE EQUATION FOR THE VIBRATING STRING10.3 DISCRETE-TIME TRAVELING WAVES10.4 BOUNDARY CONDITIONS AND DISCRETE TRAVELING WAVES10.5 STANDING WAVES10.6 DISCRETE-TIME MODELS OF ACOUSTIC TUBES10.7 ACOUSTIC TUBE RESONANCES10.8 RELATION OF ACOUSTIC TUBE RESONANCES TO OBSERVED FORMANT FREQUENCIES10.9 EXERCISESBIBLIOGRAPHY
11.1 INTRODUCTION11.2 ACOUSTIC TUBE MODELS OF ENGLISH PHONEMES11.3 EXCITATION MECHANISMS IN SPEECH PRODUCTION11.4 EXERCISESBIBLIOGRAPHY
12.1 INTRODUCTION12.2 SEQUENCE OF STEPS IN A PLUCKED OR BOWED STRING INSTRUMENT12.3 VIBRATIONS OF THE BOWED STRING12.4 FREQUENCY-RESPONSE MEASUREMENTS OF THE BRIDGE OF A VIOLIN12.5 VIBRATIONS OF THE BODY OF STRING INSTRUMENTS: MEASUREMENT METHODS12.6 RADIATION PATTERN OF BOWED STRING INSTRUMENTS12.7 SOME CONSIDERATIONS IN PIANO DESIGN12.8 BRIEF DISCUSSION OF THE TRUMPET, TROMBONE FRENCH HORN, AND TUBA12.9 EXERCISESBIBLIOGRAPHY
13.1 INTRODUCTION13.2 SOUND WAVES13.3 SOUND WAVES IN ROOMS13.4 ROOM ACOUSTICS AS A COMPONENT IN SPEECH SYSTEMS13.5 EXERCISESBIBLIOGRAPHY
14.1 INTRODUCTION14.2 ANATOMICAL PATHWAYS FROM THE EAR TO THE PERCEPTION OF SOUND14.3 THE PERIPHERAL AUDITORY SYSTEM14.4 HAIR CELL AND AUDITORY NERVE FUNCTIONS14.5 PROPERTIES OF THE AUDITORY NERVE14.6 SUMMARY AND BLOCK DIAGRAM OF THE PERIPHERAL AUDITORY SYSTEM14.7 EXERCISESBIBLIOGRAPHY
15.1 INTRODUCTION15.2 SOUND-PRESSURE LEVEL AND LOUDNESS15.3 FREQUENCY ANALYSIS AND CRITICAL BANDS15.4 MASKING15.5 SUMMARY15.6 EXERCISESBIBLIOGRAPHY
16.1 INTRODUCTION16.2 HISTORICAL REVIEW OF PITCH-PERCEPTION MODELS16.3 PHYSIOLOGICAL EXPLORATION OF PLACE VERSUS PERIODICITY16.4 RESULTS FROM PSYCHOACOUSTIC TESTING AND MODELS16.5 SUMMARY16.6 EXERCISESBIBLIOGRAPHY
17.1 INTRODUCTION17.2 VOWEL PERCEPTION: PSYCHOACOUSTICS AND PHYSIOLOGY17.3 THE CONFUSION MATRIX17.4 PERCEPTUAL CUES FOR PLOSIVES17.5 PHYSIOLOGICAL STUDIES OF TWO VOICED PLOSIVES17.6 MOTOR THEORIES OF SPEECH PERCEPTION17.7 NEURAL FIRING PATTERNS FOR CONNECTED SPEECH STIMULI17.8 CONCLUDING THOUGHTS17.9 EXERCISESBIBLIOGRAPHY
18.1 INTRODUCTION18.2 THE ARTICULATION INDEX AND HUMAN RECOGNITION18.3 COMPARISONS BETWEEN HUMAN AND MACHINE SPEECH RECOGNIZERS18.4 CONCLUDING THOUGHTS18.5 EXERCISESBIBLIOGRAPHY
19.1 INTRODUCTION19.2 REVIEW OF FLETCHER'S CRITICAL BAND EXPERIMENTS19.3 RELATION BETWEEN THRESHOLD MEASUREMENTS AND HYPOTHESIZED FILTER SHAPES19.4 GAMMA-TONE FILTERS, ROEX FILTERS, AND AUDITORY MODELS19.5 OTHER CONSIDERATIONS IN FILTER-BANK DESIGN19.6 SPEECH SPECTRUM ANALYSIS USING THE FFT19.7 CONCLUSIONS19.8 EXERCISESBIBLIOGRAPHY
20.1 INTRODUCTION20.2 A HISTORICAL NOTE20.3 THE REAL CEPSTRUM20.4 THE COMPLEX CEPSTRUM20.5 APPLICATION OF CEPSTRAL ANALYSIS TO SPEECH SIGNALS20.6 CONCLUDING THOUGHTS20.7 EXERCISESBIBLIOGRAPHY
21.1 INTRODUCTION21.2 THE PREDICTIVE MODEL21.3 PROPERTIES OF THE REPRESENTATION21.4 GETTING THE COEFFICIENTS21.5 RELATED REPRESENTATIONS21.6 CONCLUDING DISCUSSION21.7 EXERCISESBIBLIOGRAPHY
22.1 INTRODUCTION22.2 COMMON FEATURE VECTORS22.3 DYNAMIC FEATURES22.4 STRATEGIES FOR ROBUSTNESS22.5 AUDITORY MODELS22.6 MULTICHANNEL INPUT22.7 DISCRIMINANT FEATURES22.8 DISCUSSION22.9 EXERCISESBIBLIOGRAPHY
23.1 INTRODUCTION23.2 PHONES AND PHONEMES23.3 PHONETIC AND PHONEMIC ALPHABETS23.4 ARTICULATORY FEATURES23.5 SUBWORD UNITS AS CATEGORIES FOR ASR23.6 PHONOLOGICAL MODELS FOR ASR23.7 CONTEXT-DEPENDENT PHONES23.8 OTHER SUBWORD UNITS23.9 PHRASES23.10 SOME ISSUES IN PHONOLOGICAL MODELING23.11 EXERCISESBIBLIOGRAPHY
24.1 INTRODUCTION24.2 ISOLATED WORD RECOGNITION24.3 CONNECTED WORD RECOGNITION24.4 SEGMENTAL APPROACHES24.5 DISCUSSION24.6 EXERCISESBIBLIOGRAPHY
25.1 INTRODUCTION25.2 STATING THE PROBLEM25.3 PARAMETERIZATION AND PROBABILITY ESTIMATION25.4 CONCLUSION25.5 EXERCISESBIBLIOGRAPHY
26.1 INTRODUCTION26.2 HMM TRAINING26.3 FORWARD-BACKWARD TRAINING26.4 OPTIMAL PARAMETERS FOR EMISSION PROBABILITY ESTIMATORS26.5 VITERBI TRAINING26.6 LOCAL ACOUSTIC PROBABILITY ESTIMATORS FOR ASR26.7 INITIALIZATION26.8 SMOOTHING26.9 CONCLUSIONS26.10 EXERCISESBIBLIOGRAPHY
27.1 INTRODUCTIONDISCRIMINANT TRAINING27.3 HMM–ANN BASED ASR27.4 OTHER APPLICATIONS OF ANNs TO ASR27.5 EXERCISES27.6 APPENDIX: POSTERIOR PROBABILITY PROOFBIBLIOGRAPHY
28.1 INTRODUCTION28.2 ADAPTATION28.3 LATTICE-BASED MMI AND MPE28.4 CONCLUSION28.5 EXERCISESBIBLIOGRAPHY
29.1 INTRODUCTION29.2 PHONOLOGICAL MODELS29.3 LANGUAGE MODELS29.4 DECODING WITH ACOUSTIC AND LANGUAGE MODELS29.5 A COMPLETE SYSTEM29.6 ACCEPTING REALISTIC INPUT29.7 CONCLUDING COMMENTSBIBLIOGRAPHY
30.1 INTRODUCTION30.2 CONCATENATIVE METHODS30.3 STATISTICAL PARAMETRIC METHODS30.4 A HISTORICAL PERSPECTIVE30.5 SPECULATION30.6 TOOLS AND EVALUATION30.7 EXERCISES30.8 APPENDIX: SYNTHESIZER EXAMPLESBIBLIOGRAPHY
31.1 INTRODUCTION31.2 A NOTE ON NOMENCLATURE31.3 PITCH DETECTION, PERCEPTION AND ARTICULATION31.4 THE VOICING DECISION31.5 SOME DIFFICULTIES IN PITCH DETECTION31.6 SIGNAL PROCESSING TO IMPROVE PITCH DETECTION31.7 PATTERN-RECOGNITION METHODS FOR PITCH DETECTION31.8 SMOOTHING TO FIX ERRORS IN PITCH ESTIMATION31.9 NORMALIZING THE AUTOCORRELATION FUNCTION31.10 EXERCISESBIBLIOGRAPHY
32.1 INTRODUCTION32.2 STANDARDS FOR DIGITAL SPEECH CODING32.3 DESIGN CONSIDERATIONS IN CHANNEL VOCODER FILTER BANKS32.4 ENERGY MEASUREMENTS IN A CHANNEL VOCODER32.5 A VOCODER DESIGN FOR SPECTRAL ENVELOPE ESTIMATION32.6 BIT SAVING IN CHANNEL VOCODERS32.7 DESIGN OF THE EXCITATION PARAMETERS FOR A CHANNEL VOCODER32.8 LPC VOCODERS32.9 CEPSTRAL VOCODERS32.10 DESIGN COMPARISONS32.11 VOCODER STANDARDIZATION32.12 EXERCISESBIBLIOGRAPHY
33.1 INTRODUCTION33.2 THE FRAME-FILL CONCEPT33.3 PATTERN MATCHING OR VECTOR QUANTIZATION33.4 THE KANG–COULTER 600-BPS VOCODER33.5 SEGMENTATION METHODS FOR BANDWIDTH REDUCTION33.6 EXERCISESBIBLIOGRAPHY
34.1 INTRODUCTION34.2 VOICE EXCITATION AND SPECTRAL FLATTENING34.3 VOICE-EXCITED CHANNEL VOCODER34.4 VOICE-EXCITED AND ERROR-SIGNAL-EXCITED LPC VOCODERS34.5 WAVEFORM CODING WITH PREDICTIVE METHODS34.6 ADAPTIVE PREDICTIVE CODING OF SPEECH34.7 SUBBAND CODING34.8 MULTIPULSE LPC VOCODERS34.9 CODE-EXCITED LINEAR PREDICTIVE CODING34.10 REDUCING CODEBOOK SEARCH TIME IN CELP34.11 CONCLUSIONS34.12 EXERCISESBIBLIOGRAPHY
35.1 TRANSPARENT AUDIO CODING35.2 PERCEPTUAL MASKING35.3 NOISE SHAPING35.4 SOME EXAMPLE CODING SCHEMES35.5 SUMMARY35.6 EXERCISESBIBLIOGRAPHY
36.1 INTRODUCTION36.2 SOME EXAMPLES OF ACOUSTICALLY GENERATED MUSICALS SOUNDS36.3 MUSIC SYNTHESIS CONCEPTS36.4 ANALYSIS-BASED SYNTHESIS36.5 OTHER TECHNIQUES FOR MUSIC SYNTHESIS36.6 REVERBERATION36.7 SEVERAL EXAMPLES OF SYNTHESIS36.8 EXERCISESACKNOWLEDGMENTBIBLIOGRAPHY
37.1 THE INFORMATION IN MUSIC AUDIO37.2 MUSIC TRANSCRIPTION37.3 NOTE TRANSCRIPTION37.4 SCORE ALIGNMENT37.5 CHORD TRANSCRIPTION37.6 STRUCTURE DETECTION37.7 CONCLUSION37.8 EXERCISESBIBLIOGRAPHY
38.1 THE MUSIC RETRIEVAL PROBLEM38.2 MUSIC FINGERPRINTING38.3 QUERY BY HUMMING38.4 COVER SONG MATCHING38.5 MUSIC CLASSIFICATION AND AUTOTAGGING38.6 MUSIC SIMILARITY38.7 CONCLUSIONS38.8 EXERCISESBIBLIOGRAPHY
39.1 SOURCES AND MIXTURES39.2 EVALUATING SOURCE SEPARATION39.3 MULTI-CHANNEL APPROACHES39.4 BEAMFORMING WITH MICROPHONE ARRAYS39.5 INDEPENDENT COMPONENT ANALYSIS39.6 COMPUTATIONAL AUDITORY SCENE ANALYSIS39.7 MODEL-BASED SEPARATION39.8 CONCLUSIONS39.9 EXERCISESBIBLIOGRAPHY
40.1 INTRODUCTION40.2 TIME-SCALE MODIFICATION40.3 TRANSFORMATION WITHOUT EXPLICIT PITCH DETECTION40.4 TRANSFORMATIONS IN ANALYSIS-SYNTHESIS SYSTEMS40.5 SPEECH MODIFICATIONS IN THE PHASE VOCODER40.6 SPEECH TRANSFORMATIONS WITHOUT PITCH EXTRACTION40.7 THE SINE TRANSFORM CODER AS A TRANSFORMATION ALGORITHM40.8 VOICE MODIFICATION TO EMULATE A TARGET VOICE40.9 EXERCISESBIBLIOGRAPHY
41.1 INTRODUCTION41.2 GENERAL DESIGN OF A SPEAKER RECOGNITION SYSTEM41.3 EXAMPLE SYSTEM COMPONENTS41.4 EVALUATION41.5 MODERN RESEARCH CHALLENGES41.6 EXERCISESBIBLIOGRAPHY
42.1 INTRODUCTION42.2 GENERAL DESIGN OF A SPEAKER DIARIZATION SYSTEM42.3 EXAMPLE SYSTEM COMPONENTS42.4 RESEARCH CHALLENGES42.5 EXERCISESBIBLIOGRAPHY

Content preview from Speech and Audio Signal Processing: Processing and Perception of Speech and Music, Second Edition

CHAPTER 42 SPEAKER DIARIZATION

42.1 INTRODUCTION

As discussed in Chapter 8, for some applications it is useful to develop a classifier even without any labels, the so-called ‘unsupervised’ clustering task. For time series data, it is often useful to both segment and cluster the segments, for instance to associate each time segment with a particular source, even if that source is unknown. In the case of speech, this operation is known as speaker diarization, namely, the determination of who spoke when [25]. In its typical instantiation, there are no pre-existing models for any of the speakers; models are learned on the fly, with no supervisory information. No information about the underlying language, spoken text, amount of speech, number of speakers, or the placement of microphones need be given. As with nearly all modern speech applications, the dominant underlying model is a statistical one; and as in speaker verification, the basic representation is a Gaussian mixture model for each speaker, as described in Chapter 41. However, also like speaker verification, state-of-the-art implementations are relatively complex. In this chapter we¹ will present the major methods in current use.

Unlike verification, speaker diarization does not require the recognition of particular speakers i.e., labeling speech with real names. It does, however, have its own challenges. In particular, diarization ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9780470195369Purchase book

Speech and Audio Signal Processing: Processing and Perception of Speech and Music, Second Edition

by Ben Gold, Nelson Morgan, Dan Ellis

CHAPTER 42

SPEAKER DIARIZATION

42.1 INTRODUCTION

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Audio Processes

DAFX: Digital Audio Effects, Second Edition

Intelligent Speech Signal Processing

Audio Source Separation and Speech Enhancement

Publisher Resources

CHAPTER 42

SPEAKER DIARIZATION

42.1 INTRODUCTION

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Audio Processes

DAFX: Digital Audio Effects, Second Edition

Intelligent Speech Signal Processing

Audio Source Separation and Speech Enhancement

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.