PSOLA (Pitch Synchronous Overlap and Add; ピッチ同期重畳加算) は「ピッチに基づいた音声の分割・変換・再合成」をおこなう音声処理の枠組み^[1]である。ピッチ同期波形重畳法^[2]とも。

PSOLAを採用した音声処理ではスペクトル包絡/フォルマントを保ったまま音高や持続時間(テンポ)を変更できる。

PSOLAは次の3つの段階（分析・変換・再合成）からなる^[3]。

分析では、対象の音声波形がもつ周期(ピッチ)と同期した分析窓を用い^[6]、互いにオーバーラップした短い断片/区間（基本周期の2倍程度^[6]）に分割する。

変換例として、信号のピッチを下げるには断片を互いに遠ざけ、ピッチを上げるには互いに近付けて断片を再配置する。断片を離す/重ねる結果として信号長/持続時間が変化するため、次の補正を行う^[6]。信号の持続時間を長くするには引き続き同じ断片を複数回繰り返し、短くするにはいずれかの断片を間引きする。

変換された断片は重畳加算法 (英語: overlap-add) で結合され信号が再合成される。

PSOLAを採用しかつ操作が時間領域でおこなわれるアルゴリズムはTD-PSOLAと総称され、また周波数領域でおこなわれるアルゴリズムはFD-PSOLAと総称される^[7]。

PSOLAは音声信号の韻律 (英語: prosody) の変更に使用できる。

参考文献

Eric Moulines; Francis Charpentier (December 1990), “Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones”, Speech Communication 9: 453–467, doi:10.1016/0167-6393(90)90021-Z
Eric Moulines; Jean Laroche (February 1995), “Non-parametric techniques for pitch-scale and time-scale modification of speech”, Speech Communication 16 (2), doi:10.1016/0167-6393(94)00054-E

^ 特定のアルゴリズムではなく、流れ・型である。 "a pitch-synchronous overlap-add (PSOLA) approach ... we first present the common PSOLA framework" MOULINES, et al. (1990).
^ 板橋秀一 (2005), 音声工学, 森北出版, p. 169, ISBN 9784627828117
^ "The PSOLA synthesis scheme involves the three following steps: an analysis of the original speech waveform ... modifications brought to this intermediate representation ... the synthesis of the modified signal from the modified intermediate representation" MOULINES, et al. (1990). PITCH-SYNCHRONOUS WAVEFORM PROCESSING TECHNIQUES FOR TEXT-TO-SPEECH SYNTHESIS USING DIPHONES.
^ "consists of a sequence of short-term signals x_m(n)" MOULINES, et al. (1990).
^ "at a pitch-synchronous rate on the voiced portions of the signal and at a constant rate on the unvoiced portions." MOULINES, et al. (1990).
^ ^a ^b ^c R. Kortekaas; A. Kohlrausch (1997), “Psychoacoustical Evaluation of the Pitch-Synchronous Overlap-and-Add Speech-Waveform Manipulation Technique Using Single-Formant Stimuli”, Journal of the Acoustical Society of America (JASA) 101 (4): 2202–2213
^ "The modifications of the speech signal are performed either in the frequency domain (FD-PSOLA) ... or directly in the time domain (TD-PSOLA)" MOULINES, et al. (1990).

外部リンク

モデル / 手法

エンジン

商用	AquesTalk AITalk ReadSpeaker FineSpeech RECAIUS RubyTalk VoiceOperator CereProc（英語版） IVONA（英語版） Microsoft text-to-speech voices（英語版） PlainTalk（英語版） Syllaflow Seiren Voice
フリー	eSpeak（英語版） Gnuspeech（英語版） Festival Speech Synthesis System（英語版） Open JTalk
非OSS	MBROLA（英語版）

商　用	Microsoft Speech API Microsoft Speech Server（英語版） Talk It!（英語版）
フリー	FreeTTS（英語版）

ハードウェア

歴史的	DECtalk（英語版） Pattern playback（英語版） The Voder（英語版） Wolfgang von Kempelen's speaking machine（英語版）
LSI	GI SP0256（英語版） TI LPC Speech Chips（英語版）
娯楽	Currah（英語版） Echo 2（英語版） Phasor（英語版） Intellivoice（英語版） Speak & Spell（英語版） PC-6000シリーズ PC-6600シリーズ Yamaha CX5M（英語版）

応用ソフトウェア

商用	VOICEROID CeVIO Megpoid Talk A.I.VOICE ボイスソムリエ AOLbyPhone（英語版） DialogOS（英語版） Dr. Sbaitso（英語版） Microsoft Agent（英語版） Microsoft Narrator（英語版） Voice font（英語版） VOICEPEAK
フリー	棒読みちゃん SofTalk VOICEVOX COEIROINK
サイト	コエステーション / CoeAvatar CoeFont

商用	JAWS PC Talker（） VoiceOver
フリー	BRLTTY（） Gnopernicus（英語版） GR for UNIX（） NonVisual Desktop Access Orca Thunder（英語版）
ハード	簡単ケータイらくらくホン

商用	WordQ+SpeakQ（英語版）
フリー	Emacspeak（英語版）

商用	aiBrowser ホームページリーダー Spoken Web（英語版）

ブラウザ拡張

フリー	Fire Vox（英語版） Text to Voice（英語版）

サイト拡張

商用	BrowseAloud（英語版） Readspeaker（英語版）

商用	Cantor（英語版） VOCALOID CeVIO Synthesizer V くまうた
フリー	AquesTone Flinger（英語版）ディレイラマ Sinsy NEUTRINO
シェア	UTAU
非OSS	MBROLA（英語版）
ハード	DECtalk（英語版） PC-6000シリーズ PC-6600シリーズ Yamaha CX5-M（英語版）
応用	ぼかりす
サイト	コエラボ

プロトコル

開発者・研究者