さて近年のコンピュータの進歩により, 発話収録した韻律を実時間で処理できるようになった. そこで本論文では, まず韻律バランスのとれた発話用文セットを作成した. そしてその発話用文セットを提示し, 発話を収録, リアルタイムに解析してデータベースに蓄え, その情報を元に, 以降の発話文を決定するシステムを開発した.
本システムでは, 次の3つの韻律を考慮している. それはF0,音素持続時間長(以下Dur),音素連鎖間F0傾き(以下F0shift)である. \\ そして各々の韻律要素をF0(High,Middle,Low),Dur(Long,Short),F0shift(Up,Down)にわけ, 12の韻律ブロックを作成した. そして12の韻律ブロックを, 全ての音素連鎖種類においてカバーする.
本システムを用いて発話収録を行なうことにより, 韻律要素を最小限の発話量で無駄なく収録することが可能となった. 実験として男性1名の発話収録を行ない, 23,216音素数の発話を収録し, 12ブロック全ての韻律をカバーすることに成功した.