Speech
synthesis adalah sebuah kemampuan bicara manusia yang dibuat oleh manusia
(artificial). Sebuah sistem komputer digunakan untuk tujuan ini yang disebut
sebagai speech synthesizer, dan dapat diimplementasikan ke dalam software atau
hardware. Sebagai contoh sebuah sistem text-to-speech (TTS) yang dapat
mengkonversikan teks dengan bahasa biasa menjadi suara.
Synthesized
speech dapat diciptakan dengan menggabungkan beberapa potongan-potongan dari
pembicaraan/pidato yang sudah direkam dalam sebuah basis data. Kualitas dari
sebuah speech synthesizer dilihat dari kemiripannya dengan suara manusia dan kemampuannya
untuk bisa dipahami. Program TTS yang jelas dapat membantu orang dengan
gangguan visual atau ketidakmampuan membaca, untuk mendengarkan pada pekerjaan
yang tertulis dalam komputer. Banyak Sistem Operasi komputer yang telah
dimasukkan speech synthesizer sejak tahun 1980-an.
Teknologi
Speech Synthesis
Yang
paling penting dalam kualitas sistem speech synthesis adalah kealamian dan
kejelasannya. Kealamaian menjelaskan bagaimana dekatnya suara output dengan
suara manusia, sementara kejelasan adalah dengan kemudahan di mana output
tersebut dapat dipahami. Speech synthesizer yang ideal adalah yang alami dan
jelas. Sistem speech synthesis biasanya mencoba untuk memaksimalkan kedua
karakteristik.
Dua
teknologi utama dalam pembuatan gelombang suara synthetic speech adalah
Concatenative Synthesis dan Formant Synthesis. Setiap teknologi mempunyai
kekuatan dan kelemahannya, dan penggunaan yang ditujukan dari sistem synthesis
akan menentukkan pendekatan mana yang digunakana.
Concatenative
Synthesis
Concantenative
synthesis didasarkan dengan penggabungan dari segmen-segmen dari pembicaraan
yang sudah direkam. Secara umum, concatenative synthesis memproduksi
synthesized speech dengan suara yang paling alami. Tetapi, perbedaan antara
variasi alami dalam pembicaraaan dan sifat dari teknik otomasi untuk
pensegmentasian gelombang suara terkadang menghasilkan kesalahan suara dalam
output.
Formant
Synthesis
Formant
synthesis tidak menggunakan pembicaraan manusia sebagai sample pada runtime.
Daripada itu, synthesized speech yang dihasilkan dibuat dengan additive
synthesis dan sebuah model akustik (physical modelling synthesis). Parameter
seperti frekuensi dasar, penyuaraan, dan tingkat kebisingan di variasikan dari
waktu ke waktu untuk menciptakan gelombang buatan (artificial) dari sebuah
pembicaraan. Banyak sistem yang berdasarkan formant synthesis menciptakan
pembicaraan yang seperti robot yang tidak mungkin dapat dikenal sebagai suara
manusia. Tetapi, kealamian maksimum bukan selalu tujuan dari sebuah sistem
speech synthesis, dan sistem formant synthesis mempunyai keuntungan dari sistem
concatenative. Pembicaraan yang di-formant synthesis-kan dapat menjadi sangat
jelas, bahkan dalam kecepatan yang tinggi, sehingga menghindari kesalahan suara
yang sering dialami sistem concatenative. Formant synthesis biasanya program
yang lebih kecil dari concatenative sistem karena ia tidak menggunakan basis
data dari sampel-sampel pembicaraan. Oleh karena itu formant synthesis dapat
ditanamkan dalam sistem yang mempunyai memory dan microprosesor yang terbatas.
Karena sistem yang berdasarkan formant mempunyai kendali penuh dari sluruh
aspek dari hasil pembicaraan, variasi yang luas dari prosodi dan intonasi dapat
dihasilkan, menyampaikan tidak hanya pertanyaan dan pernyataan tetapi juga
emosi dan nada suara.
Generasi dari sistem
pemaduan suara ini dapat dibagi ke dalam 3 masa, yaitu:
1. Generasi
pertama (1962-1977). Format sintesis dari fonem adalah teknologi dominan.
Teknologi ini memanfaatkan aturan berdasarkan penguraian fonetik pada kalimat
untuk kontur frekuensi forman. Beberapa sintesis masih miskin atau kurang
dalam kejelasan dan kealamiannya.
2. Generasi
kedua (1977-1992). Metode pemadu suara adalah diphone diwakilkan dengan
parameter LPC. Hal tersebut menunujukkan bahwa kejelasan yang baik pada pemadu
suara dapat diperoleh dengan andal dari input teks dengan menggabungkan diphone
yang sesuai dengan unit. Kejelasan meningkat selama sintesis forman, tetapi
kealamian dari pemadu suara masih tetap rendah.
3. Generasi
ketiga
(1992-sekarang). Generasi ini ditandai dengan metode ‘ sintesis
pemilihan unit’ yang diperkenalkan dan disempurnakan oelh Sagisaka
di Labs ATR Kyoto. Hasil dari pemandu suara pada periode ini sangat
mendekati human-generated
speech pada bagian kejelasan dan kealamian.
SUMBER:
- http://ranggaadhityap.blogspot.co.id/2011/11/speech-synthesis.html
- http://princessglad.blogspot.co.id/2014/11/speech-synthesis.html
Tidak ada komentar:
Posting Komentar