Sebelum
membahas tentang teknologi yang terkait dengan antar muka telematika, ada
baiknya terlebih dahulu memahami apa yang dimaksud dengan antar muka (interface).
Pengertian antarmuka ( interface) adalah salah satu layanan yang disediakan
sistem operasi sebagai sarana interaksi antara pengguna dengan sistem operasi.
Antarmuka (interface) adalah komponen sistem operasi yang bersentuhan langsung
dengan pengguna.
Terdapat
dua jenis antarmuka, yaitu Command Line Interface(CLI) danGraphical User
Interface(GUI).
Command Line Interface(CLI)
CLI
adalah tipe antarmuka dimana pengguna berinteraksi dengan sistem operasi
melalui text-terminal. Pengguna menjalankan perintah dan program di sistem
operasi tersebut dengan cara mengetikkan baris-baris tertentu. Meskipun
konsepnya sama, tiap-tiap sistem operasi memiliki nama atau istilah yang
berbeda untuk CLI-nya. UNIX memberi nama CLI-nya sebagai bash, ash, ksh, dan
lain sebagainya. Microsoft Disk Operating System (MS-DOS) memberi nama
command.com atau Command Prompt. Sedangkan pada Windows Vista, Microsoft
menamakannya PowerShell. Pengguna Linux mengenal CLI pada Linux sebagai terminal,
sedangkan pada Apple namanya adalah commandshell.
Graphical User Interface(GUI)
GUI
adalah tipe antarmuka yang digunakan oleh pengguna untuk berinteraksi dengan
sistem operasi melalui gambar-gambar grafik, ikon, menu, dan menggunakan
perangkat penunjuk ( pointing device) seperti mouse atau track ball.
Elemen-elemen utama dari GUI bisa diringkas dalam konsep WIMP ( window, icon,
menu, pointing device).
Terdapat
6 macam fitur Teknologi yang terkait antar muka telematika. Fitur-fitur itu
antara lain:
- Head
Up Display (HUD)
- Tangible
User Interface
- Computer
Vision
- Browsing
Audio Data
- Speech
Recognition
- Speech
Synthesis
Disini
saya akan membahas apa itu speech recognition adalah : Pengenalan ucapan
atau pengenalan wicara—dalam istilah bahasa Inggrisnya, automatic speech
recognition (ASR)—adalah suatu pengembangan teknik dan sistem yang memungkinkan
komputer untuk menerima masukan berupa kata yang diucapkan. Teknologi ini
memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang
diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut
dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Kata-kata yang
diucapkan diubah bentuknya menjadi sinyal digital dengan cara mengubah
gelombang suara menjadi sekumpulan angka yang kemudian disesuaikan dengan
kode-kode tertentu untuk mengidentifikasikan kata-kata tersebut. Hasil dari
identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau
dapat dibaca oleh perangkat teknologi sebagai sebuah komando untuk melakukan
suatu pekerjaan, misalnya penekanan tombol pada telepon genggam yang dilakukan
secara otomatis dengan komando suara.
Alat
pengenal ucapan, yang sering disebut dengan speech recognizer, membutuhkan
sampel kata sebenarnya yang diucapkan dari pengguna. Sampel kata akan
didigitalisasi, disimpan dalam komputer, dan kemudian digunakan sebagai basis
data dalam mencocokkan kata yang diucapkan selanjutnya. Sebagian besar alat
pengenal ucapan sifatnya masih tergantung kepada pembicara. Alat ini hanya dapat
mengenal kata yang diucapkan dari satu atau dua orang saja dan hanya bisa
mengenal kata-kata terpisah, yaitu kata-kata yang dalam penyampaiannya terdapat
jeda antar kata. Hanya sebagian kecil dari peralatan yang menggunakan teknologi
ini yang sifatnya tidak tergantung pada pembicara. Alat ini sudah dapat
mengenal kata yang diucapkan oleh banyak orang dan juga dapat mengenal
kata-kata kontinu, atau kata-kata yang dalam penyampaiannya tidak terdapat jeda
antar kata.
Pengenalan
ucapan dalam perkembangan teknologinya merupakan bagian dari pengenalan suara
(proses identifikasi seseorang berdasarkan suaranya). Pengenalan suara sendiri
terbagi menjadi dua, yaitu pengenalan pembicara (identifikasi suara berdasarkan
orang yang berbicara) dan pengenalan ucapan (identifikasi suara berdasarkan
kata yang diucapkan).
Perkembangan alat pengenal ucapan
Sejak
tahun 1940, perusahaan American Telephone and Telegraph Company (AT&T)
sudah mulai mengembangkan suatu perangkat teknologi yang dapat mengidentifikasi
kata yang diucapkan manusia. Sekitar tahun 1960-an, para peneliti dari
perusahaan tersebut sudah berhasil membuat suatu perangkat yang dapat
mengidentifikasi kata-kata terpisah dan pada tahun 1970-an mereka berhasil
membuat perangkat yang dapat mengidentifikasi kata-kata kontinu. Alat pengenal
ucapan kemudian menjadi sangat fungsional sejak tahun 1980-an dan masih
dikembangkan dan terus ditingkatkan keefektifannya hingga sekarang.
Jenis-jenis pengenalan ucapan
Berdasarkan
kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata,
yaitu : Kata-kata yang terisolasi Proses pengidentifikasian kata yang
hanya dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda waktu
pengucapan antar kata
Kata-kata
yang berhubungan Proses pengidentifikasian kata yang mirip dengan kata-kata
terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih
singkat
Kata-kata
yang berkelanjutan Proses pengidentifikasian kata yang sudah lebih maju karena
dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda
waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini
sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang
diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata
secara natural
Kata-kata
spontan Proses pengidentifikasian kata yang dapat mengenal kata-kata yang
diucapkan secara spontan tanpa jeda waktu antar kata Verifikasi
atau identifikasi suara Proses pengidentifikasian kata yang tidak hanya mampu
mengenal kata, namun juga mengidentifikasi siapa yang berbicara.
Proses kerja alat pengenal ucapan
Alat
pengenal ucapan memiliki empat tahapan dalam prosesnya, yaitu :
1. Tahap
penerimaan masukan
Masukan
berupa kata-kata yang diucapkan lewat pengeras suara.
2. Tahap
ekstraksi
Tahap
ini adalah tahap penyimpanaan masukan yang berupa suara sekaligus pembuatan
basis data sebagai pola. Proses ekstraksi dilakukan berdasarkan metode Model
Markov Tersembunyi atau Hidden Markov Model (HMM), yang merupakan model
statistik dari sebuah sistem yang diasumsikan oleh Markov sebagai suatu proses
dengan parameter yang tidak diketahui. Tantangan dalam model statistik ini
adalah menentukan parameter-parameter tersembunyi dari parameter yang dapat
diamati. Parameter-parameter yang telah kita tentukan kemudian digunakan untuk
analisis yang lebih jauh pada proses pengenalan kata yang diucapkan.
Berdasarkan HMM, proses pengenalan ucapan secara umum menghasilkan keluaran
yang dapat dikarakterisasikan sebagai sinyal. Sinyal dapat bersifat diskrit
(karakter dalam abjad) maupun kontinu (pengukuran temperatur, alunan musik).
Sinyal dapat pula bersifat stabil (nilai statistiknya tidak berubah terhadap
waktu) maupun nonstabil (nilai sinyal berubah-ubah terhadap waktu). Dengan melakukan
pemodelan terhadap sinyal secara benar, dapat dilakukan simulasi terhadap
masukan dan pelatihan sebanyak mungkin melalui proses simulasi tersebut
sehingga model dapat diterapkan dalam sistem prediksi, sistem pengenalan,
maupun sistem identifikasi. Secara garis besar model sinyal dapat dikategorikan
menjadi dua golongan, yaitu: model deterministik dan model statistikal. Model
deterministik menggunakan nilai-nilai properti dari sebuah sinyal seperti:
amplitudo, frekuensi, dan fase dari gelombang sinus. Model statistikal
menggunakan nilai-nilai statistik dari sebuah sinyal seperti: proses Gaussian,
proses Poisson, proses Markov, dan proses Markov Tersembunyi. Suatu model HMM
secara umum memiliki unsur-unsur sebagai berikut:
N,
yaitu jumlah bagian dalam model. Secara umum bagian tersebut saling terhubung
satu dengan yang lain, dan suatu bagian bisa mencapai semua bagian yang lain,
serta sebaliknya (disebut dengan model ergodik). Namun hal tersebut tidak
mutlak karena terdapat kondisi lain dimana suatu bagian hanya bisa berputar ke
diri sendiri dan berpindah ke satu bagian berikutnya. Hal ini bergantung pada
implementasi dari model.
M,
yaitu jumlah simbol observasi secara unik pada tiap bagiannya, misalnya:
karakter dalam abjad, dimana bagian diartikan sebagai huruf dalam kata.
Probabilita
Perpindahan Bagian { } = ij A a
Probabilita
Simbol Observasi pada bagian j, { } () = j Bb k
Inisial
Distribusi Bagian i p p
3. Tahap
ekstraksi tampilan Penyaringan
sinyal suara dan pengubahan sinyal suara
analog ke digital’
4. Tahap
tugas pemodelan
Pembuatan
suatu model HMM dari data-data yang berupa sampel ucapan sebuah kata yang sudah
berupa data digital
5. Tahap
sistem pengenalan HMM
Penemuan
parameter-parameter yang dapat merepresentasikan sinyal suara untuk analisis
lebih lanjut.
6. Tahap
pembandingan
Tahap
ini merupakan tahap pencocokan data baru dengan data suara (pencocokan tata
bahasa) pada pola. Tahap ini dimulai dengan proses konversi sinyal suara
digital hasil dari proses ekstraksi ke dalam bentuk spektrum suara yang akan
dianalisa dengan membandingkannya dengan pola suara pada basis data.
Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu
berdasarkan urutannya. Pemilihan ini dilakukan agar proses analisis dapat
dilakukan secara paralel. Proses yang pertama kali dilakukan ialah memproses
gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah berikutnya
ialah proses kalkulasi yang dibagi menjadi dua bagian :
Transformasi
gelombang diskrit menjadi data yang terurut Gelombang diskrit berbentuk masukan
berukuran n yang menjadi objek yang akan dibagi pada proses konversi dengan
cara pembagian rincian waktu
7. Menghitung
frekuensi pada tiap elemen data yang terurut
Selanjutnya
tiap elemen dari data yang terurut tersebut dikonversi ke dalam bentuk bilangan
biner. Data biner tersebut nantinya akan dibandingkan dengan pola data suara
dan kemudian diterjemahkan sebagai keluaran yang dapat berbentuk tulisan
ataupun perintah pada perangkat.
8. Tahap
validasi identitas pengguna
Alat
pengenal ucapan yang sudah memiliki sistem verifikasi/identifikasi suara akan
melakukan identifikasi orang yang berbicara berdasarkan kata yang diucapkan
setelah menerjemahkan suara tersebut menjadi tulisan atau komando.
Aplikasi alat pengenal ucapan
Bidang
komunikasi
Komando
Suara adalah suatu program pada komputer yang melakukan perintah berdasarkan
komando suara dari pengguna. Contohnya pada aplikasi Microsoft Voice yang
berbasis bahasa Inggris. Ketika pengguna mengatakan “Mulai kalkulator” dengan
intonasi dan tata bahasa yang sesuai, komputer akan segera membuka aplikasi
kalkulator. Jika komando suara yang diberikan sesuai dengan daftar perintah
yang tersedia, aplikasi akan memastikan komando suara dengan menampilkan
tulisan “Apakah Anda meminta saya untuk ‘mulai kalkulator’?”. Untuk melakukan
verifikasi, pengguna cukup mengatakan “Lakukan” dan komputer akan langsung
beroperasi.
Pendiktean
Pendiktean adalah sebuah proses mendikte yang
sekarang ini banyak dimanfaatkan dalam pembuatan laporan atau penelitian.
Contohnya pada aplikasi Microsoft Dictation yang merupakan aplikasi yang dapat
menuliskan apa yang diucapkan oleh pengguna secara otomatis.
Telepon
Pada
telepon, teknologi pengenal ucapan digunakan pada proses penekanan tombol
otomatis yang dapat menelpon nomor tujuan dengan komando suara.
Bidang
kesehatan
Alat
pengenal ucapan banyak digunakan dalam bidang kesehatan untuk membantu para
penyandang cacat dalam beraktivitas. Contohnya pada aplikasi Antarmuka Suara
Pengguna atau Voice User Interface (VUI) yang menggunakan teknologi pengenal
ucapan dimana pengendalian saklar lampu misalnya, tidak perlu dilakukan secara
manual dengan menggerakkan saklar tetapi cukup dengan mengeluarkan perintah
dalam bentuk ucapan sebagai saklarnya. Metode ini membantu manusia yang secara
fisik tidak dapat menggerakkan saklar karena cacat pada tangan misalnya.
Penerapan VUI ini tidak hanya untuk lampu saja tapi bisa juga untuk
aplikasi-aplikasi kontrol yang lain.
Bidang
militer
Pelatihan
Penerbangan Aplikasi alat pengenal ucapan dalam bidang militer adalah pada
pengatur lalu-lintas udara atau yang dikenal dengan Air Traffic Controllers
(ATC) yang dipakai oleh para pilot untuk mendapatkan keterangan mengenai
keadaan lalu-lintas udara seperti radar, cuaca, dan navigasi. Alat pengenal
ucapan digunakan sebagai pengganti operator yang memberikan informasi kepada
pilot dengan cara berdialog.
Helikopter
Aplikasi
alat pengenal ucapan pada helikopter digunakan untuk berkomunikasi lewat radio
dan menyesuaikan sistem navigasi. Alat ini sangat diperlukan pada helikopter
karena ketika terbang, sangat banyak gangguan yang akan menyulitkan pilot bila
harus berkomunikasi dan menyesuaikan navigasi dengan terlebih dahulu memencet
tombol tertentu.
Kelebihan alat pengenal ucapan
Kelebihan
dari peralatan yang menggunakan teknologi ini adalah :
Cepat
Teknologi ini mempercepat transmisi informasi dan umpan balik dari transmisi
tersebut. Contohnya pada komando suara. Hanya dalam selang waktu sekitar satu
atau dua detik setelah kita mengkomandokan perintah melalui suara, komputer
sudah memberi umpan balik atas komando kita.
Mudah
digunakan
Kemudahan
teknologi ini juga dapat dilihat dalam aplikasi komando suara. Komando yang
biasanya kita masukkan ke dalam komputer dengan menggunakan tetikus atau papan
ketik kini dapat dengan mudahnya kita lakukan tanpa perangkat keras, yakni
dengan komando suara.
Kekurangan
alat pengenal ucapan
Kekurangan
dari peralatan yang menggunakan teknologi ini adalah :
Rawan
terhadap gangguan
Hal
ini disebabkan oleh proses sinyal suara yang masih berbasis frekuensi. Ketika
sebuah informasi dalam sinyal suara mempunyai komponen frekuensi yang sama
banyaknya dengan komponen frekuensi gangguannya, akan sulit untuk memisahkan
gangguan dari sinyal suara
Jumlah
kata yang dapat dikenal terbatas
Hal
ini disebabkan pengenal ucapan bekerja dengan cara mencari kemiripan dengan
basis data yang dimiliki.