Põhiline tehnoloogia

Kõnetuvastustehnoloogia

Kõnetuvastustehnoloogia
Kõnetuvastustehnoloogia
Anonim

Kõnetuvastus, seadmete võime vastata häälkäsklustele. Kõnetuvastus võimaldab mitmesuguste seadmete ja seadmete käed-vabad juhtimist (see on paljudele puuetega inimestele eriline õnnistus), võimaldab sisestada automaatse tõlke ja loob printimiseks valmis diktaadi. Varasemate kõnetuvastuse rakenduste hulgas olid automatiseeritud telefonisüsteemid ja meditsiinilise dikteerimise tarkvara. Seda kasutatakse sageli dikteerimiseks, andmebaasidest päringute tegemiseks ja käskude andmiseks arvutipõhistele süsteemidele, eriti kutsealadel, mis tuginevad spetsialiseeritud sõnavarale. Samuti võimaldab see isiklikke abilisi sõidukites ja nutitelefonides, näiteks Apple'i Siri.

Enne kui mõni masin saab kõnet tõlgendada, peab mikrofon tõlkima inimese hääle vibratsiooni lainekujuliseks elektrisignaaliks. Süsteemi riistvara, näiteks arvuti helikaart, muudab selle signaali omakorda digitaalsignaaliks. See on digitaalne signaal, mida kõnetuvastusprogramm analüüsib, et ära tunda eraldi foneemid, kõne peamised ehitusplokid. Seejärel ühendatakse foneemid sõnadeks. Paljud sõnad kõlavad siiski sarnaselt ning sobiva sõna valimiseks peab programm lähtuma kontekstist. Paljud programmid loovad konteksti trigramanalüüsi kaudu - meetod, mis põhineb sagedasete kolmesõnaliste klastrite andmebaasil, kus määratakse tõenäosus, et mõlemale kahele sõnale järgneb antud kolmas sõna. Näiteks kui kõneleja ütleb näiteks „kes ma olen“, tuntakse järgmist sõna pigem asesõnana „mina“ kui sarnase kõlaga, kuid vähem tõenäolist „silma“. Sellegipoolest on vigade parandamiseks vaja mõnikord inimese sekkumist.

Programmid mõne üksiku sõna äratundmiseks, näiteks telefonihäälnavigatsioonisüsteemid, töötavad peaaegu kõigi kasutajate jaoks. Teisest küljest peavad pidevad kõneprogrammid, näiteks diktsiooniprogrammid, olema koolitatud inimese kõneharjumuste äratundmiseks; koolitus hõlmab seda, et kasutaja loeb valjusti teksti näidiseid. Tänapäeval on personaalarvutite ja mobiilseadmete kasvava võimsuse tõttu kõnesituvastuse täpsus märkimisväärselt paranenud. Kümneid tuhandeid sõnu sisaldava sõnavara puhul on veamäärasid vähendatud umbes 5 protsendini. Veelgi täpsem on spetsiaalsete rakenduste, näiteks radioloogiliste diagnooside dikteerimise piiratud sõnavara.