Ses tanima

Post on 21-Jul-2015

376 Views

Category:

Education

6 Downloads

Preview:

Click to see full reader

Transcript

Öznitelik Çıkarımı Frekans Spektrumu Katsayıları

Özellik vektörleri

Akustik İnceleme Gizli Durum Akustik İnceleme Benzerlikleri

“Six”

Konuşma birimleri inşa etme Nitelik benzerlikleri üretme Örnekleme oranı kritiktir! WSJ vs. WSJ_8k TIDIGITS, RM1, AN4, HUB4

Kelime Benzerlikleri

ARPA format Example:

1-grams:-3.7839 board -0.1552-2.5998 bottom -0.3207-3.7839 bunch -0.21742-grams:-0.7782 as the -0.2717-0.4771 at all 0.0000-0.7782 at the -0.29153-grams:-2.4450 in the lowest -0.5211 in the middle -2.4450 in the on

public <basicCmd> = <startPolite> <command> <endPolite>;

public <startPolite> = (please | kindly | could you ) *;

public <endPolite> = [ please | thanks | thank you ];

<command> = <action> <object>;

<action> = (open | close | delete | move); <object> = [the | a] (window | file | menu);

Ses birimleri için kelime haritaları

cmudict.06d ‘da bir örnek

POULTICE P OW L T AH SPOULTICES P OW L T AH S IH ZPOULTON P AW L T AH NPOULTRY P OW L T R IYPOUNCE P AW N SPOUNCED P AW N S TPOUNCEY P AW N S IYPOUNCING P AW N S IH NGPOUNCY P UW NG K IY

HMM arama grafları inşa etme : Akustik model İstatistik dil modeli Gramer Sözlük

Statik ve dinamik olarak inşa edilebilir

Düz (FlatLinguist) Dinamik düz (DynamicFlatLinguist) Sözcük Ağaçları (LexTreeLinguist)

Arama Grafları için harita özellik vektörleri

En uyumlu için grafı arama

P(sequence of feature vectors| word/phone) aka. P(O|W)

-> Giriş nasıl kelimelere benzetilir.

F ay ay ay ay v v v v vF f ay ay ay ay v v v vF f f ay ay ay ay v v vF f f f ay ay ay ay v vF f f f ay ay ay ay ay vF f f f f ay ay ay ay vF f f f f f ay ay ay v…

TimeO1 O2 O3

Algoritma kullanarak düşük değerler ayıklanır

Kelimeler!

En çok kullanılan ölçü Referans cümle içinden dönüştürürken

değişiklikler

Referans: “This is a reference sentence.” Sonuç: “This is neuroscience.” 2 Silme 1 Değiştirme Gerekli

Referans: “This is a reference sentence.” Sonuç: “This is neuroscience.”

WER=100×deletions+substitutions+insertionsLength

Referans: “This is a reference sentence.” Sonuç: “This is neuroscience.” D S D

WER=100×2+1+05

=100×3

5=60%

Çoklu konuşma engellenirse Tek kişi konuşurken

*Eğer girişte gürültü var ise hata oranı 2 katına çıkar

Diğer Değişkenler:-Sürekli vs. Yalıtılmış-Konuşma vs. Okuma-Lehçe

Sorular?

TimeO1 O2 O3

TimeO1 O2 O3

P(ay | f) *P(O2|ay)

P(f|f) * P(O2 | f)

TimeO1 O2 O3

P (O1) * P(ay | f) *P(O2|ay)

TimeO1 O2 O3

Sphinx4 Sık Sorulan Sorular:http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4-faq.html

Soru. Arama grafı her tanıma sonucu için mi yoksa bir tanıma uygulaması için mi üretilir?

Cevap. Hangi Dilbilimini kullandığımıza göre değişir. Düz (The flat linguist) arama grafı oluşturur ve onu hafızada saklar. Küçük kelimeler için kullanılır. Sözcük Ağaçı

(The lexTreeLinguist) dinamik olarak arama graflarını düzenler.Böylece büyük kelimelere ulaşım kolaylaşır.

Soru.Ayrıştırıcı hangi algoritmayı kullanır? Cevap. Sphinx4 mutlak ve bağıl sinyal

ayrıştırma kullanır.

Mutlak Sinyal Genişliği - # aktif arama yolu <property name="absoluteBeamWidth" value="5000"/> Bağıl Sinyal Genişliği – Eşik olasılığı <property name="relativeBeamWidth" value="1E-120"/> Kelime Ekleme Olasılığı – <property name="wordInsertionProbability" value="0.7"/> Dil Ağırlık– Dil modeli puanları artırır. <property name="languageWeight" value="10.5"/>

Sessizlik girişi Olasılığı <property name="silenceInsertionProbability" value=".1"/> Dolgu girişi olasılığı <property name="fillerInsertionProbability" value="1E-10"/>

Python”da Java örneği:

import subprocess

subprocess.call(["java", "-mx1000m", "-jar","/Users/Username/sphinx4/bin/Transcriber.jar”)

Speech and Language Processing 2nd Ed.Daniel Jurafsky and James MartinPearson, 2009

Artificial Intelligence 6th Ed.George LugerAddison Wesley, 2009

Sphinx Whitepaperhttp://cmusphinx.sourceforge.net/sphinx4/#whitepaper

Sphinx Forumhttps://sourceforge.net/projects/cmusphinx/forums

top related