وین نونم و فنانشكده علو د گروه بین رشتهبخش( ی فناوری ام و فناوری شبكه علو) تار فارسی بازشناسی گفق برای عمیریادگیده از یستفا ام دانشجو: ناتا حجی آرمی مانیهنما:د راستا ا دكتر هادی و یس ی پایانسی ارشد دریافت درجه كارشنامه برای نا در رشتهسی دانش و مهندیم تصم علوم اسفند1395
16
Embed
یسراف راتفگ یسانشزاب یارب قیمع یریگ{ای زا هافتسانیون نونف و مولع هدكشنا{)هكبش یروانف و مولع شzب( یروانف
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
دانشكده علوم و فنون نوین
(علوم و فناوری شبكهای فناوری )بخش رشته بین گروه
استفاده از یادگیری عمیق برای بازشناسی گفتار فارسی
نام دانشجو:
مانیآرمیتا حجی
استاد راهنما:
ییسدكتر هادی و
نامه برای دریافت درجه كارشناسی ارشد پایان
علوم تصمیم و مهندسی دانشدر رشته
1395 اسفند
تعهد نامه اصالت اثر
علوم تصمیم و دانش آموخته مقطع کارشناسی ارشد در رشتۀ آرمیتا حجی مانیاینجانب
استفاده از یادگیری "خود تحت عنوان: نامه از پایان 15/12/95که در تاریخ دانشمهندسی
ام، شرعاً و قانوناً با کسب درجۀ کارشناسی ارشد دفاع نموده "عمیق برای بازشناسی گفتار فارسی
شوم : متعهد می
واردی که نامه یا رساله حاصل تحقیق و پژوهش اینجانب بوده و در م مطالب مندرج در این پایان -1
ام، ، مقاله و غیره استفاده نمودهنامه، کتاب پژوهشی دیگران اعم از پایانو از دستاوردهای علمی
رعایت کامل امانت را نموده، مطابق مقررات، ارجاع و در فهرست منابع و مآخذ اقدام به ذکر
ام. ها نموده آن
، فت هیچ مدرک تحصیلی )هم سطحدریا نامه یا رساله قبالً برای یا بخشی از این پایان تمامی -2
ها و مؤسسات آموزش عالی ارائه نشده است. پایین تر یا باالتر( در سایر دانشگاه
نامه یا رساله کامال حاصل کار اینجانب بوده و از هر گونه جعل مقاالت مستخرج از این پایان -3
ام. داده و یا تغییر اطالعات پرهیز نموده
درصد 30نامه یا رساله )با بیش از مقاالت مستخرج از این پایان از ارسال همزمان و یا تکراری -4
نمایم.های گوناگون خودداری نموده و می همپوشانی( به نشریات و یا کنگره
نامه یا رساله متعلق به دانشگاه تهران بوده و کلیه حقوق مادّی و معنوی حاصل از این پایان -5
دستاوردهای حاصل از این تحقیق اعم از چاپ شوم هر گونه بهره مندی و یا نشر متعهد می
کتاب، مقاله، ثبت اختراع و غیره )چه در زمان دانشجویی و یا بعد از فراغت از تحصیل( با کسب
اجازه از تیم استادان راهنما و مشاور و حوزه پژوهشی دانشکده باشد.
تهران از درجه در صورت اثبات تخلف )در هر زمان( مدرک تحصیلی صادر شده توسط دانشگاه
شت.اعتبار ساقط و اینجانب هیچگونه ادعایی نخواهم دا
نام و نام خانوادگی دانشجو:امضا و
ه
چكیده
های مختلفی جهت امروزه از روش شود.تشخیص گفتار گفته می تبدیل سیگنال صوتی به متن معادل آن به فرآیند
یکی از . باشد. روش آماری مدل مخفی مارکوف و شبکه عصبی می ها آنشود که مهمترین بازشناسی گفتار استفاده می
یکی که و با توجه به این باشدها میمشکالتی که هنوز در این حوزه مطرح است، بحث افزایش دقت و کارایی این سیستم
نامه برای اولین بار از شبکه در این پایان ،باشدبهبود مدل آوایی می ی بازشناسی گفتار،هاهای افزایش دقت سیستماز راه
( CTC)گرا بند زمانی پیوندطرفه با الیه خروجی طبقهو دو طرفه یک( LSTM)عصبی عمیق حافظه کوتاه مدت ماندگار
باشد که متوالی می های دادهای از که سیگنال صوت نمونه. از آنجاییاستفاده شده استفارسی جهت ساخت مدل آوایی
های عصبی بازگشتی به دلیل دارا بودن حافظه برای این قبلی وابسته است، شبکه های دادهمقدار داده فعلی به ها آندر
د. شبکه عصبی حافظه کوتاه مدت ماندگار یک شبکه عصبی بازگشتی است که در آن با نباشها مناسب مینوع داده
های طوالنی رفع شده استها در دنبالهمشکل فراموشی داده های حافظه،های الیه پنهان با بلوکجایگزین کردن نرون
. تدر کاربردهای مختلف نشان داده اس های ترتیبی سازی داده و کارایی باالی خود را در مدل
دست آمده با جهت استخراج ویژگی استفاده شده است و نتایج به( DBN)از شبکه باور عمیق نامه، در این پایانهمچنین
-نتایج بهاست، مقایسه گردیده است. (MFCC) استخراج ویژگی که همان ضرایب کپسترال در مقیاس ملروش پایه
استفاده عالوه، به برد. میباالتر را الیه کارایی شبکه یک در مقایسه باکه استفاده از شبکه عمیق دهددست آمده نشان می
، هم در حالت عمیق و هم در حالت غیرعمیقطرفه یکفزایش دقت شبکه در مقایسه با شبکه طرفه موجب ااز شبکه دو
شبکه استفاده از دهد، مقایسه شده است که نشان می( HMM)دست آمده با مدل مخفی مارکوف نتایج بهگردد. می
در بهترین اور عمیق های حاصل از شبکه ببا ویژگی (DBLSTM) طرفهعصبی عمیق حافظه کوتاه مدت ماندگار دو
های دادهمقایسه با مدل مخفی مارکوف روی مجموعه در %8.1میزان بهموجب بهبود دقت تشخیص واج فارسی حالت
دات شده است.فارس
که عصبی بازگشتی، شبکه ، شبه کوتاه مدت ماندگارظعصبی حافشبکه ، فارسی گفتار بازشناسیكلمات كلیدی:
.گرابند زمانی پیوند، طبقهطرفهشبکه عصبی دو عصبی عمیق،
فهرست
و
مطالب فهرست
12 ................................................................................................. یمعرف و مقدمه: اول فصل -1
12 ------------------------------------------- آن یكاربردها و ضرورت مساله، فیتعر -1-1
12طرفهدو و همچنین شبکه عصبی عمیق حافظه کوتاه مدت ماندگار (DLSTM) 11طرفه یک کوتاه مدت ماندگار
(DBLSTM )ساخته شده است.فارسی 13مدل آوایی
های بازشناسی گفتارطراحی سیستم های گام -1-2
دو ،در مرحله آموزشباشد. می 15و آزمون 14مرحله آموزش شامل دو های بازشناسی گفتارفرآیند طراحی سیستم
18طی فرآیند رمز گشایی 17واژگان مدل وشود و در مرحله آزمون با استفاده از این دو ساخته می و آوایی 16مدل زبانی
دهد. در ادامه هر یک را نمایش میهای بازشناسی گفتار ساختار کلی سیستم 1-1شکل گردد. دنباله کلمات استخراج می
.کنیماز این دو مرحله را بررسی می
7 Long Short Term Memory (LSTM) 8 Vanishing Gradient Problem 9 Recurrent Neural Networks (RNN) 10 Bidirectional Long Short Term Memory (BLSTM) 11 Deep Long Short Term Memory (DLSTM) 12 Deep Bidirectional Long Short Term Memory (DBLSTM) 13Acoustic Model 14 Train 15 Test 16 Language Model 17 Lexicon 18 Decoding
Abstract
The process of converting speech signal to its equivalent text is known as Automatic Speech
Recognition (ASR). The most important methods for speech recognition are Hidden Markov
Model (HMM) and Artificial Neural Network (ANN). One way to increase the accuracy of a
speech recognition system is improving the quality of Acoustic Modeling (AM). In this thesis,
for the first time, we have used deep unidirectional and bidirectional Long Short Term
Memory (LSTM) neural network with Connectionist Temporal Classification (CTC) output
layer to create Persian acoustic models. Because of the sequential structure of speech signal,
recurrent neural networks are appropriate for processing them. However, because of vanishing
problem of recurrent neural networks they are not suitable for processing long sequential data.
LSTM as a recurrent neural network, has solved the vanishing problem by replacing hidden
layer neurons with memory blocks.
Moreover, in this thesis we have used Deep Belief Network (DBN) for feature extraction and
compared the results with the baseline feature extraction method, Mel Frequency Cepstral
Coefficient (MFCC).
The results show that, the accuracy of phoneme recognition is improved by using DBN
features in comparision with the MFCC. Also, deep bidirectional LSTM with DBN features
has improved the Persian phoneme recogntion rate about 8.1% in comparison with the HMM
on Farsdat speech dataset.
Keywords
Persian speech recognition, Long short term memory neural network, Bidirectional neural
network, Deep neural network, Recurrent neural network, Connectionist temporal
classification
University of Tehran Faculty of New Sciences and Technologies
Interdisciplinary Technology Group (Network Sciences and Technologies)
Persian Speech Recognition using Deep Learning
By: Armita Hajimani
Supervisor: Dr. Hadi Veisi
A thesis submitted to the Graduate Office in Fulfillment of Requirements for the Degree
of Master of Science in Decision Science and Knowledge Engineering