모모모 모모모모 모모 “SIRI, S 모모모 , Q 모모모” 8모 2007015009 모 모 모 2007015023 모 모 모 2011015034 모 모 2012015004 모 모 모
Feb 22, 2016
모바일 음성인식 비교“SIRI, S 보이스 , Q 보이스”
8 조
2007015009 박 상 헌2007015023 임 종 수2011015034 김 산2012015004 김 가 영2012015005 김 경 진2012015030 조 은 비
“ 목차”
1. 서론2. 모바일 음성인식 기술 원리3. 검색엔진 분석 음성인식률 자료검색 시 정보원 우선순위 검색엔진이 질문을 인식하는 방법 검색엔진의 검색결과 제시 방법 음성인식의 Precision&Recall 실험
4. 음성인식의 장점5. 현재 음성인식의 부족한 점 및 개선방안6. 결론
서론
“I'm locked out”
“Looking for locksmiths.... I found three locksmiths fairly close to you.”
“ 인간에게 있어서가장 간편한 인터페이스”
“ 오늘 날씨 어때 ?”
“ 근처에 중국집 어디 있어 ?”“ 볼만한 영화 좀 추천해봐”
“ 오늘 내 일정이 어떻게 되지 ?”
VOICE
“ 음성인식 기술의 발전”
1 세대(1950~1960 년대 )
2 세대 (1970 년대 )
3 세대 (~2007 년 )
4 세대 (2008 년 ~)
Ab C
다중 음성 해석수천 가지의 단어 인식
상용화
“ 음성인식기술과 스마트폰의 결합”
“ 개인 비서” SIRI, S 보이스 , Q 보이스
모바일 음성인식 기술 원리
“ 음성인식 기술의 원리”
잡음 처리
특징 추출
비 교음성 DB
의미 인식
검 색
음성입력
서버전송
음성 DB 와 인식된 음성을비교 분석하여 인식 성능을높인다 .
사용자
서버
디바이스
검색엔진
“SIRI, S 보이스는 울프람 알파”
“Q 보이스는 베르니케라는 자체
엔진을 사용”
검색 엔진 분석음성인식률
자료검색 시 정보원 우선순위검색 엔진이 질문을 인식하는 방법검색 엔진의 검색결과 제시 방법
음성인식의 Precision & Recall 실험
음성인식률
“ 소녀시대”
“ 소녀시대”대화 형식의 답변
웹브라우저 검색결과
창에 직접 검색결과
“ 밖에 추워 ?”
Q 보이스는 사용자확인을 요구함
S 보이스와 SIRI 는 바로 설정
“ 내일 아침 7 시에 알람설정 해줘”
“ 밖에 추워”
“ 밖에 추워 ?”
“ 밖에 추워”
세 검색엔진 모두 성조를 인식하지 못함 .
???
자료검색 시 정보원의 우선순위
“ 김태희”
연락처에 ‘ 김태희’가 있는 경우
연락처에 ‘ 김태희’가 없는 경우
“ 연락처에 ‘김태희’가 있는 경우”
“ 연락처에 ‘김태희’가 없는 경우”
Q 보이스와 SIRI 는 연락처에 김태희가있는 경우 , 연락처를 검색결과로 결정
“S 보이스”
“ 강호동”
“ 유재석”
“ 아빠”“ 엄마”
연락처를 보여주는 경우
바로 전화를 거는 경우
대화를 하는 경우
다만 ,“ 연락처”라는 명령을 붙여서 검색한 경우일관되게 연락처를 검색해서 보여줌
“ 정보원의 우선순위는 ?”
검색 엔진이 질문을인식하는 방법
?“ 오늘 우산 필요해 ?”
오늘 우산 필요해 ?오늘 우산 우산 필요오늘 우산 필요오늘 우산이라는 문장이 날씨에 대한검색결과를 도출
오늘 우산자동차 , 가격
+
오늘 우산 가격오늘 우산 자동차
오늘 자동차 우산
‘ 오늘 우산’이 붙어서있으면 뒤에 어떠한 단어가 붙던지 간에 날씨와 관련된 검색결과를 도출
정확한 기준을 제시한 뒤에 날씨에 관련된 단어를 제시하면 나머지 단어는 쓸모 없는 단어로 버리고 , 날씨에 대한 검색결과가 도출 ?!
오늘 우산지금
11 시
스노우체인
스노우체인 자동차기준 날씨 관련
단어
“ 우리 가설이 맞기 위해서는 모든 경우에 대해
날씨에 대한 검색 결과가도출되어야 함”
지금 우산11 시 우산
오늘 스노우 체인
오늘 스노우 체인 자동차
우리의 가설이 틀렸음을확인 할 수 있었다 .
이에 새로운 가설을세워보았다 .
“ 각 단어들 마다 상황에 대한 점수가 존재 그 점수의 조합이 일정 값을 넘으며 가장 값이 높은 것을 질문의 요지로 파악”
오늘 X 우산 X 자동차 = 조합값날씨 0.7 날씨 0.9 날씨 0.1 = 0.063일정 0.7 일정 0.1 일정 0.1 = 0.007오늘 X 스노우 체인 X 자동차 = 조합값
날씨 0.7 날씨 0.4 날씨 0.1 = 0.028일정 0.7 일정 0.1 일정 0.1 = 0.007
“ 하지만 위의 가설 대로라면 앞서 실험한 ‘오늘 자동차 우산’도 날씨를 검색 결과로 도출해야 하나 그러지 못함”
앞선 모든 경우의 수에적합한 것을 확인하고 위의 방법이질문을 인식하는 방법이라고 결론 내렸다 .
단어 1 X 단어 2 X 단어 3 =( 점수 X 비중 ) X ( 점수 X 비중 ) X ( 점수 X 비중 ) =
“ 따라서 우리는 단어의 위치에 따라 점수비중이 달라지는 것이
아닌가라는 새로운 가설을 세우고 실험을 진행”
“ 다른 두 검색 엔진도 똑같은 방식을사용하는 것으로 확인”
“ 각 검색 엔진마다 사용하는 값에차이가 있음을 알 수 있었으며 ,
세부적인 것에서 차이가 있음을 확인”
검색 엔진의 검색 결과제시 방법
“ 영화 추천해줘” – 영화 검색
웹 브라우저 검색 결과
영화에 대한 정보를 제시
‘ 영화 추천해줘’에 대해인식 못함
“ 박근혜” - 인물검색
대화 형식의 답변
웹 브라우저 검색 결과위키백과 정보를 제시
“ 경북대학교” - 지도검색
시리는 Q 보이스 , S 보이스와 다르게 지도 화면을 띄워주지는 않고 간단한 위치 정보만을 본 화면에 띄워주었다 .
음성인식의Precision & Recall
실험
“ 대구 달서구 상인 1 동 맛집”
검색 결과 중 상인 1 동 안에 위치하는 우리가 생각하는 맛집은 얼마나 검색되었는가 ?
20 곳을 선정
“ 맛집의 기준은 ?”
상인 1 동에 위치하면서
네이버 , 다음 , 블로그 등에서 높은 별점과맛집으로 평가 받은 곳
그리고 ,상인 1 동에서 26 년간 살아온 임종수군의 경험을 통해
“SIRI 검색 결과”
현재위치
현재 위치에서부터 거리순으로 15 개의 결과 제시
“S 보이스 , Q 보이스 검색 결과”
네이버 윙스푼으로부터 15 개의 검색 결과를 제공
문의 결과 ,네이버 윙스푼은 별점 , 클릭 수 , 등다양한 요소를 고려해서 검색 결과를제공한다고 함 .
“Precision & Recall 값”
Precision@15 0.47Recall@15 0.35
Precision@15 0.4Recall@15 0.3
S 보이스 , Q 보이스가 우세
“ 상위 5 개 Precision & Recall 값”
Precision@5 0.6Recall@5 0.15
Precision@5 0.8Recall@5 0.2
SIRI 가 우세
“ 결과값 분석”
SIRI 의 부실한 사용자 정보검색 결과 중 리뷰와 별점이있는 곳이 없었음 .
다만 , S 보이스와 Q보이스는 거리를 거의 고려하지 않아 SIRI 와 큰 차이점이 없음 .
음성인식의 장점
“손발이 자유롭지 못해도 OK!”
beforeafter
“ 사용의 편리성”
여러 단계를 거쳐서 기능을조작하고 실행함 .
“ 사용의 편리성”
하나의 명령으로 기능을조작하고 실행 할 수 있음 .
?
“ 자연어 처리”
대구 달서구 상인 1 동 근처 맛집배고파
일반 인터넷 검색음성인식
현재 음성인식의부족한 점 및 개선방안
“ 음성인식 기술의 미숙함”
소음
성조 , 사투리
인식속도
문맥을 인식
하지 못함
“ 울프람 엔진의 제대로 된 활용”
영어권의 경우 울프람 엔진을제대로 활용하고 있으나 ,우리나라 경우 울프람 엔진이한국어를 지원하지 않음 .
영어권 우리나라
“ 음성인식의 편리성”
음성인식 기능 속에서 검색 결과를보여주는 것이 아니라 ,웹 브라우저을 실행하여 ,검색 결과를 제시
손을 쓰지 못하는 상황에서 주로음성인식 기능을 사용하지만 ,검색 결과는 결국 손과 눈으로확인해야 한다는 문제점이 발생 .
“ 다른 다양한 어플리케이션을 활용 못함 .”
영화관 어플
코레일 톡대구버스 API 공개로 어플리케이션
개발자들이 음성인식 기능을이용할 수 있도록 배려 .
기타 앱영화 상영 정보영화 예매 등
운행 시간표기차표 예약 등
근처 정류장 찾기버스 도착 시간
“ 생활과 밀접한 활용성”
임베디드
IRON MAN
“언젠간 정말로 자비스가 실용화 될 지도 모른다 .”
결론
“ 사용의 편리성” “자연어 처리” 등 다양한 장점
= =세 검색엔진 모두 비슷한 성능
소음
성조 , 사투리
인식속도
문맥을 인식
하지 못함중점을 주는 요소가 다름
울프람 엔진 미 지원
상당 부분 외산 기술에 의존
앞선 다양한 개선점들을 적용하면
“참고문헌 및 참고사이트”SERI 경영노트 ; 음성인식 기술의 재발견 , 삼성경제연구소 , 2011.9.1
문화기술 (CT)심층리포트 ; 음성인식 기술의 동향과 전망 , 한국콘텐츠진흥원 , 2011.11
이윤근 ,「음성인터페이스 기술 개요 및 스마트폰 환경에서의 서비스 동향」 , 한국전자통신연구원 , 2012.4
최갑근 , 김순현 , “ 잡음환경에서 음성인식 성능향상을 위한 바이너리 마스크를 이용한 스펙트럼 향상 방법” , 한국음향학회지 제 29권 제 7 호 pp.468-474
http://www.zdnet.co.kr/news/news_view.asp?artice_id=20121109082907&type=det
http://www.bloter.net/archives/122046
http://www.bloter.net/archives/122046
http://www.itworld.co.kr/news/72394?page=0,1
8 조2007015009 박 상 헌2007015023 임 종 수2011015034 김 산2012015004 김 가 영2012015005 김 경 진2012015030 조 은 비
감사합니다 .