Top Banner
山口研究室M1 香川宏介
66

Mtg120930

Jul 09, 2015

Download

Documents

Kosuke Kagawa

MTG0930
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Mtg120930

山口研究室M1

香川宏介

Page 2: Mtg120930

質問応答 進捗

Page 3: Mtg120930

ファクトイド型(穴埋め問題)

CoNLLタスクに倣い、以下の6つに回答タイプ分けを行った

PERSON, LOCATION, ORGANIZATION, DATE,

SCALE(PERCENTとMONEYはデータ量が少ないため統合), ARTIFACT

Page 4: Mtg120930

PERSON

・・・人物、職業名なども含める

LOCATION

・・・山などの地名、国名・地域名、道路・港・建物

などの施設名

ORGANIZATION

・・・機関・団体・組織名

Page 5: Mtg120930

DATE

・・・日付

SCALE

・・・大きさ・割合を問うもの、金額を問うもの(入力データに金額を問うものはなかった)

ARTIFACT

・・・具体物、その他

*日本語語彙体系の分類法に従った。また、抽象物(規則名,現象名, 出来事, ”セカンドオピニオン”などの用語)は除外

Page 6: Mtg120930

教師例文として以下のWebサイトを利用

http://kuizu.seesaa.net/archives/201208-1.html

410の質問

10分割交差検定を

行い、パラメータチューニング

質問タイプ 質問数

PERSON 166

ORGANIZATION 5

LOCATION 82

ARTIFACT 89

DATE 25

SCALE 43

Page 7: Mtg120930

{“誰”,”どこ”,”何”,・・・・・・} 約50のキーワード

含まれていれば、形態素位置(後ろから数える)

末尾の形態素と後ろから2番目の形態素の品詞

{“名詞-一般”, “名詞-固有名詞”, “助詞-係助詞”, ・・・・・}

IPA品詞体系。35種類の名義変数

Page 8: Mtg120930

{“誰”,”どこ”,”何”,・・・・・・} 約50のキーワード

含まれていれば、形態素位置(後ろから数える)

末尾の形態素と後ろから2番目の形態素の品詞

{“名詞-一般”, “名詞-固有名詞”, “助詞-係助詞”, ・・・・・}

IPA品詞体系。35種類の名義変数

ある・なしの(0,1)で値を入れたとき前から数えた位置を入れたときと比較して、最も精度が高かった

Page 9: Mtg120930

{“誰”,”どこ”,”何”,・・・・・・} 約50のキーワード

含まれていれば、形態素位置(後ろから数える)

末尾の形態素と後ろから2番目の形態素の品詞

{“名詞-一般”, “名詞-固有名詞”, “助詞-係助詞”, ・・・・・}

IPA品詞体系。35種類の名義変数

ある・なしの(0,1)で値を入れたとき前から数えた位置を入れたときと比較して、最も精度が高かった

両方とも導入した時に最も精度が高かった

Page 10: Mtg120930

Cost

Gamma

Page 11: Mtg120930

Cost

Gamma

Page 12: Mtg120930

Cost

Gamma

Page 13: Mtg120930

Cost

Gamma

Page 14: Mtg120930

Cost

Gamma

Page 15: Mtg120930

C=10^-5~10^5Gamma = 10^-5~10^5Step = 1

C=10^1~10^3Gamma = 10^-5~10^1Step=0.1

Page 16: Mtg120930

C=10^1~10^2Gamma = 10^-2~10^0Step = 0.01

C=16.59, Gamma=0.66

デフォルトの設定C=1.0, Gamma=0.01

Page 17: Mtg120930

Rでは等高線表示によって効率的に調べられる

Page 18: Mtg120930

SVM(チューニング前) 57.56%

SVM(チューニング後) 68.64%

語の意味タグをまったく付与していないので、明示的に

疑問詞が現われていない質問文に対してはかなり弱い

Page 19: Mtg120930

質問タイプ PRECISION Recall

PERSON 81.3% 81.3%

ORGANIZATION 0% 0%

LOCATION 58.5% 67.1%

ARTIFACT 45.1% 51.7%

DATE 78.3% 72.0%

SCALE 76% 51.7%

Page 20: Mtg120930

約1500の教師つき質問文質問タイプ 質問数 正解率

PERSON 323 95.0

ORGANIZATION 319 76.2

LOCATION 308 85.7

ARTIFACT 141 77.3

DATE 377 98.1

TIME 25 92.0

MONEY 50 88.0

PERCENT 38 84.2

Page 21: Mtg120930

SVM(多項式カーネル), 5分割交差検定

素性

質問文に含まれるすべての単語の意味カテゴリ(0,1)

質問文に含まれる疑問詞(0,1)

単語列のbigram(0,1)

品詞列のbigram(0,1)

Page 22: Mtg120930

良いコーパスが欲しい(NTCIRでデータセット入手可能か?)

回答タイプ6分類をもっと細かくするとどうなるか

固有名詞のタイプや共起などの指標を素性に取り入れて精度向上を図りたい

Page 23: Mtg120930

良いコーパスが欲しい(NTCIRでデータセット入手可能か?)

回答タイプ6分類をもっと細かくするとどうなるか

固有名詞のタイプや共起などの指標を素性に取り入れて精度向上を図りたい

Page 24: Mtg120930

やろうとしていること

Page 25: Mtg120930

“記事名” + (・・・)とは、(・・・・) + ”上位概念” + である。

Page 26: Mtg120930

定義文から <記事名, 上位概念>のペアを抽出したい(主にルールベース?)

それなりのPrecision/Recallでとれる可能性が高い

Wikipediaオントロジーのため

質問文解析の素性に意味カテゴリを付与したい

・・・が、現状の直近クラスでは粒度的に細かすぎる気がするので。

Page 27: Mtg120930

以上です。

Page 28: Mtg120930

1.インターンシップ報告

2.NTCIR RTEタスク内容報告

3.質問応答 進捗報告

Page 29: Mtg120930

1.インターンシップ報告

Page 30: Mtg120930
Page 31: Mtg120930

2.NTCIR RTEタスク

Page 32: Mtg120930

a.タスク内容

b.昨年の論文・手法紹介

Page 33: Mtg120930

タスク内容

Page 34: Mtg120930

ファクトイド型(穴埋め問題)

「東京スカイツリーの高さは何m?」

「ギリシャの2010年の経済成長率は?」

ノンファクト型(記述式問題)

「東京スカイツリーについて教えて」

「ギリシャの経済はなぜ危機に瀕しているのか?」

定義型, Why型, How型

Page 35: Mtg120930

昨年の論文・手法

Page 36: Mtg120930
Page 37: Mtg120930
Page 38: Mtg120930

2文間における単語の一致度(WordNetを使うことも)

固有名詞の位置、共通度合、

2文間における最長一致文字数

レーベンシュタイン距離

係り受け木の一致度

Page 39: Mtg120930

単語レベルでのセマンティクスは考慮している

Page 40: Mtg120930
Page 41: Mtg120930

ファクトイド型(穴埋め問題)

「東京スカイツリーの高さは何m?」

「ギリシャの2010年の経済成長率は?」

ノンファクト型(記述式問題)

「東京スカイツリーについて教えて」

「ギリシャの経済はなぜ危機に瀕しているのか?」

定義型, Why型, How型

Page 42: Mtg120930

TREC(現TAC)のQAトラックにおける主な課題

回答は単語単位

①質問文解析

②回答タイプの決定(ORG, PERSON, DATEなど),

固有表現抽出, キーワードの抽出

③Web上の文書集合から上の語を含む文書を列挙

④回答タイプに一致する候補を列挙

⑤(場合によっては順位づけして)回答

Page 43: Mtg120930

「清水寺はどこにある?」->LOCATION

「Siriを開発したのはどこ?」->ORGANIZATION

「日本人初の宇宙飛行士は?」->PERSON

Page 44: Mtg120930

「清水寺はどこにある?」->LOCATION

「Siriを開発したのはどこ?」->ORGANIZATION

「日本人初の宇宙飛行士は?」->PERSON

{品詞=固有名詞 AND 語義=寺院}+”は”+”どこにある?”->LOCATION

{品詞=固有名詞 AND 語義=民族・人種名}+”.*”+{品詞=一般名詞 AND 語義=職業名}+”は?”->PERSON

{品詞=固有名詞 AND 語義=ソフトウェア}+”を”+”開発”+{“する” OR “している” OR “した”}+”のはどこ?” ->ORGANIZATION

Page 45: Mtg120930

「清水寺はどこにある?」->LOCATION

「Siriを開発したのはどこ?」->ORGANIZATION

「日本人初の宇宙飛行士は?」->PERSON

{品詞=固有名詞 AND 語義=寺院}+”は”+”どこにある?”->LOCATION

{品詞=固有名詞 AND 語義=民族・人種名}+”.*”+{品詞=一般名詞 AND 語義=職業名}+”は?”->PERSON

{品詞=固有名詞 AND 語義=ソフトウェア}+”を”+”開発”+{“する” OR “している” OR “した”}+”のはどこ?” ->ORGANIZATION

粒度の問題

Page 46: Mtg120930

{品詞=固有名詞 AND 語義=寺院}+”は”+”どこにある?”->LOCATION

{品詞=固有名詞 AND 語義=組織}+”.*”+”は”+”いつ”+“発足”+{“する” OR “している” OR “した”}+”?”->DATE

{品詞=固有名詞 AND 語義=ソフトウェア}+”を”+”開発”+{“する” OR “している” OR “した”}+”のはどこ?” ->ORGANIZATION

{品詞=固有名詞 AND 語義=民族・人種名}+”.*”+{品詞=一般名詞 AND 語義=職業名}+”は?”->PERSON

{品詞=固有名詞 AND 語義=製品}+”の”+{“販売時期” OR “発売時期” OR “発売されたの”}+”は?”->DATE

“誰”+”が”+{名詞=一般名詞 AND {語義=人工物 OR 手法}+”を”+{”考案” OR “考えた” OR “発明した”}+”?”->PERSON

新しいルールを追加すると、古いルールと矛盾が生じたりするなど、ルールの管理が困難

Page 47: Mtg120930

「清水寺はどこにある?」->LOCATION

「Siriを開発したのはどこ?」->ORGANIZATION

「日本人初の宇宙飛行士は?」->PERSON

学習

Page 48: Mtg120930

質問文qを素性ベクトルv=F(q)に変換

・すべての意味カテゴリについて、意味カテゴリに含まれる単語がqに1回以上

現れたかどうかを0,1で表現

・質問文に含まれる疑問詞を0,1で表現

「日本人初の宇宙飛行士は誰?」

人物 職業・地位 施設 地域 生物 誰 どこ いつ ・・・・・

0 1 0 0 0 1 0 0

v1=(0,1,0,0,0,1,0,0・・・・)ANSTYPE(v1)=PERSON

・・

・・

Page 49: Mtg120930

「清水寺はどこにある?」->LOCATION

「Siriを開発したのはどこ?」

->ORGANIZATION

「日本人初の宇宙飛行士は?」

->PERSON

学習

v1=(0,1,0,0,0,1,0,0・・)

ANSTYPE(v1)=PERSON

v2=(1,1,0,0,0,1,0,1・・)

ANSTYPE(v2)=ORG

v3=(0,0,0,1,0,0,0,0・・)

ANSTYPE(v3)=DATE

・・

・・

Page 50: Mtg120930

「清水寺はどこにある?」->LOCATION

「Siriを開発したのはどこ?」

->ORGANIZATION

「日本人初の宇宙飛行士は?」

->PERSON

学習

v1=(0,1,0,0,0,1,0,0・・)

ANSTYPE(v1)=PERSON

v2=(1,1,0,0,0,1,0,1・・)

ANSTYPE(v2)=ORG

v3=(0,0,0,1,0,0,0,0・・)

ANSTYPE(v3)=DATE

・・

・・

・ANSWERTYPE->PERSON

分類器

「となりのトトロの監督は誰?」

Page 51: Mtg120930

学習

語義の粒度, 回答タイプの粒度を考えたい

ANSWERTYPE->PERSON

分類器

「となりのトトロの監督は誰?」

Page 52: Mtg120930

........

........

.......

........

........

........

........

........

.......

........

........

........

ANSWERTYPE=PERSON

........

........

.......

........

........

........

........

........

.......

........

........

........

........

........

.......

........

........

.......................................................

「となりのトトロの監督は誰?」

Page 53: Mtg120930

........

........

.......

........

........

........

........

........

.......

........

........

........

ANSWERTYPE=PERSON

........

........

.......

........

........

........

........

........

.......

........

........

........

........

........

.......

........

........

........

........

........

.......

........

........

........

1

2

3

「となりのトトロの監督は誰?」

Page 54: Mtg120930

........

........

.......

........

........

........

........

........

.......

........

........

........

ANSWERTYPE=PERSON

........

........

.......

........

........

........

........

........

.......

........

........

........

........

........

.......

........

........

........

........

........

.......

........

........

........

1

2

3

『となりのトトロ』は、スタジオジブリ制作の日本の長編アニメーション作品。1958年(昭和33年)の(設定上は昭和30年代

前半。母親の病室のカレンダーから8月3日が日曜日になっているところから判断して1958年と

なる)日本を舞台にしたファンタジー。田舎へ引っ越してきた草壁一家のサツキ、メイ姉妹と、“もののけ”とよばれる不思議な生き物「トトロ」との交流を描く。............

「となりのトトロの監督は誰?」

Page 55: Mtg120930

........

........

.......

........

........

........

........

........

.......

........

........

........

ANSWERTYPE=PERSON

........

........

.......

........

........

........

........

........

.......

........

........

........

........

........

.......

........

........

........

........

........

.......

........

........

........

1

2

3

『となりのトトロ』は、スタジオジブリ制作の日本の長編アニメーション作品。1958年(昭和33年)の(設定上は昭和30年代

前半。母親の病室のカレンダーから8月3日が日曜日になっているところから判断して1958年と

なる)日本を舞台にしたファンタジー。田舎へ引っ越してきた草壁一家のサツキ、メイ姉妹と、“もののけ”とよばれる不思議な生き物「トトロ」との交流を描く。監督は宮崎駿であり............

「となりのトトロの監督は誰?」

Page 56: Mtg120930

①質問文解析

②回答タイプの決定(ORG, PERSON, DATEなど)

②’固有表現抽出, キーワードの抽出

③SPARQLクエリ構文に変換

④グラフマッチングにより回答を検出

Page 57: Mtg120930

ファクトイド型(穴埋め問題)

「東京スカイツリーの高さは何m?」

「ギリシャの2010年の経済成長率は?」

ノンファクト型(記述式問題)

「東京スカイツリーについて教えて」

「ギリシャの経済はなぜ危機に瀕しているのか?」

定義型, Why型, How型

Page 58: Mtg120930

「織田信長はどんな人?」

「バックパッカーとは?」

「イスラム原理主義台頭の背景は?」

基本的な流れはファクト型と同じ

回答は単語・名詞句・文・段落の単位まで多岐にわたる

質問文タイプは「理由」「方法」「定義」「变述」など

Page 59: Mtg120930

「織田信長はどんな人?」

「バックパッカーとは?」->定義

「イスラム原理主義台頭の背景は?」->理由

基本的な流れはファクト型と同じ

回答は単語・名詞句・文・段落の単位まで多岐にわたる

質問文タイプは「理由」「方法」「定義」「变述」など

Page 60: Mtg120930

定義型質問応答のタイプ判定はルールベースのアプローチが主流

基本的な流れはファクト型と同じ

回答は単語・名詞句・文・段落の単位まで多岐にわたる

質問文タイプは「理由」「方法」「定義」「变述」など

Page 61: Mtg120930

回答候補を絞る段階では、経験則的なルールベースの

パターンマッチングを用いるのが主流

<X>における<Y>

<X>とは<~>のことである

Page 62: Mtg120930

わずかな語句の差でマッチングを取りこぼす可能性が

あるため、手書きのルールだけではなく、パターン自動

獲得を行うアプローチもある

織田 信長(おだ のぶなが)は、戦国時代から安土桃山時代にかけての武将・戦国大名。

→<X>(.*?)は、<DEFINITION>。

Page 63: Mtg120930

「ギリシャの経済はなぜ危機に瀕しているのか?」

「バックパッカーとは?」->定義

「イスラム原理主義台頭の背景は?」->理由

基本的な流れはファクト型と同じ

回答は単語・名詞句・文・段落の単位まで多岐にわたる

質問文タイプは「理由」「方法」「定義」「变述」など

Page 64: Mtg120930

エキスパートシステムに代表される、ドメインを限定したアプローチ

オープンドメインのQAでは、テキスト中に存在する

原因と結果を結ぶ「手掛かり語」

Page 65: Mtg120930

「自然言語で表現された質問を形式言語である検索式に変換」

機械翻訳・・・・自然言語→自然言語であるので、曖昧性を必ずしも解消しなくてよい

NLI・・・・・・・・・自然言語→クエリ検索式(人工言語)曖昧性の解消が必要

Page 66: Mtg120930

「ヒトラーは悪い人ですか?」