Mtg120930

山口研究室M1

香川宏介

質問応答進捗

ファクトイド型(穴埋め問題)

CoNLLタスクに倣い、以下の6つに回答タイプ分けを行った

PERSON, LOCATION, ORGANIZATION, DATE,

SCALE(PERCENTとMONEYはデータ量が少ないため統合), ARTIFACT

PERSON

・・・人物、職業名なども含める

LOCATION

・・・山などの地名、国名・地域名、道路・港・建物

などの施設名

ORGANIZATION

・・・機関・団体・組織名

DATE

・・・日付

SCALE

・・・大きさ・割合を問うもの、金額を問うもの(入力データに金額を問うものはなかった)

ARTIFACT

・・・具体物、その他

*日本語語彙体系の分類法に従った。また、抽象物(規則名,現象名, 出来事, ”セカンドオピニオン”などの用語)は除外

教師例文として以下のWebサイトを利用

http://kuizu.seesaa.net/archives/201208-1.html

410の質問

10分割交差検定を

行い、パラメータチューニング

質問タイプ質問数

PERSON 166

ORGANIZATION 5

LOCATION 82

ARTIFACT 89

DATE 25

SCALE 43




{“誰”,”どこ”,”何”,・・・・・・} 約50のキーワード

含まれていれば、形態素位置(後ろから数える)

末尾の形態素と後ろから2番目の形態素の品詞

{“名詞-一般”, “名詞-固有名詞”, “助詞-係助詞”, ・・・・・}

IPA品詞体系。35種類の名義変数

{“誰”,”どこ”,”何”,・・・・・・} 約50のキーワード





ある・なしの(0,1)で値を入れたとき前から数えた位置を入れたときと比較して、最も精度が高かった

{“誰”,”どこ”,”何”,・・・・・・} 約50のキーワード





ある・なしの(0,1)で値を入れたとき前から数えた位置を入れたときと比較して、最も精度が高かった

両方とも導入した時に最も精度が高かった

Cost

Gamma

Cost

Gamma

Cost

Gamma

Cost

Gamma

Cost

Gamma

C=10^-5～10^5Gamma = 10^-5～10^5Step = 1

C=10^1～10^3Gamma = 10^-5～10^1Step=0.1

C=10^1～10^2Gamma = 10^-2～10^0Step = 0.01

C=16.59, Gamma=0.66

デフォルトの設定C=1.0, Gamma=0.01

Rでは等高線表示によって効率的に調べられる

SVM(チューニング前) 57.56%

SVM(チューニング後) 68.64%

語の意味タグをまったく付与していないので、明示的に

疑問詞が現われていない質問文に対してはかなり弱い

質問タイプ PRECISION Recall

PERSON 81.3% 81.3%

ORGANIZATION 0% 0%

LOCATION 58.5% 67.1%

ARTIFACT 45.1% 51.7%

DATE 78.3% 72.0%

SCALE 76% 51.7%

約1500の教師つき質問文質問タイプ質問数正解率

PERSON 323 95.0

ORGANIZATION 319 76.2

LOCATION 308 85.7

ARTIFACT 141 77.3

DATE 377 98.1

TIME 25 92.0

MONEY 50 88.0

PERCENT 38 84.2

SVM(多項式カーネル), 5分割交差検定

素性

質問文に含まれるすべての単語の意味カテゴリ(0,1)

質問文に含まれる疑問詞(0,1)

単語列のbigram(0,1)

品詞列のbigram(0,1)

良いコーパスが欲しい(NTCIRでデータセット入手可能か？)

回答タイプ6分類をもっと細かくするとどうなるか

固有名詞のタイプや共起などの指標を素性に取り入れて精度向上を図りたい

良いコーパスが欲しい(NTCIRでデータセット入手可能か？)

回答タイプ6分類をもっと細かくするとどうなるか

固有名詞のタイプや共起などの指標を素性に取り入れて精度向上を図りたい

やろうとしていること

“記事名” + (・・・)とは、(・・・・) + ”上位概念” + である。

定義文から <記事名, 上位概念>のペアを抽出したい（主にルールベース？）

それなりのPrecision/Recallでとれる可能性が高い

Wikipediaオントロジーのため

質問文解析の素性に意味カテゴリを付与したい

・・・が、現状の直近クラスでは粒度的に細かすぎる気がするので。

以上です。

1.インターンシップ報告

2.NTCIR RTEタスク内容報告

3.質問応答進捗報告

1．インターンシップ報告

2．NTCIR RTEタスク

a.タスク内容

b.昨年の論文・手法紹介

タスク内容


「東京スカイツリーの高さは何m？」

「ギリシャの2010年の経済成長率は？」

ノンファクト型(記述式問題)

「東京スカイツリーについて教えて」

「ギリシャの経済はなぜ危機に瀕しているのか？」

定義型, Why型, How型

昨年の論文・手法

2文間における単語の一致度(WordNetを使うことも)

固有名詞の位置、共通度合、

2文間における最長一致文字数

レーベンシュタイン距離

係り受け木の一致度

単語レベルでのセマンティクスは考慮している








TREC(現TAC)のQAトラックにおける主な課題

回答は単語単位

①質問文解析

②回答タイプの決定(ORG, PERSON, DATEなど),

固有表現抽出, キーワードの抽出

③Web上の文書集合から上の語を含む文書を列挙

④回答タイプに一致する候補を列挙

⑤(場合によっては順位づけして)回答

「清水寺はどこにある？」->LOCATION

「Siriを開発したのはどこ？」->ORGANIZATION

「日本人初の宇宙飛行士は？」->PERSON




{品詞=固有名詞 AND 語義=寺院}+”は”+”どこにある？”->LOCATION

{品詞=固有名詞 AND 語義=民族・人種名}+”.*”+{品詞=一般名詞 AND 語義=職業名}+”は？”->PERSON

{品詞=固有名詞 AND 語義=ソフトウェア}+”を”+”開発”+{“する” OR “している” OR “した”}+”のはどこ？” ->ORGANIZATION







粒度の問題


{品詞=固有名詞 AND 語義=組織}+”.*”+”は”+”いつ”+“発足”+{“する” OR “している” OR “した”}+”？”->DATE



{品詞=固有名詞 AND 語義=製品}+”の”+{“販売時期” OR “発売時期” OR “発売されたの”}+”は？”->DATE

“誰”+”が”+{名詞=一般名詞 AND {語義=人工物 OR 手法}+”を”+{”考案” OR “考えた” OR “発明した”}+”？”->PERSON

新しいルールを追加すると、古いルールと矛盾が生じたりするなど、ルールの管理が困難




学習

質問文qを素性ベクトルv=F(q)に変換

・すべての意味カテゴリについて、意味カテゴリに含まれる単語がqに1回以上

現れたかどうかを0,1で表現

・質問文に含まれる疑問詞を0,1で表現

「日本人初の宇宙飛行士は誰？」

人物職業・地位施設地域生物誰どこいつ・・・・・

0 1 0 0 0 1 0 0

v1=(0,1,0,0,0,1,0,0・・・・)ANSTYPE(v1)=PERSON

・・

・・

・


「Siriを開発したのはどこ？」

->ORGANIZATION

「日本人初の宇宙飛行士は？」

->PERSON

学習

v1=(0,1,0,0,0,1,0,0・・)

ANSTYPE(v1)=PERSON

v2=(1,1,0,0,0,1,0,1・・)

ANSTYPE(v2)=ORG

v3=(0,0,0,1,0,0,0,0・・)

ANSTYPE(v3)=DATE

・・

・・

・


「Siriを開発したのはどこ？」

->ORGANIZATION

「日本人初の宇宙飛行士は？」

->PERSON

学習

v1=(0,1,0,0,0,1,0,0・・)

ANSTYPE(v1)=PERSON

v2=(1,1,0,0,0,1,0,1・・)

ANSTYPE(v2)=ORG

v3=(0,0,0,1,0,0,0,0・・)

ANSTYPE(v3)=DATE

・・

・・

・ANSWERTYPE->PERSON

分類器

「となりのトトロの監督は誰？」

学習

語義の粒度, 回答タイプの粒度を考えたい

ANSWERTYPE->PERSON

分類器


........

........

.......

........

........

........

........

........

.......

........

........

........

ANSWERTYPE=PERSON

........

........

.......

........

........

........

........

........

.......

........

........

........

........

........

.......

........

........

.......................................................


........

........

.......

........

........

........

........

........

.......

........

........

........

ANSWERTYPE=PERSON

........

........

.......

........

........

........

........

........

.......

........

........

........

........

........

.......

........

........

........

........

........

.......

........

........

........

1

2

3


........

........

.......

........

........

........

........

........

.......

........

........

........

ANSWERTYPE=PERSON

........

........

.......

........

........

........

........

........

.......

........

........

........

........

........

.......

........

........

........

........

........

.......

........

........

........

1

2

3

『となりのトトロ』は、スタジオジブリ制作の日本の長編アニメーション作品。1958年（昭和33年）の（設定上は昭和30年代

前半。母親の病室のカレンダーから8月3日が日曜日になっているところから判断して1958年と

なる）日本を舞台にしたファンタジー。田舎へ引っ越してきた草壁一家のサツキ、メイ姉妹と、“もののけ”とよばれる不思議な生き物「トトロ」との交流を描く。............


........

........

.......

........

........

........

........

........

.......

........

........

........

ANSWERTYPE=PERSON

........

........

.......

........

........

........

........

........

.......

........

........

........

........

........

.......

........

........

........

........

........

.......

........

........

........

1

2

3

『となりのトトロ』は、スタジオジブリ制作の日本の長編アニメーション作品。1958年（昭和33年）の（設定上は昭和30年代

前半。母親の病室のカレンダーから8月3日が日曜日になっているところから判断して1958年と

なる）日本を舞台にしたファンタジー。田舎へ引っ越してきた草壁一家のサツキ、メイ姉妹と、“もののけ”とよばれる不思議な生き物「トトロ」との交流を描く。監督は宮崎駿であり............


①質問文解析

②回答タイプの決定(ORG, PERSON, DATEなど)

②’固有表現抽出, キーワードの抽出

③SPARQLクエリ構文に変換

④グラフマッチングにより回答を検出








「織田信長はどんな人？」

「バックパッカーとは？」

「イスラム原理主義台頭の背景は？」

基本的な流れはファクト型と同じ

回答は単語・名詞句・文・段落の単位まで多岐にわたる

質問文タイプは「理由」「方法」「定義」「变述」など

「織田信長はどんな人？」

「バックパッカーとは？」->定義

「イスラム原理主義台頭の背景は？」->理由




定義型質問応答のタイプ判定はルールベースのアプローチが主流




回答候補を絞る段階では、経験則的なルールベースの

パターンマッチングを用いるのが主流

<X>における<Y>

<X>とは<～>のことである

わずかな語句の差でマッチングを取りこぼす可能性が

あるため、手書きのルールだけではなく、パターン自動

獲得を行うアプローチもある

織田信長（おだのぶなが）は、戦国時代から安土桃山時代にかけての武将・戦国大名。

→<X>(.*?)は、<DEFINITION>。

http://ja.wikipedia.org/wiki/%E6%88%A6%E5%9B%BD%E6%99%82%E4%BB%A3_(%E6%97%A5%E6%9C%AC)

http://ja.wikipedia.org/wiki/%E5%AE%89%E5%9C%9F%E6%A1%83%E5%B1%B1%E6%99%82%E4%BB%A3

http://ja.wikipedia.org/wiki/%E5%AE%89%E5%9C%9F%E6%A1%83%E5%B1%B1%E6%99%82%E4%BB%A3

http://ja.wikipedia.org/wiki/%E6%AD%A6%E5%B0%86

http://ja.wikipedia.org/wiki/%E6%88%A6%E5%9B%BD%E5%A4%A7%E5%90%8D


「バックパッカーとは？」->定義

「イスラム原理主義台頭の背景は？」->理由




エキスパートシステムに代表される、ドメインを限定したアプローチ

オープンドメインのQAでは、テキスト中に存在する

原因と結果を結ぶ「手掛かり語」

「自然言語で表現された質問を形式言語である検索式に変換」

機械翻訳・・・・自然言語→自然言語であるので、曖昧性を必ずしも解消しなくてよい

NLI・・・・・・・・・自然言語→クエリ検索式(人工言語)曖昧性の解消が必要

「ヒトラーは悪い人ですか？」

Mtg120930

Documents