生命科学分野の日本語言語資源の整備 と日本語コンテンツへのリンク 1G5-1 山本 泰智 CC BY 2.1 JP 山本泰智
生命科学分野の日本語言語資源の整備と日本語コンテンツへのリンク
1G5-1 山本 泰智
CC BY 2.1 JP 山本泰智
JSAI 2015 1G5-1
最新の研究成果に触れる、母国語で
JSAI 2015 1G5-1
新着論文レビュー
• トップジャーナルに掲載された日本人を著者とする生命科学分野の論文について
• 論文の著者自身の執筆による日本語のレビューを
• だれでも自由に閲覧・利用できるよう、いち早く公開します
http://first.lifesciencedb.jp/
JSAI 2015 1G5-1
だれでも自由に閲覧・利用
• クリエイティブコモンズ・ライセンス(CC)表示 2.1 日本
• コンテンツの全部または一部に自由にアクセスし,データを取得することができます.
• コンテンツの全部または一部のデータを自由に再配布することができます.
• コンテンツの全部または一部のデータを利用した,二次的著作物を自由に作成し,配布することができます.
• 上記の標準利用許諾に基づいて「新着論文レビュー」を利用する際に,従うべき条件は以下です.
• コンテンツの全部または一部,あるいは二次的著作物の配布に際しては,コンテンツの作成者のクレジットを表示しなければなりません.
• 「新着論文レビュー」の利用にあたっては,下記のいずれかのクレジットを必ず表示してください.
• © 20xx 著者名 Licensed under CC 表示 2.1 日本
• © 20xx 著者名 Licensed under a Creative Commons 表示 2.1 日本 License
JSAI 2015 1G5-1
既に800を超える記事
• 継続的に着実な増加が見込まれる
• 効率良く記事を探したい
• 意味的な検索に近づけたい
JSAI 2015 1G5-1
RDFを用いた構造化、LODへ
• これまで: MeSHとLSD、記事を結ぶLODを生成
• 利用: MeSH概念階層を利用した、日本語によるディレクトリ型の検索システムを構築
• 今回: 全記事の名詞と用言の係り受け構造を追加
• 価値: 構造化できていない関係(名詞+用言)に基づく検索を提供
JSAI 2015 1G5-1
構造化できていない関係
肥満 ともなう+肥満にともなうアディポネクチンの低下が,メタボリックシンドローム,心血管疾患,がんなど,肥満によりリスクの高まる生活習慣病の主要な原因になっていることが明らかになってきている.
© 2013 山内敏正・岩部美紀・岩部真人・門脇 孝 Licensed under CC 表示 2.1 日本
糖尿病 改善+AdipoRonは高脂肪食や過食による糖尿病を改善させ,運動持久力を増加させて,糖尿病モデルマウスの短縮していた寿命を延伸させた.
特定の概念(名詞)だけの検索から概念とそれに伴う属性(用言)を含む検索へ
JSAI 2015 1G5-1
係り受け解析
cabochaを用いて解析
1:肥満に
2:ともなう
3:アディポネクチンの
4:低下が,
5:メタボリックシンドローム,
6:心血管疾患,
7:がんなど,
8:肥満により 9:リスクの
10:高まる
11:生活習慣病の 12:主要な
13:原因に
14:なっている 15:ことが 16:明らかになってきている
D
D
D
D
D
D
D
D D
D
D D
D
D D用言節とそれに直接係る文節のグループ
凡例
用言節
非用言節
JSAI 2015 1G5-1
概念と属性の関係を検索可能に
• 多くの概念はLSDと結ばれている
• LSD IDを持つ語と属性の関係をLODにしたい
• MeSH階層に基づく概念とその関連属性のディレクトリ型検索システムを構築
JSAI 2015 1G5-1
語彙の作成概念とその関連属性をRDFで表現する
nlp:DependencyDataSet
nlp:Yogen nlp:yogennlp:Joshi
用言
nlp:case-*
助詞
nlp:* (!case-)
rdf:type rdf:type rdf:type
rdf:typerdfs:subPropertyOf
rdf:Property
nlp:ともなう
"肥満"
nlp:yogen
nlp:case-に
JSAI 2015 1G5-1
http://navi.first.lifesciencedb.jp/article/7771#1ao:selectors/TextSelector
rdf:type
lsd:J027142
ao:hasTopic
lsd:J019558
lsd:J012991
doco:Sectionrdf:type
URI / ブランク
リテラル
凡例
�1.ミトコンドリア�������
rdfs:label
http://navi.first.lifesciencedb.jp/article/7771#1/stc0
http://navi.first.lifesciencedb.jp/article/7771#1/stc1
dcterms:hasPart
dcterms:isPartOfdoco:Sentence
rdf:type
�心筋細胞の�������
rdfs:label
http://navi.first.lifesciencedb.jp/nlp/7771#1/stc1-0http://navi.first.lifesciencedb.jp/nlp/7771#1/stc1-1
�役割�
nlp:case-を
nlp:知る
nlp:dependencyDataSetrdf:type
dcterms:hasPartdcterms:hasPart
dcterms:isPartOfdcterms:isPartOf
nlp:case-に nlp:case-に nlp:case-において
�胚��特異的� �心筋�nlp:欠損
nlp:yogen
ao:foaf/onDocument
doco:isContainedBy
�特異的�
�役割�
�心筋�ao:context
ao:Annotation
rdf:type
doco:SectionTitle
ao:selectors/exact
クラスURI
JSAI 2015 1G5-1
課題と今後の展開
• 係り受け解析器の精度向上
• 係り受け解析結果とLSD IDの正確な関連付け
• 検索単位の検討名詞とそれが直接係る用言を単位とするのは適切か
JSAI 2015 1G5-1
PubAnnotationを用いて同一文に対する複数の自然言語処理結果を関連づけさせたい
http://tinyurl.com/pubannotation-ex001
JSAI 2015 1G5-1
公開中
http://navi.first.lifesciencedb.jp/
アルバイト募集中です。@yayamamo / [email protected]
までお願いします。