まとめと今後の予定 RDF (Resource Description Framework) とは? Introduction TogoTable update 2013 * 河野信 1 , 渡辺敦 2 , 山口敦子 1 1 情報・システム研究機構 ライフサイエンス統合データベースセンター , 2 クロスエッジ・システムズ Mail: [email protected] Twitter ID: orenotwitter 情報・システム研究機構 ライフサイエンス統合データベースセンター 東京都文京区弥生 2-11-16 東京大学工学部 12 号館 4・5 階 トーゴーの日シンポジウム 2013 2013 年 10 月 4 日, 5 日 時事通信ホール Copyright©2013 DBCLS licenced by Creative Commons Attribution-ShareAlike 3.0 Unported License. As of September 2011 Music Brainz (zitgist) P20 Turismo de Zaragoza yovisto Yahoo! Geo Planet YAGO World Fact- book El Viajero Tourism WordNet (W3C) WordNet (VUA) VIVO UF VIVO Indiana VIVO Cornell VIAF URI Burner Sussex Reading Lists Plymouth Reading Lists UniRef UniProt UMBEL UK Post- codes legislation data.gov.uk Uberblic UB Mann- heim TWC LOGD Twarql transport data.gov. uk Traffic Scotland theses. fr Thesau- rus W totl.net Tele- graphis TCM Gene DIT Taxon Concept Open Library (Talis) tags2con delicious t4gm info Swedish Open Cultural Heritage Surge Radio Sudoc STW RAMEAU SH statistics data.gov. uk St. Andrews Resource Lists ECS South- ampton EPrints SSW Thesaur us Smart Link Slideshare 2RDF semantic web.org Semantic Tweet Semantic XBRL SW Dog Food Source Code Ecosystem Linked Data US SEC (rdfabout) Sears Scotland Geo- graphy Scotland Pupils & Exams Scholaro- meter WordNet (RKB Explorer) Wiki UN/ LOCODE Ulm ECS (RKB Explorer) Roma RISKS RESEX RAE2001 Pisa OS OAI NSF New- castle LAAS KISTI JISC IRIT IEEE IBM Eurécom ERA ePrints dotAC DEPLOY DBLP (RKB Explorer) Crime Reports UK Course- ware CORDIS (RKB Explorer) CiteSeer Budapest ACM riese Revyu research data.gov. uk Ren. Energy Genera- tors reference data.gov. uk Recht- spraak. nl RDF ohloh Last.FM (rdfize) RDF Book Mashup Rådata nå! PSH Product Types Ontology Product DB PBAC Poké- pédia patents data.go v.uk Ox Points Ord- nance Survey Openly Local Open Library Open Cyc Open Corpo- rates Open Calais OpenEI Open Election Data Project Open Data Thesau- rus Ontos News Portal OGOLOD Janus AMP Ocean Drilling Codices New York Times NVD ntnusc NTU Resource Lists Norwe- gian MeSH NDL subjects ndlna my Experi- ment Italian Museums medu- cator MARC Codes List Man- chester Reading Lists Lotico Weather Stations London Gazette LOIUS Linked Open Colors lobid Resources lobid Organi- sations LEM Linked MDB LinkedL CCN Linked GeoData LinkedCT Linked User Feedback LOV Linked Open Numbers LODE Eurostat (Ontology Central) Linked EDGAR (Ontology Central) Linked Crunch- base lingvoj Lichfield Spen- ding LIBRIS Lexvo LCSH DBLP (L3S) Linked Sensor Data (Kno.e.sis) Klapp- stuhl- club Good- win Family National Radio- activity JP Jamendo (DBtune) Italian public schools ISTAT Immi- gration iServe IdRef Sudoc NSZL Catalog Hellenic PD Hellenic FBD Piedmont Accomo- dations GovTrack GovWILD Google Art wrapper gnoss GESIS GeoWord Net Geo Species Geo Names Geo Linked Data GEMET GTAA STITCH SIDER Project Guten- berg Medi Care Euro- stat (FUB) EURES Drug Bank Disea- some DBLP (FU Berlin) Daily Med CORDIS (FUB) Freebase flickr wrappr Fishes of Texas Finnish Munici- palities ChEMBL FanHubz Event Media EUTC Produc- tions Eurostat Europeana EUNIS EU Insti- tutions ESD stan- dards EARTh Enipedia Popula- tion (En- AKTing) NHS (En- AKTing) Mortality (En- AKTing) Energy (En- AKTing) Crime (En- AKTing) CO2 Emission (En- AKTing) EEA SISVU educatio n.data.g ov.uk ECS South- ampton ECCO- TCP GND Didactal ia DDC Deutsche Bio- graphie data dcs Music Brainz (DBTune) Magna- tune John Peel (DBTune) Classical (DB Tune) Audio Scrobbler (DBTune) Last.FM artists (DBTune) DB Tropes Portu- guese DBpedia dbpedia lite Greek DBpedia DBpedia data- open- ac-uk SMC Journals Pokedex Airports NASA (Data Incu- bator) Music Brainz (Data Incubator) Moseley Folk Metoffice Weather Forecasts Discogs (Data Incubator) Climbing data.gov.uk intervals Data Gov.ie data bnf.fr Cornetto reegle Chronic- ling America Chem2 Bio2RDF Calames business data.gov. uk Bricklink Brazilian Poli- ticians BNB UniSTS UniPath way UniParc Taxono my UniProt (Bio2RDF) SGD Reactome PubMed Pub Chem PRO- SITE ProDom Pfam PDB OMIM MGI KEGG Reaction KEGG Pathway KEGG Glycan KEGG Enzyme KEGG Drug KEGG Com- pound InterPro Homolo Gene HGNC Gene Ontology GeneID Affy- metrix bible ontology BibBase FTS BBC Wildlife Finder BBC Program mes BBC Music Alpine Ski Austria LOCAH Amster- dam Museum AGROV OC AEMET US Census (rdfabout) Media Geographic Publications Government Cross-domain Life sciences User-generated content As of September 2011 Music Brainz (zitgist) P20 yovisto YAGO World Fact- book VIVO UF VIVO Indiana VIVO Cornell VIAF URI Burner Sussex Reading Lists Plymouth Reading Lists UniRef UniProt Uberblic UB Mann- heim theses. fr Thesau- rus W totl.net TCM Gene DIT Open Library (Talis) tags2con delicious t4gm info Swedish Open Cultural Heritage Sudoc STW RAMEAU SH St. Andrews Resource Lists ECS South- ampton EPrints SSW Thesaur us Smart Link Slideshare 2RDF semantic web.org Semantic Tweet SW Dog Food Source Code Ecosystem Linked Data ears Scholaro- meter WordNet (RKB Explorer) Wiki UN/ LOCODE Ulm ECS (RKB Explorer) Roma RISKS RESEX RAE2001 Pisa OS OAI NSF New- castle LAAS KISTI JISC IRIT IEEE IBM Eurécom ERA ePrints dotAC DEPLOY DBLP (RKB Explorer) Course- ware CiteSeer Budapest ACM Revyu RDF ohloh M ) RDF Book Mashup Rådata nå! PSH Product Types Ontology Product DB PBAC Poké- pédia Open Library n Open Corpo- rates Open Calais Open Data Thesau- rus Ontos News Portal OGOLOD New York Times NVD ntnusc NTU Resource Lists Norwe- gian MeSH NDL subjects ndlna my Experi- ment Italian Museums medu- cator MARC Codes List Man- chester Reading Lists Lotico Linked Open Colors lobid Resources lobid Organi- sations LEM Linked MDB LinkedL CCN LinkedCT Linked User Feedback LOV Linked Open Numbers LODE Linked Crunch- base lingvoj LIBRIS Lexvo LCSH DBLP (L3S) Klapp- stuhl- club Good- win Family Jamendo (DBtune) iServe IdRef Sudoc NSZL Catalog Google Art wrapper gnoss GESIS Geo pecies GEMET STITCH SIDER Project Guten- berg Medi Care Drug Bank Disea- some DBLP (FU Berlin) Daily Med Freebase flickr wrappr ChEMBL Event Media Europeana Enipedia SISVU ECS South- ampton ECCO- TCP GND Didactal ia DDC Deutsche Bio- graphie data dcs Music Brainz (DBTune) Classical (DB Tune) Audio Scrobbler (DBTune) Portu- guese DBpedia dbpedia lite Greek DBpedia DBpedia data- open- ac-uk Pokedex Music Brainz (Data Incubator) Moseley Folk data bnf.fr Cornetto Chronic- ling America Chem2 Bio2RDF Calames Bricklink BNB UniSTS UniPath way UniParc Taxono my UniProt (Bio2RDF) SGD Reactome PubMed Pub Chem PRO- SITE ProDom Pfam PDB OMIM MGI KEGG Reaction KEGG Pathway KEGG Glycan KEGG Enzyme KEGG Drug KEGG Com- pound InterPro Homolo Gene HGNC Gene Ontology GeneID Affy- metrix bible ontology BibBase LOCAH Amster- dam Museum AGROV OC Media Geographic Publications Government Cross-domain Life sciences User-generated content http://purl.uniprot.org/uniprot/P02787 http://en.wikipedia.org/wiki/Human go:0008199 http://en.wikipedia.org/wiki/Human taxon:9606 embl:AAA61140.1 Serotransferrin 698 Human Homo sapiens 77064 mRNA 3q21 2097 ferric iron binding up:recommendedName rdfs:seeAlso taxon:commoName taxon:scientificName up:molecularFunction up:organism up:mass up:length dc:name rdfs:seeAlso embl:sequenceLength embl:map embl:moleculeType up="http://purl.uniport.org/core/” rdfs="http://www.w3.org/2000/01/rdf-schema#" dc="http://purl.org/dc/elements/1.1/" 2. データベース ID を含むセルをクリック 3. ID がどのデータベースの ID であるか指定 4. アノテーションを取得するデータベースを指定 ・ UniProt (e.g. P08670) 1. 検索キーとなるデータベース ID の追加 5. 取得したいアノテーション属性を選択 6. 指定したアノテーション属性が テーブルの右側に追加される TogoTable update 2013 TogoTable は、表形式データに含まれるバイオデータベースの ID 番号をキーにして、 世界各地で提供されている SPARQL エンドポイントからアノテーション情報を取得し、 元の表データに追加するウェブツールである。これまでに UniProt の ID 番号をキーに して UniProt のアノテーションデータを取得するシステムをプロトタイプとして開発 した。 Linked Open Data の特性を活かすべく検索対象 SPARQL エンドポイントを追加し、 新たに PDB データのアノテーション情報を取得可能にした。また、 UniProt に記載さ れているリンク情報を使って PubMed ID などさまざまなデータベースの ID 番号から UniProt のアノテーション情報を取得可能にした。今後は NBDC で提供されているデー タベースアーカイブのデータなどさらに検索対象 SPARQL エンドポイントを拡充して いく予定である。 実験データなどのデータベース ID を含むテーブルデータに対して、ID に対応 するアノテーション属性情報を自動的に付加するウェブツールを開発した。本 システムのバックエンドでは RDF 技術を利用しており、RDF グラフをたどるこ とで、複数のデータベースをまたいだアノテーション属性情報の付加が可能と なる。本年は UniProt ID 以外のバイオデータベース ID からの情報取得を実現 した。また、検索対象データベースとして PDB を追加した。 今後の開発予定として : - 対象データベースの拡大 (NBDC 提供の DB アーカイブを中心に ) - フィルタリング機能やデータサマライズ機能の実装 - Galaxy との連携 - ユーザによるクエリの登録・共有システムの実装 - Subject - Predicate - Object の トリプル でデータを表現 - Subject - リソース (URI: Uniform Resource Identifier e.g. URL ) - Predicate - オントロジーで表現された関係 (URI) - Object - データ (literal) もしくはリソース (URI) - 非常にシンプルな表現であるがゆえに、 さまざまなデータを統合するのに向いている Examples: - <http://purl.uniprot.org/uniprot/P02787> <http://purl.uniprot.org/core/recommendedName> "Serotransferrin" - <http://purl.uniprot.org/uniprot/P02787> rdfs:seeAlso <http://purl.uniprot.org/embl-cds/AAA61140.1> s p o The Linking Open Data cloud diagram “Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/” Connecting resources enables cross-database search RDF graph (Example) A graph can be drawn by connecting triples. By using RDF technology, annotation search from different databases becomes easy. Oval and square represents a resource and literal, respectively. Blee, orange, and green colors mean subject, predicate, and object, respectively. Node with gradation of green and blue is both subject and object. Note that some predicates are modified. UniProt NCBI Taxonomy GO EMBL TogoTable の使い方 http://togotable.dbcls.jp/ 1. タブ区切り形式のテーブルデータを アップロード 2. アノテーション検索対象データベースの追加 2012 2013 ・ UniProt (P08670) ・ PDB (1GK6) ・ PubMed (2251132) ・ INSDC (AAA61279.1) ・ RefSeq (NP_003371.2) ・ UniGene (Hs.455493) ・ Ensembl (ENST00000224237) ・ Gene (7431) ・ KEGG GENES (hsa:7431) ・ UCSC (uc001iou.2) http://togotable.dbcls.jp/ 3. カラムの並べ替え、非表示・再表示機能の追加 2012 2013